2014年4月30日 星期三

Data exhaust

  在Big Data的領域中,有一個很有趣的名詞「Data exhaust」,指的是使用者在各種活動的副產品所留下的各種資料記錄,原本這些被視為沒什麼價值的資料,往往在經過整理發掘後會找到有利用價值資訊;這個詞有「資料汲乾」或「資料抽空」的意思,在國內一般則作為名詞來翻譯,稱為「資料廢氣」。

    想像一下,當你在Google首頁輸入字詞進行搜尋時,Google只會記錄你輸入的搜尋關鍵字嗎?實際不只這些,它還記錄了你搜尋某個詞或相關詞彙幾次,或是點進一個連結但又不滿意、所以又回原頁面再搜尋一次,Google也知道,你在那一個關鍵字頁面停留比較久,在第幾頁點選了連結,在第幾頁又點了幾次,甚至於,Google也知道,你最常在那個時刻搜尋,什麼時候輸入什麼關鍵字,無時無刻,人們在Google上的動作,包含有意或無意的,都已經記錄在Google的資料庫裏。

    這些經由主要動機的附屬行為而產生的相關資料,我們稱之為「資料廢氣」,現在一些公司所設計的系統或網站,都會想盡辦法蒐集這些資料廢氣,用以改善目前的系統,或者從這些資料中再加以分析,找出有價值的資訊再加以利用。

提出「Data exhaust」的數學天才

    據稱Facebook第一位資料學家Jeff Hammerbacher是最早提出「Data exhaust」這個名詞的人;Jeff Hammerbacher何許人也?他畢業於哈佛大學數學系,2006年4月,那年他剛滿23歲,就加入了剛成立不久的Facebook,成了FB的前一百名員工之一;Mark Zuckerberg給了他研發工程學家頭銜,工作是分析人們如何使用社交網路服務,以及研究為何Facebook在某些大學特別受到歡迎而在部份大學卻以失敗告終,還有高中生和年紀較大的大學生在社交網路使用行為上的差異;當時Facebook內部還沒有什麼現成工具或方法來作這些工作,因此Jeff Hammerbacher都必須自己來。

    接下來兩年,Hammerbacher籌組了一個負責分析的團隊,他們收集了龐大的資料廢氣,深入的檢視,並透過各個使用者的關係、傾向、需要的交叉分析,他們得到相當多有用的資訊,例如,要預知某人會不會去作某件事(像是發文、打卡、點擊某個圖示等等),有一個很重要的預測指標就是:他是否看到朋友也作了這件事!所以,Facebook重新設計系統,讓人更容易看到朋友的動態,於是引發良性的循環,讓用戶在Facebook的活動更熱烈。

後來,Facebook還利用這些資訊作為廣告精準的投放使用,並且成為Facebook營利的來源;Hammerbacher所建立的這個工具,就像一個實驗室裏的圈養池,每天全世界無數的Facebook使用者(你與我)就像白老鼠一樣,志願的在裏面貢獻每天的活動記錄和喜好,Facebook隨時監控記錄並分析這些資訊,轉而販售給廣告商,變成更高的廣告效益和收入。
   
    在Facebook待了數年後,Hammerbacher感到厭倦了,他發現這些所謂開創性科學研究的目的似乎僅止於此,除此之外,他說道,最讓他不舒服的,是看到矽谷其它所謂的創新性公司,像Google和Twitter,有著無數被視為天才型的人物都在浪費著他們的天賦,只為了研究如何讓使用者點擊廣告,這真是另人反感。Hammerbacher後來在2008年離開了Facebook,休息一陣子後,成立了一家專精於資料分析的軟體公司Cloudera。

資料廢氣的價值

英國Dundee大學的教授Mark Whitehorn曾在2012年在倫敦舉行的巨量資料高峰會上提到,他認為企業在丟棄任何的資料之前,都要非常的小心,因為透過data exhaust」,這些被視為無用的資料,都有可能被挖掘出重要的資訊,而且這些資料廢氣都有可能隱藏在任何意想不到的地方。

  他說,一些看似微不足道沒有顯著特徵的資料,只要透過正確的使用,就會有另人意想不到的價值,他提到了Google的拼字檢查例子:Google決定保留所有使用者在進行搜尋時拼錯字的記錄,透過進一步的分析,目前他們已發展出最強大的拼字檢查引擎,可以在使用者拼錯字的時候,仍然正確的找到他們要搜尋的關鍵字;而Yahoo以及早期的搜尋業者Infoseek和Alta Vista等,他們比Google更早擁有這些因搜尋而產生的拼字錯誤資料,可惜的是,他們卻沒有看到其中的價值而利用這些資料;在會議中他另外還提到自動提款機的例子,當客戶在操作ATM並輸入PIN碼時,會產生一連串的步驟和動作,針對這些個人特質的步驟和動作分析,可以讓銀行更有效的預防持用他人卡片進行冒領的人。

資料廢氣的產生與應用   

    這個概念影響的範圍,不僅僅是網路業者,只要能蒐集到用戶互動或回應的產業都能適用;舉例來說,一台簡單的電子書閱讀器,它就能取得大量關於使用者的文學偏好以及閱讀習慣的資訊:每頁或每一章節所需的閱讀時間、跳過了那些段落章節?那些句子或段落被加上重點或筆記?隨意翻翻或放棄不讀?那個時間點最常閱讀?這些資訊都可以透過閱讀器記錄下來,透過挖掘分析這些原本會丟棄的資訊,轉換成愛書人共通的體驗。

    除了作為系統改進的用途,資料廢氣也經常應用於自動學習的機制,例如使用者產生的錯誤資料,也可轉換為機器自動學習的資訊,像是語言翻譯、語音辨識、垃圾信過濾系統等等,透過用戶告訴系統它出錯了,其實就是在訓練這個系統不斷改進。

    因此,現在一些公司所設計的系統或網站,都會想盡辦法蒐集這些資料廢氣,用以改善目前的系統,或者從既有的資料廢氣中再加以分析,以期找出有價值的資訊再加以利用。

應用資料廢氣於企業內部

    企業的資料廢氣來源最主要有三個:員工、合作廠商與顧客,如果說,顧客活動產生的資料廢氣可能是企業獲利的利基來源,那麼,企業內部員工所產生的資料廢氣是否也具有價值呢?

    無可否認的,員工一踏入公司,所作所為便已在公司掌控之下,從門禁的刷卡機遍佈各區的監視camera、使用的電腦主機、作業系統、網路環境以及mouse & keyboard、產生的各項資料也都是儲存在內部的空間,因此無時無刻,公司內的員工都在產生著資料廢氣,端看公司有無去收集、分析並利用它們。

人事部門可能是最需要利用資料廢氣的單位,從人員招募教育訓練、人員轉調、離職…等等,都可以利用資料廢氣中的資訊,分析找出甚至於預測某位員工的行為、愛好、優缺點、生活習性、技能分析、想法等等,以便作為人事部門在進行相關舉措前的參考,但,這又牽涉到另一個問題,這些資訊的記錄與分析是否涉及到員工各人的穩私與權益?

企業內部應用資料廢氣的例子

以下舉四個搜集員工日常活動資訊並加以應用的例子,其它應該還有更多,只是此類應用一般都位於企業的敏感地帶,因此大部份的企業都不會張揚。

DARPA 國防高等研究計劃署
   
DARPA(Defense Advanced Research Projects Agency)是美國國防部屬下的一個行政機構,負責研發用於軍事用途的高科技,他們開發出所謂的生物識別晶片(biometric chips),收集並判別人體的皮質醇(壓力),組胺(發炎),與飲食,透過這個晶片,軍隊可以即時的掌握軍人的健康狀態,而不再需要人為各項檢驗(如抽血),節省人力和金錢,而且也避免了樣本運送到化驗室過程的污染。

IBM

企業高層永遠都在擔心自己的員工是否洩露公司的機密,因此IBM的「巨資料安全情報」相關部門會涓滴不漏的將企業所有的內部和外部活動資訊收集並儲存在伺服器上,同時間進行即時的員工情感分析判斷員工是否處於不悅的狀態,如果該不悅的分數對於公司的智識財產和資訊安全有威脅,則該員工記錄上會被貼上標籤(flagged),作為是否解雇時的參考。

Salesforce

Salesforce是一家替企業客戶打造客戶關係管理系統(CRM)的國際性公司,在全球都有分支機構;他們在企業內部打造了一個類似Twitter的的系統,稱為Chatter,它是企業內部專用的訊息流平台,可以用在相當多的地方,最主要是用在群組成員們訊息的討論與傳遞,如果某個成員在Chatter發出的訊息被認為有創新想法或對公司具正面效益,他的績效分數就會增加,當然,這一切的感知與計算都是在系統端運行的。

Hitachi Data Systems

教育訓練是企業內部經常應用資料廢氣的領域,且這個部份也比較不會引起爭議;Hitachi Data Systems日立數據系統有7000名員工,它是一家專門提供資訊儲存及虛擬化解決方案的企業,內部使用一套稱為Jive的溝通及協同處理平台(類似我們熟悉的Notes平台),但該平台還具有學習以及發展的引擎,它會收集員工的個人資訊、分析員工看過的教材文件、參與過的討論內容,並自動的針對不同的員工提供適合的教材內容建議或教育訓練參考,隨著更多的訓練資訊的匯入,它的分析與建議也就更加的準確。

    美國銀行與Cubist Pharmaceuticals

美國銀行曾要求90名員工戴上裝有偵測器的配章,追蹤他們的移動以及對語交談的情況,以便瞭解社交行為對於call-center部門的重要性;根據偵測器所搜集到的資料發現,與工作團隊成員的合作愈緊密和群體的互動愈頻繁,顯示出該名員工的生產力愈高;於是,美國銀行依據此項結果,排定了call-center的各部門/組織的休息時段,讓員工之間有更多的互動機會,結果平均生產力提高了10%。

另一家也有使用類似偵測器的生物製藥公司Cubist Pharmaceuticals,他們搜集的數據顯示銷售部門也有相同的情況,愈頻繁的面對面溝通行為會讓員工的生產力和工作活力增加,但資料中亦顯示,在午餐時段員工們寧願待在辦公室而比較不樂意跟其他同仁進行社交活動,故Cubist Pharmaceuticals特別為此規劃了一個員工專屬的下午茶時段。

從這些偵測器所搜集的資料中,還有一個有趣的發現,就是用餐的桌子大小也會影響到效率和協同合作,愈大的桌子會鼓勵公司內部跨部門的溝通討論,而此類活動的增加,亦同時帶來公司工作效率的提昇。

結論   

資料廢氣的應用,可以充份的發揮資料的價值,而成為公司巨大的競爭優勢,甚至造成對手要跨入特定領域時的門檻,因此,我們要謹記這句話:

        資料的價值在於使用而不是單純的占有!

參考資料來源:

  1. 天下文化-大數據(書)


沒有留言:

張貼留言