6/11 ,遠見天下文化邀請了暢銷書「大數據」一書的作者Mayer-Schonberger來台演講,我有幸以公司教育訓練的名義參加了這場盛會。
2400元!多貴的一張門票啊,而且還是距離舞台最遙遠的邊角位置,但九點不到,距離開講還有半個小時,現場已是人聲鼎沸,還有很多知名企業包場,現場數千個座位座無虛席,足見BigData這名詞近幾年在台灣受到熱捧的程度。
關於Mayer-Schonberger
Mayer-Schonberger是奧地利人,目前是英國牛津大學網路研究所的教授,他的興趣與研究大部份著重於網路經濟、數據分析、資料保全等,近年來則偏向於BigData方面;他從小就在電腦科研領域展露長才,據天下文化的專欄介紹,早在1984年,Mayer-Schonberger剛滿18歲時,就和友人一起發現了全球第一個電腦病毒並發表研究報告,很快獲得全球電腦專業研究社群的熱烈迴響,此外,1986年,還在念薩爾茲堡大學的他,才剛滿20歲,就決定創立軟體公司伊卡魯斯(德文原名 Ikarus),開發出一套防毒軟體Virus Utilities,成了奧地利當地最暢銷的軟體,足見他從小便展露了電腦科技方面的長才。
值得一提的是,雖然他已在全球的電腦科技領域展露頭角而廣為人知,但他的學經背景卻是哈佛大學法律學士與倫敦政經學院的經濟學碩士,與他的專長電腦科技方面有一段距離,但我相信,也正是由於經濟與法律的素養,讓他在鑽研冰冷的電腦技術領域時,能夠透過不同的角度,從多方面的視野以及非科技專業的簡單直覺口吻方式來詳述BigData的應用與影響,避開了惱人的技術部份,純粹從生活的應用與影響來切入,讓BigData這種一般人視為高不可攀的技術轉化為你我都感受得到、瞭解到它是一種生活週遭無法忽略的日常生活應用,因此也廣受一般非IT專業的人士歡迎;除此之外,該書上市時剛好也搭上了BigData的熱潮,讓這本「Big Data: A Revolution That Transforms How we Work, Live, and Think」一書,不但在當年入圍紐約時報暢銷書,更分別在亞馬遜的資訊管理與電腦文化等類別的暢銷書排行第一,且全球已被翻譯成超過二十種語言。
實際上這本書還有另一位共同作者:庫基耶(Kenneth Cukier),但Kenneth Cukier在台灣卻似乎沒有因本書而成為鎂光燈下的主角,很多人提到此書想到的只有麥爾荀伯格,但Kenneth Cukier實際上在大數據的領域也鑽研甚久,他是著名評論雜誌「經濟學人」的資料編輯者(data editor),該工作在「經濟學人」屬於新的職位,專注於研究如何將資料轉化為可用的資源,以及應用各種資料探勘工具,以便將各項資料轉換為資訊透過視覺化的方式給閱讀者;他在國外也經常發表演說、接受訪問及擔任科技節目評論員,在一些著名的報章雜誌例如紐約時報、華盛頓郵報、Prospect, 金融時報(The Financial Times)以及外交事務(Foreign Affairs)等也經常發表相關科技文章,對他有興趣的話可參考這篇去年四月的專訪:http://www.theguardian.com/media-network/media-network-blog/2013/apr/12/big-data-privacy-economist
專題演講內容重點整理
首先是主持人高希均教授,開場白他首先介紹了麥爾荀伯格,並提到大數據這本書在台灣風行的程度:光一年內就賣了三萬本(我直覺感到三萬本並不多啊,是數字有問題還是三萬本在台灣就算暢銷書了?),而在中國大陸更驚人,高達一百萬本,最後,他提到麥爾荀伯格昨天搭了十六小時飛機到台灣,本人也相當年輕(才四十八歲),並介紹麥爾荀伯格出場開始演說。
本次論壇麥爾荀伯格的演說部份只佔了一個小時,不過我在現場還是抄了十多頁的筆記(幸好有即時口譯,否則真不知該如何下手,也希望那些口譯員翻得很正確);麥爾荀伯格一開始便說到,每個國家對於BigData的渴望,莫非是要讓經濟起飛、並掌握未來發展等等,他的演講重點我大致歸納如下:
巨量資料的潛藏價值待發掘
- Google於2009年利用15年的搜尋記錄、500億字詞來預測H1N1禽流感,比起政府疾病管制局利用公式及因果所推測的更為準確也更迅速。
- Aren Etzion是一位電腦教授,有一次要去參加弟弟的婚禮,在飛機上才發現別人在不同時間購買的機票比他的更便宜,為此他相當不服氣,便搜集了所有旅行社的機票訂購記錄,並以數據所提供的資訊告訴購買機票的人目前是不是合適的購買價格,並建議何時再去買,Aren Etzion所進行的專案稱為「To buy or not to buy」,後來轉型稱為Farecast網站。
科技發展讓巨量資料搜集更為容易
- 大數據的資料總數每2年半就會翻倍,2000年時麻省理工學院所研發的天文望遠鏡,1個月收集的數據量就超過「從古至今」的總和,而即將在2016年啟用的新一代望遠鏡,5天的數據量就高達200 Tera Bytes,相當於過去10年的總合。
- 隨著大量的資料從類比形式轉為數位形式,以及儲存成本降低與運算能力的提升,在20年間,人類所產出的資料已經成長了100倍,像Youtube一天就有8億個video被上傳、Google一天的搜尋量就高達1 peta bytes。
- 以騎馬的動畫來舉例,透過單張、隔放、連續播放等方式,可將相片變成影片的效果,因此我們有了更多的資料(連續的相片補捉),代表我們可以將資料產生各種不同的質變,我們就有更多的應用和想法。
巨量資料的特性:全部的資料
- 過去的資料利用採樣、範圍僅限樣本、樣本資料要求精確,但現今科技已讓我們可以獲取全部的資料。
- 例如光場相機,它所搜集的不是一般相機所捕捉的平面資料,它搜集了全部所有的資訊,所以你可以隨心所欲的在事後改變焦點,捕捉的時候你完全不用在乎焦點資訊是不是正確,你只要全部的資訊就對了。
巨量資料的特性:雜亂性
- 搜集更多的資料亦可能會帶來更多的雜亂與更多不精確的資料,但我們不需理會這些雜亂與不精確,大數據所著重的在於整體的結果,是一種見樹不見林的方法。
巨量資料的特性:重相關而非因果
- 大數據重相關而非因果,不要去care why (為什麼),大數據給我們的what就已足夠了。
- 人類直覺上習慣以因果關係方式來思考,讓思考一直走在錯誤方向。例如,我母親在冬天總是要求我要戴上手套,否則容易感冒,但實際上戴手套與感冒並沒有關係,這是一種根深柢固的因果關係。
- Wallmart從歷年銷售訂單資料統計中發現,在颶風來之前電池、手電筒等用品需求量會大增,但亦發現Strawberry Pop tarts(草莓塔)銷售量也會增加,所以他們也會在颶風前多準備該項零食並放置於更顯眼的地方;Wallmart不需要去研究why,只要依據數據給出的what去作就對了。
- Amazon的書單推薦,以及Google的機器翻譯,都是依大數據的結果來給出最佳解答,而非遵照規則或公式。例如Google已有現成各國語言的搜尋資料及結果,只要自動比對相同文件不同語言的版本,就可自動提供給翻譯系統現成的數據。
重複利用可發掘新價值
- 大數據的資料重新再利用,可持續創造不同的價值與創新,重新利用也是大數據的核心價值之一。
- 例如Inrix公司,利用既有的手機GPS資料,發現塞車時段地點與商店收益的關係;飛機上有各式目前天氣偵測系統,手機公司利用德航各個航班資料,抓取天氣偵測系統的值,可預測各地的氣候狀況;手機基地台的強度與當前的氣溫及濕度有關,因此利用各地的基地台訊號強度,就可以預測該地的氣溫及濕度。
- 早產兒因抵抗力差很容易受到感染而生病,但利用以往醫院中所針對早產兒身上所搜集的量測和監控資料,可找出有病徵的前兆統計,並用以預測早產兒是否已受到感染。
- 巨量資料雖具可再利用性,但仍需因應新資料的加入而重新產生模型或改變運算模式;例如,Google在2009年曾經利用大量的搜尋記錄來預測禽流感,但在2012年卻沒有成功,原因與大數據無關,而是因為Google沒有產生新的模型,而是使用舊有的模型來預測。
妥善應用加上創新可創造新價值
- 日本車廠收集並分析每個人在座位上屁股各個點的位置及受力,利用來作為辨識開車的人是否為車主。
- Google眼鏡可搜集目前的視野及注視的焦點,判斷及預測人們對什麼感興趣,會被何種廣告所吸引。
- 勞斯萊斯持續搜集汽車的引擎資訊,可自動預測並建議車主何時該進廠維修,也將自身由汽車製造公司轉型為服務公司。
大數據所面臨的挑戰與危機
- 人有理性也有不理性,資料要能夠被善用才能發揮在好的地方。
- 避免資料獨裁,利用OpenData來開放必要的資料。
- 使用資料時,要保持謙卑的態度,保有人的意志,而非被數據所左右。
論壇交流暨現場提問
現場的與談人有主持人高希均、蔣偉寧、朱立倫以及商界的代表IBM Jason Kelly,以下我僅節錄蔣偉寧、朱立倫的部份:
教育部部長蔣偉寧
首先是教育部部長蔣偉寧的提問,最近被國中會考弄得焦頭爛額的他,原本我期待他會問一些如何利用大數據輔助或鑑別學生專長能力及志願分析等跟教育有關的問題,沒想到他替商界人士問了要如何以大數據來提昇台灣目前所追求的經濟成長,以及往後的企業是否也如同CEO、CIO一樣也需要一位資料長(CDO)?另外他還懷疑大數據是否真的不再需要探究因果了,why不是應該跟what一樣重要嗎?以及企業要如何利用BigData來改善決策的品質?
Mayer-Schonberger的回答主要是:應當從大學開設相關的BigData課程、培養相關人才開始,並且注重正確的使用資料的心態,有否設置資料長職位倒在其次,就像搭乘郵輪一樣,我們不應先想到要訓練他們開郵輪,重點是要先讓大家有想要坐郵輪的欲望;另外,台灣應該要走出去,先擁有冒險精神及探索世界的心,才能有大數據的視野。
針對蔣部長因果關係的詢問,Mayer-Schonberger表示BigData並非全然不需要因果,而是要利用所有的相關性來過濾不必要的因果關係。
另外,蔣部長問的是企業如何提昇決策品質,可能是口譯錯誤或Mayer-Schonberger聽錯了,他聽成政府的公共政策問題,他回答說,政府其實是發揮BigData最有效的地方,並且可提昇公共政策的品質,例如NewYork利用戶政及房屋相關的資料分析出那些地點的房屋有較高的火災機率,以及如何利用數據來預測那些人孔蓋容易發生爆炸。
新北市市長朱立倫
朱市長開頭的問題也是懷疑BigData只強調相關不看因果的特性,他說若我們只看data的相關性,而忽略因果係,這對生活有什麼幫助呢?另外,以新北市市長身份,我要如何利用BigData來成為好的領導者?我想企業或其它政府單位也有類似的問題;另外,民意調查是政府施政的重要參考,但民意如流水經常變化,要怎麼使用這些民意的資料?此外,朱市長提到了OpenData的問題,主要是開放資料與分享會不會造成一些人員擔心工作不保的問題。
Mayer-Schonberger沒有直接回答而是給予建議:目前雖然可能利用BigData來準測的預測大選結果(如美國的大選),但是BigData無法告訴我們,人民目前真正想要的是什麼,我的爸爸也是政治人物,一個為政者,應該要:瞭解真正核心的議題、人的行為與人性、能夠用淺顯的語言來溝通、擁有願景以及能夠承擔風險。
針對朱市長再提出的因果問題,Mayer-Schonberger指出,BigData只能告訴我們什麼改變了,無法告訴我們為什麼改變了,因此由BigData所產生的各種關係因而不能隨便濫用,例如鳥飛過屋頂的次數與IBM的營收?要利用各項的分析工具與技術,才能避免這種濫用的現象。
OpenData與BigData之間有很大的關係,像中國大陸就對於OpenData很有興趣,但他們比較著眼於利用OpenData來促進經濟與商業的機會,而非出於社會與公共福利;另外針對OpenData可能造作部份人員擔心工作不保的問題,從即時口譯中,我倒是沒有聽到Mayer-Schonberger的回答。
心得
如果還沒有看過「大數據」一書的人,聽完專題演講後會覺得受益非凡,但若已經讀過再去的,可能會有些許失落,在一個小時的演講內容所提到的重點大部份在書中都已經看過了,所以直到演講結束,對於得到新觀點或技術的熱切期盼會有落空的感覺;不過,這次所謂的「麥爾荀伯格首度訪台論壇」,專題演講只是其中一環,主辦單位的主要焦點是放在應邀貴賓與麥爾荀伯格的現場提問交流。
此次論壇的交流貴賓人選,我想主辦單位應該是有特意作過安排:教育界領域的蔣偉寧部長、政界的代表朱立倫市長以及代表企業界的IBM副總Jason Kelly,還有應當歸類於文化界的主持人高希均博士,可惜的是沒有開放垷場聽眾的即時提問,否則我認為一定會比來賓的提問更有深度與精采。
與現場貴賓交流後,在結束此次論壇之前是二十分鐘的簽書會,由於我不是在前五十名到達會場的來賓,所以沒有機會在台上拿出書本讓Mayer-Schonberger鉻上他的大名,只好在台下拿出相機捕捉他的風采;看著這位溫文儒雅、只比我大幾歲卻早已名滿天下的學者,也想到剛剛在論壇結束之前,蔣部長曾經非常感興趣的請教了Mayer-Schonberger的求學背景:
Mayer-Schonberger:我出生在奧地利的一個山城,父親是一位稅務方面的律師,同時也從事政治相關工作,所以他是一位侓師也是政治人物。雖然我從小就喜歡物理、電腦,但是我父親要我唸法律,他說只要我拿到法律的學位之後,他就再供給我一年的唸書機會,隨便我唸什麼;印象很深刻的,就在他逝世前一天,他問我最想作什麼?我說我想環遊世界,然後去當哈佛大學的教授,隔天他就去逝了,但後來,我也實現了我跟父親提到的願望,成為一位哈佛大學的教授。
原來除了他自已的興趣之外,他所肩負的還有來自於父親不同的期盼與要求,或許蔣部長應該再持續追問下去,Mayer-Schonberger是如何能在滿足父母親的期待下仍能堅持自己所好,而在兩者之間達成完美的契合?這真是目前台灣萬千個學子的切身問題。
沒有留言:
張貼留言