2014年5月12日 星期一

Causality & Correlation

    因果關係和相關性之間的差異在科學思維上是很重要的一環,但我們經常將這兩個觀念搞混,有時候是因為不瞭解,有時候則是因為要對一個觀察現象給個解釋,因此,能否釐清因果關係和相關性兩者的差別,對於我們在判定事情與採行決策的思考行為中,有很大的影響。

    人類是一種生性好奇的動物,對任何現象總喜歡追根究底,希望知道為什麼是這樣為什麼是那樣?是什麼造成了這種現象,這種現象又會造成什麼後果?因此,長久以來,我們一直都是使用因果關係來解釋和理解這個世界;的確,這種基於因果關係的追求,促進了我們科技的發展,並且讓我們意欲探索任何更深層不可知的領域,是故這種尋求因果關係的直覺衝動,根深柢固了我們的認知模式:對任何現象先假設出一個原因,尤其是當兩件事先後發生時,心裏傾向就將兩者構成因果關係,因此,我們很容易對事物存有偏見。

相關性

    韋氏字典中,對於相關性的定義是:the state or relation of being correlated; specifically: a relation existing between phenomena or things or between mathematical or statistical variables which tend to vary, be associated, or occur together in a way not expected on the basis of chance alone」,換句話說,以數學的觀點來看,相關是指兩個(或以上)事物之間的關係改變的數值,而相關性,則意指兩組事物之間的關係程度,正相關(positive correlation)與負相關(reverse causation),分別代表當某數值增加時,與其相關的值若也跟著增加或者相向減少的情況。
正相關(positive correlation)
X代表我們想要購買的汽車數量,Y代表我們必須花費的金錢,兩者呈現正相關的關係,我們買愈多旳車,花費愈多的錢。





負相關(reverse causation)
X代表我們想要購買的汽車數量,Y代表我們的銀行存款,常汽車一台接著一台的買,我們的銀行存款也一步步的減少,兩者呈現反相的關係。



相關係數(correlation coefficient)
相關係數描述了兩者的關係強度,範圍為-1~1久間。

X代表襯衫大小,Y代表鞋子大小,當某一方的值上升時,另一方的值也會跟著上升,不過這種襯衫與鞋子的關係每個人之間都有不同的差異(相關係數+0.83),因此雖然襯衫與鞋子雖然呈現正相關,但受制於相關係數的影響,並不是呈現完美的直線。


因果關係

  當我們說A與B之間具有因果關係,是指如果A是因(cause)B是果(effect),則A與B之間必須具備以下必要條件(necessary conditions):

  1. A與B共變(covary),也就是A增加(減少)會告成B也增加(減少)
  2. A發生在B之前,也就是「前因」「後果」
  3. A與B之間的關係不是偽關係(spurious relationship),也就是沒有任何隱藏因數C導致了A和B

我們以上一段中相關性的購買車子與銀行存款這個例子來看,購買汽車直接導致銀行存款減少(滿足第1項),購買汽車發生在銀行存款減少之前(滿足第2項),購買汽車和銀行存款之間不是偽關係(滿足第3項,因為例子中沒有其它因素同時導致購買汽車和銀行存款減少),所以我們可以確認購買車子與銀行存款減少之間具有因果關係。

偽關係(相關≠因果)

我們以上方相關性的襯衫與鞋子例子來看,兩者具有因果關係嗎?依據因果關係的條件來看,它滿足了第一個A與B共變(covary)的條件,穿大襯衫的人,通常也穿較大的鞋子,但它沒有滿足第二個條件,也就是穿大襯衫會導致穿大號鞋子,或者穿大號鞋子導致穿大襯衫,因此兩者並沒有前因後果的關係。

實際上,這個襯衫與鞋子的例子是一種偽關係(spurious relationship)的現象,有某個隱藏原因同時導致了襯衫與鞋子大小之間的相關性,這個隱藏原因我們認為可能是身高:身高高的人大部份會需要大尺寸的襯衫與鞋子,身高矮的則相反。

實際上,偽關係通常以下列三種方式出現:
  1. C → A → B
  2. A → C → B
  3. C → A; C → B

所以我們可以看出上例的襯衫與鞋子應該是屬於第三種的偽關係:身高會同時導致襯衫和鞋子的大小;事實上,類似這種偽關係的情況,最容易讓人類的因果直覺陷入偽關係的陷阱,認為不是A就是B導致另一件已知事物的發生,而且那些最容易陷入的,我個人認為,極易發生在兩種極端的個性:無知怯懦與聰明自信的人身上,他們對於某種事物,往往直覺性的就會給出自已的推理,前者是為了獲取慰藉,而後者往往是過份基於自信。

偽關係的例子:

有一個研究的報告指出,相對於那些喝配方奶粉的寶寶,喝母奶的寶寶爬到社會上層階級的機會多了24%,相對地,喝母奶的寶寶在成長後,從社會上層階級滑落的機率會減少達20%;這個研究發表在「兒童疾病檔案」( Archives of Disease in Childhood)期刊,研究對象是1958年在英國出生的1萬7419名民眾,以及1970年出生的1萬6771名民眾,研究人員收集並分析了他們在10歲~11歲時,以及33歲~34歲時的社會階級,以及他們是否喝母奶作為統計,研究團隊宣稱,這是迄今調查餵母奶與社會階層流動間關連的最大型研究,最終得出的結論是:「母奶能提升腦部發育,也就是提升智力,而喝母奶的兒童也展現較少壓力的徵象。」,此外,研究人員說,母奶成分中含有長鏈不飽和脂肪酸(LCPUFA),對腦部發育有關鍵影響。

我想大家基本上都相信母奶一定比配方奶粉好,但喝母奶與最終社會階級真是屬於因果關係嗎?網上和報章常報導一些明顯屬於「偽關係」的研究結果,兩者僅是在統計上存在相關性,例如上述喝母奶與社會階級關係,但存在統計上的相關關係並不代表同時存在因果關係。很明顯的,喝母奶與社會階級的因果關係可能是因為家庭經濟狀況較好(母親可以不用工作數週至數月餵母乳),也可能因為家庭較重視子女的培育等等,因此他們的社會階級普遍來說比起喝配方奶粉的家庭較高。總之,單是存在統計相關並不代表兩者之間有任何因果關係。

另外,我們再看看二個醫藥的例子:

  • 一份2010年約翰霍普金斯大學健康通告(2010 Johns Hopkins Heath Alert)顯示,「維他命D對關節的健康至關重要,維他命D水平低可能引發類風濕關節炎和骨關節炎等類風濕病情」。
  • 服用煙酸(也叫維生素B3或維生素PP)可以增加「好膽固醇」的比例,並降低心臟病發作的風險

事實後來證明,上述的兩項例子都是屬於「偽關係」而非「因果關係」,如果我們依據這個研究拼命補充維生素D或服用煙酸,實際上並無法達到研究中所提到的改善現象;這個研究沒有告訴我們的是,那些會特別注意去補充維他命D或煙酸的人,他們一般還會進行其他行動,例如安排更多的運動以及更注意均衡的三餐和規律生活等等。

偽零關係(Spurious zero relationship)

談到了偽關係,還有一種偽關係我們也不能錯過,就是Rosenberg於1968年提出的偽零關係,依字面來解釋,它是指「兩個變數AB之間沒有關係是假的」,也就是說,AB兩者間看起來似乎沒有關係,但實際上它們皆與第三個變數C有關係的,Rosenberg把這第三個變數C稱為抑制變數或干擾變數,因為它抑制或干擾了原先兩個變數的關係,使得它們表面看來似乎沒有關係,如果我們將這個變數剔除,AB之間的關係便會顯露出來。

舉例來說,一般民眾的教育程度與所得水準呈現正相關是很合理的假設,但也會出現兩者呈現負相關甚至於沒有關係的情況,尤其是發生在年齡偏高的國家所作的統計,為什麼?

實際上是因為教育程度與所得水準之間,有一個干擾變數「年齡」,它與兩者的關係如下:
  • 年齡與教育程度呈負相關
  • 年齡與所得水準呈正現關
這個關係使得低年齡者拉高了教育程度,卻拉低了所得水準,而高年齡拉低了教育水準,卻拉高了所得水準;瞭解這個原因之後,如果我們將年齡這個干擾變數抽離,便可得到確的相關性。



相關性因果關係與Big Data

  在麥爾荀伯格(Viktor Mayer-Schonberger)所著的「Big Data –A revolution that will transform how we live, work, and think」(國內譯為「大數據」一書)中,他特別強調,在Big Data的世界中,不要拘泥於因果關係,只要抓住相關性就夠了。

    麥爾荀伯格提出的是亞馬遜的書評例子:亞馬遜發現透過電腦自動分析讀者推薦及購買排行等等歷史數據而得出推薦讀者閱讀的書單,比起公司內部的書評團隊使用因果關係的人工推薦方式,兩種方式比較起來,採用電腦分析更為準確和且更投讀者所好,收益更大,於是亞馬遜便決定立刻解散書評團隊;這似乎是一個Big Data時代不再需要因果關係的例子,相信書評團隊的人也可能會疑惑,為什麼愛讀海明威作品的人也會想買費茲傑羅的書?而不是他們應該要推薦的與海或勵志類相關的作品;麥爾荀伯格因而在大數據一書中告訴我們,其實不需要去瞭解,只要照著大數據中分析得出的相關性去作就對了。

    的確,在Big Data的世界裏,我們看到的數據應該是一個事實,而不是一個透過樣本和抽樣的推理結果,這種經由Big Data所呈現的相關性,我們沒有理由不去相信它,因為它是從母體統計出來的結果、一個實際發生的現象;所以因果關係在Big Data的世界裏似乎不再那麼重要了,我們只要依據數據給的相關性去進行我們的決策,何苦需要再去探究誰因誰果?比較激進的如Chris Anderson,在麥爾荀伯格的書中曾提到他大聲疾呼:「資料的洪潮已經使科學的方法過時了」、「只要有足夠的資料,數據本身就會說話;有了千兆位元組的資料量,我們就能說:光是相關性便已足夠!」

Big Data不再需要因果關係?

    要全體不要抽樣,要效率不要絕對精確,要相關不要因果」,這是麥爾荀伯格在大數據一書中的主要論點,他著眼於Big Data代表的已經是一個母體的近似值,從母體得到的相關性便已足夠代表全部,因此我們只要抓住相關性,就抓住機會,因果分析不再那麼重要。

    但是,在完全接受這樣的論點之前,我認為我們還需要釐清:

  1. 我們要如何確定手上擁有的資料是Big Data,而不是只因為它很
  2. 就算我們搜集到了所有的資料,它真的能夠確定代表母體嗎?還是我們搜集到的僅還是某段時期的所有資料?
  3. 透過Big Data所呈現的相關性,它們之間真的相關嗎?會不會讓我們落入偽關係」或「偽零關係」的陷阱中?

近年來「Big Data」的風起雲湧,似乎讓我們落入迷思,深信通過資料搜集分析,就能夠披露隱藏其下的潛資訊、隱資訊,讓我們獲得第三隻眼,而擁有未卜先知的能力,這種對於Big Data應用的想法,與麥爾荀伯格的見解一樣是過份的樂觀,而這樣的樂觀期待,是需要建立在上述三點皆成立的情況,但是要論証這三點是否成立談何容易?只要有任何一點不成立,透過Big Data所呈現的相關性便不是那麼的正確,而且還可能讓我們作出錯誤的決策。

例如,當政府利用Big Data的數據分析,顯示出動物園大小與犯罪率高低呈現正相關,難道我們可以僅依此相關性,就認定獅子和老虎是造成犯罪的主因,而因此來減少或縮小動物園規模來降低犯罪率嗎?事實上,我們還是需要透過因果分析發現潛在的第三個變數:城市大小,因為它對於動物園大小與犯罪率高低皆造成正相關,讓我們誤以為動物園大小與犯罪率高低具有相關性。

因此,如果我們只盲目的依據Big Data呈現的相關係來進行決策,不去探究兩者是否偽關係,會有很大的機率陷入偽關係」或「偽零關係」陷阱中而不自知,但可惜的是,麥爾荀伯格在書中並沒有特別的提到這點。

科技能否解決Big Data的問題?

麥爾荀伯格在大數據一書中的最後一章提到:「依照我們的科技,仍然無法完完全全的搜集、儲存、處理所有的資料,也就是無法達到”樣本=母體”」,但他也特別針對這個問題指出,隨著科技的進步,Big Data的未來只會更加的完善,因此,這個問題可經由科技的發達來解決。

若未來科技的發展解決了麥爾荀伯格提出的「樣本=母體」問題,相信這種接近母體的Big Data也會提出更多實際上的相關性,其中也隱藏了更多的「偽關係」,因此未來Big Data除了接近母體樣本之外,我認為更需要能夠排除所謂的「偽關係」,才能發揮Big Data真正的價值而不會引導人們作出錯誤的決策;但是能夠分辨這些偽相關的相關能力,相較於Big Data搜集與分析的技術而言,「人的思維」佔了更大的因素。

人類的智慧帶來科技的發展,而科技開創了Big Data的未來,但Big Data引發的相關性問題,又需要回歸到「人」的論証,因果關係,似乎永遠是人類的宿命。

沒有留言:

張貼留言