IT Manager: Causality & Correlation

因果關係和相關性之間的差異在科學思維上是很重要的一環，但我們經常將這兩個觀念搞混，有時候是因為不瞭解，有時候則是因為要對一個觀察現象給個解釋，因此，能否釐清因果關係和相關性兩者的差別，對於我們在判定事情與採行決策的思考行為中，有很大的影響。

人類是一種生性好奇的動物，對任何現象總喜歡追根究底，希望知道為什麼是這樣為什麼是那樣？是什麼造成了這種現象，這種現象又會造成什麼後果？因此，長久以來，我們一直都是使用因果關係來解釋和理解這個世界；的確，這種基於因果關係的追求，促進了我們科技的發展，並且讓我們意欲探索任何更深層不可知的領域，是故這種尋求因果關係的直覺衝動，根深柢固了我們的認知模式：對任何現象先假設出一個原因，尤其是當兩件事先後發生時，心裏傾向就將兩者構成因果關係，因此，我們很容易對事物存有偏見。

因果關係

　　當我們說A與B之間具有因果關係，是指如果A是因（cause）B是果（effect），則A與B之間必須具備以下必要條件（necessary conditions）：

A與B共變（covary），也就是A增加（減少）會告成B也增加（減少）
A發生在B之前，也就是「前因」「後果」
A與B之間的關係不是偽關係（spurious relationship），也就是沒有任何隱藏因數C導致了A和B

我們以上一段中相關性的購買車子與銀行存款這個例子來看，購買汽車直接導致銀行存款減少（滿足第１項），購買汽車發生在銀行存款減少之前（滿足第２項），購買汽車和銀行存款之間不是偽關係（滿足第３項，因為例子中沒有其它因素同時導致購買汽車和銀行存款減少），所以我們可以確認購買車子與銀行存款減少之間具有因果關係。

偽關係（相關≠因果）

我們以上方相關性的襯衫與鞋子例子來看，兩者具有因果關係嗎？依據因果關係的條件來看，它滿足了第一個A與B共變（covary）的條件，穿大襯衫的人，通常也穿較大的鞋子，但它沒有滿足第二個條件，也就是穿大襯衫會導致穿大號鞋子，或者穿大號鞋子導致穿大襯衫，因此兩者並沒有前因後果的關係。

實際上，這個襯衫與鞋子的例子是一種偽關係（spurious relationship）的現象，有某個隱藏原因同時導致了襯衫與鞋子大小之間的相關性，這個隱藏原因我們認為可能是身高：身高高的人大部份會需要大尺寸的襯衫與鞋子，身高矮的則相反。

實際上，偽關係通常以下列三種方式出現：

C → A → B
A → C → B
C → A; C → B

所以我們可以看出上例的襯衫與鞋子應該是屬於第三種的偽關係：身高會同時導致襯衫和鞋子的大小；事實上，類似這種偽關係的情況，最容易讓人類的因果直覺陷入偽關係的陷阱，認為不是Ａ就是Ｂ導致另一件已知事物的發生，而且那些最容易陷入的，我個人認為，極易發生在兩種極端的個性：無知怯懦與聰明自信的人身上，他們對於某種事物，往往直覺性的就會給出自已的推理，前者是為了獲取慰藉，而後者往往是過份基於自信。

偽關係的例子：

有一個研究的報告指出，相對於那些喝配方奶粉的寶寶，喝母奶的寶寶爬到社會上層階級的機會多了24%，相對地，喝母奶的寶寶在成長後，從社會上層階級滑落的機率會減少達20%；這個研究發表在「兒童疾病檔案」（ Archives of Disease in Childhood）期刊，研究對象是1958年在英國出生的1萬7419名民眾，以及1970年出生的1萬6771名民眾，研究人員收集並分析了他們在10歲～11歲時，以及33歲～34歲時的社會階級，以及他們是否喝母奶作為統計，研究團隊宣稱，這是迄今調查餵母奶與社會階層流動間關連的最大型研究，最終得出的結論是：「母奶能提升腦部發育，也就是提升智力，而喝母奶的兒童也展現較少壓力的徵象。」，此外，研究人員說，母奶成分中含有長鏈不飽和脂肪酸（LCPUFA），對腦部發育有關鍵影響。

我想大家基本上都相信母奶一定比配方奶粉好，但喝母奶與最終社會階級真是屬於因果關係嗎？網上和報章常報導一些明顯屬於「偽關係」的研究結果，兩者僅是在統計上存在相關性，例如上述喝母奶與社會階級關係，但存在統計上的相關關係並不代表同時存在因果關係。很明顯的，喝母奶與社會階級的因果關係可能是因為家庭經濟狀況較好（母親可以不用工作數週至數月餵母乳），也可能因為家庭較重視子女的培育等等，因此他們的社會階級普遍來說比起喝配方奶粉的家庭較高。總之，單是存在統計相關並不代表兩者之間有任何因果關係。

另外，我們再看看二個醫藥的例子：

一份2010年約翰霍普金斯大學健康通告（2010 Johns Hopkins Heath Alert）顯示，「維他命D對關節的健康至關重要，維他命D水平低可能引發類風濕關節炎和骨關節炎等類風濕病情」。
服用煙酸（也叫維生素B3或維生素PP）可以增加「好膽固醇」的比例，並降低心臟病發作的風險

事實後來證明，上述的兩項例子都是屬於「偽關係」而非「因果關係」，如果我們依據這個研究拼命補充維生素D或服用煙酸，實際上並無法達到研究中所提到的改善現象；這個研究沒有告訴我們的是，那些會特別注意去補充維他命D或煙酸的人，他們一般還會進行其他行動，例如安排更多的運動以及更注意均衡的三餐和規律生活等等。

偽零關係（Spurious zero relationship）

談到了偽關係，還有一種偽關係我們也不能錯過，就是Rosenberg於1968年提出的「偽零關係」，依字面來解釋，它是指「兩個變數AB之間沒有關係是假的」，也就是說，AB兩者間看起來似乎沒有關係，但實際上它們皆與第三個變數C有關係的，Rosenberg把這第三個變數C稱為抑制變數或干擾變數，因為它抑制或干擾了原先兩個變數的關係，使得它們表面看來似乎沒有關係，如果我們將這個變數剔除，AB之間的關係便會顯露出來。

舉例來說，一般民眾的教育程度與所得水準呈現正相關是很合理的假設，但也會出現兩者呈現負相關甚至於沒有關係的情況，尤其是發生在年齡偏高的國家所作的統計，為什麼？

實際上是因為教育程度與所得水準之間，有一個干擾變數「年齡」，它與兩者的關係如下：

年齡與教育程度呈負相關
年齡與所得水準呈正現關

這個關係使得低年齡者拉高了教育程度，卻拉低了所得水準，而高年齡拉低了教育水準，卻拉高了所得水準；瞭解這個原因之後，如果我們將年齡這個干擾變數抽離，便可得到確的相關性。

Big Data不再需要因果關係？

「要全體不要抽樣，要效率不要絕對精確，要相關不要因果」，這是麥爾荀伯格在大數據一書中的主要論點，他著眼於Big Data代表的已經是一個母體的近似值，從母體得到的相關性便已足夠代表全部，因此我們只要抓住相關性，就抓住機會，因果分析不再那麼重要。

但是，在完全接受這樣的論點之前，我認為我們還需要釐清：

我們要如何確定手上擁有的資料是Big Data，而不是只因為它很「大」？
就算我們搜集到了所有的資料，它真的能夠確定代表母體嗎？還是我們搜集到的僅還是某段時期的所有資料？
透過Big Data所呈現的相關性，它們之間真的相關嗎？會不會讓我們落入「偽關係」或「偽零關係」的陷阱中？

近年來「Big Data」的風起雲湧，似乎讓我們落入迷思，深信通過資料搜集分析，就能夠披露隱藏其下的潛資訊、隱資訊，讓我們獲得第三隻眼，而擁有未卜先知的能力，這種對於Big Data應用的想法，與麥爾荀伯格的見解一樣是過份的樂觀，而這樣的樂觀期待，是需要建立在上述三點皆成立的情況，但是要論証這三點是否成立談何容易？只要有任何一點不成立，透過Big Data所呈現的相關性便不是那麼的正確，而且還可能讓我們作出錯誤的決策。

例如，當政府利用Big Data的數據分析，顯示出動物園大小與犯罪率高低呈現正相關，難道我們可以僅依此相關性，就認定獅子和老虎是造成犯罪的主因，而因此來減少或縮小動物園規模來降低犯罪率嗎？事實上，我們還是需要透過因果分析發現潛在的第三個變數：城市大小，因為它對於動物園大小與犯罪率高低皆造成正相關，讓我們誤以為動物園大小與犯罪率高低具有相關性。

因此，如果我們只盲目的依據Big Data呈現的相關係來進行決策，不去探究兩者是否偽關係，會有很大的機率陷入「偽關係」或「偽零關係」陷阱中而不自知，但可惜的是，麥爾荀伯格在書中並沒有特別的提到這點。

科技能否解決Big Data的問題？

麥爾荀伯格在大數據一書中的最後一章提到：「依照我們的科技，仍然無法完完全全的搜集、儲存、處理所有的資料，也就是無法達到”樣本=母體”」，但他也特別針對這個問題指出，隨著科技的進步，Big Data的未來只會更加的完善，因此，這個問題可經由科技的發達來解決。

若未來科技的發展解決了麥爾荀伯格提出的「樣本=母體」問題，相信這種接近母體的Big Data也會提出更多實際上的相關性，其中也隱藏了更多的「偽關係」，因此未來Big Data除了接近母體樣本之外，我認為更需要能夠排除所謂的「偽關係」，才能發揮Big Data真正的價值而不會引導人們作出錯誤的決策；但是能夠分辨這些偽相關的相關能力，相較於Big Data搜集與分析的技術而言，「人的思維」佔了更大的因素。

人類的智慧帶來科技的發展，而科技開創了Big Data的未來，但Big Data引發的相關性問題，又需要回歸到「人」的論証，因果關係，似乎永遠是人類的宿命。

IT Manager

2014年5月12日星期一

Causality & Correlation

相關性

因果關係

偽關係（相關≠因果）

偽關係的例子：

偽零關係（Spurious zero relationship）

相關性、因果關係與Big Data

Big Data不再需要因果關係？

科技能否解決Big Data的問題？

沒有留言:

張貼留言

2014年5月12日 星期一

Causality & Correlation

相關性

因果關係

偽關係（相關≠因果）

偽關係的例子：

偽零關係（Spurious zero relationship）

相關性、因果關係與Big Data

Big Data不再需要因果關係？

科技能否解決Big Data的問題？

沒有留言:

張貼留言

2014年5月12日星期一