相關不等於因果:健康新聞最常見的另一個陷阱
為什麼觀察性研究只能看到「相關」?拆解混雜因子、反向因果、健康使用者偏誤三大殺手,與 RCT 翻盤的真實案例。
先講結論:兩件事一起出現、一起變動,不代表其中一件造成另一件。 健康新聞最常見的陷阱,就是把「相關」(correlation)偷偷講成「因果」(causation)。看到「常喝某飲料的人比較長壽」「補某營養素的人比較少生病」這類標題,先別急著改變生活——這些絕大多數來自只能看到相關的觀察性研究。
相關與因果,差在哪
相關是統計上的同行:A 高的時候 B 也高(或反過來)。因果則更強:是 A 「造成」了 B 的改變。問題在於,相關有很多種來源,因果只是其中一種。冰淇淋銷量和溺水人數高度相關,但不是冰淇淋讓人溺水——背後是「夏天」這個共同原因。健康領域的相關,往往就藏著類似的第三者。
為什麼觀察性研究只能看到相關
觀察性研究(最常見的是世代研究 cohort)的做法是:找一大群人,記錄他們本來的生活,追蹤幾年到幾十年,看誰生病。研究者只「觀察」、不「介入」——不指定誰吃藥、誰運動。哈佛大學 The Nutrition Source 對研究類型的說明寫得直白:世代研究「只能提示相關,不能說明因果」(associations, not cause-and-effect)。[已知] 這不是研究做得好不好的問題,是設計上的天花板。
三大殺手:相關偽裝成因果
混雜因子(confounding)。 Cochrane Handbook 把混雜定義為「同時是『選擇某介入』與『結果』的共同原因」。白話講:愛吃魚的人可能整體比較顧健康、收入較高、也比較常運動——到底是魚的功勞,還是這些背景的功勞?分不開。
反向因果(reverse causation)。 你以為 A 造成 B,其實是 B 造成 A。例如「體重較輕的人死亡率較高」,未必是瘦不好,而可能是早期、未診斷的疾病先讓人變瘦。
健康使用者偏誤(healthy-user bias)。 會主動補充保健品、配合醫囑的人,本來就傾向有更多健康習慣。他們後來比較健康,可能跟那顆藥丸無關,而跟「他們是哪種人」有關。
RCT 為什麼能推因果
隨機對照試驗(RCT)用一招破解上述問題:把受試者「隨機」分到介入組與對照組。Cochrane Handbook 指出,隨機化的目的是讓已知與未知的預後因子都不再影響分組——於是兩組在統計上除了「有沒有接受介入」之外大致相同,混雜被打散。哈佛 The Nutrition Source 也將 RCT 列為判斷介入是否有效的「黃金標準」。
真實的翻盤案例
荷爾蒙療法。 早年觀察研究一度認為停經後補充荷爾蒙能保護心臟。但 NIH 旗下 NHLBI 主導的 Women’s Health Initiative(WHI)這項大型隨機試驗,結果相反:雌激素加黃體素組的心血管疾病等風險不減反增,試驗因風險超過效益而於 2002 年提前喊停,結論是荷爾蒙療法不該用來預防心臟病。觀察到的「保護」,部分來自健康使用者偏誤與用藥年齡差異。
β-胡蘿蔔素。 觀察研究顯示多吃蔬果(富含 β-胡蘿蔔素)的人較少得肺癌,於是有人推論補充劑也有益。兩項大型 RCT 打臉:NIH 膳食補充劑辦公室(ODS)的資料指出,ATBC 試驗(每日 20 毫克)與 CARET 試驗(每日 30 毫克)都顯示,β-胡蘿蔔素補充劑反而提高吸菸者的肺癌與死亡風險;美國國家癌症研究院(NCI)的 CARET 數據為肺癌相對風險約 1.28(即約增加 28%)。要注意這兩項試驗的對象都是吸菸者或石綿暴露工人;NIH ODS 另外指出,在非吸菸者身上,β-胡蘿蔔素與維生素 A 補充劑則未顯示影響癌症風險。總之,蔬果的相關,無法直接搬到藥丸上。
我的觀點
[已知] 觀察性研究不是垃圾,它常是唯一能做的研究,也是重要的假設來源。[推測] 但媒體的誘因是寫出「吃 X 能防 Y」這種乾脆的因果標題,而最誠實的寫法往往是「觀察到相關、尚待驗證」——後者不夠聳動,於是常被磨掉。[已知] 給讀者的最實用一招:看到健康宣稱,先問兩個問題——這是觀察還是隨機試驗?有沒有可能的混雜或反向因果?光是這兩問,就能擋掉大半的健康新聞陷阱。
本文為健康資訊整理,不構成醫療建議。是否使用任何補充劑、荷爾蒙療法或調整用藥,請與你的醫師或藥師討論,依個人病史與整體證據判斷,切勿僅憑單一新聞或單一研究自行決定。
資料來源
每一則主張都對應到下方原始來源。我們優先採用系統性回顧、臨床指引與隨機對照試驗。
- 1
- 2
- 3
- 4
- 5
常見問題
那是不是觀察性研究都不可信?
不是。觀察性研究能涵蓋 RCT 做不到的長期、大樣本與罕見傷害,是重要的線索來源。重點是它給的是「假設」而非「定論」,看到時要問:這只是相關,還是已被 RCT 驗證的因果?
怎麼一眼看出新聞把相關當因果?
[推測] 注意動詞與研究類型。若標題用「導致」「預防」「降低風險」,但內文是「追蹤調查發現某族群比較少生病」,多半是觀察性的相關;真正的因果語氣應對應到隨機試驗。
RCT 是不是就一定對?
RCT 大幅降低混雜,但不是萬靈丹——樣本、追蹤時間、受試者條件都會影響結果。連 WHI 與觀察研究的落差,部分也來自開始用藥的年齡差異。看證據要看整體,不是單一研究。