「證據確定性」怎麼分級?認識 GRADE 與 Cochrane 的高/中/低
系統性回顧用 GRADE 把每個結論的證據確定性分為高、中、低、極低四級,看結論要連等級一起看。
結論先講:當你看到一篇系統性回顧說某個療法「有效」,請別只看這兩個字。現代的系統性回顧(例如 Cochrane)通常會用一套叫 GRADE 的方法,把每一個結論的「證據確定性(certainty of evidence)」標成 高、中、低、極低 四級。同樣是「有效」,標「高確定性」和標「極低確定性」的份量天差地遠——後者的意思是「未來更多研究很可能改變這個估計」。看結論,要連等級一起看。
證據確定性是什麼
GRADE 是「Grading of Recommendations Assessment, Development and Evaluation」的縮寫,由一個自 2000 年起運作的國際協作組織 GRADE Working Group 維護,現已被超過上百個機構採用。[已知]
Cochrane Handbook 對「證據確定性」的定義是:「一群證據的確定性,是指我們有多大把握,相信效果或關聯的估計值接近我們真正關心的那個量。」(原文:the extent to which one can be confident that an estimate of effect or association is close to the quantity of specific interest)
關鍵觀念:確定性是針對「單一結果(outcome)」評的,不是給整篇研究打總分。 同一篇回顧裡,「降低死亡率」這個結果可能是高確定性,「改善生活品質」卻可能是低確定性。
四個等級分別代表什麼
依 CDC 的 ACIP GRADE Handbook(Table 4),四級的意思是:[已知]
- 高(High):我們非常有信心,真正的效果接近這個估計值。
- 中(Moderate):我們對估計值有中等信心;真正的效果很可能接近估計值,但也有可能明顯不同。
- 低(Low):我們對估計值的信心有限;真正的效果可能與估計值明顯不同。
- 極低(Very low):我們對估計值幾乎沒有信心;真正的效果很可能與估計值明顯不同。
換句話說,等級越低,這個數字越「站不穩」、越可能被未來的研究推翻。
起點:看研究設計
GRADE 不是把所有研究一視同仁。依 Cochrane Handbook,來自隨機對照試驗(RCT)的一群證據,起點是「高確定性」;來自非隨機研究(觀察性研究,NRSI)的,起點通常是「低確定性」。 原因是隨機分組能平衡已知與未知的干擾因素,較能支撐因果推論。
但起點只是起點,接著還要逐項調整。
五個會「往下扣」的面向
Cochrane Handbook 與 CDC 都列出五個可能降低確定性的面向(domain):
- 偏誤風險(risk of bias):研究設計或執行上的瑕疵,例如盲法不足、退出率高。
- 結果不一致(inconsistency):不同研究結果彼此差異大、無法用合理理由解釋。
- 不夠直接(indirectness):研究的對象、介入或比較對象,跟我們真正想回答的問題有落差。
- 不夠精確(imprecision):樣本數或事件數太少,信賴區間很寬。
- 發表偏差(publication bias):「沒效果」的研究較不容易被發表,導致整體證據被高估。
Cochrane Handbook 指出,證據可因每個面向各往下掉一級,最多可降三級。出現嚴重疑慮時降一級,非常嚴重時降兩級。[已知]
至於觀察性研究,若符合 效果非常大、有劑量反應關係、或合理的干擾反而會低估效果 這三個條件,也可能被「往上調」。
我的觀點
對一般讀者,這套東西最實用的不是術語,而是一個習慣:看到「有效」先去找它旁邊的確定性等級。 很多被當成定論轉傳的健康說法,回頭翻原始系統性回顧,常常標的是「低」或「極低」——那代表的是「目前看起來這樣,但別把它當鐵則」,而不是「已經確定」。
我也想提醒一個常見誤會:確定性「低」不等於「沒效」。它講的是我們對這個估計的把握,不是效果的方向。把「低確定性的有效」誤讀成「無效」,跟把它當「確定有效」一樣,都是誤讀。最誠實的態度,是讓你對一個結論的信心,跟它的證據確定性同步——這正是 GRADE 想做的事。
本文為健康資訊整理,不構成醫療建議。GRADE 是研究方法學工具,協助理解證據強度,不能取代專業判斷;個人診斷與治療決策,請諮詢您的醫師或合格醫療人員。
資料來源
每一則主張都對應到下方原始來源。我們優先採用系統性回顧、臨床指引與隨機對照試驗。
- 1
- 2
- 3
常見問題
證據確定性『低』是不是就代表這個療法沒效?
不是。確定性講的是『我們對這個效果估計有多大把握』,不是效果本身的方向。低確定性可能仍指向有效,只是這個估計比較可能在未來被新研究推翻,要更保守看待。
GRADE 的等級是給整篇研究打的分數嗎?
不是。GRADE 是針對每一個結果(outcome)分別評確定性,同一篇系統性回顧裡,不同結果可能拿到不同等級。
為什麼 RCT 起點比觀察性研究高?
因為隨機分組能平衡已知與未知的干擾因素,較能支持因果推論,所以 GRADE 讓 RCT 從『高確定性』起算、觀察性研究從『低』起算,再依各面向調整。