WFU

2018年11月4日 星期日

預測模型使用 AUC 的限制

文章作者:林星帆
本文為重新編輯 2018/10/22 發表在晨晰統計部落格文章


圖片來源:這裡


AUC 使用時機


在臨床醫學研究中,常常會提出一個生物標記(Biomarker)可以預測特定事件的假設,例如以 neutrophil gelatinase-associated lipocalin(NGAL)預測急性腎損傷(acute kidney injury, AKI),或是以 B-type natriuretic peptide(BNP)預測心衰竭病人的再住院率。

通常此時會有比較的基準,例如是另外一個已知的生物標記,或是另外一組危險因子(例如 Framingham Risk Score)。假設我們提議(proposed)的生物標記或預測模型(一組危險因子)為 A,可能會有以下幾種的比較。

  1. 的表現比已知的生物標記 更好(head to head comparison
  2. A + B 的綜合表現比 單獨更好(nested model
  3. 加上 baseline risk score 之後,預測有增值效果(incremental value
  4. 加上 baseline risk score 比 加上 baseline risk scorehead to head comparison

而在過去的醫學文獻當中,在回答以上四個問題時,常常以 Receiver Operating Characteristic(ROC)的曲線下面積(Aura under the curve, AUC)作為主要的統計方法。

例如 A 與 B 的 AUC 分別是 88% 跟 85%,此時可以使用 DeLong test 檢定兩個曲線下面積的差異是否達統計顯著,倘若 A 的面積顯著大於 B(P < 0.05),那麼作者則宣稱 A 的預測表現優於 B。


AUC 的意義與限制


然而讀者需要先瞭解到何謂 AUC(又稱為 C-index or C-statistics),其意義為「The C statistic is the probability that a randomly selected person with the event will have a higher predicted risk than a randomly selected person without the event.」。

舉例來說,如果某一個生物標記的 AUC 等於 0.7,表示假使隨機抽取一位發生 event 的病人,會有 70% 的機率,此發生 event 的病人的值會大於 non-event 病人的值。

AUC 本身具有適當的統計特質(例如可以 DeLong test 檢定),但是也有重要的使用限制。

要瞭解很重要的一點,AUC 本身是無母數統計,它是使用排序(ranking)作為計算方式,因此它對於風險的強度(risk magnitude)並不敏感。而在之前的研究報告也指出,當用其他指標(例如 likelihood ratio, rate ratio [relative risk or hazard ratio])具有臨床顯著的差異時,但 AUC 的差異卻只有 1%。

因此 Cook 於 2007 年提出風險重新分組(Clinical Risk Reclassification)的概念,而 Pencina 於 2008 年正式提出另外兩種重要的指標,分別為 net reclassification index(NRI)以及 integrated discrimination index(IDI),筆者將於後續文章介紹。


參考文獻


  1. McGeechan K, Macaskill P, Irwig L, Liew G, Wong TY. Assessing new biomarkers and predictive models for use in clinical practice: a clinician's guide. Archives of Internal Medicine 2008; 168:2304-2310. 
  2. Cook NR. Use and misuse of the receiver operating characteristic curve in risk prediction. Circulation 2007; 115:928-935. 
  3. Pencina MJ, D'Agostino Sr RB, D'Agostino Jr RB, Vasan RS. Evaluating the added predictive ability of a new marker: from area under the ROC curve to reclassification and beyond. Statistics in medicine 2008; 27:157-172.