本文為重新編輯 2018/10/22 發表在晨晰統計部落格的文章
AUC 使用時機
在臨床醫學研究中,常常會提出一個生物標記(Biomarker)可以預測特定事件的假設,例如以 neutrophil gelatinase-associated lipocalin(NGAL)預測急性腎損傷(acute kidney injury, AKI),或是以 B-type natriuretic peptide(BNP)預測心衰竭病人的再住院率。
通常此時會有比較的基準,例如是另外一個已知的生物標記,或是另外一組危險因子(例如 Framingham Risk Score)。假設我們提議(proposed)的生物標記或預測模型(一組危險因子)為 A,可能會有以下幾種的比較。
- A 的表現比已知的生物標記 B 更好(head to head comparison)
- A + B 的綜合表現比 B 單獨更好(nested model)
- A 加上 baseline risk score 之後,預測有增值效果(incremental value)
- A 加上 baseline risk score 比 B 加上 baseline risk score(head to head comparison)
例如 A 與 B 的 AUC 分別是 88% 跟 85%,此時可以使用 DeLong test 檢定兩個曲線下面積的差異是否達統計顯著,倘若 A 的面積顯著大於 B(P < 0.05),那麼作者則宣稱 A 的預測表現優於 B。
AUC 的意義與限制
然而讀者需要先瞭解到何謂 AUC(又稱為 C-index or C-statistics),其意義為「The C statistic is the probability that a randomly selected person with the event will have a higher predicted risk than a randomly selected person without the event.」。
舉例來說,如果某一個生物標記的 AUC 等於 0.7,表示假使隨機抽取一位發生 event 的病人,會有 70% 的機率,此發生 event 的病人的值會大於 non-event 病人的值。
AUC 本身具有適當的統計特質(例如可以 DeLong test 檢定),但是也有重要的使用限制。
要瞭解很重要的一點,AUC 本身是無母數統計,它是使用排序(ranking)作為計算方式,因此它對於風險的強度(risk magnitude)並不敏感。而在之前的研究報告也指出,當用其他指標(例如 likelihood ratio, rate ratio [relative risk or hazard ratio])具有臨床顯著的差異時,但 AUC 的差異卻只有 1%。
因此 Cook 於 2007 年提出風險重新分組(Clinical Risk Reclassification)的概念,而 Pencina 於 2008 年正式提出另外兩種重要的指標,分別為 net reclassification index(NRI)以及 integrated discrimination index(IDI),筆者將於後續文章介紹。
參考文獻
- McGeechan K, Macaskill P, Irwig L, Liew G, Wong TY. Assessing new biomarkers and predictive models for use in clinical practice: a clinician's guide. Archives of Internal Medicine 2008; 168:2304-2310.
- Cook NR. Use and misuse of the receiver operating characteristic curve in risk prediction. Circulation 2007; 115:928-935.
- Pencina MJ, D'Agostino Sr RB, D'Agostino Jr RB, Vasan RS. Evaluating the added predictive ability of a new marker: from area under the ROC curve to reclassification and beyond. Statistics in medicine 2008; 27:157-172.