WFU

2018年11月4日 星期日

敏感度分析在醫學臨床研究的應用

文章作者:林星帆
本文為重新編輯 2017/11 發表在晨晰統計部落格的文章,在這裡這裡




什麼是敏感度分析


世界知名醫學期刊美國醫學協會雜誌(Journal of the American Medical Association, JAMA,2016 年Impact Factor:44.4)於 2010 年所刊登文章中,每 2 篇中已有 1 篇會報告敏感度分析(Sensitivity analysis)的結果,這篇報告刊登在 2013 年的 PLOS ONE,也可見筆者於 2017/8 時的介紹文章

那麼,什麼是敏感度分析呢,筆者的定義是「本研究的發現是否會在某些操作條件之下而改變」。2013 年有一篇發表在 BMC Medical Research Methodology 的文章,專門介紹臨床試驗的敏感度分析細節,裡頭提到敏感度分析定義如下:

「...a method to determine the robustness of an assessment by examining the extent to which results are affected by changes in methods, models, values of unmeasured variables, or assumptions」以及「a series of analyses of a data set to assess whether altering any of the assumptions made leads to different final interpretations or conclusions

該文章系統地整理敏感度分析所包含的面向、細目與實際檢測方式,筆者擷取其精華並翻譯如下表。以下筆者根據其八大點,逐點進行解析與分享本身實際經驗。



資料來源:筆者修改與翻譯自原文
註 1:觀察性研究不適用; 
註 2:不一定是 multi-center,若是臨床試驗的單位是「病房」或「小組」,那麼此時的集群單位不是醫院


一、極端值(Outliers)


這邊指的是尺度型(Scale)的連續變項(Continuous variable),可能是共變項或結果變項。例如當健檢資料的 serum creatinine 高達 15 mg/dL以上時,我們可以先將這些極端值的個案直接刪除,然後比較刪除前後的主要結論是否有所變動。

然而在實務上,我們更常用的方法是「直接修改不合理的值」,例如剛剛的 creatinine 例子,可以修改上限值為 6 mg/dL,或是用 97% 或 99% 的 trimmed means 替代也可以。

當極端值的筆數頗多的時候,直接修改上限值或下限值可能會對於結果有較大影響,此時也可考慮此變項是否適合對數轉換(Log-transformation),也可緩解極端值分佈的狀況。


二、違反臨床試驗的計畫書(Protocol violation in RCTs)


關於 ITT、AT 與 PP 的介紹可以參考 NEJS 的說明。由於 PP 是把遵從度最好的個案都保留下來,因此會得到比較樂觀的療效估計。反之 ITT 會得到最保守的估計。


三、遺漏值(Missing value)


無論是橫斷面研究或追蹤時間,遺漏值一直是一個很重要的議題。

實務來說,最簡單的作法是把個案分成兩個組別,第一組是具有完整回應資料(Complete response)的人,第二組是具有任何一筆遺漏值的個案,然後簡單地比較兩組是否在某些特性上具有顯著差異,並主動地把這些結果提供在內文(通常是放在附錄),如此提供了一個機會,讓讀者能客觀評價,遺漏值對於此研究的主要結果可能具有何種影響。

也可以應用目前廣泛被接受的資料插補方法:多重插補(Multiple imputation)。然後再比較完整資料分析與插補後資料分析的結論是否異同,即可評估遺漏值對於本研究主要發現的影響。


四、結果變項的定義(Definitions of outcomes)


在醫學研究上,許多結果變項都是被人工二元分類,例如慢性腎病(CKD)定義可能是 eGFR < 60 mL/min/1.73m<sup>2</sup>,那麼如果切點改為 55 或 50,本研究主要發現是否會因而改變。當然可以用比較有臨床意義的作法,例如將 Outcome 定義改為CKD stage 4-5(eGFR < 30),然後觀察原本結論是否仍然適用。

在這邊讀者要延伸到暴露條件(分組條件),例如我們定義病人「規律用藥」,可能是在收案之前一個月內開過 14 天的藥,如果這是主要分析的分組條件,倘若我們把定義限制到必須使用 28 天以上,此時結論是否會因而改變,這也是符合敏感度分析的測試原則。


五、多中心的集群效果(Clustering or correlation and multi-center trials)


臨床試驗往往可能是多中心(Multi-center)或至少是多個場域(Site),例如介入處置的單位是病房、社區等等,而且可能是 3 階以上的多階層,例如醫院→病房→病人。

此時會有個集群效應(Cluster effect),即在同一個集群之中的個案的相似度會比較高(相較於不同集群之間的個案之間的相似度)。目前統計方法已經充分可以處理集群效應,若是階層只有 2 層時可以使用 GEE(筆者曾經寫過數篇關於 GEE 的介紹,請見這裡這裡這裡這裡)。 

或是階層較為複雜,具有 3 層或以上的結構時,可以採用 Linear mixed model(LMM),這部分筆者也曾經介紹過,請參考這裡這裡這裡


六、競爭風險因子(Competing risks in RCTs)


倘若結果變項是 Time to event outcome,此時標準作法是使用存活分析,通常是 Cox proportional hazard model。

不過由於臨床上常常有「競爭風險因子」,例如對於膀胱癌的復發來說,追蹤過程死亡或先進行根治性膀胱全切除手術都是與它競爭的風險因子。目前採用 subdistribution hazard model 已經是大家廣為認同的作法。

這部分筆者也曾經專文介紹過,請參考這裡這裡這裡


七、基線變項分佈不均(Baseline imbalance)


隨機試驗如果確實作到隨機分派,基本上兩組人在某些基本特性有差異,可以視為是因為機遇(by chance)而發生的。

倘若是觀察性研究,那麼這個問題就變得很重要了,甚至是影響是否得到顯著結論的最重要因子。

目前處理基線變項分佈不均的方法中,以傾向分數(Propensity score)最為普遍,可分成四種作法,分別是統計調整(adjustment)、分層分析(Stratification analysis)、配對(Matching)與加權(Inverse probability of treatment weight, IPTW)。

其中又以最後兩種為主流方法。可參考臺北醫學大學陳錦華老師關於傾向分數的簡介


八、分佈的假設(Distributional assumptions)


多數的統計分析都是在某種分配假設之下的結果。例如結果變項是連續變項時,我們假設符合常態分佈(Normal distribution),可以套用不同的分配假設再加以估計結果是否不同。

或是有母數與無母數統計之間的結果比較。或是傳統方法與貝氏方法的比較。