WFU

2018年11月4日 星期日

傾向分數分析介紹

文章作者:林星帆
本文為重新編輯 2018/4 發表在晨晰統計部落格的文章,在這裡這裡





傾向分數分析的風行


在現今的醫學研究中,傾向分數分析(propensity score analysis, PSA)儼然扮演非常重要的角色。下圖為筆者在 Pubmed 以關鍵字「propensity score」搜尋得到的文獻筆數,由結果可知,以傾向分數作為研究方法的文獻呈現非線性的增加,到了 2017 年,單年度超過 3 千篇文獻使用傾向分數,可見傾向分數已為醫學研究當中的顯學(請見上圖)。


什麼時候該使用傾向分數分析


當在比較治療或處置的效果(treatment effect)時,最需要解決的偏差(bias)有很多種,其中之一即為混淆效果(confounding)。

混淆因子/變項(confounding factor / confounder)又分為可測量到與不可測量到的兩類,在隨機試驗當中透過隨機分派可以同時解決這兩大類混淆因子,然而在觀察性研究由於沒有隨機分派,因此僅能解決「可測量到的混淆因子」所造成的對處置效果估計的偏差。

傳統的方法為多變項迴歸校正(multivariable regression adjustment),透過納入可能跟結果變項(outcome)有關的共變數(covariate),藉由校正(控制)了共變數對於結果變項的預測效果,得到估計的處置淨效果。

但這種方式有許多問題,例如事件數或樣本數比較小的時候,若預測變項太多則會有模型過度契合(over-fitting)的問題,導致得到有偏差的處置估計效果。

此時 PSA 即是一個很好的替代方案。首先要先瞭解傾向分數的意義為何,絕大多數研究都是用羅吉斯迴歸(logistic regression)來估計傾向分數。由以下公式可知,傾向分數是一個特定個案會成為治療組的預測機率。

由於傾向分數是根據此個案的所有預測變項所得到的分數,因此可視為代表所有預測變項的綜合分數(summary score),有相同分數的2個個案有相同的預測機率會成為治療組(儘管他們可能實際上是控制組)。





接著介紹傾向分數的四種應用方式,分別為配對(matching)、加權(weighting)、分層(stratification)以及統計控制(covariate adjustment in regression model),重點會放在配對與加權這兩種目前被廣為認同的方法。


傾向分數應該納入哪些變項


本文以 Kim 等人(2016)的文章為主要架構,介紹何為混淆因子,而傾向分數應該納入哪些變項。下圖列出幾種常見的變項類型:混淆因子、工具變數(instrumental variables)與中介變數(intermediate variables or mediator)。

所謂混淆因子需要符合三個條件
  1. 該變項跟處置變項有關,指的是治療組與控制組在該變項的分布不均,即存在 confounder → treatment 的關係
  2. 該變項跟結果變項有關,但並不是透過處置變項所造成的中介效果,即存在 confounder → outcome 的關係
  3. 處置變項不得影響該變項的值。只要吻合以上三個條件,即應該將該變項納入傾向分數的計算。 



圖片來源:Kim 等人(2016)的圖 1


工具變數指的是只跟處置變項有關,但跟結果變項與混淆因子都沒有關係的變項。傾向分數加入工具變數只會導致模式效率的損失,降低處置效果的估計精準度(precision),也就是會得到比較寬的信賴區間。

Kim 等人(2016)建議,為了避免在傾向分數納入工具變數,不管該變項是否跟處置變項有關,只要該變項跟結果變項有關(筆者註:臨床上或概念上有關),都應該將這些變項納入傾向分數的計算,而且可以提升處置效果的估計精準度(筆者註:因為處理了 confounder → outcome 的關係)。

中介變項指的則是處置變項會影響到該變項的值,若是誤將中介變項當成混淆因子,則會對於處置效果做出比較保守的估計,而且可能是有偏差的結果。

通常而言,如果處置變項的時間點是發生在後,而該變項的值是發生在前,該變項就不可能是中介變項。若兩者可能發生在同時(或是在同時間點測量),此時研究者就要根據臨床上的經驗來判斷這兩個變項的因果關係。


如何得知是否適合傾向分數分析


完成對處置變項的羅吉斯迴歸之後,根據每個個案的基本特性(年齡、性別與共病狀況)會得到預測機率,即此人成為治療組的機率。在接著往下進行傾向分數的分析之前,要先評估治療組與控制組在傾向分數的分布情形。

可以使用兩種方法來判斷,第一種是畫圖,第二種是看 C-statistics(即 C-index 或 AUROC)。C-statistics 代表的是預測變項對處置變項(1=treated, 0=untreated)整體的區別力,0.5 為完全無法區別,1 代表完美區別。

下圖列出傾向分數可以非常有效區分治療組與控制組的結果,兩組在傾向分數的分布截然不同,而且重疊區域很少(中間灰色底的 common support),這種狀況是很難進行後續的傾向分數分析的,不管進行任何一種傾向分數分析,都無法有效降低混淆因子的效果。



圖片來源:Kim 等人(2016)的圖 2A


當出現這種情形時,檢查是否有對處置變項的強烈預測變項,例如「有洗腎的病人一定不會開 Metformin」或是存在工具變數。

下圖列出傾向分數適度地(modestly)區分治療組與控制組的結果,灰色重疊區域的兩組人數都很多,這表示兩組大多數的個案都有一定的機率會成為治療組或控制組,或是表示有些重要的混淆因子沒有被考慮到。以傾向分數的後續分析而言,這種狀況比較容易進行分析。


圖片來源:Kim 等人(2016)的圖 2B


不過大家要記得,傾向分數分析的目的是降低混淆效果,而不是得到一個完美區別的預測模型(對處置變項),所以當我們得到高 C-statistics 的模型時,要檢查是否納入了非常強而有力的預測變項;

而低 C-statistics 模型則可能是反映了臨床不確定性(clinical uncertainty)或是忽略了重要的混淆因子。

因此整體而言,C-statistics 不能當成唯一評估傾向分數模型的指標,特別是在概念上(或臨床實務上)是否納入了重要的混淆因子或不應該納入的完美區別變項,這是需要仰賴臨床經驗與背景知識來判斷的。


傾向分數的四種應用方式


傾向分數主要有四種應用方式,分別為配對(matching)、加權(weighting)、分層(stratification)以及統計控制(covariate adjustment in regression model)。


(一)傾向分數配對


傾向分數配對(propensity score matching, PSM),這是目前被廣為使用的標準方法。經由將傾向分數相近的治療組與控制組給配對起來,營造類似隨機試驗的環境(不包括未測量到的混淆因子)。

PSM 有 2 點優勢
  1. 相較於分層分析與統計控制,PSM 更能有效地讓兩組的共變項更為均勻(remove covariate imbalance)
  2. 很直覺式地提供像隨機試驗那樣的報告方式,即很透明化地呈現兩組的基本特性在表格當中。 

然而 PSM 也有其劣勢,由於 PSM 可能會剔除相當人數的治療組與許多控制組(一般來說控制組人數比治療組多),這會導致兩個嚴重效果。
  1. 由於損失了許多人數的控制組,無法將結果推論到整個群體(limited generalizability)。
  2. 由於人數下降,因此統計檢定力(power)會下降,亦即可能會得到比較不顯著的結果。 

儘管 PSM 有這些缺點,但仍然是目前四種傾向分數分析的最常被應用的方法。

此外使用 PSM,有一些技術細節要考慮,包括配對演算法(optimal 或 greedy nearest neighbor matching、caliper width 的設定(界定可容忍的傾向分數之間的合理距離)、是否容許配對後的置換(matching with or without replacement)以及將資料排列順序予以隨機化等細節。

另外由於經由 PSM 之後,在同一個配對群組(match pair)的治療組個案與控制組個案已不再獨立,因此在作統計分析時要改用配對統計方法,例如獨立 t 檢定要改配對 t 檢定,羅吉斯迴歸要改用條件式羅吉斯迴歸(Conditional logistic regression)或是廣義估計方程式(Generalized estimating equation, GEE),這些議題多少也會增加正確使用 PSM 的難度。


(二)加權


治療權重倒數機率(inverse probability of treatment weighting, IPTW)是近幾年來使用率越來越高的方法。

這種方法類似於社會研究的調查(survey)的加權原理,賦予某些個案比較高(>1)或比較低(<1)的權重,藉此「虛擬還原」母群體的分配比例。藉由加權每個個案之後,會得到兩個加權後的組別資料,且這兩組在基本特性(共變量)的分布會是類似的。

IPTW 的優勢是分析全部的個案資料,因此結果的外推性比較高。而且這個方法還可以延伸到處理設限資料(censoring)與時間相依混淆因子(time-dependent confounding)的處理。

劣勢是會收到極端權重的影響,不過這一點很容易克服,可以使用 Stabilized weight 即可中和極端權重對結果的影響(Hernan et al., 2010)。綜合以上結果,筆者認為未來 IPTW 的使用狀況很有可能會追上 PSM。


(三)分層


這個方法是傾向分數的始祖所提出的作法(Rosenbaum and Rubin, 1983),即將傾向分數由低至高等分為 5 組(或 10 組),然後在一個分層之下比較治療效果,最後再用統計方法整合各分層的結果(pooled estimate)。

這個方法已被很多方法學文獻證實處理混淆因子的效果不佳,因此筆者不建議使用。


(四)統計控制


這個方法是預測變項一共只有兩個,第一個是治療變項,第二個是代表所有變項的傾向分數。

此方法假設傾向分數與結果變項的關係是被成功識別的(correctly specified),但這往往無法被證實。而且這個方法也未能像以上三種方法提供透明化的資訊,因此也不建議採用此種分析策略。


參考文獻


  1. Kim DH, Pieper CF, Ahmed A et al. Use and interpretation of propensity scores in aging research: A guide for clinical researchers. Journal of the American Geriatrics Society 2016;64:2065–2073.
  2. Hernan MA, Brumback B, Robins JM. Marginal structural models to estimate the causal effect of zidovudine on the survival of HIV-positive men. Epidemiology 2000;11:561–570.
  3. Rosenbaum PR, Rubin DB. The central role of the propensity score in observational studies for causal effects. Biometrika 1983;70:41–55.