WFU

2019年6月2日 星期日

真實世界研究與臨床試驗(三、克服篇)


文章作者:林星帆
首發日期:2019/6/3


圖片來源:在此


在 2019 的 2 月份,筆者曾介紹真實世界研究(RWS)在目前的發展(總覽篇 )以及 RWS 可以如何輔助臨床試驗(輔助篇 )。

就算是證據等級最高的臨床試驗,也有本身的限制及缺點,更遑論是無法做到隨機分派的 RWS,可預期 RWS 在研究方法上的考量與限制都比較多。

本文旨在整理並介紹 RWS 獨有的限制,並整理各家研究學者目前有哪些建議的處理方式,以供讀者在解讀 RWS 研究時,有更全面的瞭解。


Confounding(混淆效果)


觀察到或預期效果較小時


當使用 RWD 比較療效(effectiveness)時,如果預期或實際觀察到的效果相對較小(例如兩組的事件比例只差 1%),此時很難斷定觀察到的效果是大部分或甚至全部都是因為混淆因子所導致1


圖片來源:在此


舉例而言,假使我們比較急性冠心症病人出院後使用 Ticagrelor(Brilinta®,百無凝)與 Clopidogrel(Plavix®,保栓通),終點變項為 1 年內綜合心血管事件(心因性死亡、心肌梗塞或腦中風)。

根據國外研究的數據以及我們原先的預期,我們可能只有期待 5% 的差異(統計上 5% 很小,但已經是有臨床意義的差異),例如 Ticagrelor 15% 比上 Clopidogrel 20%。

無論最後估計出來的結果是 Ticagrelor 略勝一籌或是兩者的事件風險相近,由於沒有辦法做到隨機分派,極可能一開始就存在著很嚴重的選擇性偏差,我們並無法得知觀察到的效果(無論是 Ticagrelor 略佳或是兩組無差異)到底是真實的,或是純粹由於選擇性偏差以及其他混淆因素使然。

另外一方面,往往 RWD 的樣本數比較大,因此上述的 2% 或甚至 1% 的差異都可能會有統計學的意義,此時會有檢定力過大(overpowered)的問題,也就是極小的臨床差異卻具有統計顯著性。

要解決這一點問題,只能靠事先假設(pre-specified hypothesis)的設定,而盡量避免以資料驅使(data driven)的方式進行多次的數據測試。而跟臨床試驗一樣,在分析開始之前,要根據過去研究或臨床判斷,要能大略預估預期的效果量,如此才能與實際觀察的效果之間作交互參照。


Residual confounding or unmeasured confounding


無論是統計校正或傾向分數分析,都只能控制可觀察到的變項(observed variable),對於未觀察的到的變項(unobserved variable)則無法有效的控制,因此可能導致估計效果具有偏差。



圖片來源:在此


RWD 的兩大來源之中(健康保險資料、醫院健康病歷 [EHRs]),健康保險資料通常缺乏一些重要資訊的直接測量,例如疾病嚴重度、檢驗值、生活習慣因子、身體測量(如體重、BMI)等;相較之下 EHRs 則通常包括這些資訊。

不過在健康保險資料中,可以使用診斷、處置、藥物加以間接測量這些缺乏的重要資訊,以作為這些重要變項的代理變項(proxy variable)。例如中風嚴重度 NIHSS (缺血性中風出血性中風2,3、左心室射出率(LVEF4、糖尿病的血糖或 HbA1C5;以及新型口服抗凝血劑(NOACs6等。

即使無法認同使用代理變項的方式,目前也已經有許多成熟的技術,可以具體地衡量某個或某些 unobserved variables 在組別之間的分布要到多麼不均勻,才會造成觀察的估計結果變成零(toward the null),其中又以知名流行病學家 Sebastian Schneeweiss 在 2006 年提出的 Array approach 與 Rule-out approach 受到廣為引用7

在進行敏感度分析之前,可以預先使用 Falsification endpoint 以及 negative control 的方式進行偵測是否存在 unmeasured confounder(s)8,9,倘若偵測發現極可能有unmeasured confounder(s) 存在,此時再用敏感度分析確認對觀察結果的影響可能有多大。這些方法目前在許多頂尖雜誌都已經在採用,例如 NEJM 與 JAMA 家族的期刊。


RWD 也不見得具有母群體代表性


即使是使用 RWD 作研究,病人族群、疾病與介入/處置也不見得具有母群體代表性,特別是非全民健保的國家,像美國的健康保險資料研究通常是使用商業保險或是美國醫療保險(Medicare),通常都不具備母群體代表性10

如果是使用 EHRs,可能使用的是急重症專責的醫學中心(例如台大醫院、林口長庚醫院),只能代表該醫院的情況,不見得可以類推至全國,因此推論有效性會受到限縮。

就算是使用台灣健保資料庫作為資料來源,然而資料內容沒有涵蓋純自費項目,因此治療(藥物、耗材、術式)也不見得具有全國代表性。

這邊額外注意的是,假使要研究剛剛上市或給付的新藥時,接受新藥的患者是為暴露組,而另外一群適應症條件不吻合或是在經濟上無法負擔者則是未暴露組,此時決定組別有一部份是系統性的因素,這可能會造成強烈的 Confounding by indication 的現象10


圖片來源:在此


雖說如此,臨床試驗一般來說也是不具有母群體代表性,通常臨床試驗收錄的患者都是層級較高或規模較大的醫療院所。因此摒除自費項目不談,台灣的健保資料庫確實是具有幾近完美的母群代表性(納保率接近 100%)。


未具有標準化的輸入方式


相較於臨床試驗,無論是保險資料或 EHRs,都比較可能會產生資料輸入錯誤、錯誤分類偏差(misclassification bias)、串接資料(data linkage)時的錯誤、編碼的落差(differences in coding practices)等問題,而且這些錯誤與偏差彼此之間可能還會交互影響10

上述的這些錯誤與偏差,其實都還是可以透過努力加以防範的。例如資料輸入錯誤可以透過邏輯檢查,找到系統性的問題並予以排除。據筆者所知,中國醫藥大學附設醫院就有專門一個團隊 ,在進行醫院病歷資料(EHRs)的檢查與勘誤。


圖片來源:在此


錯誤分類偏差除了作診斷碼、處置或結果變項的驗證(validation)之外,同時可以作錯誤分類偏差的敏感度分析,以評估此偏差對於目前估計結果的影響為何,以及要有多大的錯誤分類偏差才會導致觀察到的效果趨近於零11-14

串接資料時的錯誤必須透過對資料處理人員的訓練,最理想是可以有品管的檢查制度,這個部分筆者目前並不清楚台灣目前是否有研究團隊,真的可以針對資料處理的程式碼作檢查及驗證擷取結果的正確性,因為這樣等於是要配置兩個人力做一樣的工作。

至於編碼方式的落差則不只存在於機構之間(醫學中心的申報小組通常比較嚴謹),也存在於機構內(同一家醫院的不同申報人員的申報方式也存在著落差)。不過對於我們正在比較的治療組別而言,只要確認這些落差不會在組別(例如新藥組比上舊藥組)具有差別性錯誤分組(differential misclassification)的差異即可。


Cherry-picking(選擇對自己有利的)


對 RWD 具有讀取權(access)的團隊或研究人員,可以快速地分析資料,可能得到統計有顯著差異但臨床上沒有意義的結果;或是先得到結果之後,再做事後的解釋,進而可能得到許多虛假相關(spurious correlation)的研究發現。

特別是疾病與疾病之間的相關性研究最容易產生出虛假相關,例如 A 病的患者比上沒有 A 病的對照組,較容易發生 B 病;或是 A 病加上 B 病,相較於 B 病,會更容易發生 C 病。這也是之前台灣健保資料庫研究被外國學者投書的主要原因之一。

關於此點,已經有許多學者呼籲,應該要跟臨床試驗進行之前在「clinicaltrials.gov」先註冊一樣,真實世界研究在開始分析之前也應該要上網公告計畫書內容以及事先規劃的分析(pre-specified analyses),這可以有效避免選擇性報告(selective reporting),有效防範研究人員傾向於報告對自己有利的結果。




在發表時,應該也要檢附各種執行的細節,例如診斷碼(ICD-CM code)、藥物碼(ATC code)等,以增加研究的透明性,並讓後人有機會重現該研究的結果。

以及必須誠實交代有哪些統計結果是屬於事後分析的探索性結果(exploratory analyses),這點在臨床試驗尤其重要。由於臨床試驗要求事先註冊試驗內容,因此主要與次要的試驗終點、主要分析與額外分析都需先公開在網站,因此若部分統計分析是事後分析(post hoc analyses)則需要在論文中釐清。

只可惜目前並未有專門的 RWD 註冊網站,目前也有知名流病學者在奮力推動將 RWD 視為臨床試驗般,也強制性要求要先到網站註冊計畫書(protocol),之後才可正式執行10,15


結語


綜上所述,縱然真實世界研究總有這麼多的限制與可能存在的偏差,但最近這 20 年以來,由於網路的普及以及硬體設備的迭代讓醫學資料的「量大」且「更新速度快」,也導致資料庫研究這門新興學門的研究方法發展得非常蓬勃。

筆者認為,確實真實世界研究在短期內無法直接取代臨床試驗,但真實世界研究可以補充許多額外的資訊,例如針對易受傷害族群(小孩、孕婦、洗腎患者等),以及可延長臨床試驗的追蹤期以監控不量反應事件(safety study),乃至於改變或增加藥品的適應症等眾多功能。

我們有幸生活在這個醫學研究變革劇烈且迅速的世代,可以親眼所見典範轉移(paradigm shift)的現象,慢慢由「唯臨床試驗為尊」走向真實世界研究的方向,相信在不久的未來,真實世界研究將會比肩臨床試驗,在醫學研究中佔有極其重要的角色,不僅節省許多成本,最後也能利益到病人的健康。

(全系列文章結束)

參考文獻

  1. Sherman, R.E., et al., Real-world evidence—what is it and what can it tell us. N Engl J Med, 2016. 375(23): p. 2293-2297.
  2. Hung, L.-C., et al., Validation of a novel claims-based stroke severity index in patients with intracerebral hemorrhage. Journal of epidemiology, 2017. 27(1): p. 24-29.
  3. Sung, S.F., et al., Validity of a stroke severity index for administrative claims data research: a retrospective cohort study. BMC Health Serv Res, 2016. 16(1): p. 509.
  4. Desai, R.J., et al., Development and Preliminary Validation of a Medicare Claims–Based Model to Predict Left Ventricular Ejection Fraction Class in Patients With Heart Failure. Circulation: Cardiovascular Quality and Outcomes, 2018. 11(12): p. e004700.
  5. Patorno, E., et al., Claims‐based studies of oral glucose‐lowering medications can achieve balance in critical clinical variables only observed in electronic health records. Diabetes, Obesity and Metabolism, 2018. 20(4): p. 974-984.
  6. Huybrechts, K.F., et al., Claims Data Studies of Direct Oral Anticoagulants Can Achieve Balance in Important Clinical Parameters Only Observable in Electronic Health Records. Clinical Pharmacology & Therapeutics, 2019. 105(4): p. 979-993.
  7. Schneeweiss, S., Sensitivity analysis and external adjustment for unmeasured confounders in epidemiologic database studies of therapeutics. Pharmacoepidemiology and drug safety, 2006. 15(5): p. 291-303.
  8. Lipsitch, M., E.T. Tchetgen, and T. Cohen, Negative controls: a tool for detecting confounding and bias in observational studies. Epidemiology (Cambridge, Mass.), 2010. 21(3): p. 383.
  9. Prasad, V. and A.B. Jena, Prespecified falsification end points: can they validate true observational associations? Jama, 2013. 309(3): p. 241-242.
  10. Hemkens, L.G., D.G. Contopoulos-Ioannidis, and J.P. Ioannidis, Routinely collected data and comparative effectiveness evidence: promises and limitations. CMAJ, 2016. 188(8): p. E158-E164.
  11. Lash, T.L., et al., Good practices for quantitative bias analysis. International journal of epidemiology, 2014. 43(6): p. 1969-1985.
  12. Young, J.C., M.M. Conover, and M.J. Funk, Measurement Error and Misclassification in Electronic Medical Records: Methods to Mitigate Bias. Current Epidemiology Reports, 2018. 5(4): p. 343-356.
  13. Funk, M.J. and S.N. Landi, Misclassification in administrative claims data: quantifying the impact on treatment effect estimates. Current epidemiology reports, 2014. 1(4): p. 175-185.
  14. Lash, T.L., M.P. Fox, and A.K. Fink, Applying quantitative bias analysis to epidemiologic data. 2011: Springer Science & Business Media.
  15. Franklin, J.M., et al., Evaluating the Use of Nonrandomized Real‐World Data Analyses for Regulatory Decision Making. Clinical Pharmacology & Therapeutics, 2019.