WFU

2018年12月24日 星期一

健保資料庫(NHIRD)的方法應該怎麼寫(上集)


文章作者:林星帆
重新編輯於 2015/11 發表在晨晰統計部落格的文章,這裡這裡這裡這裡這裡


圖片來源:在此


前言


筆者從 2012 年以來協助完成了許多健保資料庫的論文發表,因此接觸到了許多尚未投稿的論文草稿(Draft / manuscript)。

然而筆者發現健保資料庫類型的方法(Methods)其實寫法非常固定,必須提及的部分大概就是那些內容,但是筆者觀察到當研究者是第一次撰寫健保資料庫文章,對於 Methods 會有撰寫困難,因此本文將提供個人的經驗與心得,希望能幫助到 NHIRD 的研究新手。


撰寫Methods的必須項目


下表列出筆者綜合多篇健保資料庫已發表論文後,整合出建議撰寫的項目,這些項目都是屬於次標題(Section),隸屬於 Part 之下(Introduction, Methods, Results, and Conclusion 都是屬於 Part)。

當然這些 Section 有些可以整併在一起,例如 Data source 常與 Study patients 寫在同一節、Covariates 與 Outcome 也常被合併在同一節,因此一般來說 Methods 至少包括 3 節而至多包括 6 節。




其中有一個項目(Exposure to medication / treatment)不一定會出現,只有在比較介入處置(Treatment)的時候才會需要,特別是在藥物研究的時候通常會必須報告如何定義藥物的暴露量。

也有可能是不同耗材的比較,例如心臟支架的第一代與第二代之間的比較,或甚至是內科與外科手術方法的比較,也都必須說明是如何定義各個組別。


(一)資料來源(Data source / Database)


筆者根據目前協助的經驗,整理了關於健保資料庫資料來源(Data source / Database)應說明的項目(上表),一篇高品質的健保資料庫論文應該至少要說明主要的加值資料為何、申請資料的涵蓋期間、最好可以有關於診斷碼的驗證研究以及其他事項,以下分別說明。


說明主要的加值資料


絕大多數健保資料庫都會使用到病人的『就診資料』(Claims),包括門診處方及治療明細檔(CD)、門診處方醫令明細檔(OO)、住院醫療費用清單明細檔(DD)、住院醫療費用醫令清單明細檔(DO)、特約藥局處方及調劑明細檔(GD)、特約藥局處方醫令檔(GO)等,可確實掌握病人在追蹤期間的所有門診(CD / OO)、住院(DD / DO)及連續處方箋(GD / GO)的診斷及處置內容。

然而在健保資料庫中,至少有兩種資料加值組合包括以上這些病人的『就診資料』,分別為『承保抽樣歸人檔』以及『特殊需求申請』。

承保抽樣歸人檔包括承保抽樣歸人檔(LHID,即百萬歸人檔)以及糖尿病人抽樣歸人檔(LHDB,每年抽取 12 萬名新糖尿病)。

特殊需求申請則是根據研究者所申請的條件為何,例如全臺灣的糖尿病患者、安裝過心律調節器(Pacemaker)的患者等。

因此在 Data source 一開始就得介紹本研究使用的主要加值資料是來自於健保資料庫的哪一個子集(Subset)。

此外關於『基本資料』(制式光碟片)以及『承保檔』(特定主題分檔)則不需特別說明。筆者常使用的基本資料檔包括醫事機構基本資料檔(HOSB)及重大傷病證明明細檔(HV)。

承保檔則是前瞻性研究(Prospective [cohort] study)非常重要的檔案,可用來判斷最後一次追蹤狀態(The last follow up)。




資料的涵蓋期間


緊接著第一點的說明加值資料之後,當然就是交代申請的資料涵蓋期間,例如本研究(就診資料)包括從 2000 年到 2013 年的所有門診、住院與連續處方箋的紀錄。

這邊有幾個經驗分享,大家看到大多數的健保資料庫論文都是使用 2000 年(含)之後的資料,這主要有兩個原因。

首先臺灣全民健康保險是由 1995 年 3 月開始起辦,因此不難想像剛開辦的前幾年的申報流程及診斷碼正確性都會比較有問題,因此過了好幾年之後(例如 1998 開始)才比較步入正軌。

另一方面則是臺灣在 2000 年才統一採用國際疾病分類(ICD-9-CM)疾病診斷碼,在 1995~1999 則是 A-code 及 ICD-9-CM 並行使用,因此許多研究者為嚴謹起見乾脆只使用 2000年 之後的資料。


倫理審查的宣告以及其他項目


當我們已經描述過主要的加值資料、申請資料的涵蓋期間、關於診斷碼的驗證並且描述資料庫包括的內容(以判斷研究變項),其實已經及格了,接著若還能再多描述一些周邊項目,則可能還有加分的效果。

下表列出以下這些「加分項目」,其中 IRB 的號碼應該算是必備項目(註:大多數醫院在 2012 年之前並未強制規定進行健保資料庫研究要有 IRB 的免審證明)。




以下這幾項加分項目中,值得一提的是國衛院針對大多數的抽樣歸人檔都有做驗證報告,例如關於承保抽樣歸人檔(俗稱百萬歸人檔)的基本資料驗證報告、糖尿病人抽樣歸人檔以及肺癌病人歸人檔等,若可以引用這些報告,可讓資料來源的可信度大為上升。


(二)描述從資料庫擷取的內容


在資料來源中應該要提到使用資料庫的哪些內容,以擷取本研究的研究變項,大概可以分成幾個大類,如下表所示)。

首先是基本資料的部分,又可以細分為病人本身的基本資料、就醫機構的基本資料以及醫事人員的基本資料。其中醫事人員比較常以主治醫師的基本資料為主,特別是以手術作為納入條件的研究,可能會特別關心主治醫師的年資與手術量(Surgeon volume)跟病人預後的關係。

最重要的就是疾病的判斷,無論是排除條件、納入條件、共病以及主要結果變項都可能會使用到疾病碼的判斷,因此必須在資料來源宣告是使用國際疾病分類〈The International Classification of Diseases, Ninth Revision, Clinical Modification; ICD-9-CM code〉來判斷本研究所有跟疾病有關的變項。

若本研究會使用到手術或處置的判斷,在健保資料庫中有兩種判斷方式,其一為 ICD-9-CM procedure code(俗稱 OP code),其二為臺灣健保碼(Taiwan NIH code)。

OP code 雖然是國際通用,但問題是以住院申報來說,我們取得的健保資料庫每一次住院申報最多只有 5 個 OP code 的欄位,因此很可能會有遺漏。

因此實務上我們都使用臺灣健保碼來判斷手術或處置,不過這部分的代碼由於並非國際通用,因此或許可以以附錄的方式呈現(如果代碼很多)。


(三)收案條件或結果變項的疾病診斷碼及其驗證


接著是疾病診斷碼的驗證(Validation),一般來說每個研究最重要的變項不外乎收案條件(Criteria of enrollment)、主要分組條件(Study group)以及主要結果變項(Primary outcome variable)。


純粹診斷碼的驗證


如果欲登上高分期刊,以上三個重要變項的疾病診斷碼最好可以經過驗證,我們以最常見的糖尿病為例,下圖是   Lin Cheng-Ching 等人(2005)發表在臺灣醫誌的健保資料庫疾病碼驗證研究,該研究是以問卷調查(Survey)當成是黃金指標(Golden standard),也就是真正的疾病有無是根據問卷調查的結果。

由下圖(Table 2)可知,Number of outpatient visits ≥ 4 一共有 923 人(Concordant 883 人與 Discordant 40 人),Concordant就是健保資料庫與問卷調查的結果一致者,Discordant 就是兩者不一致。


資料來源:在此


於是如果我們收案條件為病人需至少有 4 次(以上)的糖尿病門診診斷(ICD-9-CM: 250.xx),其真正是糖尿病者的機率是 95.7%(883 / 923)。

反之,如果我們是沒有限定糖尿病門診診斷次數,而是 1 次(以上)的門診診斷就認定是糖尿病患者,如此的正確率剩下 74.6 %([63 + 28 + 33 + 883] / [1007 + 343]),因此可知如果我們的收案條件(分組條件或Outcome)如果是糖尿病,那最好可以設定需符合至少 4 次以上的門診來認定,而且有文獻可以讓我們引用,證據力與表面效度會非常充足。


診斷碼加上處置碼的驗證


關於疾病的分類,由於臺灣健保資料庫從 2000 年開始全面啟用 ICD-9-CM 後,一直到目前最新釋出的資料(2013年)仍繼續沿用 ICD-9-CM,但目前已有更精確的分類系統 ICD-10-CM(於 2016 年開始實施),因此可見有些疾病其實在 ICD-9-CM 並沒有被分類到,此時研究者必須根據臨床上的實際情況予以定義。

以急性呼吸窘迫症候群(Acute respiratory distress syndrome, ARDS)為例,這麼常見且嚴重的疾病,其實 ICD-9-CM 並沒有這項診斷,因此研究者引用過去的定義(而且還是國外的研究),結合 ICD-9-CM 診斷碼及 ICD-9-OP 處置(手術)碼,ICD-9-CM為 518.5 或 518.82(急性呼吸衰竭)合併ICD-9-OP為 96.70, 96.71, and 96.72(插管)定義為 ARDS。


 資料來源:在此


資料來源:在此


小結


收案條件、分組條件或 Outcome 如果可以的話,盡量要能找到臺灣健保資料庫疾病碼的驗證研究,如果臺灣 NHIRD 沒有此類研究,次佳方案則是引用國外資料庫的驗證研究。

假設該疾病完全沒有被驗證過,那麼就會建議用相對嚴格的標準,例如收案或分組條件要至少 3 到 4 次的門診主診斷,Outcome 則是以住院主診斷為認定標準。


(四)收納病人的條件(Study patient / Study cohort)


在健保資料庫的 Method 第三部分為收案條件(Criteria of enrollment)的說明,這部分非常的重要,因為必須說明本研究的研究對象是符合哪些條件的病人(Inclusion criteria),並且基於何種原因排除了哪些病人(Exclusion criteria)。

下表整理了筆者建議關於「收納病人的條件」(Criteria of study patient enrollment)應說明的項目,大致可簡化為「收案條件」與「排除條件」兩大項,不過一篇優良的健保資料庫文章還需要交代一些重要的細節。




實際例子


下圖列出吳俊穎教授指導的文章的流程圖(Gut 2015;64:495–503),由圖的最上方文字方塊可知從 1997/1/1 至 2011/12/31 期間有 C 肝診斷(一次門診診斷就可以)者,一般來說筆者會建議如果用門診診斷作為收案條件,可能至少要 3 次以上會比較嚴謹一點。

不過吳俊穎教授之所以用這麼寬鬆的納入條件,正是因為他們有非常嚴格的排除條件,包括排除了曾有 B 肝診斷者及未做 C 肝血清檢驗者(第一區塊的 Exclusion criteria),因此他們使用嚴格的排除條件來確認這些都是真正的 C 型肝炎的患者。

接著第二區塊的 Exclusion criteria 則是跟收案條件(C 肝)無關,而是跟本研究的結果變項(Outcome)有關,本研究的主要 Outcome 包括死亡、ESRD(洗腎)、ACS(急性冠狀動脈症候群)、缺血性中風及自動免疫疾病(必須持重大傷病卡)。

因此他們排除了年紀大於 70 歲者,因為年齡太大者的死亡率會過高,可能會干擾到研究結果;排除之前有慢性腎病(含洗腎者)、ACS 及缺血性中風者,不過似乎原作者並未排除已經罹患自動免疫疾病者。

另外作者還排除了罹患者癌症者(應該也是為了死亡率不要過高)、肝功能缺損(他們要的是有 C 肝,但肝功能還正常者)以及有心理疾病者(因為這些患者可能會禁用 C 肝的專門用藥)。

重點是最右下角的排除條件,排除了 33,975 名沒有使用 interferon 或 ribavirin 的 C 肝患者,這兩個藥物是 C 肝的專門藥物,也就排除沒有使用這些藥物者,代表留下來的是「C 肝且有用藥的患者」,因此定義非常嚴謹。


資料來源:在此


資料來源:在此