WFU

2019年1月2日 星期三

健保資料庫(NHIRD)之資料庫簡介


文章作者:林星帆
本文為重新編輯 2014/8 發表在晨晰統計部落格的文章,這裡這裡這裡




前言


雖然目前國衛院發行的健保資料庫已不再發行以及更新,需進入到衛生福利資料科學中心(俗稱加值中心)進行作業,但其實加值中心裡頭的資料庫的組成結構與串聯方式與國衛院時代實為大同小異,因此本系列文章雖是介紹國衛院時代的資料庫內容,但對於未來要進入到加值中心的人員而言,還是具有參考價值。


健保資料庫簡介


健保資料庫(National health insurance research database, NHIRD)目前可謂是醫學領域的顯學,在 PubMed 搜尋「NHIRD」的關鍵字,可發現 2012 年後每年至少有 200-300 篇的文章被刊登,並且速度仍在增加當中,因此對於臨床醫師而言,已經不得不對健保資料庫有所瞭解了。

本系列文章旨在讓讀者對於健保資料庫的資料結構有所瞭解,當我們知道健保資料庫各次資料庫分別有什麼變項之後,可以幫助我們著手進行研究設計,最後我將討論健保資料庫的優勢以及面臨到的挑戰。

首先我們要瞭解到健保資料庫主要目的是「報帳」,也就是各醫療院所要向中央健康保險局(健保局)申報費用的報帳系統,然而由於台灣 2300 萬人從民國 84 年到現今的資料量實在太大,因此為了方便使用,國家衛生研究院(國衛院)會將健保資料按照不同分類、對象、年代分別建立眾多的次資料庫,以下我們稍作介紹。

國衛院發行的健保資料庫結構頗為複雜,需要先瞭解各種資料來源,接著在瞭解國衛院資料加值服務所提供的資料組合,資料來源部分分成①基本資料檔、②原始資料檔;資料加值服務所提供的資料組合則包括①基本資料檔、②系統抽樣檔、③特定主題分檔,④抽樣歸人檔以及⑤特殊需求。


資料來源-基本資料檔


下表列出「基本資料」的各種資料庫,所謂基本資料的定義就是「全台灣的母群體資料」,且為每年重新發行一次,以下介紹幾個最常使用的基本資料檔(Registration files)的檔案。



資料來源為國衛院網站


承保資料檔(ID)


ID 檔堪稱是基本資料中最重要的檔案,該檔案會有全台灣 2300 萬人的最後一次在保狀況(在保中或已退保)。因為紀錄某人的最後一次在保狀態,以 2014 年來說,如果仍在保那我們就知道某人在 2014/12/31 時仍然存活,而如果 ID 檔顯示此人在 2014/7/30 已退保,我們就知道此人追蹤時間不會超過 2014/7/30,ID 檔重要之處是可以計算病人的追蹤時間。


醫事機構基本資料檔(HOSB)


裡頭會有全台灣所有醫療院所的基本資料,例如評鑑等級、機構所在地的郵遞區號等等。評鑑等級可以用來判斷病人是在何種評鑑等級的醫院就醫,包括醫學中心、區域醫院、縣市醫院、診所;郵遞區號則是可以知道此機構的地理位置,例如我們可以分成北區、中區、南區或東區。


重大傷病證明明細檔(HV檔)


HV 則是用來確認病人是否有某種重大傷病,最常見的就是洗腎、先天性疾病(例如先天性心臟病)、癌症等等,會登記到 HV 檔的病人由於看病都是免費的,因此用 HV 來確認重大傷病是非常嚴謹的。


藥品主檔(DRUG)


DRUG 檔則是藥物總檔,會列出「累計」到目前為止健保局曾經批准核保的藥物,由於是累計檔,通常用最新一年的檔案即可,舉 2011 為例,DRUG 檔中約有 3 萬種藥物。不過通常會使用到 DRUG 檔就是涉及到藥物研究,一般藥物研究在健保資料庫會是難度較高的研究。


資料來源-原始資料檔


接著是原始資料檔,相較於基本資料檔,也就是無法一次拿到全台灣 2300 萬人的所有資料,而是要按照申請案的類型,看是「系統抽樣檔」或是「特殊需求申請」而提供某種特定個案的資料。

按照我目前使用經驗,以下幾個原始資料檔(Original Claim Data)的檔案最常使用。



資料來源為國衛院網站


住院醫療費用清單明細檔(DD)


DD 檔記載了每一個病人當次住院的各種費用明細、主次診斷(ICD-9)及主次手術/處置,DD 檔的資料單位(unit)是每一次住院,但如果此人住院超過 30 天,醫療院所每 30 天要向健保局申報一次,若此人住院 50 天,則在 DD 檔則會有 2 次紀錄,因此要作「歸戶」的動作。

在研究健保資料庫時,DD 檔是非常重要的檔案,因為可由 DD 檔判斷出非常多的醫療細節,至少包括:住院日期與出院日期(可算住院天數)、在院是否死亡(由轉歸代碼判斷)、本次出院診斷為何(1 個主診斷、4 個次診斷)、本次出院手術/處置為何(1 個主、4 個次)、醫療總費用及細項(例如手術費、藥費等)。


住院醫療費用醫令清單明細檔(DO)


DD 檔是以住院為單位,其費用大都是分類過後的總費用,例如病人同一次住院期間可能做過好幾種手術,但 DD 檔只會有這一次住院的所有手術加總的費用;藥費也是一樣,DD 檔只提供本次住院期間所有藥費的加總。

DO 檔則是每一次住院的所有明細,統稱為醫令(Order),舉凡任何一項瑣碎的費用皆需記載在醫令檔,例如病人住院期間可能動了三種不同的手術,那麼在醫令檔中就可以找到這 3 筆醫令的資料,包括單價、數量及總價。

DO 檔的資料單位是醫令,有可能一次住院就申報了數百筆至數千筆的醫令,例如食鹽水、護理人員照護費、醫師診察費、A 手術的手術費、B 手術的手術費、加護病房費、各式各樣的耗材費,全部都詳細地記載在醫令檔之中。

醫令檔還有一個額外的用處,即由於 DD 檔的手術/處置碼只有 5 個(1 個主+4 個次),有些嚴重的病人在住院期間可能會作了很多處置或手術,而DD 檔只能提供五個,此時可利用 DO 檔來判斷各種處置或手術。


門診處方及治療明細檔(CD)


CD 檔記載了每一個病人當次門診的各種費用明細、主次診斷及主次手術/處置,CD 檔的資料單位(unit)是每一次門診。

一般用 CD 檔較常擷取的內容為診斷碼(3 個診斷,沒分主或次)、手術/處置碼(僅有 1 個主手術代碼)、醫療總費用及細項(例如藥費、診察費等)。

值得注意的是,門診也有可能會有手術,例如疝氣手術、清創手術,因此 CD 檔有提供一個手術/處置碼。


門診處方醫令明細檔(OO)


相較於 DO 檔是住院醫令,OO 檔則是記錄本次門診所開立的醫令,例如藥物明細,包括單價、數量及總價。


特約藥局處方及調劑明細檔(GD)與特約藥局處方醫令檔(GO)


GD 跟 GO 則是「慢性病連續處方箋」的記錄檔,慢性病例如糖尿病、高血壓或高血脂等,由於罹患慢性病的病人通常病情比較穩定,不需要每個月為了拿藥又要回到醫院排隊、看診及批價,因此可以直接到一般藥局或診所領藥。

例如以糖尿病為例,就是每三個月要領一次藥順便抽血檢查。

通常是作慢性病的藥物研究才會使用到 GD 跟 GO 檔,關於慢性病的涵蓋範圍與規定可參考健保局網站


資料加值服務所提供的資料組合


瞭解了「資料來源」之後,我們要明白到一件事情,由於健保的原始資料過於龐大,對研究者而言非常難以使用,因此國衛院會將健保局提供的資料建置為各類加值資料檔案,以利研究者使用。

主要分成兩種:「制式光碟片」與「特殊需求申請」,其中制式光碟片又包括了①系統抽樣檔、②特定主題分檔及③抽樣歸人檔,以下將稍作說明。


基本資料檔


如國衛院網站所說明:醫事機構病床主檔(BED)、醫事機構診療科別明細檔(DETA)、醫事機構基本資料檔(HOSB)、專科醫師證書主檔(DOC)、醫事人員基本資料檔(PER)、重大傷病證明明細檔(HV),以及門診、住院費用總表等九類資料檔,製成一片檔光碟發行。

承保檔雖屬基本資料(registry),因其檔案較大,另以「特定主題分檔」發行。

每一年度都會有其基本資料檔,因此如果研究時間涵蓋五年,那一般都會購買這五年的基本資料檔,共五片光碟。


系統抽樣檔


系統抽樣檔有兩組資料,第一組是 DD 跟 DO 的系統抽樣,以該年度 1/20 的比例抽樣;第二組是 CD 與 OO 的系統抽樣,以該年度 1/500 的比例抽樣。

但由於此類系統抽樣無法將同一個人的資料作「歸人」的處理,也就是說,若我們同時申請兩年的 DD/DO 系統抽樣檔,我們也無法辨識同一個人在這兩年是否皆有資料,因此一般研究比較少使用這類檔案。


特定主題分檔


特定主題分檔的檔案非常多種,但依照個人使用經驗,主要常用的還是ID(承保檔)。

ID 承保檔雖然算是基本資料檔,但由於資料過於龐大,因為放了 2300 萬人的承保資料,因此另外以特定主題分檔的方式發行。

常見的特定主題分檔(Data subsets)的檔案可參考下表。


資料來源為國衛院網站


歸人抽樣檔-承保抽樣歸人檔


承保抽樣歸人檔(LHID)是一般研究者進行健保資料庫最常用的套裝組合,又稱之為「百萬歸人檔」,以 LHID2000 為例,就是西元 2000 年所有在保的身份證字號(ID)中,隨機抽取 100 萬個 ID,並且擷取每人各年所有就醫申報資料(包括門診 CD/OO、住院 DD/DO 及特約藥局 GD/GO),製成承保抽樣歸人檔。

目前一共有 LHID2000、LHID2005 及 LHID2010 三套百萬歸人檔,不過目前比較少用 LHID2010 作研究,因為以 2010 在保作抽樣,若以前瞻性研究而言(Prospective study),其追蹤期可能不到 4 年(以目前 2014 年而言),因此目前通常以 LHID2000 及 LHID2005 較常見。

百萬歸人檔是作縱貫研究非常強大的一組資料,以 LHID2000 為例,我們可以有 100 萬人從 1996~2012(更新至2013年底後即不再更新)這將近 20 年期間的所有就醫資料,包括住院、門診及慢性連續處方箋(特約藥局)的所有資料,因此非常適合作前瞻性研究或縱貫型研究。

不過百萬歸人檔有個限制,即不適合研究罕見疾病或罕見的暴露因子,若某疾病的每年發生率僅 10 萬分之 1,以全台灣 2300 萬人來說,每年平均只有 230 人發病,若再除以 23 倍(100 萬人除以 2300 萬人),則每年僅有 10 個病例,這樣的病例數恐怕不足以作有效的統計分析。

除了百萬歸人檔,國衛院還提供了「糖尿病人抽樣歸人檔」,每年從新增的糖尿病患者中隨機抽取 12 萬人,一樣可擷取 1996~2012(更新至 2013 年底後即不再更新)的所有就醫資料。每年的 12 萬人皆分成 3 組發行,每一組包括 4 萬人。


特殊需求申請


「特殊需求」申請的意思是向國衛院申請某些條件的病人資料,通常都是符合某些條件、診斷、處置之下的病人。

例如我們欲研究先天性心臟病(Congenital heart disease, CHD),但是由於人數稀少因此不適合用百萬歸人檔來研究,此時就可向國衛院申請特殊需求,例如申請所有符合先天性心臟病(ICD-9:740–759)病人從 1996~2012(年份可自己選擇)期間的所有就醫資料,這等於是拿到全台灣所有 CHD 病人的就醫資料,也是非常強大的資料型態。

特殊需求內容包括門診處方及治療明細檔(CD)、門診處方醫令明細檔(OO)、住院醫療費用清單明細檔(DD)、住院醫療費用醫令清單明細檔(DO)、特約藥局處方及調劑明細檔(GD)、特約藥局處方醫令檔(GO)、物理治療所調劑檔(GDD)、物理治療所醫令檔(GOO)等 8 個檔案,可以不用一次申請全部檔案,例如可以只申請 DD 跟 DO,等於是住院歸人檔的意思。