WFU

2020年1月13日 星期一

攜出健保資料庫文章 2019 年之回顧與展望


文章作者:林星帆
首發日期:2020/1/13




2019 年的發表數量


筆者在 2019/1 時整理了關於國衛院時代的攜出健保資料庫在 2019 年的發表情形(文章連結在此),並預測『以 2018 年的 839 篇來推估,大約 2019 年會衰退至 570 篇左右』,本篇文章就讓我們來檢視 2019 年的發表情形。



資料來源:看見健康數據網站


首先我很開心地宣佈,我的預測完全失準(耶!XDDD),2019 年的攜出型健保資料庫總數為 896 篇,扣除一些 letter / correspondence to editor 以及收錄到非健保資料庫的文章,應該至少還有平 2018 年的水準(839 篇)。

老實說這個結果出乎筆者意料之外,只能推測是國內眾多研究者察覺到以健保資料庫發表文章的性價比實在是非常划算(若跟臨床收案或是基礎實驗相比),因此大家一窩峰趕緊將手上的積存文章給清掉。


發在高分雜誌的比例


先前調查一樣,筆者以 impact factor > 5 分作為高品質文章的代理變數(proxy variable),以比較從 2014 到 2019 發表在高分雜誌的比例。

下圖列出最近六年的 NHIRD 發表總數量、>5 分的數量以及 >5 分佔的比例。去除掉被 SCI 除名的『Oncotarget』之後,發現 2019 年發表在 >5 分的比例平 2018 年,為 8.7%(78/896)。





這也是蠻驚艷的發現,原本筆者假定由於國衛院時代的攜出健保資料庫的資料年代只到 2013 年就不再更新,隨著投稿時間越來越晚,按理說應該是投到高分雜誌的機會會越來越低,研究者使用舊資料的意願也會跟著降低。

關於這部分的原因,讀者可以看下圖,圖中列出 2019 年發表在 >5 分的 78 篇論文的資料最新年代之分佈情形,資料年度最新到 2011 年的還有 10 篇、2012 年有 19 篇而 2013 年多達 26 篇。



# 已排除 letter 以及非健保資料庫論文後的篇數


因此可以推測,在資料已無法更新的情況下,研究者更積極地使用 2012-2013 年份的資料作發表,而優質雜誌也願意接受,因此對於 2020 年的發表量,我們還是可以期待以 2012-2013 年份資料作為發表的文章數量還是會蠻多的。

另外由圖也可知,使用衛生福利部資料科學應用中心(加值中心)的論文數量也在上升(2018:3 篇;2019:9 篇)。不過在此要強調,『看見健康數據網站』並非針對加值中心的論文作關鍵字搜尋,因此加值中心的論文絕對不只有這 9 篇。


雜誌社與領域分佈


在發表 >5 分的雜誌社分佈,第一名以『Journal of Clinical Medicine』(JCM)的 11 篇居冠,不過大家需注意這家雜誌社是否會步入 2014-2015 年的『Medicine』後塵,大家可參考蔡依橙校長的這篇文章

第二名為風濕免疫科的雜誌『Rheumatology』計有 4 篇;發表數量達 3 篇的有四家雜誌社,分別為老年醫學的『Aging』、癌症腫瘤的『Cancers』、神經科的『Neurotherapeutics』以及環境衛生的『Science of the Total Environment』。

發表達兩篇以上的非常多家,大家可以自行看下圖。





接著看領域分佈,第一名是不分科(計有 14 篇),其中 JCM 就佔了 11 篇;接著分別為皮膚科與神經科各 7 篇;糖尿病/內分泌與癌症/腫瘤各 6 篇;風濕免疫、環境衛生與心臟科各 5 篇;肝膽腸胃與藥學各 4 篇;老年醫學與急救重症各 3 篇;營養、流行病學、眼科及精神科各 2 篇;成癮/物質濫用以及生殖遺傳各 1 篇。





其中的『環境衛生』這幾篇文章都是用外部資料與健保資料庫作串連,譬如氣象局/環保署的空污資料(例如 PM2.5)或是河川與土染的污染資料等。台灣的政府開放資料排名世界第一(相關報導在此),研究者確實可好好利用這些寶貴的資訊。


展望 2020 年


根據 2019 年發表文章的使用最新資料年代來看,於 2020 年使用 2012-2013 資料來發表的論文數量應該還是很可觀,即使打六折,發表總數仍可到 >500 篇的水準。

但根據國衛院的規定,如果是在截止之前的最後一刻申請(國衛院網頁)到攜出資料,加上因為審查需求而展延一年,資料使用的最晚期限是 2020/6/27,筆者相信目前多數研究者手邊的資料庫都已經過了國衛院規定的期限(請見下圖)。





因此 2020 年預估仍然會有相當多的篇數發表,但 2021 年之後,筆者相信就越來越困難了,極有可能每年的發表數量都是腰斬,直到 2023-2024 之後,可能攜出健保資料庫文章就會消失在世界的舞台。


加值中心


未來想要使用寶貴的健保資料庫,只能透過加值中心,雖然加值中心在過去的兩年內,連續降價了兩次(大約打了兩次 8 折,收費規則在此),試圖降低研究者使用加值中心資料的門檻,關於這一點我們非常肯定衛福部的政策。

但除了經費問題之外,更困難的是由於是限定在獨立作業區 On Site 操作的限制,要找到有獨立擷取資料庫以及分析經驗的人才難尋(或是流動率也比較高)。

除此之外,On Site 操作的效率也比較差,必須派專人前往加值中心或分中心進行作業,這種作業模式非常吃人力,等於進入作業的人員沒有辦法同時做其他業務的工作。

再者,獨立作業區電腦使用彈性較低,例如無法開啟多個帳號,同時擷取多組資料與進行分析,一次只能針對一組資料進行擷取與分析,效率與攜出型天差地遠。

最後則是由於衛福部礙於人權團體的監督,目前設定了很嚴密的保護措施,以確保不會洩漏與回溯任何的個資資訊,因此對於欲攜出文件的審查非常嚴格,審查期間也耗時耗力,對於分秒必爭的投稿戰場是非常不利的。

過去一、兩年,健保署有做了一些鬆綁使用的努力,例如開放死亡資料(新聞在此)以及 AI 產學合作(新聞在此)也是限制必須在獨立作業區處理資料,這對於促進醫學進步的幫助實在很有限,未來我們只能期待政府可以對於健保資料的開放使用做更多程度的鬆綁。