WFU

2019年1月6日 星期日

實驗介入成效之各種統計方法比較(上篇,傳統分析方法)


文章作者:林星帆
本文為重新編輯 2013/11起 發表在晨晰統計部落格的文章,這裡這裡這裡這裡這裡



圖片來源:在此


前言


在行為科學領域中(廣泛地來說,社會科學、醫學護理、運動體育、教育、管理等都可以算是行為科學)的研究,以「實驗介入」為主軸的研究不在少數。

而之所以實驗介入型的研究會一直引領風騷,主要是因為如果想要證明「因果關係」,那麼實驗法目前為止各種研究方法中最為強韌的方法,其餘研究方法例如觀察法或質性研究,都無法像實驗法如此提供這麼直接的因果推論(Casual inference)的證據。

在過去數十年間,實驗法的統計方法幾乎是由變異數分析(Analysis of variance)獨領風騷,當然共變異分析(Analysis of covariance, ANCOVA)也常見於期刊中,或甚至偶見直接以t檢定呈現結果的文章。

但這一、二十年間,有一些新的統計方法克服了舊統計方法的一些限制,而這些新統計方法又恰好可應用在檢驗實驗介入的成效分析,例如由生物統計學所發展出來的廣義估計方程式(Generalized estimating equation, GEE),或是由教育統計學所延伸的混合線性模式(Linear mixed model, LMM)。

本篇文章的主旨在於簡介這些統計方法在實際上的作法以及此作法背後的概念為何,並加以評論其優勢或劣勢所在,以期讓讀者在讀完這篇文章之後,能粗略地瞭解這些方法使用的時機。

另外也會提供該統計方法的「統計式」,這對習慣看公式的讀者有立竿見影的學習效果。

為了簡化,我們假設一共只有兩組人,分別為實驗組與控制組(對照組),測驗的時間點只有前測與後測共2次,並且暫不考慮控制變項的問題。接著我們就一項一項地討論,由簡單到複雜(也可說是由方法的舊到新)來作介紹。


t 檢定(t-test)


有學過統計的讀者都知道,t 檢定是推論統計(Inferential statistics)的最重要也是最基礎的第一堂課,而 t 檢定又分為獨立樣本(Independent sample)跟成對樣本(Paired sample)兩種情形。而 t 檢定在應用於實驗介入型研究時,是如何執行的呢?

讓我們來看下面這一張表,在表格中我們分別列出了兩組人的前測與後測的描述統計,最右邊欄位列出獨立樣本 t 檢定的結果,分別檢驗兩組在前測的差異以及兩組在後測的差異,由結果可知前測分數無組別差異而後測分數達顯著差異。





最下方的橫列是成對樣本 t 檢定的結果,將實驗組與控制組分開分析,檢驗該組前後測的差異,結果顯示實驗組的前後測達顯著差異,而控制組的前後測沒有顯著改變。

這是一個是最為理想的狀況,因為在一開始(前測)時實驗組就跟控制組是同質的了,這一點是很重要的,對於後續的所有比較都提供了可以繼續往下進行的合理性。接著又發現在後測時,實驗組比控制組表現更好。最後,又發現只有實驗組會進步,而控制組不會進步。因此各種跡象都顯示出,實驗介入確實是非常明顯地有效果。

但是,並不是每一個研究都能跑出這個完美的結果,常常遇見的狀況是,如果在前測時組別之間即有差異,那麼後面再比其他比較都是無效的。

還有一種常見的狀況,就是控制組有可能也是會進步的(無論是成長效應或是學習效果),在醫學護理類的文章,前測可能是病人入院時或罹病時,後測可能是病人出院時或出院後一段時間,在這種狀況之下就算控制組也會因為常規治療(Regular cure)而讓症狀舒緩進而改善,所以如果實驗組跟控制組都各別有顯著的進步,那麼我們如何以t檢定證實實驗介入是有成效的?

另外還有一點,如果以 t 檢定來檢驗實驗介入的效果,必須分別計算出四個 P 值(如下圖中的 4 個 P 值),在統計分析的角度上,這四個 P 值是獨立地計算出來的,因此會造成型一錯誤的膨脹(Inflation of type I error)。
由上所述,以 t 檢定檢驗介入成效只有一種狀況可以成立,就是我舉的這個例子,但事實卻往往不如人願,因此我們必須再學習更多不同的方法,以克服 t 檢定所無法處理的限制。

下面列出 paired t-test 的統計式(是為某一組別):

di = β0 + ei
其中
yi1 = 某人的前測分數 pretest score;
yi2 = 某人的後測分數 posttest score;
di = yi2–yi1 = 某人的前後測改變之差異;
下標i代表某一位研究對象

尤以上公式可知,「di」就是某人的前後測差值,以迴歸方程式表示的時候,它的唯一預測變項就只有「β0」此截距項,而 β就等於 di,若達顯著(P < 0.05)則代表在統計上顯著地與 不同,也就是前後測差值不等於 0,亦即前後測有顯著地改變(可能是顯著增加或是顯著減少)。


差異中之差異法 (Difference in difference, DID)


前述介紹完 t 檢定,現在大家知道它有許多的限制與不合理之處,接著接續介紹下一個方法,然而這個方法所使用的統計分析仍然是獨立樣本 t 檢定。

此方法稱為差異中之差異法(Difference in difference, DID),它的概念非常直觀,簡單來說就是「比較組別的前後測差值」,由前述的配對 t 統計方程式可知,實驗組與對照組都個別有進步幅度(也就是兩組都有一個平均的 di),如果組別在進步幅度達顯著差異(P < 0.05),而且又是實驗組的進步幅度顯著高於對照組,我們即可宣稱此差異即為實驗的淨效果。

讓我們先來看 DID 的方程式:
di = β0 + β1xi + ei
其中
yi1 = 某人的前測分數 pretest score;
yi2 = 某人的後測分數 posttest score;
di = yi2–yi1 = 某人的前後測改變之差異;
xi = 1 代表實驗組、xi = 0 代表對照組;
下標 代表某一位研究對象

此時方程式有兩個估計參數(迴歸係數),β表示對照組(xi = 0)本身的前後測差值;而 β表示實驗組的進步幅度減掉對照組的進步幅度,倘若 β達顯著時,而且是我們期望的方向,我們就可宣稱實驗介入效果有顯著差異,不過 DID 也是有其假設與限制,讓我們再看以下方程式的變化:

di = β0 + β1xi + ei
yi2–yi1 = β0 + β1xi + ei
yi2 = yi1 + β0 + β1xi + ei

由最後一行的方程式可知,後測分數(yi2)受到前測分數(yi1)的影響是被設定為 1 的,也就是說前測的斜率(迴歸係數)是被限制為 1,而且是兩組都被規定如此。

而這一點在研究上是一個假設:「進步幅度與前測分數無相關」(Differences are not correlated with baseline measurement)。

但現實的狀況可能會違反這個假設,讓我們假想一個狀況,如果我們現在不是隨機分派(Random assignment),而是準實驗設計(Quasi-experimental design),在教育領域可能實驗組是 A 班而對照組是 B 班,在醫護領域要當實驗組或對照組有時病人可以自行決定(單盲的研究或連單盲都沒有時)。

由於是非隨機分派,因此有可能兩組在前測分數就已經有差異,例如 A 班是資優班所以表現都比較好,而 B 班是普通班因此表現比較差一點,因此我們可以預期在前測時 A 班會比 B 班有更好的表現(假設我們測量的依變項是與學業成績有關),讓我們模擬可能的結果並整理在下表:



由上表可知,由於實驗組是資優班,所以在前測時的表現已經很優異,即使經過實驗介入後,對其助益有所限制,平均而言只進步了五分,這又可以稱做天花板效應(Ceiling effect)。

反之對照組一開始表現就普通,即使只是對其進行一般的課程,他們仍然可以進步,而且進步了 20 分之多。這即與上述提到的「前測的迴歸係數被限制為 1」是同樣的概念。

在這個例子中,很明顯地前測分數與進步幅度是負相關,因為實驗組前測分數較高所以進步幅度較少,而對照組前測分數較低所以進步幅度較多,因此假設不同水準的前測分數對進步幅度的影響是固定的,這本身就是一件不合理的事情。

此時如果我們用 DID 分析,可能會得到相反的結論:實驗組的進步幅度反而比對照組還少。因此我們瞭解了 DID 一個極大的限制:它只適合用在隨機分派的實驗設計,而且最好一開始兩組在前測就是同質的(Homogeneous)。

然而在真實的研究場域上,隨機分派不是這麼容易做到的事情,而且如果我們即使隨機分派但卻很倒楣地剛好兩組在前測就有差異呢?此時,我們必須學習到更多的統計方法,已解決此困境,接下來我們要介紹非常常見且強韌的共變異數分析(Analysis of covariance)。


單因子共變數分析(Analysis of covariance, ANCOVA)


在此之前,我們已經介紹了用獨立 t 檢定與配對 t 檢定以及 DID 用來檢驗介入的效果,也知道它們使用上的主要限制,接著我們要介紹任何領域上(例如教育、社會科學、醫學、護理)都很常見的共變異數分析(Analysis of covariance)。

簡而言之,共變數分析就是將前測分數也當成是後測分數的預測變項(或是說控制變項),然後檢定經過以前測分數調整之後的後測分數(Adjusted posttest)是否具有組間差異。

當然除了以前測分數當成共變數(控制變項)之外,當然也可以把其他的人口學變項放到方程式之中做控制,例如性別、年齡等重要的變項。

讓我們先檢視 ANCOVA 的迴歸方程式,由以下方程式可知其與 DID 的方程式非常相像,但是請注意前測分數(yi1)的迴歸係數是「β2」,是需要被估計的,因此不是像 DID 那樣被規定是 1,所以這一點來說是比 DID 較為合理,因為前測分數對後測分數的影響不一定是等於 1。

讓我們先來看 ANCOVA 的方程式:

yi2 = β0 + β1xi +β2yi1 + ei

其中
yi1 = 某人的前測分數 pretest score;
yi2 = 某人的後測分數 posttest score,在此即為共變數;
xi = 1 代表實驗組、xi = 0 代表對照組;
下標   代表某一位研究對象


ANCOVA 的優勢一


ANCOVA 有幾點最主要的優勢,首先是如果兩組在前測分數或基本變項具有一些差異的時候(例如實驗組的男生比例比控制組的比例高一些),它能創造出在統計上兩組為相同的組別(Statistically equate groups),讓這兩組在「統計上」是在各項基本特質為相同,有點類似要從統計上製造出隨機分派(Random assignment)的效果。

再者,也是最重要的一點,當我們選擇的共變數確實是與後測分數有相關的時候,譬如說依變項為憂鬱後測分數,除了憂鬱前測分數一定會與後測分數有正相關之外(介入前越憂鬱者,通常介入後應該還是較為憂鬱,反之亦然),我們也可以選擇年齡當為共變數,因為文獻有報導年齡與憂鬱為正相關。

在這種狀況下,置入確實與依變項有相關的共變數會降低依變項的未解釋變異量(reduce unexplained variability),最後能增加自變項的檢定力(Powerful),也就是說當組別之間真正存在著差異時,我們所能偵測到的機會會變大(Owen & Froman, 1998)。

讓我們用以下圖形來說明可解釋或未解釋變異量的概念。





圖中的三個圈圈分別代表自變項(組別)、依變項(後測分數)及共變數(前測分數)的變異量,重疊的部分為「共變」的部分,假設我們是隨機分組,因此有極大可能組別之間在前測分數不會有差異,也因此兩個變項之間沒有共變,所以圈圈就不會重疊。另外共變數與依變項有明顯重疊,因為我們都知道前測分數與後測分數會是正相關。

依變項原本的變異量是 100%(整個圈圈),我們可以看到自變項與依變項的重疊約為整個圈圈的 20%(有綠色標記的區域,目測是 20%)。

不過請注意如果將共變數與依變項所重疊的部分也移除(目測是 30%),也就是說當我們移除了共變數對依變項的效果之後,依變項的未解釋變異量從 100% 減少至 70%,所以此時自變項的 20% 已不再是 20%,而是 20% / 70% = 28.6%,而因此 ANCOVA 在計算自變項(組別)的 F 值時會得到一個比原本大的 F 值(不考慮共變數時),最後導致比較顯著的結果,也因此是我們所謂檢定力比較高的結果。


ANCOVA 的優勢二


ANCOVA 還有一個額外的好處,就是即使我們是隨機分組,但還是不能保證實驗組與對照組在前測分數及所有人口學變項都是同質的,或許實驗組還是比控制組有比較高或低的前測得分,而此時如果用獨立 t 檢定組別在後測的得分,可能會得到錯誤的結論。

讓我們看一下下面這個例子:



一開始實驗組就比對照組有較高的前測得分(70 vs. 60),而經過介入之後兩組都分別進步了 20 分,此時如果直接用獨立 t 檢定看兩組在後測的差異(90 vs. 80),會得到實驗組比對照組有更高的後測得分,進而宣稱這是實驗所造成的介入效果,很明顯地這個結論是錯誤的。

而此時若我們是用 DID 分析,會發現兩組的進步幅度無顯著差異(都是 20 分),或者是用 ANCOVA 比較調整後後測分數也會發現其實是沒有組別差異,在這個例子中,DID 或 ANCOVA 都可以得到相對正確的結論:介入無效。


ANCOVA的限制


目前為止,我們闡述了許多 ANCOVA 的概念與其優勢,接下來我們要列舉 ANCOVA 的主要限制與劣勢。

首先,如果研究採取的並非隨機分組,而是準實驗設計(Quasi-experimental design),像前述的 A 班級與 B 班級就可能本身存在系統性的差異,而非隨機性的差異,例如 A 班級在許多面向上都表現比較好(也包括前測分數),此時我們會發現自變項會與共變數的圈圈有所重疊(因為兩者之間有相關),如下圖所示。





有綠色標記的區域代表的是三個變項同時重疊的部分,此時自變項(組別)佔依變項(後測分數)的變異量變的有點複雜,由於自變項並未與共變數是獨立的,導致我們無法很乾淨地把自變項獨特對依變項可以解釋的部分給分離出來,這就是所謂的「variance partitioning」現象(對此現象的深入討論請參考 Pedhazur 1997 年的著作,有一章專門討論這個問題)。

而也因此我們其實無法確定自變項可以解釋多少的依變項的變異量,所以有可能增加也有可能是減少自變項的檢定力。(但很糟糕的是,我們無法知道到底是增加還是減少)

ANCOVA 還有一項主要的限制,這也是延伸前一個狀況,如果不是隨機分組的時候(例如觀察性研究),結果自變項(組別)在共變數或其他控制變項具有顯著差異,我們並不清楚這差異是來自隨機的抽樣誤差(random sampling error)或是其他的混淆因子(confounding factors),可能會造成著名的「Lord’s paradox」現象。

這個例子是說,假設現在自變項是性別(男生跟女生),依變項是一年之後的體重,共變數是現在的體重,假設男生一年前後的體重為 70、71 公斤,女生一年前後為 50、51 公斤,如果我們是要比較性別在體重的變化,那很明顯的是沒有顯著差異(因為男女都變重一公斤),可是此時如果用 ANCOVA 分析,則是會得到顯著的結果。

此時顯著的性別效果的解釋為:「當前測體重保持不變,男生比女生在一年之後更重」,可是問題什麼是「保持體重不變」?由於男生先天上就是比女生還重,根本不會存在男生跟女生在一開始體重是相同的事情發生,因此此時的 ANCOVA 對後測分數的「統計調整」會造成實際解釋上的困難。

所以總而言之,如果是在隨機分派的研究,可以放心地使用 ANCOVA 來檢驗介入成效,只是當挑選的共變數若與依變項的相關越低,則 ANCOVA 的檢定力越變的比較低,因為模式中所包括的變項越多就越不容易得到顯著的結論,若共變數與依變項的相關很高則 ANCOVA 的檢定力就變高,因為依變項的可解釋變異量變少了(相對的,自變項可以解釋的變異量變多了)。

需要注意的是,當不是隨機分組而且兩組在前測分數具有顯著差異時,要非常小心這個差異可能是因為隨機抽樣的變異(如此仍可以使用 ANCOVA),還是說可能是源自系統性的差異來源(例如 Lord’s paradox 一例中,體重前測的差異是來自性別,而男生一定比女生重就是系統性的差異,而不是隨機抽樣的差異)。


二因子混合設計變異數分析 (Two-way mixed-design ANOVA)


截至目前為止,我們已經學習到了三種方法,第一種是用獨立 t 檢定與配對 t 檢定(型一錯誤會膨脹)、第二種是 DID 分析(假設前測分數與差值無相關)、第三種是在隨機分派時檢定力最高的 ANCOVA。

接著我們要介紹使用率一直很高的多因子變異數分析(Multi-factor analysis of variance),尤其是在教育領域(不過我觀察到,使用的情形越來越少)以及醫學領域(尤其是 lab-based study)使用得特別多。


ANOVA的基本想法


由於我們要簡化狀況,所以拿來討論的是「2 × 2」的設計,前面的 2 表示組別有兩組(實驗組跟控制組),而且是組間因子(Between-subject factor);後面的 2 代表是時間點有兩次(前測與後測),而且是組內因子(Within-subject factor)。

這種同時有組間及組內因子的設計又稱做為「二因子混合設計」(Two-way designed),它的統計式如下:



其中
yi1 = 某人的前測分數 pretest score;
yi2 = 某人的後測分數 posttest score;
x1 = 1代表實驗組、x1 = 0 代表對照組;
x2 = 1代表後測、x2 = 0 代表前測;
下標   代表某一位研究對象

我們都知道從迴歸的角度來說,等號的右邊就是預測變項(predictor),因此我們從方程式中可以知道自變項包括:組別(x1)、時間(x2)以及組別與時間的交互作用(x1x2),而在統計上這個「交互作用」具有非常重要的意義,我們若允許這個交互作用項存在方程式裡,也就是我們方程式中有「β3」,這就表示我們「允許實驗組與對照組的斜率可以不同」,如下圖。



示意圖:允許交互作用存在時,兩組斜率可以不同


假使我們真的得到一個顯著的交互作用(β3達顯著),接下來作的事情就跟本系列第一篇文章所提到的獨立 t 跟配對 t 所做的事情是一樣的,亦即我們先檢驗組別分別在前測(與後測)是否有差異,再來檢驗前後測之間是否有差異(實驗組與對照組分開分析)。

這個程序有個專門的名稱:單純主要效果(Simple main effect)或單純效果(Simple effect)。只不過在多因子變異數分析之下所進行的單純效果分析,所用的誤差項(Error term)是整體的,因此其型一錯誤率(Type I error)仍然可以控制在一定的範圍內,而不會有膨脹的情形。

倘若我們的交互作用項未達顯著,那就必須移除交互作用項(β3)並且重新分析,只能比較組別與時間點個別的主效果(Main effect),這個時候我們就規定「實驗組與對照組的斜率必須相同」(不管合理不合理,統計模式設定的數學意義就是如此),如下圖:



其中
yi1 = 某人的前測分數 pretest score;
yi2 = 某人的後測分數 posttest score;
x1 = 1代表實驗組、x1 = 0 代表對照組;
x2 = 1代表後測、x2 = 0 代表前測;
下標   代表某一位研究對象



示意圖:交互作用不存在時,兩組斜率必須相同


ANOVA 的限制


目前聽起來多因子變異數分析好像還不錯,但是其實它有許多限制與不合理之處(由於是下一篇要介紹的 GEE 跟 LMM 相比較時),我們現在只提兩種狀況。

我們先看下圖的狀況,看起來兩組的斜率(β3)有可能會達顯著差異,然後我們就會進行單純主要效果,其中實驗組在後測可能比對照組分數顯著地更高。
但是試想,難道這結論沒有問題嗎?一開始在前測時,實驗組就已經表現的比對照組還好,那麼在後測時就算是實驗組比較好,我們也無法歸咎於是實驗介入的效果,多因子變異數分析沒有辦法像 ANCOVA 那樣可以「調整後測分數」,因此這是其主要限制之一。



示意圖:交互作用達顯著,但兩組在前測已有顯著差異


那麼是否只要兩組在前測分數沒有顯著差異,就可以放心地使用多因子變異數分析了呢?

這也不盡然,我們看下圖的例子可以知道實驗組在前測比對照組高 10 分(假設 P 值為 0.08),可是實驗組在後測顯著地比對照組分數更高(假設 P 值為 0.01),我們就會把這項差異歸功於實驗效果。

這其實如果用「進步幅度」來看,真正實驗組比對照組「進步的更多的幅度」只有 10 分,如果這個例子我們改用 DID 或 ANCOVA 或許會得到實驗介入無效的結論,而且看起來後者的正確性比較高。因此即使前測沒有顯著的組別差異(除非差異是接近 0),不然我們似乎很難嚴謹地從多因子變異數分析定義介入是有效或無效。



示意圖:交互作用達顯著,且兩組在前測未達顯著差異


參考文獻


  1. Owen, S. V. & Froman, R. D. (1998). Uses and abuses of the analysis of covariance. Research in Nursing & Health, 1998, 21, 557–562.
  2. Pedhazur, E. J. (1997). Multiple regression in behavioral research (3rd Ed.). New York: Harcourt Brace.