第九章 方差分析
方差分析(analysisof variance,ANOVA),又称F检验,适用于多个样本均数比较的假设检验,目的是推断各总体均数是否相等。
第一节 方差分析的基本思想
一、方差分析的基本思想
方差分析的基本思想是:将总变异分解为几部分,然后进行比较。
例题:为研究不同解毒药物对大白鼠血中胆碱酯酶的影响,现将24只大白鼠随机分为4组,每组6只,各组大白鼠分别使用A、B、C三种解毒药物和一个空白对照(D)进行处理,结果见表8-1,问四种不同的处理方法是否有差别。
方差分析中使用的表示符号:
研究指标(胆碱酯酶含量)——Yij
i——处理组数;j——受试者编号;k——处理组数;ni——第i个处理组的样本含量
此题是一个单因素的试验设计,处理因素只有一个:解毒药,该因素共有四个水平/处理组:A、B、C、D。对于这种的单因素试验设计我们考虑使用单因素方差分析。
单因素方差分析将中的变异分解为2部分:组间变异和组内变异,分别讲解:
1.总变异:24只大白鼠血中胆碱酯酶含量大小不等,各不相同,与总的均数20.0也不相等,称这种变异为总变异,用SS总表示,计算公式:
可以看出SS总是24个数值与总均数的离均差平方和,在讲离散程度指标时提到过用离均差平方和来表示数据间的差异大小有缺点,数据越多,SS总越大,所以必须扣除个数的影响(严格讲扣除自由度ν的影响),总变异的自由度用ν总表示,ν总=N-1,研究N个随机变量受的限制,只有N-1个可以自由取值,自由度为N-1。所以是描述总变异最好的指标,用MS总表示。
2.组间变异:各处理组的样本均数大小不等,与总的均属于不等,称这种变异为组间变异,用SS组间表示,计算公式:
同样,可以看出组间变异也是各处理组均数与总均数的离均差平方和,与总变异一样,处理组的个数越多,SS组间越大,所以要扣除处理组个数的影响(自由度的影响),组间变异的自由度用ν组间表示,ν组间=k-1,研究的k各处理组均数受的限制,由k-1个可以自由取值。所以是描述总变异最好的指标,用MS组间表示。
3.组内变异:各个处理组内部观察值之间的大小不等,以改组的均数也不等,称这种变异为组内变异,用SS组内表示,计算公式
组内变异的自由度用ν组内表示,ν组内=N-k,共N个随机变量受k个的限制,能自由取值的有N-k个。
是描述组内变异最好的指标。
以上为三种变异的分解,它们之间的关系为:SS总=SS组间+SS组内 ν总=ν组间+ν组内
如何进行比较?造成组内变异的原因——随机误差
造成组间变异的原因——有两种可能
一种:处理因素对研究指标不起作用——随机误差
另一种:处理因素对研究指标起作用——随机误差+处理因素的作用
如何知道处理因素是否其作用?——构建一个统计量F:
若F接近1,说明处理因素不起作用;F明显大于1,则说明处理因素起作用。
怎样才算接近1(有无统计意义),需要与相应的F界值比较,F界值表P409附表5(方差分析用)。要查F界值需要知道三个参数:α(检验水准)、ν1(分子自由度,组间自由度)、ν2(分母自由度,组内自由度)。
若F>F界值,P<α,拒绝H0,接受H1,说明处理因素起作用
若F<F界值,P>α,接受H0,说明处理因素不起作用
二、方差分析的应用条件
1.各样本相互独立(独立性)
2.各样本均来自正态总体(正态性)
3.各总体方差相等(方差齐性)
第二节 方差分析的步骤
1.建立假设并确定检验水准
H0:4个处理组大白鼠血中胆碱酯酶含量的总体均数相等
H1:4个处理组大白鼠血中胆碱酯酶含量的总体均数不等或不全相等
α=0.05
2.计算统计量
首先要将资料整理成P92表8-1的形式,并计算出各处理组的以及总的 ,然后使用下面表中的公式进行计算:
单因素方差分析的计算公式
变异来源 | SS | ν | MS | F |
总变异 |
| N-1 | ||
组间变异 |
| k-1 |
|
|
组内变异 | SS总-SS组间 | N-k |
|
其中:
准备计算:见表8-1
求:
ν总=N-1=24-1=23
ν组间=k-1=4-1=3
SS医.学全在线www.med126.com组内=SS总-SS组间=1016-568.333=447.667 ν组内=N-k=24-4=20
将结果整理成表:
单因素方差分析的计算公式
变异来源 | SS | ν | MS | F |
总变异 | 1016 | 23 | ||
组间变异 | 568.333 | 3 | 189.444 | 8.46 |
组内变异 | 447.667 | 20 | 22.383 |
3.确定P值,并作出统计推断
F0.05,(3,20)=3.10<8.48 P<0.05
∴按α=0.05的水准,拒绝H0,接受H1,可以认为4个处理组大白鼠血中胆碱酯酶含量的总体均数不等或不全相等。
第二节 平均值之间的多重比较
方差分析是对各组总体均数是否相等进行假设检验,若P>α,则按α的水准,接受H0,可以认为各组总体均数相等;若P<α,则按α的水准,,此时可认为各组总体均数不等或不全相等,究竟哪些组总体均数相等,哪些组总体均数不等,还需要进一步进行检验。
是否可以使用前面学到过的t检验进行两总体均数是否相等的检验?
涉及到Ⅰ类错误,若处理组数为3,任意两组间都进行比较,则需要比较3次,此时我们假设三组总体均数相等,各次t检验的α=0.05,则:1组与2组比较,犯Ⅰ类错误的概率为0.05,不犯Ⅰ类错误的概率为0.95,同理,1组与3组、2组与3组比较推断正确的概率也为0.95,每次检验都是独立的,则3次检验均推断正确的概率:0.953=0.857(根据概率的乘法法则),3次t检验累积犯Ⅰ类错误(至少有一次犯错误)的概率α’=1-0.857=0.143,比方差分析是确定的检验水准α要大,所以不能直接使用t检验进行各组间的两两比较。
要进行多个均数间的多重比较需使用专门的多重比较的方法,本书中介绍了3种:Bonferroni法、SNK法和Tukey法。
一、Bonferroni法
1.根据Bonferroni不等式,对各次两两比较的检验水准进行校正。Bonferroni不等式:当H0成立时,进行c次两两比较至少有一次推断错误的累积Ⅰ类错误概率α’<c*α,所以若令α’=0.05,则进行两两比较时确定的检验水准α>α’/c,此时就定α=α’/c。
例如:当c=3,α’=0.05时,新的检验水准α=0.05/3=0.0167,在作统计推断时,当P<0.0167才能拒绝H0,接受H1。
2.多重比较时的计算公式
式中:i、h分别代表两个对比组
3.t界值的计算
因校正后的新的检验水准在界值表中查不到,所以需要通过下面的公式换算
Z——标准正态分布曲线下尾部面积取α/2时对应的横轴上的坐标
ν——组内自由度
例:若α=0.0167,则α/2=0.0083,查表Z=2.395
4.例题
H0:μi=μh(任两对比组的总体均数相等)
H0:μi≠μh(任两对比组的总体均数不等)
α’=0.05,则α=0.05/6=0.0083
A:B
求界值:Z=2.645,
P<0.0083.
∴按α=0.0083的水准,拒绝H0,接受H1,可以认为A、B两种解毒药物对大白鼠血中胆碱酯酶含量的作用不同。
同理可以对A:C A:D B:C B:D C:D进行检验
P>α P>α P<α P<α P>www.med126.com/kuaiji/α
5.当比较次数不多时,用此方法好,但若比较次数较多(>10次)此法检验水准选择过低,偏于保守。
二、SNK法(q检验)
1.建立假设并确定检验水准
H0:μi=μh(任两对比组的总体均数相等)
H0:μi≠μh(任两对比组的总体均数不等)
α=0.05
2.计算统计量
1)将各组均数从大到小排列,并给出组次
平均值 28.0 18.7 18.5 14.8
原组号 B C A D
组次 1 2 3 4
2)计算统计量q
公式:
举例1:4比较
3.确定概率并作出统计推断
1)计算两对比组的组间跨度a:包括对比组在内的两对比组间包含的组数。
如:a1,4=4,a1,3=3
2)查q界值表确定P
P413附表6,需要已知的参数:组间跨度a、组内自由度ν、检验水准α
q0.05,(20,4)=3.96 P<0.05
3)作出统计推断
∴按α=0.0083的水准,拒绝H0,接受H1,可以认为D、B两种解毒药物对大白鼠血中胆碱酯酶含量的作用不同。
同理可以对A:B A:C A:D B:C C:D进行检验,结果见表8-3。
三、Tukey法(真正显著差法)
1.建立假设并确定检验水准
H0:μi=μh(任两对比组的总体均数相等)
H0:μi≠μh(任两对比组的总体均数不等)
α=0.05
2.计算统计量
1)计算各组均数只差的绝对值:
2)计算HSD:
式中:k——处理组数 N——观察值个数
n——两个对比组的样本含量,当ni=nh时,n= ni=nh
当ni≠nh时,n=min(ni,nh)
举例:A:B
q0.05,( 4,20)=3.96
3.统计推断 当di,h>HSD,拒绝H0,接受H1
当di,h<HSD,接受H0
本例9.5>7.65
∴拒绝H0,接受H1,可以认为A、B两种解毒药物对大白鼠血中胆碱酯酶含量的作用不同。
同理可以对A:C A:D B:C B:D C:D进行检验,结果见表8-4
第四节 方差齐性检验和数据变换
一、方差齐性检验
以例8-1讲解
1.建立假设并确定检验水准
H0:4个处理组大白鼠血中胆碱酯酶含量的总体方差相等
H1:4个处理组大白鼠血中胆碱酯酶含量的总体方差不等或不全相等
α=0.05
2.计算统计量
1)计算各处理组的中位数Mi:M1=17 M2=28 M3=18 M4=14.5
2)计算各处理组内各观察值与中位数之差的绝对值dij
3)用dij作为观察值进行单因素方差分析
dij | ni | ∑Yi | ∑Yi2 |
| ||||||
1 | 6 | 5 | 1 | 1 | 11 | 3 | 6 | 27 | 193 | 4.5 |
2 | 0 | 3 | 5 | 4 | 0 | 6 | 6 | 18 | 86 | 3 |
3 | 4 | 6 | 1 | 1 | 2 | 4 | 6 | 18 | 74 | 3 |
4 | 6.5 | 1.5 | 6.5 | 4.5 | 0.5 | 0.5 | 6 | 20 | 107.5 | 3.333 |
合计 | 24 | 83 | 460.5 | 3.458 |
对差值进行方差分析:
方差分析结果
变异来源 | SS | ν | MS | F |
总变异 | 173.485 | 23 | ||
组间变异 | 9.125 | 3 | 3.024 | 0.37 |
组内变异 | 164.333 | 20 | 8.217 |
C=287.043
3.确定概率值并作出统计推断
F0.05,(3,20)=3.10 P>0.05
∴按α=0.05的水准,接受H0,可以认为4个处理组大白鼠血中胆碱酯酶含量的总体方差相等。
除以上的方法外,书中还介绍了一种简单的、粗略的确定方差齐性的方法,,若F<3可初步判断方差基本齐。
本例各组方差S12=35.9 S22=17.2 S32=14.266 S42=22.166
,所以方差基本齐。
二、数据变换
对于一些明显偏离正态性和方差齐性的资料,若使用方差分析其结果可能产生偏差,可以通过数据变换,使资料满足正态性和方差齐性,使方差分析结果更稳定。
1.对数变换 适用于服从对数正态分布的资料
如:X=lgY 或 X=log10(Y+a) 其中:a可以是任意常数
2.平方根变换 适用于观察值为服从Poisson分布的计数资料
3.平方根反正弦变换 适用于二项分布资料
——用角度表示的变换公式,得到结果为角度
——用弧度表示的变换公式,得到的结果为弧度
其中:Y——用小数表示
第五节 随机区组设计的方差分析
一、随机区组设计(配伍设计)
随机区组设计是一种统计学中试验设计的方法,使配对设计的扩大化。
首先从总体中进行随机抽样,然后将样本中的全部受试对象按照某种特征相同或相近配成若干配伍组(每个配伍组中的受试对象个数>2),每个配伍组中的受试对象按照随机分配的方式分配到不同的处理组接受不同的处理。
如:随机选取24只小鼠进行试验,将小鼠按窝别相同配成配伍组每组3只,共8个配伍组,每个配伍组中的3只小鼠采用随机分配的方式分别给予3种不同的营养素(A、B、C)。
由此可以看出:每个区组中的受试对相个数=处理组数,用“k”表示
每个处理组中的受试对象个数=随机区组数,用“n”表示
二、随机区组设计方差分析的基本思想
将总的变异分解成3部分:处理组间变异、随机区组间变异和误差变异。
1.总变异:指全部观察值大小不等、参差不齐的差异,用SS总表示,其自由度为ν总=N-1
2,处理组间变异:指各处理组均数大小不等,与总均数之间的差异,用SS处理表示,自由度为ν处理=k-1,描述处理组间变异最好的指标为MS处理=SS处理/ν处理
3.区组间变异:指各区组均数大小不等,与总均数之间的差异,用SS区组表示,自由度为ν区组=n-1,描述区组间变异最好的指标为MS区组=SS区组/ν区组
4.误差变异:单纯由于随机误差造成的各观察值之间的差异,用SS误差表示,自由度为ν误差=(n-1)(k-1),描述误差变异最好的指标为MS误差=SS误差/ν误差
随机区组设计方差分析可以分析处理因素和区组因素是否对研究指标有影响,即:可以求得两个F值,F处理和F区组,其判定概率值的方法与完全随机设计单因素方差分析相同。
三、方差分析的步骤
1.1.建立假设并确定检验水准
H0:3个处理组小鼠体重增量的总体均数相等
H1:3个处理组小鼠体重增量的总体均数不等或不全相等
H0:8个区组小鼠体重增量的总体均数相等
H1:8个区组小鼠体重增量的总体均数不等或不全相等
α=0.05
2.计算统计量
首先要将资料整理成P103表9-1的形式,并计算出各处理组、各区组的以及总的 ,然后使用下面表中的公式进行计算:
随机区组设计方差分析的计算公式
变异来源 | SS | ν | MS | F |
总变异 |
| N-1 | ||
处理组 |
| k-1 |
|
|
区组 |
| n-1 |
|
|
组内变异 | SS总-SS组间 | (k-1)( n-1) |
|
其中:
求:
ν总=N-1=24-1=23
ν处理=k-1=3-1=2
ν区组=n-1=8-1=7
SS组内=SS总-SS处理-SS区组=4964.2-283.83-3990.31=690.06 ν误差= (k-1)(n-1)=14
将结果整理成表:
单因素方差分析的计算公式
变异来源 | SS | ν | MS | F |
总变异 | 4961.21 | 23 | ||
处理组 | 283.83 | 2 | 141.92 | 2.88 |
区组 | 3990.31 | 7 | 570.04 | 11.56 |
误差 | 690.07 | 14 | 49.29 |
3.确定P值,并作出统计推断
处理组:F0.05,(2,14)=3.74>2.88 P>0.05
区组:F0.05,(7,14)=2.76<11.56 P<0.05
∴按α=0.05的水准,接受H0,可以认为3个处理组小鼠体重增量的总体均数相等;按α=0.05的水准,拒绝H0,接受H1,可以认为8个区组小鼠体重增量的总体均数不等或不全相等。