协方差分析理论与案例
假设我们有N 个个体的K 个属性在T 个不同时期的样本观测值,用it y ,it x ,…,N,t=1,…,T,k=1,…,K 表示。一般假定y 的观测值是某随机实验的结果,该实验结果在属性向量x 和参数向量θ下的条件概率分布为(,)f y x θ。使用面板数据的最终目标之一就是利用获取的信息对参数θ进行统计推断,譬如常假设假定的y 是关于x 的线性函数的简单模型。协方差分析检验是识别样本波动源时广泛采用的方法。
方差分析:常指一类特殊的线性假设,这类假设假定随机变量y 的期望值仅与所考察个体所属的类(该类由一个或多个因素决定)有关,但不包括与回归有关的检验。而协方差分析模型具有混合特征,既像回归模型一样包含真正的外生变量,同时又像通常的方差一样允许每个个体的真实关系依赖个体所属的类。
常用来分析定量因素和定性因素影响的线性模型为:
*,1,,,1,,it it it
it it y x u i N t T αβ'=++=???=??? 从两个方面对回归系数估计量进行检验:首先,回归斜率系数的同质性;其
次,回归截距系数的同质性。检验过程主要有三步:
(1) 检验各个个体在不同时期的斜率和截距是否都相等;
(2) 检验(各个体或各时期的)回归斜率(向量)是否都相等; (3) 检验各回归截距是否都相等。
显然,如果接受完全同同质性假设(1),则检验步骤中止。但如果拒绝了完全同质性性假设,则(2)将确定回归斜率是否相同。如果没有拒绝斜率系数的同质性假设,则(3)确定回归截距是否相等。(1)是从(2)、(3)分离出来的。
基本思想:在作两组或多组均数1y ,2y ,…,k y 的假设检验前,用线性回归分析方法找出协变量X 与各组Y 之间的数量关系,求得在假定X 相等时修定均数1y ',2y ',…,k y '然后用方差分析比较修正均数间的差别,这就是协方差分析的基本思想。
协方差分析的应用条件:⑴要求各组资料都来自正态总体,且各组的方差相等;(t 检验或方差分析的条件)⑵各组的总体回归系数i β相等,且都不等于0(回归方程检验)。因此,应用协方差分析前,要对资料进行方差齐性检验和回归系数的假设检验(斜率同质性检验),只有满足上述两个条件之后才能应用,否则不宜使用。
⑴各比较组协变量X 与分析指标Y 存在线性关系(按直线回归分析方法进行判断)。
⑵各比较组的总体回归系数i β相等,即各直线平行(绘出回归直线,看是否
平行)。
协方差分析适用的资料:完全随机设计、随机区组设计、拉丁方设计、析因设计等资料;协变量X 可以仅有一个,称一元协方差分析;协变量也可以有多个,称多元协方差分析。
协方差计算公式:
相关系数:()()x x y y r --=
将公式右端的分子分母同除以自由度(n -1),得:
()()/(1)x x y y n r ---=
其中:
2
()
1
x x n --∑是x 的均方MS x ,它是x 的方差2
x σ的无偏估计量; 2
()
1
y y n --∑是y 的均方MS y ,它是y 的方差2y σ的无偏估计量;
()()1
x x y y n ---∑称为x 与y 的平均的离均差的乘积和,简称均积,记为MP xy ,
即
()()
()()=1
1
xy x y xy x x y y n MP n n -
--=
=
--∑∑∑∑ 与均积相应的总体参数叫协方差(covariance ),记为COV (x ,y )或xy σ。统计学证明了,均积MP xy 是总体协方差COV (x ,y )的无偏估计量,即EMP xy = COV (x ,y )。于是,样本相关系数r 可用均方MS x 、MS y ,均积MP xy 表示为:
MP r =
相应的总体相关系数ρ可用x 与y 的总体标准差x σ、y σ,总体协方差COV(x ,y )或xy σ表示如下:
(,)
xy
x y
x y
COV x y σρσσσσ=
=
均积与均方具有相似的形式,也有相似的性质。在方差分析中,一个变量的总平方和与自由度可按变异来源进行剖分,从而求得相应的均方。统计学已证明:
两个变量的总乘积和与自由度也可按变异来源进行剖分而获得相应的均积。这种把两个变量的总乘积和与自由度按变异来源进行剖分并获得相应均积的方法亦称为协方差分析。
1.协方差分析是将线性回归与方差分析相结合的一种分析方法;
2.把对反应变量Y 有影响的因素X 看作协变量,建立Y 对X 的线性回归,利用回归关系把X 值;
3.化为相等,再进行各组Y 的修正均数间比较。修正均数是假设各协变量取值固定在其总均数时的反应变量Y 的均数。
其实质是从Y 的总离均差平方和2()Y Y ∑-中,扣除协变量X 对Y 的回归平方和2
()Y Y ∧
∑-,对离回归平方和2()Y Y ∧
∑-作进一步分解后再进行方差分析。 方差分析的前提是除随机误差外,水平变量是影响观测值的唯一变量,方差分析数据结构:
i ij
ij
u t e Y
=++
协方差分析将方差分析与回归分析结合了起来,协方差分析数据结构:
y ij ij
u Y =
协方差案例:
设有k 个处理、n 次重复的双变量试验资料,每处理组内皆有n 对观测值x 、y ,则该资料为具kn 对x 、y 观测值的单向分组资料,其数据一般模式如表10—1所示。
表1的x 和y 变量的自由度和平方和的剖分参见单因素试验资料的方差分析方法一节。其乘积和的剖分则为:
总变异的乘积和T SP 是ij x 与..x 和ij y 与..y 的离均差乘积之和,即:
kn y x y x y y x x SP k i n
j ij ij k i n j ij ij T ..
....)..)((11
11-=--=∑∑∑∑==== (1) T df =kn -1
其中,kn y y kn x x y y x x k
i i k i i ....,....,..., (1)
1
====
∑∑== 。
处理间的乘积和t SP 是.i x 与..x 和.i y 与..y 的离均差乘积之和乘以n ,即:
∑∑==-=--=k
i i i k
i i i i i t kn y x y x n y y x x n SP 1
1....1..)...)(.((10-6)
1-=k df t
处理内的乘积和e SP 是ij x 与.i x 和ij y 与.i y 的离均差乘积之和,即:
∑∑∑∑∑=====-=-=--=k
i n
j k
i t T k
i i i n
j ij ij i ij i ij e SP SP y x n y x y y x x SP 1111
1..1.).)(((10-7)
e d
f =k (n -1)
以上是各处理重复数n 相等时的计算公式,若各处理重复数n 不相等,分别为n 1、n 2、…、n k ,
其和为
∑=k
i i
n
1
,则各项乘积和与自由度的计算公式为:
∑∑∑===-
=k i n j k
i i
i i ij ij T i
n
y x y x SP 11
1.
.
T df =∑=k i i n 1
-1 (10-8)
∑=-+++=
k i i
k
k k t n y x n y x n y x n y x SP 1
222111..........
... 1-=k df t
∑∑===k
i n j ij ij e i
y x SP 11
-???
???+++k k k n y x n y x n y x .........222111=SP T -SP t
e d
f =∑=k
i i n 1
-k =df T -df t (10-9)
有了上述SP 和df ,再加上x 和y 的相应SS ,就可进行协方差分析。
【例10.1】为了寻找一种较好的哺乳仔猪食欲增进剂,以增进食欲,提高断奶重,对哺乳仔猪做了以下试验:试验设对照、配方1、配方2、配方3共四个处理,重复12次,选择初始条件尽量相近的长白种母猪的哺乳仔猪48头,完全随机分为4组进行试验,结果见表10—2,试作分析。
此例,......4321x x x x x +++= =18.25+15.40+15.65+13.85=63.15
......4321y y y y y +++==141.80+130.10+144.80+133.80=550.50
k =4,n=12,kn =4×12=48
(单位:kg )
协方差分析的计算步骤如下:
(一)求x 变量的各项平方和与自由度 1、总平方和及自由度
∑∑
=-=-+++=-=75.148
15.638325.844815.63)10.1...85.150.1(..2222222)(kn x x SS ij
x T )(x T df =kn -1=4×12-1=47 2、处理间平方和与自由度
83.048
15.63)85.1365.1540.1525.18(121 (122)
222212)
(=-+++=-=∑=kn x x n SS k i i x t )(x t df =k -1=4-1=3
3、处理内平方和与自由度
)(x e SS =)(x T SS -)(x t SS =1.75-0.83=0.92 )(x e df =)(x T df -)(x t df =47-3=44
(二)求y 变量各项平方和与自由度 1、总平方和与自由度
∑∑
=-=-+++=-=76.9648
5.55031.6410485.550)00.11...00.1240.12(222222..2)(kn y y SS ij
y T )(y T df =kn -1=4×12-1=47
2、处理间平方和与自由度
∑
=-+++=-
=68.1148
50.550)80.13380.14480.13080.141(121.1
22
2222..2)
(kn y y n
SS i y t )(y t df =k -1=4-1=3
3、处理内平方和与自由度
)(y e SS =)(y T SS -)(y t SS =96.76-11.68=85.08 )(y e df =)(y T df -)(y t df =47-3=44
(三)求x 和y 两变量的各项离均差乘积和与自由度
1、总乘积和与自由度
kn
y x y x SP k i n
j ij ij T ..
..11
-
=∑∑==
25
.812
450
.55015.6350.73212450
.55015.6300.1110.1...00.1285.140.1250.1=??-
=??-?++?+?=
),(y x T df =kn -1=4×12-1=47 2、处理间乘积和与自由度
kn
y x y x n SP k i i i t ..
....11-=
∑= 12
450
.55015.63)80.13385.1380.14465.1510.13040.1580.14125.18(121??-
?+?+?+?=
=1.64
),(y x t df =k -1=4-1=3
3、处理内乘积和与自由度 e SP =T SP -t SP =8.25-1.64=6.61 ),(y x e df =),(y x T df -),(y x t df =47-3=44
平方和、乘积和与自由度的计算结果列于表10—3。
表10—3 x 与y 的平方和与乘积和表
变异来源 df x SS
y SS
xy SP
处理间(t ) 3 0.83 11.68 1.64 处理内(误差)(e ) 44 0.92 85.08 6.61 总变异(T ) 47
1.75
96.76
8.25
(四)对x 和y 各作方差分析(表10—4)
分析结果表明,4种处理的供试仔猪平均初生重间存在着极显著的差异,其50 日龄平均重差异不显著。须进行协方差分析,以消除初生重不同对试验结果的影响,减小试验误差,揭示出可能被掩盖的处理间差异的显著性。
(五)协方差分析
1、误差项回归关系的分析误差项回归关系分析的意义是要从剔除处理间差异的影响的
误差变异中找出50日龄重(y )与初生重(x )之间是否存在线性回归关系。计算出误差项的回归系数并对线性回归关系进行显著性检验,若显著则说明两者间存在回归关系。这时就可应用线性回归关系来校正y 值(50日龄重)以消去仔猪初生重(x )不同对它的影响。然后根据校正后的y 值(校正50日龄重)来进行方差分析。如线性回归关系不显著,则无需继续进行分析。 回归分析的步骤如下:
(1)计算误差项回归系数,回归平方和,离回归平方和与相应的自由度 从误差项的平方和与乘积和求误差项回归系数:
1848.792
.061
.6)()(===
x e e e yx SS SP b (10-10) 误差项回归平方和与自由度
49.4792
.061.62)(2)
(===x e e e R SS SP SS (10-11) df R(e)=1
误差项离回归平方和与自由度
)(e r SS =)(y e SS -)(e R SS =85.08-47.49=37.59 (10-12)
)(e r df =)(y e df -)(e R df =44-1=43
(2)检验回归关系的显著性(表10—5)
表10—5 哺乳仔猪50日龄重与初生重的回归关系显著性检验表
变异来源 SS df MS F F 0.01 误差回归 47.49 1 47.49 54.32** 7.255 误差离回归 37.59 43 0.8742 误差总和 85.08 44
F 检验表明,误差项回归关系极显著,表明哺乳仔猪50 日龄重与初生重间存在极显著的线性回归关系。因此,可以利用线性回归关系来校正y ,并对校正后的y 进行方差分析。
2、对校正后的50日龄重作方差分析
(1)求校正后的50日龄重的各项平方和及自由度利用线性回归关系对50日龄重作校正,并由校正后的50日龄重计算各项平方和是相当麻烦的,统计学已证明,校正后的总平方和、误差平方和及自由度等于其相应变异项的离回归平方和及自由度,因此,其各项平方和及自由度可直接由下述公式计算。
①校正50日龄重的总平方和与自由度,即总离回归平方和与自由度
85.5775
.125.876.962)(2)
()()('
=-=-=-=x T T y T y R y T T
SS SP SS SS SS SS (10-13) 'T df =)(y T df -)(y R df =47-1=46
②校正50日龄重的误差项平方和与自由度,即误差离回归平方和与自由度
59.3792
.061.608.852)(2)
()()('
=-=-=-=x e e y e e R y e e
SS SP SS SS SS SS (10-14) 'e df =)(y e df -)(R e df =44-1=43
上述回归自由度均为1,因仅有一个自变量x 。 ③校正50日龄重的处理间平方和与自由度
e T
t S S S S S S '-'='=57.87-37.59=20.28 (10-15)
e T t
f d f d f d '-'='=k -1=4-1=3
(2)列出协方差分析表,对校正后的50日龄重进行方差分析(表10—6)
查F 表:)43,3(01.0F =4.275(由线性内插法计算),由于F =7.63>)43,3(01.0F ,P <0.01,表明对于校正后的50日龄重不同食欲添加剂配方间存在极显著的差异。故须进一步检验不同处理间的差异显著性,即进行多重比较。
3、根据线性回归关系计算各处理的校正50日龄平均重
误差项的回归系数)(e yx b 表示初生重对50日龄重影响的性质和程度,且不包含处理间差异的影响,于是可用)(e yx b 根据平均初生重的不同来校正每一处理的50日龄平均重。校正50日龄平均重计算公式如下:
..).(..)(x x b y y i e yx i i --=' (10-16)
公式中:.i y '为第i 处理校正50日龄平均重;
.i y 为第i 处理实际50日龄平均重(见表10—2); .i x 为第i 处理实际平均初生重(见表10—2);
..x 为全试验的平均数,3156.148
15.63....===
kn x x )(e yx
b 为误差回归系数,)(e yx b =7.1848
将所需要的各数值代入(10—16)式中,即可计算出各处理的校正50日龄平均重(见表 10—7)。
4、各处理校正50日龄平均重间的多重比较
各处理校正50日龄平均重间的多重比较,即各种食欲添加剂的效果比较。 (1)t 检验检验两个处理校正平均数间的差异显著性,可应用t 检验法:
.
...j i y y j i S y y t '-''-'=
(10-17)
???
?????-+'='
-')(2.
..).(2x e j i e y
y SS x x n S M S j i
(10-18) 式中,..j i y y '-'为两个处理校正平均数间的差异;
'-'..j
i
y y S 为两个处理校正平均数差数标准误;
e
S M '为误差离回归均方; n 为各处理的重复数;
.i x 为处理i 的x 变量的平均数;
.j x 为处理j 的x 变量的平均数;
SS e(x)为x 变量的误差平方和
例如,检验食欲添加剂配方1与对照校正50日龄平均重间的差异显著性:
..21
y y '-'=10.3514-12.0758=-1.7244 e
S M '=37.59/43=0.8742 n =12 .1x =1.52,.2x =1.28,SS e(x)=0.92
将上面各数值代入(10—18)式得:
..21'-'y y S =4477.092.0)28.152.1(1228742.02=???
?
????-+? 于是 85.34477
.00758
.123514.10-=-=
t
查t 值表,当自由度为43时(见表10—6误差自由度),t 0.01(43)=2.70(利用线性内插法计算),|t | >t 0.01(43),P <0.01,表明对照与食欲添加剂1号配方校正50日龄平均重间存在着极显著的差异,这里表现为1号配方的校正50日龄平均重极显著高于对照。其余的每两处理间的比较都须另行算出'-'..j
i
y y S ,再进行t 检验。
(2)最小显著差数法 利用t 检验法进行多重比较,每一次比较都要算出各自的'-'..j
i
y y S ,
比较麻烦。当误差项自由度在 20以上,x 变量的变异不甚大(即x 变量各处理平均数间差异不显著),为简便起见,可计算一个平均的'-'..j
i
y y S 采用最小显著差数法进行多重比较。'
-'.
.j i
y
y S 的计算公式如下:
'-'..j i y y S =???
?????-+)1(12)()('k SS SS n MS x e x t e
(10-19) 公式中SS t(x)为x 变量的处理间平方和。
然后按误差自由度查临界t 值,计算出最小显著差数:
)(dfe t LSD αα='-'..j
i
y y S (10-20)
本例x 变量处理平均数间差异极显著,不满足“x 变量的变异不甚大”这一条件,不应采用此处所介绍的最小显著差数法进行多重比较。为了便于读者熟悉该方法,仍以本例的数据说明之。此时
'-'..j
i
y y S =
4354.0)14(92.083
.01128742.02=??
????-?+?
由'e df =43,查临界t 值得:t 0.05(43)=2.017,t 0.01(43)=2.70 于是LSD 0.05=2.017×0.4353=0.878
LSD 0.01=2.70×0.4353=1.175
不同食欲添加剂配方与对照校正50日龄平均重比较结果见表10—8。
表10—8 不同食欲添加剂配方与对照间的效果比较表
食欲添加剂配方
校正50日龄平均重
对照校正50日龄平均重
差数 1
12.0758 10.3514 1.7244**
2 12.1821 10.3514 1.8307**
3
12.3398
10.3514
1.9884**
多重比较结果表明:食欲添加剂配方1、2、3号与对照比较,其校正50 日龄平均重间均存在极显著的差异,这里表现为配方1、2、3号的校正50日龄平均重均极显著高于对照。 (3)最小显著极差法当误差自由度在20以上,x 变量的变异不甚大,还可以计算出平均的平均数校正标准误y S ,利用LSR 法进行多重比较。y S 的计算公式如下:
y S =
???
?????-+)1(1)()('k SS SS n
MS x e x t e
(10-21)
然后由误差自由度e f d '和秩次距k 查SSR 表(或q 表),计算最小显著极差:
y S SSR LSR αα= (10-22)
对于【例10.1】资料,由于不满足“x 变量的变异不甚大”这一条件,不应采用此处所介绍的LSR 法进行多重比较。为了便于读者熟悉该方法,仍以【例10.1】的数据说明之。此时
'e MS =0.8742,n =12,SS t(x)=0.83,SS e(x)=0.92,k =4,代入(10—21)式可计算得:
y S =
3078.0)14(92.083
.01128742.0=??
????-?+ SSR 值与LSR 值见表10—9。
各处理校正50日龄平均重多重比较结果见表10—10。
处理
'.i y
'.i y -10.3514
'.i y -12.0758 '.i y -12.1821
配方3 12.3398 1.9884**0.2640 0.1577
配方2 12.1821 1.8307**0.1063
配方1 12.0758 1.7244**
对照10.3514
多重比较结果表明:食欲添加剂配方3、2、1号的哺乳仔猪校正50 日龄平均重极显著高于对照,不同食欲添加剂配方间哺乳仔猪校正50日龄平均重差异不显著。