当前位置:文档之家› 多元统计分析第三章 假设检验与方差分析

多元统计分析第三章 假设检验与方差分析

多元统计分析第三章 假设检验与方差分析
多元统计分析第三章 假设检验与方差分析

第3章 多元正态总体的假设检验与方差分析

从本章开始,我们开始转入多元统计方法和统计模型的学习。统计学分析处理的对象是带有随机性的数据。按照随机排列、重复、局部控制、正交等原则设计一个试验,通过试验结果形成样本信息(通常以数据的形式),再根据样本进行统计推断,是自然科学和工程技术领域常用的一种研究方法。由于试验指标常为多个数量指标,故常设试验结果所形成的总体为多元正态总体,这是本章理论方法研究的出发点。

所谓统计推断就是根据从总体中观测到的部分数据对总体中我们感兴趣的未知部分作出推测,这种推测必然伴有某种程度的不确定性,需要用概率来表明其可靠程度。统计推断的任务是“观察现象,提取信息,建立模型,作出推断”。

统计推断有参数估计和假设检验两大类问题,其统计推断目的不同。参数估计问题回答诸如“未知参数θ的值有多大?”之类的问题,而假设检验回答诸如“未知参数θ的值是0θ吗?”之类的问题。本章主要讨论多元正态总体的假设检验方法及其实际应用,我们将对一元正态总体情形作一简单回顾,然后将介绍单个总体均值的推断, 两个总体均值的比较推断,多个总体均值的比较检验和协方差阵的推断等。

3.1一元正态总体情形的回顾

一、 假设检验

在假设检验问题中通常有两个统计假设(简称假设),一个作为原假设(或称零假设),另一个作为备择假设(或称对立假设),分别记为0H 和1H 。

1、显著性检验

为便于表述,假定考虑假设检验问题:设1X ,2X ,…,n X 来自总体),(2

σμN 的样本,我们要检验假设

100:,:μμμμ≠=H H (3.1)

原假设0H 与备择假设1H 应相互排斥,两者有且只有一个正确。备择假设的意思是,一旦否定原假设0H ,我们就选择已准备的假设1H 。

当2

σ已知时,用统计量n

X z σ

μ

-=

在原假设0H 成立下,统计量z 服从正态分布z )1,0(~N ,通过查表,查得)1,0(N 的上分位点2αz 。

对于检验问题(3.1.1),我们制定这样一个检验规则(简称检验): 当αz z >时,拒绝0H ;

当2αz z ≤时,接受0H 。 (3.2) 我们称αz 为临界值,是)1,0(N 的上分位点,不同的临界值代表不同的检验。称拒绝原假设0H 的统计量z 的范围为拒绝域,称接受0H 的统计量z 的范围为接受域,因此给出一个检验,就是给出一个拒绝域。

2、两类错误

由于样本具有随机性,因此在根据样本进行判断时,有可能犯两种类型的错误。一类错误是,原假设0H 本来正确,但按检验规则却作出了拒绝0H 的判断,这类错误称为第一类错误(弃真错误),其发生的概率{

}αα

=>2

z z P 称为犯第一类错误的概率;另一类错误时,原假设0

H

本来不正确,但按检验规则却作出了接收0H 的判断,这类错误称为第二类错误(存伪错误),其发生的概率称为犯第二类错误的概率,记为β。

同时控制这两类错误是困难的,当时在样本容量n 固定的条件下,要使α和β同时减小,通常是不可能的。在假设检验的应用中,由奈曼(NEYMAN)与皮尔逊(PEARSON)提出了一个原则,即在控制犯第一类错误的概率α条件下,尽量使犯第二类错误的概率β小,这种检验问题, 称为显著性检验问题。根据这一原则,原假设受到保护,不至于被轻易拒绝,一旦检验结果拒绝了原假设,则表明拒绝的理由是充分的,如果接受了原假设,则只是表明拒绝的理由还不充分,未必意味着原假设就是正确的。所以,在实际问题中,为了通过样本观测值对某一猜测取得强有力的支持,通称我们把这一猜测的否定作为原假设,而把猜测本身作为备择假设。

3、关于检验的p 值

下面,我们再介绍进行检验的另一种方式——p 值,我们就以(3.1.1)的检验问题为例来加以说明,对于样本,我们通过统计量,计算出n

x z σ

μ0

0-=

,是一确定值,这里的x 是

样本观测值的均值,再由统计量z 服从正态分布z )1,0(~N ,计算}{0z z P >为检验的p 值。

由于2αz z >等价于p =}{0z z P >{

}αα

=>≤2

z z P ,所以检验规则可以表述为:

当α≤p 时,拒绝0H ;

当α>p 时,接受0H 。接受0H 。 (3.3) 上述p 值的检验规则与(3.1.2)的检验结果相比含有更丰富的信息,p 值越小,拒绝原假设的理由就充分。通常SAS 等软件的计算机输出一般只给出p 值,由你自己给定的α值来判断检验结果

二、单一变量假设检验的回顾 1、 单个正态总体均值的检验

考虑假设检验问题:设1X ,2X ,…,n X 来自总体),(2

σμN 的样本,我们要检验假设

100:,:μμμμ≠=H H

(1) 总体方差2

σ已知

构造统计量

n

X z σ

μ

-=

在原假设

H 成立下, z 服从正态分布z )1,0(~N ,可得这样一个检验规则: 当2

αz z >时,拒绝0H ; 当

2

αz z ≤时,接受

H 。

(2) 总体方差2

σ未知

构造统计量

n

s

X t μ

-=

在原假设0

H 成立下,t 服从自由度为1-n 的t 分布t )1(~-n t 可得这样一个检验规

则:

当)1(2->n t t α时,拒绝0H ;

当)1(2-≤n t t α时,接受

H 。 (3.1.4)

2、 两个正态总体均值的比较检验 考虑假设检验问题 211210:,

:μμμμ≠=H H (3.1.5)

设121,,,n X X X 是取自总体),(2

11σμN 的容量为1n 的样本,221,,,n Y Y Y 是取自

),(2

22σμN 的容量为2n 的样本,给定显著性水平α。

(1) 两个总体方差2

1σ和2

2σ已知 构造检验统计量2

22

1

21

n n Y

X z σ

σ

+

-=

(3.1.6)

在原假设

H 成立下, z 服从正态分布z )1,0(~N ,检验规则为:

当2αz z >时,拒绝0H ; 当2

αz z ≤时,接受

H 。

(2) 两个总体方差21σ和22σ都未知,但21σ=22σ=2

σ 用样本方差s 代替σ,构造检验统计量

2

111n n s Y

X t +

-=

在原假设

H 成立下,t 服从正态分布t )2(~21-+n n t ,检验规则为:

当)2(212

-+>n n t t α时,拒绝

0H ;

当)2(212

-+≤n n t t α时,接受

H 。

3、多个正态总体均值的比较检验(方差分析)

设k 个正态总体分别为),(21σμN ,),(22σμN ,…, ),(2σμk N 从k 个总体取i n 个独立样本如下:

)

()

(2

)

(1)

1(1

)1(2

)1(1k nk

k k n X X X X X X

考虑假设检验问题

,:210k H μμμ=== j i j i H μμ≠≠使至少存在,:1

假设0H 成立条件下,构造检验统计量为:

)

/()

1/(k n SSE k SSA F --=

),1(~k n k F -- 

这里∑=-=

k

i i i X X n SSA 12

)(称为组间平方和;∑∑==-=k

i i

i j n j X X SSE i

12

)(1

)(称为组内平方和; ∑∑==-=k

i i j

n j X X

SST i

12

)

(1

)(称为总平方和。其中=

i X ∑=n

j i j

i

X

n 1

)(1

,=X ∑∑==k i n j i j X n 11

)

(1

k n n n n ++=21

给定检验水平α,查F 分布表,使{}αα=>F F P ,可确定出临界值αF ,

再利用样本值计算出F 值,若>F αF ,则拒绝0H ,否则不能拒绝0H 。

附注:多元假设检验与SAS 过程

本章的主要内容是多元假设检验和方差分析,其中的计算一般都很复杂,可用国际上著名的专业软件——SAS 软件计算。SAS 中有GLM ,ANOV A 和NESTED 等过程可用方差分析。其中GLM 过程最常用。

SAS 的GLM 过程采用了一般线性模型:

ε

++++=m m x b x b b y (110)

在方差分析问题中,变量 m x x ...1是示性变量,即只取0或1的变量。GLM 过程对每一因子的每一水平,通过CLASS 语句产生1个示性变量,也称分类变量。

GLM 过程主要有四个语句:PROC GLM ,CLASS ,MODEL 和LSMEANS 语句。 PROC GLM 语句 用以调用GLM 过程,有许多选项,一般形式是: Proc glm [data=数据集名称] [outstat=输出的统计量]

[order=formatted|freq|data|internal];

CLASS 语句 说明哪些变量是分类变量。方差分析中的因素都是分类变量,如: Class V1 V2 V3;

此语句指示计算机把因子V1,V2 ,V3作为分类变量,可以是字符型变量或数字型变量。如果是字符型变量,长度限于10个字符以内。

MODEL 语句 语句中等号前是响应变量,如: Model Y=A ; 单因子ANOVA Model Y=A B C ; 主效应模型

Model Y=A B A*B ; 含交互效应的因子模型

Model Y1 Y2=A B ; 多因子方差模型MANOV A LSMEANS 语句 用以求待估参数的最小二乘估计。 Lsmeans A B A*B ;

MANOV A 语句 用以说明是做多元方差分析。

3.2 均值等于常数向量的检验

在经济生产、管理决策中的很多实际问题,通常要选取多个指标进行考察,根据历史数据,将p 项指标的历史平均水平记作0μ,考虑新的p 项指标平均值是否与历史数据记载的平均值有明显差异?若有差异,进一步分析差异主要在哪些指标上,先看下面的实例:

例3.1测量20名健康女性排汗量1x 、钠含量2x 、钾含量3x 得表3.1。问健康女性1x 、2x 、

3x 的均值是不是4、50、10?

表3-1 20名健康女性排汗量1x 、钠含量2x 、钾含量3x 数据

例3.1的数学模型就是:)',,(321x x x x =服从),(∑μN 要根据20个样品做复合检验:

???

?????≠????????????????=????????10504:,

10504:32113210μμμμμμH H

一般的,我们考虑p 维正态分布均值等于常数的检验问题:n X X X ,,,21 为取自p 维正态总体),(1∑μp N 的一个样本,要检验:

0100:;

:μμμμ≠=H H , (3.4)

其中

0μ为已知p 维向量。

对于这样一个检验问题,分为以下两种情形: 一、协方差阵∑已知条件下,均值μ的检验

作出假设后,需要构造一个合适的统计量。要检验的假设在形式上同一维情形是一样的。

0100:;:μμμμ≠=H H

在一维时构造的统计量为n X U 0

σμ-=

且在0H 成立时,U 服从正态分布)1,0(N 。

依照一维情形,由于0H 成立时X 服从p 维正态分布),(0n

N ∑μ,∑0>。若记T

AA =∑,

A 为非奇异对称阵,则有 )(01μ--X A n 服从),0(I N 但用),0(I N 来确定拒绝域不方便,因

此,改选用统计量,

)()(0102μμχ-∑-=-X X n T (3.5)

H 成立时,2

χ服从)(2p χ-分布。对给定的α,从{}αχχα=≥)(22p P ,求出)(2p αχ。

当2

χ≥)(2

p αχ时,要先求1-∑,这需要大量的计算。实际计算2

χ时,可以不必求出1

-∑,只

要令

)

(01μ-∑=-X Y ,

即 )(0μ-=∑X Y (3.6) 求解方程组(3.2.3),求出Y 后,则

Y X n T )(02μχ-=

二.协方差阵∑未知条件下均值μ的检验 假设检验问题仍然是:0100:;

:μμμμ≠=H H

其中0μ为已知p 维向量。

回顾一元情况,在原假设

H 成立下,n

s

X t μ

-=

服从自由度为1-n 的t 分布,

在p 维正态情况下,当协方差已知时,选用时统计量为

)()(0102μμχ-∑-=-X X n T

现用样本协方差S 代替总体协方差阵∑,令

)

())(1(0102μμ---=-X S X n n T T

统计量2

T 的分布是一元统计中t 分布的推广,最早由HOTELLING 导出,在上一章中,我们已经给出了这个定义,可以直接用它作为检验

H 的统计量,2

T 分布已被仔细研究过,1%及5%

的分位点已经列成专表,读者可在[3]中找到这个表。也可以利用HOTELLING 2

T 分布的性质,

),(~)1(1)1(2

p n p F T p

n p n F --+--=

(证明参见朱道元P210)

H 不成立时,F 有变大的趋势,对给定的α,从αα=-≥)},({p n p F F P

求出),(p n p F -α,当≥F ),(p n p F -α时,拒绝0H ;否则接受0H

例3.1测量20名健康女性排汗量1x 、钠含量2x 、钾含量3x 得表3.1。问健康女性1x 、2x 、

3x 的均值是不是4、50、10?

解:建立???

?????≠????????????????=????????10504:,10504:32113210

μμμμμμH H

用SAS,MATEMATICA,MATLAB 等软件都可算出

????

??????=??????????= 3.6276579 5.6400000- 1.8090526- 5.6400000- 1199.788421 10.0100000 1.8090526- 10.0100000

2.8793684,965.94.4564.4S X

74.9)()'(200102=--=-μμS T 。

44.2)10.0(90.2)3*19/(*)320(17,32=>=-=F T F

所以否定原假设,即在0.10显著水平下拒绝0H 。 例3.1 也可用下列SAS 程序计算

data hanye;

input x1-x3;y1=x1-4;y2=x2-50;y3=x3-10;a=1; cards ; 3.7 48.5 9.3 5.7 65.1 8.0 3.8 47.2 10.9 3.2 53.2 12.0 3.1 55.5 9.7 4.6 36.1 7.9 2.4 24.8 14.0 7.2 33.1 7.6 6.7 47.4 8.5 5.4 54.1 11.3 3.9 36.9 12.7 4.5 58.8 12.3 3.5 27.8 9.8 4.5 40.2 8.4 1.5 13.5 10.1 8.5 56.4 7.1 4.5 71.6 8.2 6.5 52.8 10.9 4.1 44.1 11.2 5.5 40.9 9.4 ;

proc glm ;

model y1-y3=a/noint ;

manova h =a/printe printh ; run ;

执行此程序后得到的输出中主要的是最后一个表

H = Type III SSCP Matrix for a E = Error SSCP Matrix

S=1 M=0.5 N=7.5

Statistic Value F Value Num DF Den DF Pr > F

Wilks' Lambda 0.66112774 2.90 3 17 0.0649 Pillai's Trace 0.33887226 2.90 3 17 0.0649 Hotelling-Lawley Trace 0.51256699 2.90 3 17 0.0649 Roy's Greatest Root 0.51256699 2.90 3 17 0.0649

可见P 值为0.0649,所以否定原假设,即在0.10显著水平下拒绝0H 。

在实际工作中,一元检验与多元检验可以联合使用,多元的检验具有概括和全面的优点,而一元的检验容易发现各指标之间的关系和差异,两者的结合能给统计人员提供更多的统计分析信息。

3.3 两总体均值的比较检验

例 3.2 为了研究日美两国在华企业对中国经营环境的评价是否存在差异,从两国在华企业对中国的政治、经济、法律、文化等环境打分,得表3-2。试分析日美两国在华企业对中国经营环境的评价是否存在差异?

表3-2日美两国在华企业对中国经营环境的评价

假设)',,,(4321X X X X X

=服从),(x x N ∑μ ,)',,,(4321Y Y Y Y Y =服从)

,(y y N ∑μ下,且有10对样品,要做复合检验

?????

???????=????????????43214321y y y y x x x x μμμμμμμμ 一般情况下,我们考虑n X X X ,,,21 为取自p 维正态总体),(1∑μp N 的一个样本,

()m Y Y Y ,,,21 为取自p 维正态总体),(2∑μp N 的一个样本。假定两组样本相互独立,且

X =∑=n

i i X n 1

1,Y =∑=n i i Y m 11

一、有共同已知的协差阵时

对于例3.2提出的问题,可归类为假设检验问题:

210:μμ=H 211:μμ≠H 其中1μ2μ为已知p 维向量。

在一维情形下,用了统计量m

n m

n Y

X U +?-=0

σ,与前面相似的思路,在p 维时,选用统计量

)()(12Y X Y X m n nm

T -∑-+=

当0H 成立时,2

χ服从)(2

p χ-分布。对给定的显著性水平α,从{}

αχχα=≥)(2

2

p P ,

求出)(2

p αχ。当2χ≥)(2p αχ时,拒绝0H ;当2

χ<)(2p αχ时,接受0H 。

二、有共同的未知协差阵时

假定两组样本相互独立,已知两总体有相同的协方差阵∑>0,但∑未知,要检验的假设为:

2

10:μμ=H 211:μμ≠H 其中1μ2μ为已知p 维向量。记

∑=--=n

i T

i i X X X X S 11))((

∑=--=m

i T

i i Y Y Y Y S 1

2))((

采用统计量为

)()())(2(1212Y X S S Y X n m n m mn

T T -+--++=

-

定理3.2若y x H μμ=:0,y x ∑=∑成立;则

)1,(~)]2(/[)1(2--+-+--+=p m n p F m n p T p m n F

证明参见朱道元P217

定理3.2可用于用做两总体复合检验。 根据定理3.2,当0H 成立时,统计量

2

2)2(1)2(1)2(T p

m n p m n T p m n p m n F -+--+=-++--+=

=

)()()()

()

1(121Y X S S Y X n m p p n m mn T -+-+--+-)1,(~--+p m n p F

当0H 不成立时,F 有变大的趋势,对给定的α,从αα=--+≥)}1,({p m n p F F P 求出)1,(--

+?p m n p F ,当≥F )1,(--+?p m n p F 时,拒绝0H ;否则接受0H

以上有关的统计量在0H 成立时所服从的分布的相应证明都比较复杂,这里我们只叙述了有关结论,没有给出证明,可参看第二章的相关内容。这些统计量同一维相应的统计量均有相似之处,对比两者的形式有助于理解和应用。

例3.2的解:作假设y x y x H H μμμμ≠=:;

:10

,635.304364?????????

???=X ????

?

?

??????=5.70405151Y ????

?

?

???

???=756.6666666 928.8888888 434.4444444 227.2222222- 928.8888888 335.8333333 1.11111111 313.3333333- 434.4444444 1.11111111 756.6666666 918.8888888- 227.2222222- 313.3333333- 918.8888888- 454.4444444 x S

????

?

????

???=335.8333333 111.1111111- 426.9444444 0.83333333- 111.1111111- 050.0000000 2.77777778 419.4444444426.9444444 2.77777778 355.8333333 5.83333333 0.83333333- 419.4444444 5.83333333 355.8333333y S

8625.29)()'(10

1010

*1012=--+=

-Y X S Y X T

)01.0(2214.68625.29*)4*)210910/()141010(15,4F F >=-+--+=

所以日美两国在华企业对中国经营环境的评价存在显著差异。 例3.2可用如下SAS 程序实现

data wu1;

input no $ pol ecn leg cul cou $; cards ;

美1 65 35 25 60 a 美2 75 50 20 55 a 美3 60 45 35 65 a 美4 75 40 40 70 a 美5 70 30 30 50 a 美6 55 40 35 65 a 美7 60 45 30 60 a 美8 65 40 25 60 a 美9 60 50 30 70 a 美10 55 55 35 75 a 日1 55 55 40 65 j 日2 50 60 45 70 j 日3 45 45 35 75 j 日4 50 50 50 70 j 日5 55 50 30 75 j 日6 60 40 45 60 j 日7 65 55 45 75 j 日8 50 60 35 80 j 日9 40 45 30 65 j 日10 45 50 45 70 j ;

proc glm ; class cou;

model pol ecn leg cul=cou/ss3; manova h =cou/printe printh ; run;

执行此程序后得到的输出中主要的是最后一个表

H = Type III SSCP Matrix for cou E = Error SSCP Matrix

S=1 M=1 N=6.5

Statistic Value F Value Num DF Den DF Pr > F

Wilks' Lambda 0.37607734 6.22 4 15 0.0037 Pillai's Trace 0.62392266 6.22 4 15 0.0037 Hotelling-Lawley Trace 1.65902752 6.22 4 15 0.0037 Roy's Greatest Root 1.65902752 6.22 4 15 0.0037

由此可见p 值是0.0037,因而日美两国在华企业对中国经营环境的评价存在显著差异。

3.4 多个总体均值向量的比较检验

在研究作物栽培时,要考虑播种期、品种、土质、施肥方式、灌溉方式对产量的影响;在化学反应中要观察原料成分、剂量、催化剂、温度、压力,搅拌速度等对得率的影响。在很多应用领域尤其是科学研究中,都遇到过类似的问题,常涉及许多因素,这类问题要分析出影响最“大”的因素,就是比较各种因素对试验结果所起的作用问题。作为影响试验结果的每一因素或因素的某一水平或某一方案,且试验结果都形成一个随机总体。这样,比较各种因素对试验结果所起的作用问题就变成对各种因素的试验结果所形成的总体的比较问题。

由于试验指标常为多元指标,故常设试验结果所形成的总体为多元正态总体。此外,我们按照随机排列、重复、局部控制、正交等原则设计一个试验,除要考察的因素外,其他试验条件均要求一致,即要考察的试验因素的试验结果都是同协方差阵的且相互独立的多元正态总体。因而,各因素对试验结果影响的结果的比较,就变成了多个同协方差阵的多元正态总体均值向量的比较。统计上解决两个以上同协方差阵多元正态总体均值向量比较的方法叫做多元方差分析。多个总体均值向量的比较检验,特别是多元方差分析正是本节的内容,这类方法在经济管理,系统控制,生物医药等许多领域有着广泛的应用。这里先看一个具体实例。

3.4.1 提出问题

例3.3为了研究某种疾病,对三组人测量:第1组是20至35岁女性、第2组是20至25岁男性、第3组是30至55岁男性。每组取20个人,测量第I 组的第J 人4个指标是:β脂蛋白()

(1i j x )、甘油三脂()

(2i j x )、α脂蛋白()

(3i j x )、前β脂蛋白()

(4i j x )。测量结果见表3-3。

问三组人的指标间有没有显著差别?

表3-3 β脂蛋白、甘油三脂、α脂蛋白、前β脂蛋白数据

问题中的3组人的测量值)1(X 、)2(X 、)3(X ,每个随机向量有4个指标,即4维随机向量。例3.3要从每个总体20个样品值出发,检验)()()()3()2()1(X E X E X E ==是否成立。

3.4.2单因素方差分析的数学模型

方差分析的目的在于找出自变量与因变量之间的线性关系,或自变量对因变量的实验效果。方差分析是一种处理实验数据的方法,考察一个被称为因变量或相依变量(dependent variable ,)的连续响应变量,又称反应变量(Response Variable),其数值则是连续的,它在由分类变量识别的几种试验条件下被测量,这些分类变量被称为自变量,独立变量(independent variable ),定性变量(Qualitative Variable )或分类变量(Classification Variable ),其数值多半是不连续的。这些分类变量的水平组合形成试验设计的单元。例如,某个试验要测量男人和女人的重量变化(因变量),他们采取了三种不同的减肥方法,这个设计的6个单元由性别(男、女)和减肥方法(A 、B 、C )6种组合形成。

一项试验有多个影响因素,因素也可以看成是一种变量,其取值不是数,而是水平。例如“产地”是一个变量,它取的值是“北京”、“上海”、“南京”等。这种变量称为属性变量,定性变量或分类变量.如果只有一个因素在发生变化,其他因素保持不变,则称为单因素试验,与之对应的方差分析,称为单因素方差分析。

我们所考察的.影响产品指标的因素(如产地,温度)也称为因子,用大写字母A,B,C 表示。因素所能处的状况,如甲、乙、丙;60,65,70,75,……,称为因素的水平,简称为水平。水平常以,...,,,2121B B A A 表示。

一般地,假设因素A 有k 个水平:k A A ,...,1。对第i 个水平i A 进行试验,独立观察i n 次,

k i ,,2,1 =,整个试验共作了n n n n k =+++ 21次,且完全随机排列。 设i A 的第j 次观察的试验指标为p 维向量

),,,()()()()(21i j i j i j i j p x x x X =),(~∑i p u N k i ,,2,1 =,i n j ,,2,1 =

假设:

(1) 同一个水平j A 下得到的观测值)

1(1X ,)

1(2X …)

1(1n X ;…;)(1k X ,…)

(k n k X ,由于实验过程中各种偶然因素的干扰及测量误差所致,每次实验中这些偶然因素的总和称为实验误差,它们是方差相同的零均值正态随机变量;

(2) 所有误差相互独立; (3) 由于水平的不同,可能会给

)

(i j X 一个定量的确定性的影响,其大小是未知的。

假定∑==k

i i n 1

1μμ 令μμα-=i i

于是有模型:

??

?

??==∑++=i p ij ij i i j n

j k i N X ,,2,1,,,2,1),0(~)( 且相互独立εεαμ 其中μ称为总体均值向量,i α为i A 的主效应向量,ij ε为i A 的第j 次观察的随机误差向量,根据假设{}

ij ε相互独立且均服从),0(∑p N 。 判断这个因素的影响是否显著就是要检验假设:

0:210====k H ααα k H ααα,,,211 :不全为0 (3.7)

设第I 组样本均值)(1

)

(1

i j n j i

i X n X

i

==

总均值)(1

1

1i j n j k

i X n X i

===

样本组内差)')(()()()()(1

1

i i j i i j n j k

i X X X X E i

--=∑

==

样本组间差)')(()()(1

i i i k

i X X X X n B --=∑=,

E B X X X X A i j i j n j k

i i

+=--=∑

==)')(()()(1

1

对于该检验问题的统计量,取WILKS 统计量A E /=Λ

定理3.3 若k μμμ== (21)

,则A E /=Λ服从WILKS 分布2,1,---Λk k n p

证明参见朱道元第177页

例3.3为了研究某种疾病,对三组人测量:第1组是20至35岁女性、第2组是20至25岁男性、第3组是30至55岁男性。每组取20个人,测量第I 组的第J 人4个指标是:β脂蛋白()(1

i j x

)、甘油三脂()(2

i j x

)、α脂蛋白()(3

i j x

)、前β脂蛋白()(4i j x )。测量结果见表3.3。

问三组人的指标间有没有显著差别?

解 这儿有3个总体,建立假设不全相等32113210

,,:;:μμμμμμH H ==

计算三总体样本均值

????

?

???????=????????????=?????????

???=4.1875.312.9075.292,9.1745.3255.725.253,1.179.326.890.231)3()2()1(x x x 计算组内差

,8.133...1.595.364..1.32195.80795.12288.8275.15715.702151705,8.413...

2.90955..8.13878.7968.15736.1951078

62983053021?

?

???

??

?????---=?

?

???

?

?

?????--=

E E

?

????

???????---=++=?

????

???????---=2.1024...9.265.2082..3.216675.1937395.40466.174875.3955.232788.12504,8.476...1125.761..4.4573332.12441.72325.1301995975

.431733213E E E E E

计算组间差

,2.17...7.1443.13..9.2682.3523.4017.78608.72492.230783.39065?

????

?

??????----=B 计算总方差

?

????

???????---=+=4.1041...6.4193.2095..4.213957.197318.44484.253483.467442.2558658.164474E B A

计算Λ统计量6621.0/==Λ

A E ,查得709.0)01.0(2,1,=Λ---k k n p 〉0.6621;

所以高度显著否定0H ,故三组人身体指标有显著差异。

3.5 总体协差阵相等的检验

本章第三节和第四节中,总假定不同总体的方差是相同的,这一假定是否合理?在一些问题中应当加以证明。

3.5.1 一个正态总体协方差阵的检验

设n X X X ,,,21 为取自p 维正态总体),(∑μp N 的一个样本,∑未知,且0>∑。

首先,我们考虑假设检验问题: p I H =∑:

0, p I H ≠∑:1 所构造的检验统计量为 2)(}2

1

ex p{np n n

e

A trA -=λ 其中

∑=--=

n

i T i i

X X X X

A 1

))((

然后,我们考虑假设检验问题:p I H ≠∑=∑00:

, p I H ≠∑≠∑01: 因为00>∑,所以存在非奇异矩阵D ,使得p T

I D D =∑0 令i i DX Y =,n i ,,2,1 =

则),(),(~*

*∑=∑μμp T p i N D D D N Y 因此检验0∑=∑等价于p I =∑*

此时构造检验统计量为 22

**

)(}2

1ex p{np n n

e

A trA -=λ 其中

∑=--=

n

i T i i

Y Y Y Y

A 1

*

))((

给定检验水平α,因为直接有λ的分布计算临界值很困难,所以通常采用λ的近似分布。

在0H 成立时,λln 2-的极限分布是)2)1((2

+p p χ,因此当n >>p ,由样本值计算出λ值,若λln 2->2

αχ,即λ<2

2αχ-e

,则拒绝0H ,否则不能拒绝0H 。

3.5.2 多个协方差阵相等检验

刚才讨论的检验0∑=∑是一个正态总体协方差阵的检验,是检验当前协方差阵与过去是否一样,在一些实际问题中,可能会遇到多个正态总体的协方差阵是否相等的问题。

设有k 个正态总体分别为),(11∑μp N ,…,),(k k p N ∑μ,0>∑i 且未知,k i ,,2,1 =

从第i 个总体中取i n 个样本

),,,()()()()(21i j i j i j i j p x x x X =),(~i i p u N ∑ ,i n j ,,2,1 =

这里n n n n k =+++ 21为总样本容量。

我们考虑假设检验问题为

k H ∑==∑=∑ 210:, }{1i H ∑:不全相等

构造检验统计量为

∏∏==?

=

k

i p n i

np n k

i n i

k i i n n A

A

1

2

2

2

1

2

λ

其中∑==

k

i i A A 1

∑=--=i

n j T i i j i i j i X X X X A 1

)()()()())((,

)(1

)

(1

i j n j i

i X n X

i

==,

按照Bartlett 的建议,记1-=i i n N ,k n N -=得到修正的检验统计量

∏∏==?

=

'

k

i p N i

Np N k

i N i k i i N

N A

A

1

2

2

1

2

λ

则在0H 成立时,'ln 2k λ-的极限分布是

)(11

2f d

χ-,其中 )1)(1(2

1

-+=

k p p f {}{}??????

?+++???

???--++=∑=相等

不必相等;

k k k i i N Nk p k p p N N N k p p p d ,)1(6)1)(1-32(,

11)1)(1(61-32212

例3.4 有甲、乙两品种,取得如表3-4所示的两个二元正态样本,试检验210∑=∑:H

表3-4 方差阵检验数据

解:????

??--=5.8955.37425.37425.322711A ??????=0.34025.122825.122829.57891

2A

?

?????=5.42970.85400.85404.90163A 2.14892821=A 5164.16ln 1=A 5.460883522=A 6461.17ln 2=A 1.314545504=A 5666.19ln =A

由于2=p ,2=k ,61=n ,82=n ,51=N ,72=N ,12=N ,故

()∑∑==-+-=-k

i k

k k i k k A N N N p N p A N 1

1

ln ln ln ln 'ln 2λ

815.70957.2063371.431614.175=-+= 1874.0=d

3)1)(1(21

=-+=

k p p f 6176.9)3(1874

.011)(11205.02=-=-χχαf d 由于6176.9'ln 2>-λ,故应拒绝210∑=∑:

H ,即认为21,∑∑有显著差异。

3.6独立性检验

多元统计分析第三章假设检验与方差分析

第3章 多元正态总体的假设检验与方差分析 从本章开始,我们开始转入多元统计方法和统计模型的学习。统计学分析处理的对象是带有随机性的数据。按照随机排列、重复、局部控制、正交等原则设计一个试验,通过试验结果形成样本信息(通常以数据的形式),再根据样本进行统计推断,是自然科学和工程技术领域常用的一种研究方法。由于试验指标常为多个数量指标,故常设试验结果所形成的总体为多元正态总体,这是本章理论方法研究的出发点。 所谓统计推断就是根据从总体中观测到的部分数据对总体中我们感兴趣的未知部分作出推测,这种推测必然伴有某种程度的不确定性,需要用概率来表明其可靠程度。统计推断的任务是“观察现象,提取信息,建立模型,作出推断”。 统计推断有参数估计和假设检验两大类问题,其统计推断目的不同。参数估计问题回答诸如“未知参数θ的值有多大?”之类的问题,而假设检验回答诸如“未知参数θ的值是0θ吗?”之类的问题。本章主要讨论多元正态总体的假设检验方法及其实际应用,我们将对一元正态总体情形作一简单回顾,然后将介绍单个总体均值的推断, 两个总体均值的比较推断,多个总体均值的比较检验和协方差阵的推断等。 3.1一元正态总体情形的回顾 一、 假设检验 在假设检验问题中通常有两个统计假设(简称假设),一个作为原假设(或称零假设),另一个作为备择假设(或称对立假设),分别记为0H 和1H 。 1、显著性检验 为便于表述,假定考虑假设检验问题:设1X ,2X ,…,n X 来自总体),(2 σμN 的样本,我们要检验假设 100:,:μμμμ≠=H H (3.1) 原假设0H 与备择假设1H 应相互排斥,两者有且只有一个正确。备择假设的意思是,一旦否定原假设0H ,我们就选择已准备的假设1H 。 当2 σ已知时,用统计量n X z σ μ -=

多元统计分析-第三章 多元正态分布

第三章 多元正态分布 多元正态分布是一元正态分布在多元情形下的直接推广,一元正态分布在统计学理论和应用方面有着十分重要的地位,同样,多元正态分布在多元统计学中也占有相当重要的地位。多元分析中的许多理论都是建立在多元正态分布基础上的,要学好多元统计分析,首先要熟悉多元正态分布及其性质。 第一节 一元统计分析中的有关概念 多元统计分析涉及到的都是随机向量或多个随机向量放在一起组成的随机矩阵,学习多元统计分析,首先要对随机向量和随机矩阵有所把握,为了学习的方便,先对一元统计分析中的有关概念和性质加以复习,并在此基础上推广给出多元统计分析中相应的概念和性质。 一、随机变量及概率分布函数 (一)随机变量 随机变量是随机事件的数量表现,可用X 、Y 等表示。随机变量X 有两个特点:一是取值的随机性,即事先不能够确定X 取哪个数值;二是取值的统计规律性,即完全可以确定X 取某个值或X 在某个区间取值的概率。 (二)随机变量的概率分布函数 随机变量X 的概率分布函数,简称为分布函数,其定义为: )()(x X P x F ≤= 随机变量有离散型随机变量和连续型随机变量,相对应的概率分布就有离散型概率分布和连续型概率分布。 1、离散型随机变量的概率分布 若随机变量X 在有限个或可列个值上取值,则称X 为离散型随机变量。 设X 为离散型随机变量,可能取值为1x ,2x ,…,取这些值的概率分别为1p ,2p ,…, 记为 k k p x X P ==)((Λ,2,1=k ) 称k k p x X P ==)((Λ,2,1=k )为离散型随机变量X 的概率分布。 离散型随机变量的概率分布具有两个性质: (1) 0≥k p ,Λ,2,1=k (2)11 =∑ ∞ =k k p 2、连续型随机变量的概率分布 若随机变量X 的分布函数可以表示为 dt t f x F x ?∞-=)()( 对一切R x ∈都成立,则称X 为连续型随机变量,称 )(x f 为X 的概率分布密度函数,简

3[1]3总体方差的假设检验

§3 检验母体方差 3.1 检验正态母体的方差 ——2 χ检验 母体),(~2σμN X ,2 ,σμ均未知,试对 2 σ与2 0σ有无显著差异作假设检验. ①在母体上作 假设 ?=2 020:σσH 2021:σσ≠H ②检验统计量 )1( ~ )1(22 02 2 --=*n S n H χσχ ③给定显著水平α,如图存在 )1(22 1-- n α χ 和)1(2 2 -n αχ,使 2 )}1({)}1({2 2 222 12α χχχ χαα = ->=-<- n P n P 故取拒绝域 } )1()1(),,,{(2 2 222 12 21->-<=- n n x x x W n αα χχχ χ或

④决策:当抽样结果是 W x x x n ∈),,,(21 时,拒绝0 H ,认为2 σ与2 0σ有 显著差异;否则接受0 H ,认为2 σ与20 σ无 显著差异. 例3.3.1 某细纱车间纺出的一种细纱支数的标准差2.10=σ,现从某日纺出的一批细纱中随机抽出16缕进行支数测 量,算得子样标准差1.2* =s ,问:纱的均 匀度有无显著变化(取05.0=α)?假定 母体分布是正态的。 解: 设该日纺出的纱的支数 ),(~2 σμN X ,2 ,σμ均未知, 作假设?=2.1:20σH 2.1:21 ≠σH 检验统计量)1(~ )1(22 22 --= *n S n H χσ χ 给定显著水平α,拒绝域为 } )1()1(),,,{(2 2 222 1221->-<=-n n x x x W n ααχχχχ或

这时16=n ,2.10=σ,1.2* =s ,从而94.452 =χ,又05.0=α,查表得 262.6)15()1(975.02 1==-- χχ α n , 488.27)15()1(025.02 ==-χχαn , 可见)1(2 2 ->n αχχ,故应拒绝0H ,认为 这天细纱的均匀度有显著变化。 例3.3.2 ),(~2 σμN X , 2 ,σμ均未知, 当45>n ,作如下假设检验 ?=2 2 0:σσH 2021:σσ≠H 检验统计量取为2 02 2 )1(σχ *-= S n ,证明:给 定显著水平α,则拒绝域为 } )1(2)1({})1(2)1({2 22 2ααχχu n n u n n W ---≤-+-≥= . 证明:作假设?=2020:σσH 2 021:σσ≠H , 0H 成立时检验统计量

最新多元统计分析第三章 假设检验与方差分析

多元统计分析第三章假设检验与方差分析

第3章 多元正态总体的假设检验与方差分析 从本章开始,我们开始转入多元统计方法和统计模型的学习。统计学分析处理的对象是带有随机性的数据。按照随机排列、重复、局部控制、正交等原则设计一个试验,通过试验结果形成样本信息(通常以数据的形式),再根据样本进行统计推断,是自然科学和工程技术领域常用的一种研究方法。由于试验指标常为多个数量指标,故常设试验结果所形成的总体为多元正态总体,这是本章理论方法研究的出发点。 所谓统计推断就是根据从总体中观测到的部分数据对总体中我们感兴趣的未知部分作出推测,这种推测必然伴有某种程度的不确定性,需要用概率来表明其可靠程度。统计推断的任务是“观察现象,提取信息,建立模型,作出推断”。 统计推断有参数估计和假设检验两大类问题,其统计推断目的不同。参数估计问题回答诸如“未知参数θ的值有多大?”之类的问题,而假设检验回答诸如“未知参数θ的值是0θ吗?”之类的问题。本章主要讨论多元正态总体的假设检验方法及其实际应用,我们将对一元正态总体情形作一简单回顾,然后将介绍单个总体均值的推断, 两个总体均值的比较推断,多个总体均值的比较检验和协方差阵的推断等。 3.1一元正态总体情形的回顾 一、 假设检验 在假设检验问题中通常有两个统计假设(简称假设),一个作为原假设(或称零假设),另一个作为备择假设(或称对立假设),分别记为0H 和1H 。 1、显著性检验 为便于表述,假定考虑假设检验问题:设1X ,2X ,…,n X 来自总体),(2 σμN 的样本,我们要检验假设 100:,:μμμμ≠=H H (3.1) 原假设0H 与备择假设1H 应相互排斥,两者有且只有一个正确。备择假设的意思是,一旦否定原假设0H ,我们就选择已准备的假设1H 。 当2 σ已知时,用统计量n X z σ μ -=

案例库 项目八假设检验 回归分析与方差分析

项目八假设检验、回归分析与方差分析 实验3 方差分析 实验目的学习利用Mathematica求单因素方差分析的方法. 基本命令 1.调用线性回归软件包的命令<

中,向量Y是因变量,也称作响应变量.矩阵X称作设计矩阵, ?是参数向量??是误差向量? ????????DesignedRegress也是作一元和多元线性回归的命令, 它的应用范围更广些. 其格式与命令Regress的格式略有不同: DesignedRegress[设计矩阵X,因变量Y的值集合, RegressionReport ->{选项1, 选项2, 选项3,…}] RegressionReport(回归报告)可以包含:ParameterCITable(参数?的置信区间表???? ?PredictedResponse (因变量的预测值), MeanPredictionCITable(均值的预测区间), FitResiduals(拟合的残差), SummaryReport(总结性报告)等, 但不含BestFit. 实验准备—将方差分析问题纳入线性回归问题 在线性回归中, 把总的平方和分解为回归平方和与误差平方和之和, 并在输出中给出了方差分析表. 而在方差分析问题

中, 也把总的平方和分解为模型平方和与误差平方和之和, 其方法与线性回归中的方法相同. 因此只要把方差分析问题转化为线性模型的问题, 就可以利用线性回归中的设计回归命令DesignedRegress 做方差分析. 单因素试验方差分析的模型是 ?? ? ??==+=. ,,2,1;,,2,1,),,0(~,2s j n i N Y j ij ij ij j ij ΛΛ独立各εσεεμ (3.1) 上式也可改写成 ?? ? ??===+-+==+=.,,2,1;,,2,1,),,0(~; ,,3,2,)(, ,,2,1,2111111s j n i N s j Y n i Y j ij ij ij j ij i i ΛΛΛΛ独立各εσεεμμμεμ (3.2) 给定具体数据后, 还可(2.2)式写成线性模型的形式:

第三章 多元统计分析(3)

第三章多元统计分析 §4 聚类分析 分类是人类认识世界的方式,也是管理世界的有效手段。在科学研究中非常重要,许多科学的研究都是从分类研究出发的。没有分类就没有效率;没有分类,这个世界就没有秩序。瑞典博物学家林奈(Carl von Linnaeus, 1707-1778)因为对植物的分类成就被后人誉为“分类学之父”,后人评价说“上帝创世,林奈分类”——能与上帝的名字并列的人不多,另一个著名的科学家是牛顿。由此可见分类成果的重要性。最初分类都是定性了,后来随着科学的发展产生了定量分类技术,包括基于统计学的聚类方法和基于模糊数学的聚类技巧。本节主要讲述统计学意义的数字分类方法思想和过程。 1 聚类的分类 分类研究的成果的重要性决定了方法的重大实践意义。在任何一门语言的语法学中,都要对词词汇进行分类,词汇分类可以根据词性:名词,动词,形容词……;英文还可以根据首字母分类:ABCD……;汉字则还可以根据笔划,如此等等。在生物学中,将生物划分为:界,门,纲,目,科,属,种。例如白菜(种)属于油菜属、十字花科、十字花目、双子叶植物纲、被子植物亚门、种子植物门、植物界;老虎(种)则属于猫属、猫科、食肉目、哺乳动物纲、脊椎动物亚门、脊索动物门、动物界。这样,整个世界的生物就可以建立一个等级谱系,根据这个谱系,我们可以比较容易地判断那些生物已经认识了,哪些生物尚未发现,哪些生物已经灭绝了。如果发现了新的生物,就可以方便地将其归类。在天文学中,天体可以根据视觉区域分类,也可以根据发光性质与光谱特征进行分类。在地理学中,城市既可以根据地域空间分类,也可以根据城市的职能进行分类。 表3-3-1 各种生物在分类学上的位置举例 位置白菜虎 界植物界动物界 门种子植物门脊索动物门 亚门被子植物亚门脊椎动物亚门 纲双子叶植物纲哺乳动物纲 目十字花目食肉目 科十字花科猫科 属油菜属猫属 种白菜虎 当我们走进一家图书馆,如果它们的图书没有分类编目,我们要找到一本图书与大海捞针没有什么区别。分类的方式也会影响工作的效率。书店的图书一般根据科学门类进行分类摆设,但有一段时间一家书店改为按照出版单位进行分类排列,结果读者很难找到所需图书,这家原本效益挺好的书店很快收到了消极影响。 早期的分类,一般根据事物的属性与特征进行划分,属于定性分类的范畴。随着人们认识的深入和研究对象复杂程度的增加,单纯的定性分类方法就不能满足要求了,于是产生了定量分类技术,即所谓数字分类。本节要讲述的就是根据多个指标进行数字分类的一种多元

正态总体均值及方差的假设检验表

正态总体均值及方差的假设检验表: 单正态总体均值及方差的假设检验表(显著性水平α) 1 a n ~N (0,1)2 01 a S n ~t 2 2 02 1 0n i n i a ~ 2或 2 21 2 n 2 2n 2 21 n 20 ~ 22 21 1 2 n 2 21n 21 1 n

2 212 12 n n ~N (0,1) 2 1 2 11W S n n ~ 2 , 22 1122 122 n S n S n n 22 22 21112 2 1 2 1i i n i i a a n ~12,F n n 2 或 2 2 221 n S n ~21,1n 1 2或 2

Z =ξ-η~N (a 1-a 2,21σ+2 2σ),Z i =ξi -ηi . 2 21 2 Z n ) 2 1 S n ~ 2

单正态总体均值及方差的区间估计(置信度1-α) 已知 1 a n ~N (0,1)0 1 1 , n n u u n n 1 a S n ~t , 1 1 t t n n 2 02 1 n i n i a ~ 001 122, 12 2 i i i i n n a a 20 ~ 21 ,12 2 n

2个正态总体均值差及方差比的区间估计(置信度1-α) 12 212 12 a n n ~N (0,1) 2212 12 u n n 112 11W a S n n 22 n t 1 22 12 11W n n t S n n )2 a ξ-12 ,1 ,2 2 n n A F A 2 112 222 2 11n S n S ~ 2 2 21112W n S n S n n 212 1212 2 2 1 n i i n i i n a A n a ,2 122 2 21111n n S B n n S . (注:专业文档是经验性极强的领域,无法思考和涵盖全面,素材和资料部分来自网络,供参考。可复制、编制,期待你的好评与关注)

假设检验与方差分析

实验四 假设检验 实验目的:通过此实验熟练掌握如何利用假设检验工具根据不同条件 选择相应检验工具进行检验,有助于学习者理解假设检验的过程及结果 实验要求:能够运用Excel 对总体均值进行假设检验,学会针对实际 背景提出原假设和备择假设来检验实际问题,并根据检验结果作出符合统计学原理和实际情况的判断和结论,加深对统计学方法的广泛应用背景的理解 假设检验与区间估计两者之间存在密切的关系,二者用的是同一个样本、同一个统计量、同一种分布,所以也可以用区间估计进行假设检验,两者结论是一致的。在Excel 中进行假设检验,除可按区间估计过程用公式和逆函数计算外,还备有专用的假设检验工具,包括Z —检验工具、T —检验工具和F —检验工具。使用这些工具,可以直接根据样本数据进行计算,一次给出检验统计量、单尾和双尾临界值以及小于或等于临界值的概率等所需要的数值。实验四主要介绍假设检验工具的使用。 一、假设检验的一般过程 假设检验主要是根据计算出的检验统计量与相应临界值比较,作出拒绝或接受原假设的决定。 根据全国汽车经销商协会报道,旧车的平均销售价格是10192美元。堪萨斯城某旧车经销处的一名经理检查了近期在该经销处销售的100辆旧车。结果样本平均价格是9300美元,样本标准差是4500美元。在0.05的显著性水平下,检验H 0:10192≥μ H 1:10192<μ。问:假设检验的结论是什么?这名经理接下来可能会采取什么行动? 本例由于样本容量比较大,其均值近似服从正态分布,总体方差未知,需要用样本标准差来代替,选择T 统计量进行检验。T 统计量的计算公式如下:

)1(~1 0--= -n t n s x t n μ 单击任一空单元格,输入“=(9300-10192)/(4500/SQRT(100))”,回车确认,得出t 统计量为-1.982。单击另一空单元格,输入“=TINV(0.025,99)”,回车确认,得出t 分布的右临界值为2.276。因为276.2982.1<-,所以不拒绝原假设,认为此旧车经销处旧汽车平均销售价格不小于10192美元。那么接下来这名经理会采取什么相应行动?(请读者思考)。 本例主要介绍了假设检验的一般过程,利用Excel 的公式和函数求出相应的统计量值和临界值,最后作出结论。 二、假设检验工具的使用 接下来介绍如何使用Excel 的假设检验工具。使用这一工具应该注意二点:第一,由于现实世界和生活中大量的数据服从正态分布,Excel 的假设检验工具是按正态总体设计的(以下各例未特殊说明,认为其服从或近似服从正态分布);第二,Excel 的假设检验工具主要用于检验两总体之间有无显著差异。具体来讲,Z —检验工具是对方差或标准差已知的两总体均值进行差异性检验;T —检验工具是对方差和标准差未知的两总体均值进行差异性检验,其中包括等方差假设检验、异方差假设检验和成对双样本检验;F —检验工具是对总体的标准差进行检验。 (一)Z —检验工具的使用 国际航空运输协会对商务旅行者进行调查以确定大西洋两岸过关机场的等级分数。假定:要求50名商务旅行者组成的随机样本给迈阿密机场打分,另50名商务旅行者组成的随机样本给洛杉机机场打分,最高等级为10分。两个样本数据如下: 迈阿密机场得分数据: 6 4 6 8 7 7 6 3 3 8 10 4 8 7 8 7 5 9 5 8 4 3 8 5 5 4 4 4 8 4 5 6 2 5 9 9 8 4 8 9 9 5 9 7 8 3 10 8 9 6 洛杉机机场得分数据: 10 9 6 7 8 7 9 8 10 7 6 5 7 3 5 6 8 7 10 8 4 7 8 6 9 9 5 3 1 8 9 6 8 5 4 6 10 9 8 3 2 7 9 5 3 10 3 5 10 8 假定两总体的等级标准差已知(这里用样本标准差代替总体标准差),

应用多元统计分析SAS作业第三章

3-8假定人体尺寸有这样的一般规律,身高(X 1),胸围(X 2)和上半臂围(X 3)的平均尺寸比例是6:4:1,假设()()1,,X n αα=L 为来自总体()123=,,X X X X '的随机样本,并设()~,X N μ∑。试利用表3.4中男婴这一数据来检验其身高、胸围和上半臂围这三个尺寸变量是否符合这一规律(写出假设H 0,并导出检验统计量)。 解:设32,~(,),~(,)Y CX X N Y N C C C μμ'=∑∑。 121231233106,,,,,014C X X X μμμμμμμ??-?? ? == ? ?-?? ? ??其中,分别为 的样本均值。则检验三个变量是否符合规律的假设为 0212:,:H C O H C O μμ=≠。 检验统计量为 2 1(1)1~(1,1) (3,6)(1)(1) n p F T F p n p p n n p ---+= --+==--, 由样本值计算得:=(82,60.2,14.5)X ',及 15840.2 2.5=40.215.86 6.552.5 6.559.5A ?? ? ? ??? , 2-1(1)()()()=47.1434T n n CX CAC CX ''=-,

221(1)12 =18.8574(1)(1)5 n p F T T n p ---+= ?=--, 对给定显著性水平=0.05α,利用软件SAS9.3进行检验时,首先计算p 值: p =P {F ≥18.8574}=0.0091948。 因为p 值=0.0091948<0.05,故否定0H ,即认为这组男婴数据与人类的一般规律不一致。在这种情况下,可能犯第一类错误·且犯第一类错误的概率为0.05。 SAS 程序及结果如下: prociml ; n=6;p=3; x={7860.616.5, 7658.112.5, 9263.214.5, 815914, 8160.815.5, 8459.514 }; m0={00,00}; c={10 -6,01 -4}; ln={[6]1}; x0=(ln*x)`/n; print x0; mm=i(6)-j(6,6,1)/n; a=x`*mm*x; a1=inv(c*a*c`); a2=c*x0; dd=a2`*a1*a2; d2=dd*(n-1); t2=n*d2; f=(n+1-p)*t2/((n-1)*(p-1)); print x0 a d2 t2 f; p0=1-probf(f,p-1,n-p+1); fa=finv(0.95,2,4); print p0; run ;

数理统计--参数估计、假设检验、方差分析(李志强) (3)

教学单元案例: 参数估计与假设检验 北京化工大学 李志强 教学内容:统计量、抽样分布及其基本性质、点估计、区间估计、假设检验、方差分析 教学目的:统计概念及统计推断方法的引入和应用 (1)理解总体、样本和统计量等基本概念;了解常用的抽样分布; (2)熟练掌握矩估计和极大似然估计等方法; (3)掌握求区间估计的基本方法; (4)掌握进行假设检验的基本方法; (5) 掌握进行方差分析的基本方法; (6)了解求区间估计、假设检验和方差分析的MA TLAB 命令 。 教学难点:区间估计、假设检验、方差分析的性质和求法 教学时间:150分钟 教学对象:大一各专业皆可用 一、统计问题 引例 例1 已知小麦亩产服从正态分布,传统小麦品种平均亩产800斤,现有新品种产量未知,试种10块,每块一亩,产量为: 775,816,834,836,858,863,873,877,885,901 问:新产品亩产是否超过了800斤? 例2 设有一组来自正态总体),(2 σμN 的样本0.497, 0.506, 0.518, 0.524, 0.488, 0.510, 0.510, 0.512. (i) 已知2 σ=0.012,求μ的95%置信区间; (ii) 未知2σ,求μ的95%置信区间; (iii) 求2σ的95%置信区间。 例3现有某型号的电池三批, 分别为甲乙丙3个厂生产的, 为评比其质量, 各随机抽取5 只电池进行寿命测试, 数据如下表示, 这里假设第i 种电池的寿命),(.~ 2σμi i N X . (1) 试在检验水平下,检验电池的平均寿命有无显著差异? (2) 利用区间估计或假设检验比较哪个寿命最短.

假设检验及方差分析

实验四 假设检验 实验目的:通过此实验熟练掌握如何利用假设检验工具根据不同条件 选择相应检验工具进行检验,有助于学习者理解假设检验的过程及结果 实验要求:能够运用Excel 对总体均值进行假设检验,学会针对实际 背景提出原假设和备择假设来检验实际问题,并根据检验结果作出符合统计学原理和实际情况的判断和结论,加深对统计学方法的广泛应用背景的理解 假设检验与区间估计两者之间存在密切的关系,二者用的是同一个样本、同一个统计量、同一种分布,所以也可以用区间估计进行假设检验,两者结论是一致的。在Excel 中进行假设检验,除可按区间估计过程用公式和逆函数计算外,还备有专用的假设检验工具,包括Z —检验工具、T —检验工具和F —检验工具。使用这些工具,可以直接根据样本数据进行计算,一次给出检验统计量、单尾和双尾临界值以及小于或等于临界值的概率等所需要的数值。实验四主要介绍假设检验工具的使用。 一、假设检验的一般过程 假设检验主要是根据计算出的检验统计量与相应临界值比较,作出拒绝或接受原假设的决定。 根据全国汽车经销商协会报道,旧车的平均销售价格是10192美元。堪萨斯城某旧车经销处的一名经理检查了近期在该经销处销售的100辆旧车。结果样本平均价格是9300美元,样本标准差是4500美元。在0.05的显著性水平下,检验H 0:10192≥μ H 1:10192<μ。问:假设检验的结论是什么?这名经理接下来可能会采取什么行动? 本例由于样本容量比较大,其均值近似服从正态分布,总体方差未知,需要用样本标准差来代替,选择T 统计量进行检验。T 统计量的计算公式如下: 单击任一空单元格,输入“=(9300-10192)/(4500/SQRT(100))”,回车确认,得出t 统计量为-1.982。单击另一空单元格,输入“=TINV(0.025,99)”,

方差分析与假设检验实验报告二

云南大学滇池学院 方差分析与假设检验实验报告二 学生姓名:方炜学号:20092123080专业:软件工程 一、实验目的和要求: 1、初步了解SPSS的基本命令; 2、掌握方差分析和假设检验。 二、实验内容: 1、为比较5中品牌的合成木板的耐久性,对每个品牌取4个样本作摩擦试验测量磨损量,得以下数据: (1)它们的耐久性有无明显差异? (2)有选择的作两品牌的比较,能得出什么结果?

2、将土质基本相同的一块耕地分成5块,每块又分成均等的4小块。在每块地内把4个品 种的小麦分钟在4小块内,每小块的播种量相同,测得收获量如下: 考察地块和品种对小麦的收获量有无显著影响?并在必要时作进一步比较。 3、为了研究合成纤维收缩率和拉伸倍数对纤维弹性的影响进行了一些试验。收缩率取0,4, 8,12四个水平;拉伸倍数取460,520,580,640四个水平,对二者的每个组合重复作两次试验,所得数据如下:

(1)收缩率,拉伸倍数及其交互作用对弹性有无显著影响? (2)使弹性达到最大的生产条件是什么? 三、实验结果与分析: 1、运行结果截图: 1、结果分析: (1)、Sig<0.05,耐久性有明显差异 (2)、由样本分析,品牌3分为一类;品牌1,2,5分为一类;品牌4分为一类。而品牌3和品牌4差距最大,品牌3的耐久性最差,品牌4的耐久性最好。 2、运行结果截图:

2、结果分析: (1)、地块(A组)Sig>0.05对小麦的收获量无显著影响,品种(B组)Sig<0.05对小麦的收获量有显著影响。 (2)、由图得,地块4最适合种小麦,地块1最不适合种小麦;而品种2的小麦收获量最大,品种4的小麦收获量最小。 3、运行结果截图:

8.假设检验和方差分析

假设检验和方差分析 目录 一.正态总体均值的检验 (1) 1.单个总体 (1) 2.两个总体 (2) 3.成对数据的t 检验 (3) 二.正态总体方差的检验——方差齐次检验 (3) 三.方差分析 (4) 1.单因素方差分析 (4) 2.均值的多重比较 (6) 3.方差分析前提的三个条件: (8) 4.双因素方差分析 (9) 一.正态总体均值的检验 R 中函数为:t.test() ,使用格式为: t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95, ...) 其中,x 、y 是由数据构成的向量(如果只提供x ,则作单个正态总体的均值检验;提供x 和y 做两个总体的均值检验)。alternative 表示备择假设,two.sided (缺省)表示双边检验(10:H μμ≠),less 表示单边检验(10:H μμ<),greater 表示单边检验(10:H μμ>)。mu 表示原假设0μ,conf.level 是置信水平,即1α-,通常是0.95。var.equal 是逻辑变量,若var.equal=T 表示认为两样本方差相同,若var.equal=F 表示认为两样本。paired 是逻辑变量,表示是否进行配对样本t 检验,默认为不配对。 注意:假设检验的基本思想是:为了检验一个“假设”是否成立,就现假定这个“假设”是成立的。从这个假定也看产生的后果,如果导致一个不合理的现象出现,那么就表明原先的假定不成立,如果没有导出不合理的现象发生,则不能拒绝原来的假设,称原假设是相容的。这里的“不合理”,并不是形式逻辑中的绝对矛盾,而是基于人们实践中广泛采用的一个原则:小概率事件在一次观察中可以认为基本不会发生。 选择备择假设的原则:事先有一定信任度或者出于某种考虑是否要加以“保护”。 1.单个总体 例1:某种元件的寿命x (小时),服从正态分布2 (,)N μσ,其中μ,2σ均未知,16只原件的寿命(单位:小时)如下,问是否有理由认为元件的平均寿命大于225小时。

多元统计分析-第三章 多元正态分布

第三章 多元正态分布 多元正态分布是一元正态分布在多元情形下的直接推广,一元正态分布在统计学理论和应用方面有着十分重要的地位,同样,多元正态分布在多元统计学中也占有相当重要的地位。多元分析中的许多理论都是建立在多元正态分布基础上的,要学好多元统计分析,首先要熟悉多元正态分布及其性质。 第一节 一元统计分析中的有关概念 多元统计分析涉及到的都是随机向量或多个随机向量放在一起组成的随机矩阵,学习多元统计分析,首先要对随机向量和随机矩阵有所把握,为了学习的方便,先对一元统计分析中的有关概念和性质加以复习,并在此基础上推广给出多元统计分析中相应的概念和性质。 一、随机变量及概率分布函数 (一)随机变量 随机变量是随机事件的数量表现,可用X 、Y 等表示。随机变量X 有两个特点:一是取值的随机性,即事先不能够确定X 取哪个数值;二是取值的统计规律性,即完全可以确定X 取某个值或X 在某个区间取值的概率。 (二)随机变量的概率分布函数 随机变量X 的概率分布函数,简称为分布函数,其定义为: )()(x X P x F ≤= 随机变量有离散型随机变量和连续型随机变量,相对应的概率分布就有离散型概率分布和连续型概率分布。 1、离散型随机变量的概率分布 若随机变量X 在有限个或可列个值上取值,则称X 为离散型随机变量。 设X 为离散型随机变量,可能取值为1x ,2x ,…,取这些值的概率分别为1p ,2p , …,记为 k k p x X P ==)(( ,2,1=k ) 称k k p x X P ==)(( ,2,1=k )为离散型随机变量X 的概率分布。 离散型随机变量的概率分布具有两个性质: (1) 0≥k p , ,2,1=k (2)11 =∑∞ =k k p 2、连续型随机变量的概率分布 若随机变量X 的分布函数可以表示为 dt t f x F x ?∞-=)()( 对一切R x ∈都成立,则称X 为连续型随机变量,称 )(x f 为X 的概率分布密度函数,简

07第七章 假设检验与方差分析 习题答案

第七章 假设检验与方差分析 习题答案 一、名词解释 用规范性的语言解释统计学中的名词。 1. 假设检验:对总体分布或参数做出某种假设,然后再依据抽取的样本信息,对假设是否正确做出统计判断,即是否拒绝这种假设。 2. 原假设:又叫零假设或无效假设,是待检验的假设,表示为 H 0,总是含有等号。 3. 备择假设:是零假设的对立,表示为 H 1,总是含有不等号。 4. 单侧检验:备择假设符号为大于或小于时的假设检验。 5. 显著性水平:原假设为真时,拒绝原假设的概率。 6. 方差分析:是检验多个总体均值是否相等的一种统计分析方法。 二、填空题 根据下面提示的内容,将适宜的名词、词组或短语填入相应的空格之中。 1. u ,n x σμ0 -,标准正态; ),(),(2/2/+∞--∞n z n z σ σ αα 2. 参数检验,非参数检验 3. 弃真,存伪 4. 方差 5. 卡方, F 6. 方差分析 7. t ,u 8. n s x 0 μ-,不拒绝 9. 单侧,双侧 10.新产品的废品率为5% ,0.01 11.相关,总变异,组间变异,组内变异 12.总变差平方和=组间变差平方和+组内变差平方和 13.连续,离散 14.总体均值 15.因子,水平 16.组间,组内 17.r-1,n-r 18. 正态,独立,方差齐

三、单项选择 从各题给出的四个备选答案中,选择一个最佳答案,填入相应的括号中。 1.B 2.B 3. B 4.A 5. C 6. B 7. C 8. A 9. D 10. A 11. D 12. C 四、多项选择 从各题给出的四个备选答案中,选择一个或多个正确的答案,填入相应的括号中。 1.AC 2.A 3.B 4.BD 5. AD 五、判断改错 对下列命题进行判断,在正确命题的括号内打“√”;在错误命题的括号内打“×”,并在错误的地方下划一横线,将改正后的内容写入题下空白处。 1. 在任何情况下,假设检验中的两类错误都不可能同时降低。 ( × ) 样本量一定时 2. 对于两样本的均值检验问题,若方差均未知,则方差分析和t 检验均可使用,且两者检验结果一致。 ( √ ) 3. 方差分析中,组间离差平方和总是大于组内离差平方和。( × ) 不一定 4. 在假设检验中,如果在显著性水平0.05下拒绝了 00:μμ≤H ,则在同一水平一定可以拒绝假设00:μμ=H 。( × ) 不一定 5. 为检验k 个总体均值是否显著不同,也可以用t 检验,且与方差分析相比,犯第一类错误的概率不变。( × ) 会增加 6. 方差分析中,若拒绝了零假设,则认为各个总体均值均有显著性差异。( × ) 不完全相等 六、简答题 根据题意,用简明扼要的语言回答问题。 1. 假设检验与统计估计有何区别与联系? 【答题要点】 假设检验是在给定显著性水平下,计算出拒绝域,并根据样本统计量信息来做出是否拒

假设检验项目假设检验回归分析与方差分析

项目八 假设检验、回归分析与方差分析 实验1 假设检验 实验目的 掌握用Mathematica 作单正态总体均值、方差的假设检验, 双正态总体的均值差、方差比的假设检验方法, 了解用Mathematica 作分布拟合函数检验的方法. 基本命令 1.调用假设检验软件包的命令<False(或True), Known Variance->None (或方差的已知值20σ), SignificanceLevel->检验的显著性水平α,FullReport->True] 该命令无论对总体的均值是已知还是未知的情形均适用. 命令MeanTest 有几个重要的选项. 选项Twosided->False 缺省时作单边检验. 选项 Known Variance->None 时为方差未知, 所作的检验为t 检验. 选项Known Variance->20σ时 为方差已知(20σ是已知方差的值), 所作的检验为u 检验. 选项Known Variance->None 缺省 时作方差未知的假设检验. 选项SignificanceLevel->0.05表示选定检验的水平为0.05. 选项FullReport->True 表示全面报告检验结果. 3.检验双正态总体均值差的命令MeanDifferenceTest 命令的基本格式为 MeanDifferenceTest[样本1的观察值,样本2的观察值, 0H 中的均值21μμ-,选项1,选项2,…] 其中选项TwoSided->False(或True), SignificanceLevel->检验的显著性水平α, FullReport->True 的用法同命令MeanTest 中的用法. 选项EqualVariances->False(或True)表示两个正态总体的方差不相等(或相等). 4.检验单正态总体方差的命令VarianceTest 命令的基本格式为 VarianceTest[样本观察值,0H 中的方差20σ的值,选项1,选项2,…] 该命令的选项与命令MeanTest 中的选项相同. 5.检验双正态总体方差比的命令VarianceRatioTest 命令的基本格式为

3.3总体方差的假设检验

§3 检验母体方差 3.1检验正态母体的方差——2 χ检验 母体),(~2σμN X ,2 ,σμ均未知,试对 2 σ与2 0σ有无显著差异作假设检验. ① 在 母体上作 假设 ?=2 2 0:σσH 2 021:σσ≠H ②检验统计量)1( ~ )1(2 20 2 20 --=*n S n H χσχ ③给定显著水平α,如图存在 )1(22 1-- n α χ 和)1(2 2 -n αχ,使 2 )}1({)}1({2 2 22 2 12α χχχ χαα = ->=-<- n P n P 故取拒绝域 } )1()1(),,,{(2 2 222 1221->-<=-n n x x x W n ααχχχχ或

④决策:当抽样结果是 W x x x n ∈),,,(21 时,拒绝0H ,认为2 σ与20σ有 显著差异;否则接受0H ,认为2 σ与20 σ无 显著差异. 例3.3.1 某细纱车间纺出的一种细纱支数X 的标准差2.10=σ,现从某日纺出的一批细纱中随机抽出16缕进行支数 测量,算得子样标准差1.2*=s ,问:纱的 均匀度有无显著变化(取05.0=α)?假 定母体X 的分布是正态的。 解: 设该日纺出的纱的支数 ),(~2 σμN X ,2 ,σ μ均未知, 作假设?=2202.1:σH 2 21 2.1:≠σH 检验统计量)1(~ )1(22 022 --=*n S n H χσχ 给定显著水平α,拒绝域为 } )1()1(),,,{(2 2 222 1221->-<=-n n x x x W n ααχχχχ或

这时16=n ,2.10=σ,1.2* =s ,从而 94.452 =χ,又05.0=α,查表得 262.6)15()1(22975 .02 1==-- χχαn , 488.27)15()1(22 025 .02 ==-χχαn , 可见)1(2 2->n αχχ,故应拒绝0H ,认为 这天细纱的均匀度有显著变化。 例3.3.2 ),(~2 σμN X , 2 ,σμ均未知, 当45>n ,作如下假设检验 ?=2020:σσH 2021:σσ≠H 检验统计量取为2 02 2 )1(σχ*-= S n ,证明:给 定显著水平α,则拒绝域为 } )1(2)1({})1(2)1({2 22 2ααχχu n n u n n W ---≤-+-≥= . 证明:作假设?=2020:σσH 2 021:σσ≠H , 0H 成立时检验统计量

T检验及其与方差分析的区别

T检验及其与方差分析的区别 假设检验是通过两组或多组的样本统计量的差别或样本统计量与总体参数的差异来推断他们相应 的总体参数是否相同。 t 检验:1.单因素设计的小样本(n<50)计量资料 2.样本来自正态分布总体 3.总体标准差未知 4.两样本均数比较时,要求两样本相应的总体方差相等 ?根据研究设计t检验可由三种形式: –单个样本的t检验 –配对样本均数t检验(非独立两样本均数t检验) –两个独立样本均数t检验 (1)单个样本t检验 ?又称单样本均数t检验(one sample t test),适用于样本均数与已知总体均数μ0的比较,其比较目的是检验样本均数所代表的总体均数μ是否与已知总体均数μ0有差别。 ?已知总体均数μ0一般为标准值、理论值或经大量观察得到的较稳定的指标值。 ?单样t检验的应用条件是总体标准 未知的小样本资料( 如n<50),且服从正态分布。 (2)配对样本均数t检验 ?配对样本均数t检验简称配对t检验(paired t test),又称非独立两样本均数t检验,适用于配对设计计量资料均数的比较,其比较目的是检验两相关样本均数所代表的未知总体均数是否有差别。 ?配对设计(paired design)是将受试对象按某些重要特征相近的原则配成对子,每对中的两个个体随机地给予两种处理。 ?应用配对设计可以减少实验的误差和控制非处理因素,提高统计处理的效率。 ?配对设计处理分配方式主要有三种情况: ①两个同质受试对象分别接受两种处理,如把同窝、同性别和体重相近的动物配成一对,或把同性别和年龄相近的相同病情病人配成一对; ②同一受试对象或同一标本的两个部分,随机分配接受两种不同处理,如例资料; ③自身对比(self-contrast)。即将同一受试对象处理(实验或治疗)前后的结果进行比较,如对高血压患者治疗前后、运动员体育运动前后的某一生理指标进行比较。 (3)两独立样本t检验 两独立样本t 检验(two independent samples t-test),又称成组t 检验。 ?适用于完全随机设计的两样本均数的比较,其目的是检验两样本所来自总体的均数是否相等。 ?完全随机设计是将受试对象随机地分配到两组中,每组对象分别接受不同的处理,分析比较处理的效应。或分别从不同总体中随机抽样进行研究。 ?两独立样本t检验要求两样本所代表的总体服从正态分布N(μ1,σ12)和N(μ2,σ22),且两总体方差σ12、σ22相等,即方差齐性(homogeneity of variance, homoscedasticity)。 ?若两总体方差不等,即方差不齐,可采用t’检验,或进行变量变换,或用秩和检验方法处理。 t 检验中的注意事项 1.假设检验结论正确的前提作假设检验用的样本资料,必须能代表相应的总体,同时各对比组 具有良好的组间均衡性,才能得出有意义的统计结论和有价值的专业结论。这要求有严密的实验设计和抽样设计,如样本是从同质总体中抽取的一个随机样本,试验单位在干预前随机分组,有足够的样本量等。 2.检验方法的选用及其适用条件,应根据分析目的、研究设计、资料类型、样本量大小等选用适当 的检验方法。t 检验是以正态分布为基础的,资料的正态性可用正态性检验方法检验予以判断。 若资料为非正态分布,可采用数据变换的方法,尝试将资料变换成正态分布资料后进行分析。

相关主题
文本预览
相关文档 最新文档