第三章 多元正态分布
多元正态分布是一元正态分布在多元情形下的直接推广,一元正态分布在统计学理论和应用方面有着十分重要的地位,同样,多元正态分布在多元统计学中也占有相当重要的地位。多元分析中的许多理论都是建立在多元正态分布基础上的,要学好多元统计分析,首先要熟悉多元正态分布及其性质。
第一节 一元统计分析中的有关概念
多元统计分析涉及到的都是随机向量或多个随机向量放在一起组成的随机矩阵,学习多元统计分析,首先要对随机向量和随机矩阵有所把握,为了学习的方便,先对一元统计分析中的有关概念和性质加以复习,并在此基础上推广给出多元统计分析中相应的概念和性质。
一、随机变量及概率分布函数 (一)随机变量
随机变量是随机事件的数量表现,可用X 、Y 等表示。随机变量X 有两个特点:一是取值的随机性,即事先不能够确定X 取哪个数值;二是取值的统计规律性,即完全可以确定X 取某个值或X 在某个区间取值的概率。
(二)随机变量的概率分布函数
随机变量X 的概率分布函数,简称为分布函数,其定义为:
)()(x X P x F ≤=
随机变量有离散型随机变量和连续型随机变量,相对应的概率分布就有离散型概率分布和连续型概率分布。
1、离散型随机变量的概率分布
若随机变量X 在有限个或可列个值上取值,则称X 为离散型随机变量。 设X 为离散型随机变量,可能取值为1x ,2x ,…,取这些值的概率分别为1p ,2p ,…,
记为
k k p x X P ==)((Λ,2,1=k )
称k k p x X
P ==)((Λ,2,1=k )为离散型随机变量X 的概率分布。
离散型随机变量的概率分布具有两个性质: (1)
0≥k p ,Λ,2,1=k
(2)11
=∑
∞
=k k p
2、连续型随机变量的概率分布
若随机变量X 的分布函数可以表示为
dt t f x F x
?∞-=)()(
对一切R x ∈都成立,则称X 为连续型随机变量,称
)(x f 为X 的概率分布密度函数,简
称为概率密度或密度函数。
连续型随机变量的概率密度函数具有两个性质:
(1)
0)(≥x f
(2)1)(=?∞
∞
-dx x f
二、随机变量的数字特征
(一)离散型随机变量的数字特征
若X 为离散型随机变量,其概率分布为),2,1()(Λ===k p x X P k k ,则X 的数学
期望(或称均值)和方差分别定义为:
∑∞
===1
)(k k k p x X E μ
[]()∑∞
=-=-===1
22
2
)()()(k k k p x X E X E X Var X D μσ
(二)连续型随机变量的数字特征 若X 为连续型随机变量,其密度函数为
)(x f ,则X 的数学期望和方差分别定义为:
?∞
∞-==)()()(x d x xf X E μ
()dx x f x X Var X D )()()(22?∞
∞--===μσ
方差的一个简便计算公式为222
)]([)(X E X E -=σ
(三)数学期望的数学性质
1、设c 是常数,则c c E =)(
2、设X 是随机变量,c 是常数,则)()(X cE cX E =
3、设X 、Y 是任意两个随机变量,则)()()(Y E X E Y X
E +=+
4、设X 、Y 是任意两个相互独立的随机变量,则)()()(Y E X E XY E =
(四)方差的数学性质 1、设c 是常数,则0)(=c D
2、设X 是随机变量,c 是常数,则)()(2
X D c
cX D =
3、设X 、Y 是任意两个相互独立的随机变量,则)()()(Y D X D Y X D +=+
三、一些重要的一元分布 1、二项分布
重复进行n 次相互独立的试验,若每次实验仅有两个可能结果,每次实验成功的概率均为p ,设X 为n 次独立实验中成功出现的次数,则离散型随机变量X 的分布律为:
k
n k p p k n k X P --???
? ??==)1()(, n k ;,2,1,0Λ= 其中,p q p -=<<
1,10,n 为自然数,称X 服从二项分布。二项分布中np X E =)(,
方差为)1()(2
p np X Var -==σ
。
2、超几何分布
若N 个产品中有M 个不合格品,从N 中随机不放回地抽取n 个进行调查,X 为出现的不合格品数,则离散型随机变量X 的分布律为:
???
? ?????? ??--???? ??=
=n N k n M N k M k X P )(,),min(,,2,1,0M n k Λ=
则称X 服从超几何分布。当N 很大,n 相对较少时,超几何分布近似于二项分布。
3、泊松分布
若离散型随机变量X 的分布律为:
!
)(k e k X P k λλ-=
=, Λ,2,1,0=k
其中0>λ
,则称X 服从泊松分布。泊松分布中λ=)(X E ,λσ==)(2X Var 。在
np =λ恒定的条件下,当n 趋于无穷,p 趋于零时,二项分布趋向于泊松分布。
4、正态分布
若连续型随机变量X 的概率密度函数为:
?
?????--=2
22)(exp 21
)(σμσπx x f ,∞><∞-x 则称X 服从正态分布,记作),(~2σμN X ,其中参数μ、2σ分别是随机变量X 的数学
期望和方差。
当0=μ
,12=σ时,随机变量X 的分布为标准正态分布。当n 很大,p 和q 都不太
大时,二项分布可用正态分布近似计算。
5、卡方分布
设随机变量n X X X ,,,21Λ
皆服从)1,0(N ,且相互独立,则其平方和∑=n
i i X 1
2所服从的
分布称为卡方分布,记为:)(~2
n X χ,n 为自由度,表示平方和∑=n
i i X 1
2中独立随机变量
的个数。
6、t 分布
设随机变量)1,0(~N X
,)(~2n Y χ,且X 与Y 相互独立,则随机变量n
Y X t =
的分布称为t 分布。记为)(~n t t ,n 为自由度。随着自由度n 趋向于无穷大,t 分布以标
准正态分布为极限。
7、F 分布 设随机变量)(~2
n X
χ
,)(~2
m Y χ
,且X 与Y 相互独立,则随机变量m
Y n X F =
服从第一自由度为n 、第二自由度为m 的F 分布,记为),(~m n F F 。
第二节 多元统计分析中的基本概念
在社会、经济及自然科学等许多领域,常常需要同时研究多个指标,例如,要研究上市公司的盈利状况,就涉及到公司的主营业务利润、营业利润、利润总额和净利润等总量指标,主营业务利润率、经营净利率、资产利润率、资产净利率、净资产收益率、总资产报酬率等相对指标,每股收益、加权每股收益等平均指标。这些变量都是随机变量,随机变量之间往往存在一定的联系,因而需要把这些随机变量作为一个整体来研究。
一、随机向量及概率分布 (一)随机向量
设有
p 个随机变量p X X X ,,,21Λ,且它们之间有一定的联系,这些随机变量组成的整
体就是随机向量,记为()'
=p X X X X ,,,21Λ。
在多元统计分析中,仍将所研究对象的全体称为总体,它是由许多个体构成的集合,如果构成总体中的个体是有p 个观测指标的个体,称这样的总体为p 维总体,或p 元总体。由于从p 维总体中随机抽到一个个体,其p 个指标观测值不能事先精确知道,它依赖于被抽到的个体,因此,p 维总体可用p 维随机向量来表示,这里的维或元表示共有几个分量。
(二)随机向量的概率分布 设()'=p
X X X X ,,,21Λ是p 维随机向量,它的多元概率分布函数定义为:
),,,(),,,()(221121p p p x X x X x X P x x x F x F ≤≤≤==ΛΛ,记为)(~x F X ,其
中:()p p R x x x x
∈=,,,21Λ,p R 表示p 维空间。
1、离散型随机向量的概率分布 定义3.1:若()'
=p X X X X ,,,21Λ是
p 维随机向量,若存在有限个或可列个p 维数向
量,,,21Λx x 记k k p x X P ==)((Λ,2,1=k )
,且满足121=++Λp p ,则称X 为离散型随机向量,并称k k p x X
P ==)((Λ,2,1=k )为离散型随机向量X 的概率分布。
2、连续型随机向量的概率分布 定义3.2:设()p x x x F x F X ,,,)(~21Λ=,若存在一个非负函数()p x x x f ,,,21Λ,
使得
()()p x
x
p p dt dt dt t t t f x x x F x F p
ΛΛΛΛ2121211,,,,,,)(??∞-∞-==
对一切()p p R x x x x
∈=Λ,,21都成立,则称X 为连续型随机向量,称()
p x x x f ,,,21Λ为分布密度函数。
一个p 维变量的函数()p x x x f ,,,21Λ能作为p R 中某个随机向量的分布密度函数,当
且仅当
(1)
0),,(21≥p x x x f Λ,()p p R x x x ∈'?,,,21Λ
(2)()??∞
∞-∞
∞-=1,,,2121p p dx dx dx x x x f ΛΛΛ
例3.1:试证函数
???=+-0
),()(2121x x e x x f , 其它,0
021≥≥x x
为随机向量()'
=21,X X X
的密度函数。
证:只要验证函数满足密度函数的两个条件即可。 (1) 显然,0),(21≥x x f
(2)()????∞∞
+-∞
∞-∞
∞
-=0021)(212121,dx dx e dx dx x x f x x
??∞∞+-=0201)
(][21dx dx e x x
?∞-=
022dx e x
∞--=0
2x e =1
二、边际分布 设()'=p
X X X X ,,,21Λ是p 维随机向量,由它的)(p q <个分量组成的子向量
),,,(21)('=q i i i i X X X X Λ的分布为X 的边际(或边缘)分布,相对的把X 的分布称为联
合分布。通过变换X 中各分量的次序,总可假定)
1(X
正好是X 的前q 个分量,其余
q
p -
个分量为)
2(X
,即??
????=)2()1(X X X ,相应的取值也可以分为两部分,即???
???=)2()1(x x x ,当X 的
分布函数是),,,()(21p x x x F x F Λ=
时,)1(X 的分布函数即边际函数为:
),,,()(21)1(q x x x F x F Λ=
)
,,,(2211q q x X x X x X P ≤≤≤=Λ
),,,,,,(12211∞≤∞≤≤≤≤=+p q q q X X x X x X x X P ΛΛ ),,,,,,(21∞∞=ΛΛq x x x F
p p x x dx dx x x f q
ΛΛΛΛ11),(1????∞-∞-∞∞-∞
∞-=
q x x p q p dx dx dx dx x x f q
ΛΛΛΛ
Λ
1111
),(????
∞
-∞-+∞∞
-∞
∞
-??
????=
所以)
1(X
的边际密度为
p q p q dx dx x x f x x x f ΛΛΛ
Λ1121)1(),(),,,(+∞
∞
-∞
∞
-??
=
例3.2:对例1中的()'
=21,X X X 求边际密度函数。
解:
()?∞
∞-=2211,)(dx x x f x f
?????==?∞-+-,
002)(1
21x x x e dx e , 其它01≥x
()?∞
∞-=1212,)(dx x x f x f
?????==?∞-+-,
001)(2
21x x x e dx e , 其它02≥x
三、多元变量的独立性 定义3.3:若
p 个随机变量p X X X ,,,21Λ的联合分布等于各自边际分布的乘积,
称p 个随机变量p X X X ,,,21Λ
相互独立。
由p X X X ,,,21Λ
相互独立可以推知任何i X 与j X (j i ≠)独立,但反之不真。
例3.3:例2中的1X 和2X 是否相互独立?
解:???=+-0
),()(2121x x e x x f , 其它,0
021≥≥x x
???==-∞
∞
-?
0),()(112211x x e dx x x f x f ,其它0
1≥x
???==-∞
∞
-?
),()(221212x x e dx x x f x f ,其它0
2≥x
所以,
)()(),(212121x f x f x x f x x =,故1X 和2X 相互独立。
四、随机向量的数字特征 (一)随机向量的数学期望 定义 3.4:设()'=p
X X X X ,,,21Λ,若),2,1)((p i X E i
Λ
=存在且有限,则称
()[]
'
=)(,),(),(21p X E X E X E X E Λ为X 的均值向量或数学期望,或者用μ表示()X E ,用i μ表示)(i X E 。
均值向量有以下性质: 1、)()(X AE AX E =
2、B X AE AXB E )()(=
3、)()()(Y BE X AE BY AX
E +=+
其中:X 、Y 为随机向量,A 、B 为适合运算的常数矩阵。 (二)随机向量X 的协方差阵
定义3.5:设()'
=p X X X X ,,,21Λ,称
))((),()('--==EX X EX X E X X Cov X D
??
????
?????
???=),()
,(),(),()
,(),(),(),(),(2122
21212111p p p p p p X X Cov X X Cov X X Cov X X Cov X X Cov X X Cov X X Cov X X Cov X X Cov Λ
M
O M M ΛΛ
为X 的协方差阵。通常将)(X D 记为∑,
),(j
i X X Cov 记为ij σ,从而有()p
p ij ?=∑σ。
(三)随机向量X 和Y 的协方差阵
设()'
=p X X X X ,,,21Λ,()'
=q Y Y Y Y ,,,21Λ,称
))((),('--=EY Y EX X E Y X Cov
??
????
?????
???=),()
,(),(),()
,(),(),(),(),(2122
21212111q p p p q q Y X Cov Y X Cov Y X Cov Y X Cov Y X Cov Y X Cov Y X Cov Y X Cov Y X Cov Λ
M
O M M ΛΛ
为X 和Y 的协方差阵
当Y X
=时,即为)(X D 。
协差阵有如下数学性质:
1、0)(≥X D ,即X 的协差阵为非负定阵。
2、对于常数向量a ,有)()(X D a X
D =+
3、设A 为常数矩阵,则A X AD AX D '=)()(
4、B Y X ACov BY AX Cov '=),(),(
其中,B A a ,,为适合运算的常数向量和矩阵。 (四)随机向量X 的相关系数矩阵
若随机向量()'
=p X X X X ,,,21Λ的协方差阵存在,且每个分量的方差都大于零,则随机向量的相关阵为
()p p ij j i r X X corr R ?==),(
其中:
jj
ii ij j i j i ij X D X D X X Cov r σσσ=
=
)
()(),( ,p j i ,,2,1,Λ=
ij r 为i X 与j X 之间的相关系数(线性)。若0),(=j i X X Cov ,则i X 与j X 不相关。
(五)协方差阵和相关系数矩阵的关系
设标准离差阵为???
?
???
?
?
?=PP V σσ0011
2
1O
=),,,(2211PP diag σσσ
Λ 则有
在统计分析时为了克服由于指标的量纲不同对统计分析的影响,往往在使用某种统计分析方法之前,对每个指标进行标准差标准化处理,处理后的指标均值为0,方差为1,这时,随机向量的协方差矩阵和其相关系数矩阵完全相同。
例3.4:2003年河南省31家上市公司年报数据中的相应资料如表3-1: 表3-1 2003年河南省31家上市公司的有关数据
资料来源:《金融界》数据中心,网址为https://www.doczj.com/doc/2716708719.html,
根据资料计算:均值向量、协方差矩阵、相关系数矩阵、并验证协方差矩阵和相关系数矩阵的关系。
解:均值向量为: ()'
=440.10055900.15350059.15654017.31101μ
协方差矩阵为:?
?
???
??
??
???++++++++++++++++=∑083.67E 08
5.06E 085.11E 08
5.92E 085.06E 087.17E 087.25E 088.77E 085.11E 087.25E 087.39E 08
8.99E 085.92E 088.77E 088.99E 091.25E 相关系数矩阵:?????
????
???=1986.0982.0873.0986.01996.0925.0982.0996.01934.0873.0925.0934.01
R 标准离差阵:?
????
????
???=75.1916337.267731.2718525.3539421
V
?????
????
???=1986.0982.0873.0986.01996.0925.0982.0996.01934.0873.0925.0934.01
第三节 多元正态分布的定义及基本性质
多元正态分布是一元正态分布的推广,多元分析的主要理论都是直接或间接建立在多元正态总体基础上的,多元正态分布是多元分析的基础。此外,在实际中遇到的随机向量常常服从正态分布或近似服从正态分布。因此,现实世界许多实际问题的解决办法都是以总体服从正态分布或近似服从正态分布为前提的。
一、 多元正态分布的定义
一元正态分布的密度函数?
?????--=2
22)(exp 21
)(σμσπx x f (0>σ),可以改写为()()
()??
????-'
--=
-μσμσπx x x f 1
2
2
1exp 21)(,由于x 、μ均为一维的数字,转置与
否都相同。将一元正态分布的概率密度函数推广,可得出多元正态分布的定义。
定义3.6:若
p 维随机向量()'=p X X X X ,,,21Λ的密度函数为:
?
??
???-∑'--∑
=
-)()(21exp 21),,,(12
121μμπ
x x x x x f p
p Λ(0>∑)
其中:()'
=p x x x x ,,,21Λ,μ是p 维均值向量,0>∑,则称()'=p X X X X ,,,21Λ服
从
p 元正态分布 ,记为),(~∑μp N X 。
当
p 等于1时,p 元正态分布变成一元正态分布,也就是说一元正态分布是p 元正态
分布的一个特例。
上述定义实际上是在
0≠∑时给出的,当0=∑,()'=p X X X X ,,,21Λ不存在通常
意义下的概率密度。当0=∑时,也有正态分布的定义。
定义3.7:独立标准正态变量p X X X ,,,21Λ
的有限线性组合
111??+????
???
???=?????
?????=m p p m m X X A Y Y Y μM M
称为m 维正态随机向量,记为),(~∑μm N Y ,其中A A '=∑,注意A A '=∑的分解一
般不是唯一的。
当
2=p 时,利用参数11)(μ=X E 、22)(μ=X E 、111)(σ=X D 、222)(σ=X D 、
22
111212σσσρ=
可将二元正态分布的密度函数写成:
这是因为???
???=∑2221
1211σσσσ
所以,)1(2
1222112
122211ρσσσσσ-=-=∑
??
?
???---=
∑-11211222212
221111
σσσσσσσ ???
?
????---=1122
1112221112222
122211)1(1
σσσρσσρσρσσ
而
[]??
????--????????-----=
-∑'--2211112211122211122222112
1222111)1(1
)()(μμσσσρσσρσμμρσσμμx x x x x x
)1()())((2)(2
12
221111
222221122111222211ρσσσμμμσσρσμ--+----=
x x x x
???
????????? ??-+???? ??-???? ??--???? ??--=2
2222222211111221111212211σμσμσμρσμρx x x x 这与概率统计中的结果是一致的。
二、多元正态变量的基本性质
在讨论多元统计分析的理论和方法时,经常用到多元正态变量的某些性质,利用这些性质可使得正态分布的处理变得容易一些。
1、若随机向量()),(~,,,21∑'
=μP p N X X X X Λ,∑是对角阵,
则p X X X ,,,21Λ相互独立。
2、设()),(~,,,21∑'
=μP p N X X X X Λ,A 为p s ?阶常数阵,b 为s 维常数向
量,则
),(~A A b A N b AX s '∑++μ
即多元正态随机向量的任意线性变换仍然服从多元正态分布。
3、若()),(~,,,21∑'
=μP p N X X X X
Λ,将∑,,μX 做如下剖析
q
q
p q
q
p q
q p X X X ---???
?
??∑∑∑∑=∑??????=??????=22211211
)1()1(,,)2()2(μμμ
则
),(~11)1()1(∑μq N X ,),(~22)2()2(∑-μq p N X ,即多元正态分布随机向量X 的任何一个
分量子集的分布(边际分布)仍然遵从正态分布。但是,若一个随机向量的任何边际分布均
为正态分布,并不能推导出该随机向量是多元正态分布。
例3.5:若()),(~,,3321∑'=μN X X X X ,其中:??????????=321μμμμ,????
?
?????=∑333231232221
131211σσσσσσσσσ,
设??
?
???-=100001A
则:
(1)),(~10000131321A A A N X X X X X AX '∑??
?
???-=????
?
??
?????????-=μ 其中:??
?
???-=????
?
??
?????????-=31321100001μμμμμμA ??
?
???--=????
?
?????-?????????????? ??-='∑3331
1311
333231232221131211100001100001σσσσσσσσσσσσσA A 即正态随机向量的线性函数还是正态的。
(2)记??????=??????????=)2()
1(321X X X X X X ,????????=??????????=)2()1(321μμμμμμ,
??
?
???∑∑∑∑=?????
?????=∑2221
1211333231
232221131211σσσσσσσσσ 则 ),(~11)1(221)
1(∑??
?
???=μN X X X
,
即多元正态分布随机向量X 的任何一个分量子集的分布仍然遵从正态分布。
多元分析中的许多方法,大都假定数据来自多元正态总体。但要判断已有的一批数据是否来自多元正态总体,是很困难的。可是反过来要肯定数据不是来自多元正态总体,比较容易,即如果()),(~,,1∑'=μp
p
N
X X X Λ,则它的每个分量必服从一元正态分布,因此把
每个分量的n 个样品值作成直方图,如果断定不是正态分布,就可以断定随机向量
()'
=p X X X ,,1Λ也不服从正态分布。
三、条件分布和独立性 (一)条件分布
若A 和B 是任意两个事件,且0)(>B P ,则称)(/)()(B P AB P B A P =为在事件B 发生的条件下,事件A 发生的条件概率。由此可以引出条件分布这一概念。
设()),(~,,1∑'=μp
p
N
X X X Λ,2≥p ,将∑,,μX 做如下剖析
q
q
p q
q
p q
q p X X X ---???
?
??∑∑∑∑=∑??????=??????=22211211
)1()1(,,)2()2(μμμ
在给定)
2(X
时)
1(X
的条件分布仍服从正态分布,这个结论是通过下列定理给出的。
定理3.1:设()),(~,,1∑'=μp
p
N
X X X Λ,0>∑,则
),(~2.112.1)2()1(∑μp N X X
其中:)()2()2(12212)1(2
.1μμμ-∑∑+=-X ,211
2212112.11∑∑∑-∑=∑-
该定理告诉我们,)
1(X 的分布与)2()
1(X X
的分布均为正态分布,它们的协方差阵分别
为11∑和2.11∑,由于0211
2212≥∑∑∑-,故2.1111∑≥∑。协方差阵是用来描述指标关系及散布程度的,2.1111∑≥∑说明在已知)
2(X 的条件下,)
1(X
的散布程度比不知道)
2(X
的情
况要小,当012
=∑时,两者相同。可以证明,011=∑,等价于)1(X 和)2(X 相互独立,
这时。即使给出)
2(X ,对)
1(X
的分布也没有影响。
定理3.2:设()),(~,,1∑'=μp
p
N
X X X Λ,0>∑,将∑,,μX 做如下剖析
t s r X X X X ??????????=)3()2()1(,t s r ???
?
??????=)
3()2()1(μμμμ,t
s r
??????????∑∑∑∑∑∑∑∑∑=∑3332312322
211312
11 则 )(),(3.2)
2(13.223.123.1)3()2()
1(μμ-∑∑+=-X
X X X
E 3.211
3.223.123.11)3()2()1(),(∑∑∑-∑=-X X X D
其中 2,1),()3()(3.==i X X E i i μ;kj kk ik ij k ij ∑∑∑-∑=∑-1
.,3,2,1,,=k j i 。
例3.6:在制定服装标准时需抽样进行人体测量,对某年龄段女子的测量结果如下:
1X 为身高,2X 为胸围,3X 为腰围,4X 为上体长,5X 为臀围,已知
()),(~,,551∑'
=μN X X X Λ,其中:
???????? ??=52.9132.6126.7039.8398.154μ,???????
?????????=∑36.2721
.570
.2053.1934.1021.503.723.254.336.970.2023.286.3954.2585.153.1954.354.2553.3051.634.1036
.985.151.666.29
若取),,(321)
1('=X X X X
,)(4)2(X X =,)(5)3(X X =,则
()()52.9136.2721.570.2053.1934.1032.6126.7039.8398.1545154321-????????????+???????????
?=??????????????-X X X X X X E ????
?
?
???
???-+-+-+-+=)52.91(19.032.61)52.91(76.026.70)52.91(71.039.83)52.91(38.098.1545555X X X X ??
???
?
??????=
??????????????03.723.254
.336.923.286.3954.2585.154.354.2553.3051.636.985
.151.666.2954321X X X X X D ()()21.5,70.20,53.19,34.1036.2721.570.2053.1934.101-????
?????
???- =????
?
????
???--------04.672.118.039.772.119.2476.1097.518.076.1059.1686.039.797.586.076.25 而??????
?
???----=??????????19.2476.1097.576.1059.1686.097.586.076.2554321X X X X X D
()()72.1,18.0,39.704.672.118.039.71--????
?
?????----
????
??????----=71.2371.1087.371.1058.1664.087.364.072.16 可见
()()154166.2972.16,X D X X X D =<=
2.1.试叙述多元联合分布和边际分布之间的关系。 解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,12(,,)p X X X X '=L 的联合分布密 度函数是一个p 维的函数,而边际分布讨论是12(,,)p X X X X '=L 的子向量的概率分布,其概率密度 函数的维数小于p 。 2.2设二维随机向量1 2()X X '服从二元正态分布,写出其联合分布。 解:设1 2()X X '的均值向量为()1 2μμ'=μ,协方差矩阵为21 122212σσσσ?? ? ?? ,则其联合分布密度函数为 1/2 12 2 2112112222122121()exp ()()2f σσσσσσσσ--???????? '=---?? ? ??? ?????? x x μx μ。 2.3已知随机向量12()X X '的联合密度函数为 12121222 2[()()()()2()()] (,)()()d c x a b a x c x a x c f x x b a d c --+-----= -- 其中1a x b ≤≤,2c x d ≤≤。求 (1)随机变量1X 和2X 的边缘密度函数、均值和方差; (2)随机变量1X 和2X 的协方差和相关系数; (3)判断 1X 和2X 是否相互独立。 (1)解:随机变量 1X 和2X 的边缘密度函数、均值和方差; 11212122 2[()()()()2()()] ()()()d x c d c x a b a x c x a x c f x dx b a d c --+-----=--? 1221222222 2()()2[()()2()()]()()()() d d c c d c x a x b a x c x a x c dx b a d c b a d c -------=+----? 121 222202()()2[()2()]()()()() d d c c d c x a x b a t x a t dt b a d c b a d c ------= +----? 221212222 2()()[()2()] 1()()()()d c d c d c x a x b a t x a t b a d c b a d c b a ------=+= ----- 所以 由于1X 服从均匀分布,则均值为2b a +,方差为 ()2 12 b a -。
一、填空题(20分) 1、若),2,1(),,(~)(n N X p 且相互独立,则样本均值向量X 服从的分布 为 2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。 3、判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有__距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。 4、Q 型聚类是指对_样品_进行聚类,R 型聚类是指对_指标(变量)_进行聚类。 5、设样品),2,1(,),,(' 21n i X X X X ip i i i ,总体),(~ p N X ,对样品进行分类常用的距离 2 ()ij d M )()(1j i j i x x x x ,兰氏距离()ij d L 6、因子分析中因子载荷系数ij a 的统计意义是_第i 个变量与第j 个公因子的相关系数。 7、一元回归的数学模型是: x y 10,多元回归的数学模型是: p p x x x y 22110。 8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。 二、计算题(60分) 1、设三维随机向量),(~3 N X ,其中 200031014,问1X 与2X 是否独立?),(21 X X 和3X 是否独立?为什么? 解: 因为1),cov(21 X X ,所以1X 与2X 不独立。 把协差矩阵写成分块矩阵 22211211,),(21 X X 的协差矩阵为11 因为12321),),cov(( X X X ,而012 ,所以),(21 X X 和3X 是不相关的,而正态分布不相关与相互
第3章 多元正态总体的假设检验与方差分析 从本章开始,我们开始转入多元统计方法和统计模型的学习。统计学分析处理的对象是带有随机性的数据。按照随机排列、重复、局部控制、正交等原则设计一个试验,通过试验结果形成样本信息(通常以数据的形式),再根据样本进行统计推断,是自然科学和工程技术领域常用的一种研究方法。由于试验指标常为多个数量指标,故常设试验结果所形成的总体为多元正态总体,这是本章理论方法研究的出发点。 所谓统计推断就是根据从总体中观测到的部分数据对总体中我们感兴趣的未知部分作出推测,这种推测必然伴有某种程度的不确定性,需要用概率来表明其可靠程度。统计推断的任务是“观察现象,提取信息,建立模型,作出推断”。 统计推断有参数估计和假设检验两大类问题,其统计推断目的不同。参数估计问题回答诸如“未知参数θ的值有多大?”之类的问题,而假设检验回答诸如“未知参数θ的值是0θ吗?”之类的问题。本章主要讨论多元正态总体的假设检验方法及其实际应用,我们将对一元正态总体情形作一简单回顾,然后将介绍单个总体均值的推断, 两个总体均值的比较推断,多个总体均值的比较检验和协方差阵的推断等。 3.1一元正态总体情形的回顾 一、 假设检验 在假设检验问题中通常有两个统计假设(简称假设),一个作为原假设(或称零假设),另一个作为备择假设(或称对立假设),分别记为0H 和1H 。 1、显著性检验 为便于表述,假定考虑假设检验问题:设1X ,2X ,…,n X 来自总体),(2 σμN 的样本,我们要检验假设 100:,:μμμμ≠=H H (3.1) 原假设0H 与备择假设1H 应相互排斥,两者有且只有一个正确。备择假设的意思是,一旦否定原假设0H ,我们就选择已准备的假设1H 。 当2 σ已知时,用统计量n X z σ μ -=
多元统计分析模拟试 题
多元统计分析模拟试题(两套:每套含填空、判断各二十道) A卷 1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐 步判别法。 2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的分类。 3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、 极大似然法 5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6)分组数据的Logistic回归存在异方差性,需要采用加权最小二乘估计 7)误差项的路径系数可由多元回归的决定系数算出,他们之间的关系为 = 8)最短距离法适用于条形的类,最长距离法适用于椭圆形的类。 9)主成分分析是利用降维的思想,在损失很少的信息前提下,把多个指标转 化为几个综合指标的多元统计方法。 10)在进行主成分分析时,我们认为所取的m(m
22121212121 ~(,),(,),(,),, 1X N X x x x x x x ρμμμμσρ ?? ∑==∑= ??? +-1、设其中则Cov(,)=____. 10 31 2~(,),1,,10,()()_________i i i i X N i W X X μμμ=' ∑=--∑L 、设则=服从。 ()1 2 34 433,4 92, 3216___________________ X x x x R -?? ?'==-- ? ?-? ? =∑、设随机向量且协方差矩阵则它的相关矩阵 4、 __________, __________, ________________。 215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--L 、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。 12332313116421(,,)~(,),(1,0,2),441, 2142X x x x N x x x x x μμ-?? ?'=∑=-∑=-- ? ?-?? -?? + ??? 、设其中试判断与是否独立? (), 1 2 3设X=x x x 的相关系数矩阵通过因子分析分解为 211X h = 的共性方差111X σ= 的方差21X g = 1公因子f 对的贡献1213 30.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.10320 13 R ? ? - ????? ? -?? ? ? ?=-=-+ ? ? ? ??? ? ? ????? ? ???
一、判断题 ( 对 )112(,,,)p X X X X '=L 的协差阵一定是对称的半正定阵 ( 对 )2标准化随机向量的协差阵与原变量的相关系数阵相同。 ( 对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系 的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 ( 对 )4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。 ( 错)5),(~),,,(21∑'=μp p N X X X X Λ,,X S 分别是样本均值和样本离差阵,则, S X n 分别是,μ∑的无偏估计。 ( 对)6),(~),,,(21∑'=μp p N X X X X Λ,X 作为样本均值μ的估计,是 无偏的、有效的、一致的。 ( 错)7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 ( 对)8因子载荷阵()ij A a =中的ij a 表示第i 个变量在第j 个公因子上的相对重要性。 ( 对 )9 判别分析中,若两个总体的协差阵相等,则Fisher 判别与距离判别等 价。 (对)10距离判别法要求两总体分布的协差阵相等,Fisher 判别法对总体的分布无特定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵. 2、设∑是总体1(,,)m X X X =L 的协方差阵,∑的特征根(1,,)i i m λ=L 与相应的单 位正交化特征向量 12(,,,)i i i im a a a α=L ,则第一主成分的表达式是 11111221m m y a X a X a X =+++L ,方差为 1λ。 3设∑是总体1234(,,,)X X X X X =的协方差阵,∑的特征根和标准正交特征向量分别 为:' 112.920(0.1485,0.5735,0.5577,0.5814)U λ==--- ' 221.024(0.9544,0.0984,0.2695,0.0824)U λ==- '330.049(0.2516,0.7733,0.5589,0.1624)U λ==--
一、填空题: 1、多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法. 2、回归参数显著性检验是检验解释变量对被解释变量的影响是否著. 3、聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为 Q型聚类和 R型聚类。 4、相应分析的主要目的是寻求列联表行因素A 和列因素B 的基本分析特征和它们的最优联立表示。 5、因子分析把每个原始变量分解为两部分因素:一部分为公共因子,另一部分为特殊因子。 6、若 () (,), P x N αμα ∑=1,2,3….n且相互独立,则样本均值向量x服从的分布 为_x~N(μ,Σ/n)_。 二、简答 1、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。 在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。 2、简述相应分析的基本思想。 相应分析,是指对两个定性变量的多种水平进行分析。设有两组因素A和B,其中因素A包含r个水平,因素B包含c个水平。对这两组因素作随机抽样调查,得到一个rc的二维列联表,记为。要寻求列联表列因素A和行因素B的基本分析特征和最优列联表示。相应分析即是通过列联表的转换,使得因素A
和因素B 具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A 、B 的联系。 3、简述费希尔判别法的基本思想。 从k 个总体中抽取具有p 个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数 系数: 确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p 个指标值代入线性判别函数式中求出 值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。 5、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设 和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 协差阵的检验 检验0=ΣΣ 0p H =ΣI : /2 /21exp 2np n e tr n λ???? =-?? ? ???? S S 00p H =≠ΣΣI : /2 /2**1exp 2np n e tr n λ???? =-?? ? ???? S S
第三章 多元正态分布 多元正态分布是一元正态分布在多元情形下的直接推广,一元正态分布在统计学理论和应用方面有着十分重要的地位,同样,多元正态分布在多元统计学中也占有相当重要的地位。多元分析中的许多理论都是建立在多元正态分布基础上的,要学好多元统计分析,首先要熟悉多元正态分布及其性质。 第一节 一元统计分析中的有关概念 多元统计分析涉及到的都是随机向量或多个随机向量放在一起组成的随机矩阵,学习多元统计分析,首先要对随机向量和随机矩阵有所把握,为了学习的方便,先对一元统计分析中的有关概念和性质加以复习,并在此基础上推广给出多元统计分析中相应的概念和性质。 一、随机变量及概率分布函数 (一)随机变量 随机变量是随机事件的数量表现,可用X 、Y 等表示。随机变量X 有两个特点:一是取值的随机性,即事先不能够确定X 取哪个数值;二是取值的统计规律性,即完全可以确定X 取某个值或X 在某个区间取值的概率。 (二)随机变量的概率分布函数 随机变量X 的概率分布函数,简称为分布函数,其定义为: )()(x X P x F ≤= 随机变量有离散型随机变量和连续型随机变量,相对应的概率分布就有离散型概率分布和连续型概率分布。 1、离散型随机变量的概率分布 若随机变量X 在有限个或可列个值上取值,则称X 为离散型随机变量。 设X 为离散型随机变量,可能取值为1x ,2x ,…,取这些值的概率分别为1p ,2p ,…, 记为 k k p x X P ==)((Λ,2,1=k ) 称k k p x X P ==)((Λ,2,1=k )为离散型随机变量X 的概率分布。 离散型随机变量的概率分布具有两个性质: (1) 0≥k p ,Λ,2,1=k (2)11 =∑ ∞ =k k p 2、连续型随机变量的概率分布 若随机变量X 的分布函数可以表示为 dt t f x F x ?∞-=)()( 对一切R x ∈都成立,则称X 为连续型随机变量,称 )(x f 为X 的概率分布密度函数,简
第一章: 多元统计分析研究的内容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X 均值向量: 随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵: )',...,,(),,,(2121P p EX EX EX EX μμμ='=Λ)')((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ
2、均值向量协方差矩阵的性质 (1).设X ,Y 为随机向量,A ,B 为常数矩阵 E (AX )=AE (X ); E (AXB )=AE (X )B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的),(~∑μP N X μ∑μp X X X ,,,21Λ),(~∑μP N X ) ,('A A d A N s ∑+μ)()1(,, n X X ΛX )',,,(21p X X X Λ)')(()()(1X X X X i i n i --∑=n 1X μ∑μX )1,(~∑n N X P μ),1(∑-n W p X X
多元统计分析第三章假设检验与方差分析
第3章 多元正态总体的假设检验与方差分析 从本章开始,我们开始转入多元统计方法和统计模型的学习。统计学分析处理的对象是带有随机性的数据。按照随机排列、重复、局部控制、正交等原则设计一个试验,通过试验结果形成样本信息(通常以数据的形式),再根据样本进行统计推断,是自然科学和工程技术领域常用的一种研究方法。由于试验指标常为多个数量指标,故常设试验结果所形成的总体为多元正态总体,这是本章理论方法研究的出发点。 所谓统计推断就是根据从总体中观测到的部分数据对总体中我们感兴趣的未知部分作出推测,这种推测必然伴有某种程度的不确定性,需要用概率来表明其可靠程度。统计推断的任务是“观察现象,提取信息,建立模型,作出推断”。 统计推断有参数估计和假设检验两大类问题,其统计推断目的不同。参数估计问题回答诸如“未知参数θ的值有多大?”之类的问题,而假设检验回答诸如“未知参数θ的值是0θ吗?”之类的问题。本章主要讨论多元正态总体的假设检验方法及其实际应用,我们将对一元正态总体情形作一简单回顾,然后将介绍单个总体均值的推断, 两个总体均值的比较推断,多个总体均值的比较检验和协方差阵的推断等。 3.1一元正态总体情形的回顾 一、 假设检验 在假设检验问题中通常有两个统计假设(简称假设),一个作为原假设(或称零假设),另一个作为备择假设(或称对立假设),分别记为0H 和1H 。 1、显著性检验 为便于表述,假定考虑假设检验问题:设1X ,2X ,…,n X 来自总体),(2 σμN 的样本,我们要检验假设 100:,:μμμμ≠=H H (3.1) 原假设0H 与备择假设1H 应相互排斥,两者有且只有一个正确。备择假设的意思是,一旦否定原假设0H ,我们就选择已准备的假设1H 。 当2 σ已知时,用统计量n X z σ μ -=
第三章多元统计分析 §4 聚类分析 分类是人类认识世界的方式,也是管理世界的有效手段。在科学研究中非常重要,许多科学的研究都是从分类研究出发的。没有分类就没有效率;没有分类,这个世界就没有秩序。瑞典博物学家林奈(Carl von Linnaeus, 1707-1778)因为对植物的分类成就被后人誉为“分类学之父”,后人评价说“上帝创世,林奈分类”——能与上帝的名字并列的人不多,另一个著名的科学家是牛顿。由此可见分类成果的重要性。最初分类都是定性了,后来随着科学的发展产生了定量分类技术,包括基于统计学的聚类方法和基于模糊数学的聚类技巧。本节主要讲述统计学意义的数字分类方法思想和过程。 1 聚类的分类 分类研究的成果的重要性决定了方法的重大实践意义。在任何一门语言的语法学中,都要对词词汇进行分类,词汇分类可以根据词性:名词,动词,形容词……;英文还可以根据首字母分类:ABCD……;汉字则还可以根据笔划,如此等等。在生物学中,将生物划分为:界,门,纲,目,科,属,种。例如白菜(种)属于油菜属、十字花科、十字花目、双子叶植物纲、被子植物亚门、种子植物门、植物界;老虎(种)则属于猫属、猫科、食肉目、哺乳动物纲、脊椎动物亚门、脊索动物门、动物界。这样,整个世界的生物就可以建立一个等级谱系,根据这个谱系,我们可以比较容易地判断那些生物已经认识了,哪些生物尚未发现,哪些生物已经灭绝了。如果发现了新的生物,就可以方便地将其归类。在天文学中,天体可以根据视觉区域分类,也可以根据发光性质与光谱特征进行分类。在地理学中,城市既可以根据地域空间分类,也可以根据城市的职能进行分类。 表3-3-1 各种生物在分类学上的位置举例 位置白菜虎 界植物界动物界 门种子植物门脊索动物门 亚门被子植物亚门脊椎动物亚门 纲双子叶植物纲哺乳动物纲 目十字花目食肉目 科十字花科猫科 属油菜属猫属 种白菜虎 当我们走进一家图书馆,如果它们的图书没有分类编目,我们要找到一本图书与大海捞针没有什么区别。分类的方式也会影响工作的效率。书店的图书一般根据科学门类进行分类摆设,但有一段时间一家书店改为按照出版单位进行分类排列,结果读者很难找到所需图书,这家原本效益挺好的书店很快收到了消极影响。 早期的分类,一般根据事物的属性与特征进行划分,属于定性分类的范畴。随着人们认识的深入和研究对象复杂程度的增加,单纯的定性分类方法就不能满足要求了,于是产生了定量分类技术,即所谓数字分类。本节要讲述的就是根据多个指标进行数字分类的一种多元
第一章: 多元统计分析研究的容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X均值向量: 随机向量X与Y的协方差矩阵: 当X=Y时Cov(X,Y)=D(X);当Cov(X,Y)=0 ,称X,Y不相关。 随机向量X与Y的相关系数矩阵: 2、均值向量协方差矩阵的性质 (1).设X,Y为随机向量,A,B 为常数矩阵 E(AX)=AE(X); E(AXB)=AE(X)B; D(AX)=AD(X)A’; )' ,..., , ( ) , , , ( 2 1 2 1P p EX EX EX EXμ μ μ = ' = )' )( ( ) , cov(EY Y EX X E Y X- - = q p ij r Y X ? =) ( ) , (ρ
Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的变量之间的比较。 4、对数变换:对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。它将具有指数特征的数据结构变换为线性数据结构。 三、样品间相近性的度量 研究样品或变量的亲疏程度的数量指标有两种:距离,它是将每一个样品看作p 维空),(~∑μP N X μ∑μp X X X ,,,21 ),(~∑μP N X ),('A A d A N s ∑+μ)()1(,,n X X X )',,,(21p X X X )')(()()(1X X X X i i n i --∑=n 1X μ ∑μX )1,(~∑n N X P μ),1(∑-n W p X X
Abbo无私奉献,只收1个金币,BS收5个金币的… 何老师考简单点啊……
第九章 典型相关分析 9.1 什么是典型相关分析?简述其基本思想。 答: 典型相关分析是研究两组变量之间相关关系的一种多元统计方法。用于揭示两组变量之间的内在联系。典型相关分析的目的是识别并量化两组变量之间的联系。将两组变量相关关系的分析转化为一组变量的线性组合与另一组变量线性组合之间的相关关系。 基本思想: (1)在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。即: 若设(1) (1)(1) (1)12(,,,)p X X X =X 、(2) (2)(2)(2) 12(,,,)q X X X =X 是两组相互关联的随机变量, 分别在两组变量中选取若干有代表性的综合变量Ui 、Vi ,使是原变量的线性组合。 在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大。(2)选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对。 (3)如此继续下去,直到两组变量之间的相关性被提取完毕为此。 9.2 什么是典型变量?它具有哪些性质? 答:在典型相关分析中,在一定条件下选取系列线性组合以反映两组变量之间的线性关系,这被选出的线性组合配对被称为典型变量。具体来说, ()(1) ()(1)()(1)()(1) 11 22i i i i i P P U a X a X a X ' =+++a X ()(2) ()(2)()(2) ()(2) 11 22i i i i i q q V b X b X b X ' =+++b X 在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大,则称 (1)(1)'a X 、(1)(2) 'b X 是(1)X 、(2)X 的第一对典型相关变量。 典型变量性质: 典型相关量化了两组变量之间的联系,反映了两组变量的相关程度。 1. ()1,()1 (1,2,,)k k D U D V k r === (,)0, (,)0 ()i j i j C ov U U C ov V V i j ==≠ 2. 0 (,1,2,,)(,)0()0()i i j i j i r C ov U V i j j r λ≠==?? =≠??>? 9.3 试分析一组变量的典型变量与其主成分的联系与区别。 答:一组变量的典型变量和其主成分都是经过线性变换计算矩阵特征值与特征向量得出的。主成分分析只涉及一组变量的相互依赖关系而典型相关则扩展到两组变量之间的相互依赖关系之中,度量了这两组变量之间联系的强度。 ()(1)()(1)()(1)()(1) 1122i i i i i P P U a X a X a X '=+++a X ()(2)()(2)()(2)()(2) 1122i i i i i q q V b X b X b X '=+++b X (1)(1)(1)(1)1 2 (,,,)p X X X = X 、(2)(2)(2)(2)1 2 (,,,)q X X X = X
应用多元统计分析课后答案 第五章 聚类分析 判别分析和聚类分析有何区别 答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n 个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于k 个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。 试述系统聚类的基本思想。 答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 对样品和变量进行聚类分析时, 所构造的统计量分别是什么简要说明为什么这样构造 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n 个样本看作p 维空间的n 个点。点之间的距离即可代表样品间的相似度。常用的距离为 (一)闵可夫斯基距离:1/1 ()() p q q ij ik jk k d q X X ==-∑ q 取不同值,分为 (1)绝对距离(1q =) 1 (1)p ij ik jk k d X X ==-∑ (2)欧氏距离(2q =) 21/2 1 (2)() p ij ik jk k d X X ==-∑ (3)切比雪夫距离(q =∞)
1()max ij ik jk k p d X X ≤≤∞=- (二)马氏距离 (三)兰氏距离 对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 将变量看作p 维空间的向量,一般用 (一)夹角余弦 (二)相关系数 在进行系统聚类时,不同类间距离计算方法有何区别选择距离公式应遵循哪些原则 答: 设d ij 表示样品X i 与X j 之间距离,用D ij 表示类G i 与G j 之间的距离。 (1). 最短距离法 ,min i k j r kr ij X G X G D d ∈∈= min{,}kp kq D D = (2)最长距离法 ,max i p j q pq ij X G X G D d ∈∈= 21 ()()()ij i j i j d M -'=--X X ΣX X 11()p ik jk ij k ik jk X X d L p X X =-=+∑ cos p ik jk ij X X θ= ∑ ()() p ik i jk j ij X X X X r --= ∑ ij G X G X ij d D j j i i ∈∈= ,min
、判断题 (对)1X (兀公2丄,X p)的协差阵一定是对称的半正定阵 (对)2标准化随机向量的协差阵与原变量的相关系数阵相同。 (对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 (对)4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。(错)5X (X-X2,,X p) ~ N p( , ),X,S分别是样本均值和样本离 S 差阵,则X,—分别是,的无偏估计。 n (对)6X (X「X2, ,X p) ~ N p( , ),X作为样本均值的估计,是无偏的、有效的、一致的。 (错)7因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 (对)8因子载荷阵A (a j)中的a ij表示第i个变量在第j个公因子上的相对重要性。 (对)9判别分析中,若两个总体的协差阵相等,则Fisher判别与距离判别等价。(对)10距离判别法要求两总体分布的协差阵相等,Fisher判别法对总体的分布无特 定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵. 2、设是总体X (X」,X m)的协方差阵,的特征根i(i 1,L ,m)与相应的单 位正交化特征向量i (盼无丄,a m),则第一主成分的表达式是 y1 Q1X1 812X2 L QmX m 方差为1。 3设是总体X (X1,X2,X3, X4)的协方差阵,的特征根和标准正交特征向量分别为: 1 2.920 U;(0.1485, 0.5735, 0.5577, 0.5814) 2 1.024 U2(0.9544, 0.0984,0.2695,0.0824) 3 0.049 U3(0.2516,0.7733, 0.5589, 0.1624) 0.007U4 ( 0.0612,0.2519,0.5513, 0.7930),则其第二个主成分的表达式是 4
3-8假定人体尺寸有这样的一般规律,身高(X 1),胸围(X 2)和上半臂围(X 3)的平均尺寸比例是6:4:1,假设()()1,,X n αα=L 为来自总体()123=,,X X X X '的随机样本,并设()~,X N μ∑。试利用表3.4中男婴这一数据来检验其身高、胸围和上半臂围这三个尺寸变量是否符合这一规律(写出假设H 0,并导出检验统计量)。 解:设32,~(,),~(,)Y CX X N Y N C C C μμ'=∑∑。 121231233106,,,,,014C X X X μμμμμμμ??-?? ? == ? ?-?? ? ??其中,分别为 的样本均值。则检验三个变量是否符合规律的假设为 0212:,:H C O H C O μμ=≠。 检验统计量为 2 1(1)1~(1,1) (3,6)(1)(1) n p F T F p n p p n n p ---+= --+==--, 由样本值计算得:=(82,60.2,14.5)X ',及 15840.2 2.5=40.215.86 6.552.5 6.559.5A ?? ? ? ??? , 2-1(1)()()()=47.1434T n n CX CAC CX ''=-,
221(1)12 =18.8574(1)(1)5 n p F T T n p ---+= ?=--, 对给定显著性水平=0.05α,利用软件SAS9.3进行检验时,首先计算p 值: p =P {F ≥18.8574}=0.0091948。 因为p 值=0.0091948<0.05,故否定0H ,即认为这组男婴数据与人类的一般规律不一致。在这种情况下,可能犯第一类错误·且犯第一类错误的概率为0.05。 SAS 程序及结果如下: prociml ; n=6;p=3; x={7860.616.5, 7658.112.5, 9263.214.5, 815914, 8160.815.5, 8459.514 }; m0={00,00}; c={10 -6,01 -4}; ln={[6]1}; x0=(ln*x)`/n; print x0; mm=i(6)-j(6,6,1)/n; a=x`*mm*x; a1=inv(c*a*c`); a2=c*x0; dd=a2`*a1*a2; d2=dd*(n-1); t2=n*d2; f=(n+1-p)*t2/((n-1)*(p-1)); print x0 a d2 t2 f; p0=1-probf(f,p-1,n-p+1); fa=finv(0.95,2,4); print p0; run ;
1 、填空题(20分) 1、 若X Q ~ N p (g ,(a =1,2,…n)且相互独立,则样本均值向量X 服从的分布为X ~ N p (g^|。 2、 变量的类型按尺度划分有 _间隔尺度_、_有序尺度_、名义尺度_。 3、 判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有 —距离判别法_、Fisher 判别法、 Bayes 判别法、逐步判别法。 4、 Q 型聚类是指对_样品-进行聚类,R 型聚类是指对_指标(变量)_进行聚类。 5、 设样品X i =(X i1,X i2^ X ip )',(i =1,2,…n),总体X~N p (」「),对样品进行分类常用的距离有: 明氏距离d j (q)=(壬|Xy q i j i j 6、 因子分析中因子载荷系数a j 的统计意义是—第i 个变量与第j 个公因子的相关系数。 7、 一元回归的数学模型是:y 曆x 童,多元回归的数学模型是 8、 对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、 典型相关分析是研究两组变量之间 相关关系的一种多元统计方法。 、计算题(60分) '4 1 1、设三维随机向量X~N 3(?2),其中送=1 3 e 0 独立?为什么? 解:因为cov(X 1,X 2^1,所以X 1与X 2不独立。 把协差矩阵写成分块矩阵瓦=f 11 ;12丨,(X 1,X 2/的协差矩阵为瓦 11 因为 —21 - 22 cov((X 1,X 2),X 3)=為12,而' 12 =0,所以(X 1, X 2)和X 3是不相关的,而正态分布不相关与相互独 立是等价的,所以(X 1,X 2)和X 3是独立的。 0,问X 1与X 2是否独立? 2> (X 1,X 2)和X 3是否
课程编号:MTH17094 北京理工大学2012-2013学年第一学期 2010级数学学院 应用多元统计分析(A ) 一、已知()123,,X X X X '=的特征函数为 ()(){} 222 12311231223,,exp 0.522222t t t it t t t t t t t Φ=-++++ (1)求()123,,X X X X '=的分布; (2)令2Y X =,求当Y y =给定时,1Z X =的条件分布; (3)求222123122322222U X X X X X X X =++++的分布 (4)令222123132V X X X X X =+++,判断(3)中的U 与V 是否相互独立?给出理由。 二、设有两个总体:1G 和2G ,由训练样本计算得 () ()()()121232222,3,3,2,,2223X X A A ????''====???????? ,其中1211n n ==。 (1)试求Fisher 线性判别函数; (2)试用Fisher 线性判别函数建立马氏距离判别准则。 三、下面是四个样品两两间的欧氏距离矩阵:() 010*******D ???? ? ?=?????? 请用最长距离法作系统聚类,并画出谱系聚类图。 四、设()123,,X X X X '=的均值向量()0,0,0μ'=,协方差阵为10.50.50.510.50.50.51????∑=?????? (1)求三个主成分的贡献率; (2)求总体X 的第一主成分。 五、设(),1,,i X i n = 为来自正态总体()2,N μ∑的简单随机样本,11a a O a a +?? ∑=>??+??,其中a>-0.5未知,求: (1),a μ的最大似然估计; (2),0.5a μ+的最大似然估计的分布。