当前位置:文档之家› 多元统计分析 上机作业

多元统计分析 上机作业

多元统计分析  上机作业
多元统计分析  上机作业

多远统计上机作业

指标的原始数据取自《中国统计年鉴,1995》和《中国教育统计年鉴,1995》除以各地区相应的人口数得到十项指标值见表1。其中:

X1:为每百万人口高等院校数;

X2:为每十万人口高等院校毕业生数;X3:为每十万人口高等院校招生数;

X4:为每十万人口高等院校在校生数;X5:为每十万人口高等院校教职工数;X6:为每十万人口高等院校专职教师数;X7:为高级职称占专职教师的比例; X8:为平均每所高等院校的在校生数;X9:为国家财政预算内普通高教经费占国内生产总值的比重;

X10:为生均教育经费。

表1 我国各地区普通高等教育发展状况数据

地区X1 X2 X3 X4 X5 X6X7 X8 X9 X10 北京 5.96 310 461 1557 931 319 44.36 2615 2.20 13631上海 3.39 234 308 1035 498 161 35.02 3052 .90 12665天津 2.35 157 229 713 295 109 38.40 3031 .86 9385陕西 1.35 81 111 364 150 58 30.45 2699 1.22 7881辽宁 1.50 88 128 421 144 58 34.30 2808 .54 7733吉林 1.67 86 120 370 153 58 33.53 2215 .76 7480黑龙江 1.17 63 93 296 117 44 35.22 2528 .58 8570湖北 1.05 67 92 297 115 43 32.89 2835 .66 7262江苏.95 64 94 287 102 39 31.54 3008 .39 7786广东.69 39 71 205 61 24 34.50 2988 .37 11355四川.56 40 57 177 61 23 32.62 3149 .55 7693山东.57 58 64 181 57 22 32.95 3202 .28 6805甘肃.71 42 62 190 66 26 28.13 2657 .73 7282湖南.74 42 61 194 61 24 33.06 2618 .47 6477浙江.86 42 71 204 66 26 29.94 2363 .25 7704新疆 1.29 47 73 265 114 46 25.93 2060 .37 5719福建 1.04 53 71 218 63 26 29.01 2099 .29 7106山西.85 53 65 218 76 30 25.63 2555 .43 5580河北.81 43 66 188 61 23 29.82 2313 .31 5704安徽.59 35 47 146 46 20 32.83 2488 .33 5628云南.66 36 40 130 44 19 28.55 1974 .48 9106江西.77 43 63 194 67 23 28.81 2515 .34 4085海南.70 33 51 165 47 18 27.34 2344 .28 7928内蒙古.84 43 48 171 65 29 27.65 2032 .32 5581西藏 1.69 26 45 137 75 33 12.10 810 1.00 14199河南.55 32 46 130 44 17 28.41 2341 .30 5714广西.60 28 43 129 39 17 31.93 2146 .24 5139宁夏 1.39 48 62 208 77 34 22.70 1500 .42 5377贵州.64 23 32 93 37 16 28.12 1469 .34 5415青海 1.48 38 46 151 63 30 17.87 1024 .38 7368

根据上面数据回答以下问题:

(一) 计算10个变量的相关系数矩阵,并找出相关性最强的5组变量;

1. 利用SPSS 软件,依次选中Analysis---correlate---bivariable ,得结果整理得

????

??

???

???

???

?

???

??

???

???

??

?

??= 1.00

0.68

0.05

0.15

0.62

0.62

0.61

0.62

0.60

0.66

0.68 1.00 0.11 0.37 0.87 0.86 0.83 0.82 0.80 0.87 0.05 0.11 1.00 0.78 0.22 0.24 0.33 0.34 0.35 0.07 0.15 0.37 0.78 1.00 0.55 0.56 0.61 0.63 0.61 0.41 0.62 0.87 0.22 0.55 1.00 1.00 0.99 0.98 0.97 0.98 0.62 0.86 0.24 0.56 1.00 1.00 0.99 0.98 0.97 0.97 0.61 0.83 0.33 0.61 0.99 0.99 1.00 1.00 0.99 0.96 0.62 0.82 0.34 0.63 0.98 0.98 1.00 1.00 0.99 0.95

0.60 0.80 0.35 0.61 0.97 0.97 0.99 0.99 1.00 0.94 0.66 0.87 0.07 0.41 0.98 0.97 0.96 0.95 0.94 1.00xy

r 2.其中:变量最强的5组变量:2X 和3X ,2X 和4X ,3X 和4X ,4X 和5X 及5X 和6X 。

[注:SPSS 运行结果见附件(一)]

(二) 对上面数据进行主成分分析,要求写出:

a )方差分解表(特征值,累积贡献率); 解答:

s Eigenvalue Initial ??

?

?

?

?

???

??

?

?

?

??

???

??

???

???

??

?

??=100.000.006.001

99.994

.007.00199.987.027.00399.960.071.00799.889.222.02299.6671.450.145

98.2172.064.20696.1545.362.53690.791

15.7701.57775.022

75.0227.502

b )要求累积贡献率大于等于85%,选取主成分个数,并用原始的10个变量表示每个

主成分; 解答:n=2时,贡献率达到90.791%;原始的10个变量表示每个主成分1F 和2F :

10

0.24534790.31909780.12011870.22417160.35998850.36035340.36217930.36217920.35889310.3497661X X X X X X X X X X F +++++

++++=10

0.2866790.194380.70234970.58290260.064550.0509640.01353730.02946420.0342411-0.197492X X X X X X X X X X F --++-

-+++=

c)计算每个省份相应的主成分值,并对主成分值进行标准化。

北京上海天津陕西辽宁吉林黑龙江湖北江苏广东

11.70 5.94 3.50 1.01 0.83 0.80 0.24 0.12 -0.16 -0.31

-0.89 0.10 1.03 0.03 0.88 -0.02 0.58 0.85 1.02 0.93

四川山东甘肃湖南浙江新疆福建山西河北安徽-0.70 -0.86 -0.74 -0.86 -0.98 -0.82 -0.96 -1.07 -1.22 -1.35

1.29 1.64 0.20 0.85 0.19 -0.51 -0.19 0.15 0.33 0.87

云南江西海南内蒙古西藏河南广西宁夏贵州青海

-1.18 -1.36 -1.35 -1.40 -0.67 -1.64 -1.68 -1.27 -1.97 -1.60 -0.65 0.65 -0.10 -0.23 -4.72 0.27 0.47 -1.48 -0.80 -2.75

【注:SPSS运行结果见附录二】

(三)利用2)中的标准化后主成分值对30个省市进行聚类分析,要求,a)分别用系统聚类

和快速聚类把30个省市分成3类,并比较这两种聚类结果异同(系统聚类给出你选择的聚类方法及谱系图)

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

15 ─┐

18 ─┤

19 ─┤

13 ─┤

23 ─┤

24 ─┤

16 ─┤

17 ─┤

21 ─┤

26 ─┤

27 ─┤

20 ─┤

22 ─┤

14 ─┤

11 ─┤

12 ─┼─┐

9 ─┤│

10 ─┤│

7 ─┤│

8 ─┤├─────┐

4 ─┤││

6 ─┤││

5 ─┘│├─┐

28 ─┐│││

29 ─┼─┘│├─────────────────────────────────────┐

30 ─┘│││

25 ─────────┘││

2 ───┬───────┘│

3 ───┘│

1 ─────────────────────────────────────────────────┘

聚类情况:第一类:北京

第二类:上海、天津

第三类:其他

快速聚类法:

Initial Cluster Centers

Cluster

1 2 3 VAR00012 11.70 5.94 -.67 VAR00013 -.89 .10 -4.72

Cluster Membership Cluster Membership

Case

Number

Case

Number Cluster Distance

Case

Number Cluster

1 1 .000 16 3 .498

2 2 1.307 17

3 .255

3 2 1.307 18 3 .324

4 3 1.79

5 19 3 .551

5 3 1.843 20 3 1.046

6 3 1.585 21 3 .757

7 3 1.181 22 3 .871

8 3 1.247 23 3 .574

9 3 1.199 24 3 .654

10 3 1.055 25 3 4.709

11 3 1.305 26 3 .902

12 3 1.647 27 3 1.020

13 3 .209 28 3 1.546

14 3 .867 29 3 1.428

15 3 .276 30 3 2.860

Iteration History a

Iterati on Change in Cluster Centers

1 2 3

1 .000 3.147 4.677

2 .000 .674 .076

3 .000 1.249 .069

4 .000 .000 .000

a. Convergence achieved due to no or small change in cluster centers. The maximum absolute coordinate change for any center is .000. The current iteration is 4. The minimum distance between initial centers is 5.843.

(四) 利用3)中快速聚类的结果及2)标准化后主成分值进行判别分析,要求:a )检验3

类间的均值是否相等;b )检验3类间的自协方差阵是否相等(a ,b 的结果要求给出原

假设和检验结果);c )写出fisher 和典型判别准则;d )分别利用c )的检验准则检验青海属于哪一类;e )给出检验判别准则的优劣。

a )建立检验假设为:0H :三类均值相等 vs 1H :三类均值不相等

Between-Subjects Factors

N

Cluster Number of Case

1 1

2 2 3

27

【SPSS 运行结果】 由Sig.值可以看到,无论从哪个统计量来看,三类都是与显著差异的,故拒绝原假设,认为三类均值不相等。

b )建立检验假设为:0H :三类自协方差阵相等 vs 1H :三类自协方差阵不相等

Warnings

Box's Test of Equality of Covariance Matrices is not computed because there are fewer than two nonsingular cell covariance matrices.

c )fisher 判别准则:设)(X Yi 为第i 个线性判别函数,(i=1,2,…,m ),

∑=-=

m

1

2

))()((),(i k

i

i

k x

y x y G x d

则 ),(m i n ),(1k k

j t G x d G x d ≤≤=,t G x ∈

Multivariate Tests c

Effect Value

F Hypothesis df

Error df Sig.

Intercept

Pillai's Trace .894 1.092E2a

2.000 26.000 .000 Wilks' Lambda .106 1.092E2a 2.000 26.000 .000 Hotelling's Trace 8.404 1.092E2a 2.000 26.000 .000 Roy's Largest Root

8.404 1.092E2a 2.000 26.000 .000 QCL_1

Pillai's Trace .942 12.012 4.000 54.000 .000 Wilks' Lambda .085 31.675a 4.000 52.000 .000 Hotelling's Trace 10.499 65.616 4.000 50.000 .000 Roy's Largest Root

10.469

1.413E2b

2.000

27.000

.000

a. Exact statistic

b. The statistic is an upper bound on F that yields a lower bound on the significance level.

c. Design: Intercept + QCL_1

典型判别准则: d)

(五)对10个变量使用主轴因子法进行因子分析,要求:a )写出因子载荷矩阵,并给出变量

X1和因子间的关系;b )计算每个变量的共同度,并给出变量1被选取因子解释的比例;c )对因子进行方差最大化旋转,给出旋转后的因子载荷矩阵,并利用该矩阵对原始的10个变量进行分类,而且出没类变量的实际意义;d )计算青海省的因子得分。 a)因子载荷矩阵CM (Component Matrixa) b)变量的共同度

X1 0.979268

X2 0.968138 X3 0.985433 X4 0.984353 X5 0.978265 X6 0.978757 X7 0.91282 X8 0.886165 X9 0.823412 X10

0.581184

由上表【变量共同度】结果,变量X1和因子间的关系可表示为:

1X

=20.24810.958F F - , 2X =2043.010.983F F -,其余以次类推。

变量1被选取因子解释的比例为97.9%.

有旋转后的因子载荷矩阵可以看出,公共因子F1在Xi (i =1,2,3,4,5,6,9,10)上的载荷值都很大。

通过变量的含义得出,F1反映高校教育规模及教育发展水平和教育经费的公共因子。公共因子F2在通过变量的含义得出,F1反映高校教育规模及教育发展水平和教育经费的公共因子。公共因子F2在7X ,8X 上的载荷较大,是反映高校高级职称占专职教师的比例和平均每所高等院校的在校生数的公共因子, 有了对各个公共因子合理的解释,结合各个城市在两个公共因子上的得分和综合得分,就可以对各中心城市的教育发展水平进行评价了。

d )青海省的因子得分-0.585, -2.188. 【SPSS 运行结果参见附录三】

Classification Function Coefficients

Cluster Number of Case

1 2 3 VAR00012 16.748 6.612 -1.110

VAR00013 -2.376 -.377 .116 (Constant)

-100.121

-16.594

-1.533 Fisher's linear discriminant functions

Canonical Discriminant Function

Coefficients

Function

1

2 VAR00012 1.191 .020 VAR0001

3 -.143 .778 (Constant)

.000

.000

Unstandardized coefficients

????

??

????

??

???

?

???

??

?????????

??-----=.360.672.244

.874.882.329.732.614.081.986

.064.987.017.992.037.992.043

.983.248.958CM

Total Variance Explained

Compo nent

Initial Eigenvalues Extraction Sums of Squared Loadings Total % of Variance Cumulative % Total % of Variance Cumulative %

1 7.50

2 75.022 75.022 7.502 75.022 75.022

2 1.577 15.770 90.791 1.577 15.770 90.791

3 .536 5.362 96.15

4 .536 5.362 96.154

4 .206 2.064 98.217 .206 2.064 98.217

5 .145 1.450 99.667 .145 1.450 99.667

6 .022 .222 99.889

7 .007 .071 99.960

8 .003 .027 99.987

9 .001 .007 99.994

10 .001 .006 100.000

Extraction Method: Principal Component Analysis.

0.349766 -0.19749 0.358893 0.034241 0.362179 0.029464 0.362179 0.013537 0.360353 -0.05096 0.359988 -0.0645 0.224171 0.582902 0.120118 0.702349 0.319097 -0.1943 0.245347

-0.28667

Component Matrix a

Component

1 2 VAR00001 .958 -.248 VAR00002 .983 .043 VAR00003 .992 .037 VAR00004 .992 .017 VAR00005 .987 -.064 VAR00006 .986 -.081 VAR00007 .614 .732 VAR00008 .329 .882

VAR00009 .874 -.244 VAR00010

.672

-.360

Extraction Method: Principal Component Analysis.

北京 11.69813 -0.89249 上海 5.940827 0.10456 天津 3.497723 1.033453 陕西 1.011522 0.034867 辽宁 0.831027 0.881243 吉林 0.802258 -0.01778 黑龙江 0.242685 0.575936 湖北 0.123196 0.847639 江苏 -0.16291 1.016873 广东 -0.31196 0.934719 四川 -0.69914 1.293599 山东 -0.85516 1.636627 甘肃 -0.74098 0.195981 湖南 -0.86229 0.854615 浙江 -0.97526 0.18827 新疆 -0.82032 -0.50592 福建 -0.95869 -0.19336 山西 -1.06725 0.146585 河北 -1.21695 0.330053 安徽 -1.35138 0.86945 云南 -1.18363 -0.6517 江西 -1.35545 0.647022 海南 -1.34968 -0.10134 内蒙古 -1.39927 -0.22862 西藏 -0.67102 -4.7168 河南 -1.64038 0.271659 广西 -1.68164 0.47225 宁夏 -1.27242 -1.47553 贵州 -1.96944 -0.80274 青海 -1.60216 -2.74913

a)因子载荷矩阵:

Component Matrix a

Component

1 2 VAR00001 .958 -.248 VAR00002 .983 .043 VAR00003 .992 .037 VAR00004 .992 .017 VAR00005 .987 -.064 VAR00006 .986 -.081 VAR00007 .614 .732 VAR00008 .329 .882 VAR00009 .874 -.244 VAR00010 .672 -.360 Extraction Method: Principal Component Analysis.

a. 2 components extracted. b)变量的共同度:VAR00001 0.979268 VAR00002 0.968138 VAR00003 0.985433 VAR00004 0.984353 VAR00005 0.978265 VAR00006 0.978757 VAR00007 0.91282 VAR00008 0.886165 VAR00009 0.823412 VAR00010 0.581184

多元统计分析期末试题

一、填空题(20分) 1、若),2,1(),,(~)(n N X p 且相互独立,则样本均值向量X 服从的分布 为 2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。 3、判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有__距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。 4、Q 型聚类是指对_样品_进行聚类,R 型聚类是指对_指标(变量)_进行聚类。 5、设样品),2,1(,),,(' 21n i X X X X ip i i i ,总体),(~ p N X ,对样品进行分类常用的距离 2 ()ij d M )()(1j i j i x x x x ,兰氏距离()ij d L 6、因子分析中因子载荷系数ij a 的统计意义是_第i 个变量与第j 个公因子的相关系数。 7、一元回归的数学模型是: x y 10,多元回归的数学模型是: p p x x x y 22110。 8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。 二、计算题(60分) 1、设三维随机向量),(~3 N X ,其中 200031014,问1X 与2X 是否独立?),(21 X X 和3X 是否独立?为什么? 解: 因为1),cov(21 X X ,所以1X 与2X 不独立。 把协差矩阵写成分块矩阵 22211211,),(21 X X 的协差矩阵为11 因为12321),),cov(( X X X ,而012 ,所以),(21 X X 和3X 是不相关的,而正态分布不相关与相互

应用多元统计分析SAS作业审批稿

应用多元统计分析S A S 作业 YKK standardization office【 YKK5AB- YKK08- YKK2C- YKK18】

5-9 设在某地区抽取了14块岩石标本,其中7块含矿,7块不含矿。对每块岩石测定了Cu,Ag,Bi三种化学成分的含量,得到的数据如表1。 表1 岩石化学成分的含量数据 (1)假定两类样本服从正态分布,使用广义平方距离判别法进行判别归类(先验概率取为相等,并假定两类样本的协方差阵相等); (2)今得一块标本,并测得其Cu,Ag,Bi的含量分别为2.95,2.15和1.54,试判断该标本是含矿还是不含矿? 问题求解 1 使用广义平方距离判别法对样本进行判别归类 用SAS软件中的DISCRIM过程进行判别归类。 SAS程序及结果如下。 data d59; input group x1-x3@@; cards; 1 2.58 0.9 0.95 1 2.9 1.23 1 1 3.55 1.15 1 1 2.35 1.15 0.79 1 3.54 1.85 0.79 1 2.7 2.23 1.3 1 2.7 1.7 0.48 2 2.25 1.98 1.06 2 2.16 1.8 1.06 2 2.3 3 1.7 4 1.1 2 1.96 1.48 1.04

2 1.94 1.4 1 2 3 1.3 1 2 2.78 1.7 1.48 ; proc print data =d59; run ; proc discrim data =d59 pool =yes distance list ; class group; var x1-x3; run ; 由输出结果可知,两总体间的广义平方距离为D 2=3.19774。还可知两个三元总体均值相等的检验结果:D =3.19774,F =3.10891,p =0.0756<0.10,故在显着性水平=0.10α时量总体的均值向量有显着差异,即认为讨论这两个三元总体的判别问题是有意义的。 线性判别函数为: 判别结果为含矿的6号样本错判为不含矿;不含矿的13号样本错判为含矿。 2 对给定样本判别归类 将Cu ,Ag ,Bi 的含量数值2.95、2.15、1.54分别代入线性判别函数得: 1244.674246.978882Y Y ==,。 贝叶斯判别的解{}***1, ,k D D D = 为 {}*|()(),,1, ,(1, ,)t t j D X Y X Y X j t j k t k =>≠==, 由于1244.6742246.97888Y Y =<=,因此待判的样品判为不含矿。 5-10 已知某研究对象分为三类,每个样品考察4项指标,各类的观测样品数分别为7,4,6;类外还有3个待判样品(所有观测数据见表2)。假定样本均来自正态总体。 表2 判别分类的数据

多元统计分析模拟试题教学提纲

多元统计分析模拟试 题

多元统计分析模拟试题(两套:每套含填空、判断各二十道) A卷 1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐 步判别法。 2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的分类。 3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、 极大似然法 5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6)分组数据的Logistic回归存在异方差性,需要采用加权最小二乘估计 7)误差项的路径系数可由多元回归的决定系数算出,他们之间的关系为 = 8)最短距离法适用于条形的类,最长距离法适用于椭圆形的类。 9)主成分分析是利用降维的思想,在损失很少的信息前提下,把多个指标转 化为几个综合指标的多元统计方法。 10)在进行主成分分析时,我们认为所取的m(m

多元统计分析实验报告

实验一 一、实验目的及要求 对应分析是你也降维的思想以达到减化数据结构的目的,凤的研究广泛用于定义属性变量构成的列联表利用对应分析方法分析问卷中教育程度与网上购物支付方式之间的相互关系。 二、实验环境 SPSS 19.0 window 7系统 三、实验内容及实验步骤(实践内容、设计思想与实现步骤) 实验题目: 通过分析问卷数据,绘制如下的教育程度与网上购物支付方式的交叉表,运用对应分析方法研究教育程度与网上购物所选择的支付方式之间的相关性,及揭示不同人群网上购物的特征等问题。 设计思想:原假设:H1:χ2>χα2[(n?1)(p?1)] 实现步骤: 1.在变量视窗中录入3个变量,用edu表示【教育程度】,用fangshi表示【在网上购物时采用什么样的支付方式】,用pinshu表示【频数】;如图所示:

2.先对数据进行预处理。执行【数据】→【加权个案】命令,弹出【加权个案】对话框。选中【加权个案】按钮,把【频数】放入【频率变量】框中,点击【确定】按钮完成。 3.打开主窗口,选择菜单栏中的【分析】→【降维】→【对应分析】命令,弹出【对应分析】对话框。 4.将【教育程度】导入【行】,将【在网上购物时采用什么样的支付方式】导入【列】。 5. 单击【定义范围(D)】,打开【对应分析:定义行范围】对话框; 定义行变量分类全距最小值为1,最大值为4,单击【更新】;点击【继续】,返回【对应分析】对话框;同方法打开【对应分析:定义列范围】对话框; 定义列变量全距最小值为1,最大值为5,单击【更新】; 6. 单击【统计量】打开【对应分析:统计量】对话框;选择【行轮廓表】,【列轮廓表】;单击【继续】,返回【对应分析】对话框, 7.选择【绘制】→【对应分析:图】对话框,选择【散点图】中的【行点】、【列点】选择【线图】中的【已转换的行类别】、【已转换的列类别】,单击【继续】,返回【对应分析】对话框。 8.单击【确定】按钮,完成设置并执行列联表分析。 四、调试过程及实验结果(详细记录实验在调试过程中出现的问题及解决方法。记录实验的结果) SPSS实验结果及分析: 上表显示了在32155名被调查者中,大多数消费者在网上购物时选择第三方支付和网上银行支付,在网上购物的消费人群以大学本科生相对最多。

03第三篇 多元统计分析作业题

第三篇 多元统计分析作业题 1 证明题 1)已知ψ==A X E X Z T T T ,这里用到关系1-ψ=E A 。以二变量为例证明: 12*-Λ=ψ=A X A X Z T T T 1)(-=T T A X 。 式中X 为标准化原始变量矩阵,A 为载荷矩阵,Z 为非标准化主成分得分,Z *为标准化的因子得分,E 为单位化特征向量构成的矩阵即正交矩阵,Ψ为特征根的平方根的倒数构成的对角阵,Λ为特征根构成的对角阵,对于二变量有 ?????? ??=ψ21 /10 /1λλ, ?? ? ???=Λ21 00λλ. 2)对于二变量因子模型,我们有 ?? ?++=++=222221122 112211111εεu f a f a x u f a f a x . 试以 x 1为例证明1 2 22==+j x j j u h σ ,这里∑== p k kj j a h 1 2 22 21 211a a +=。 2 计算题 1)现有一组古生物腕足动物贝壳标本的两个变量:长度x 1和宽度x 2。所测数据如下(表2.1)。 要求: ① 利用Excel 对数据进行主成分分析。 ② 借助SPSS 对该数据进行主成分分析,并计算结果与Excel 的计算结果进行对比,理解各个表格所给参数的含义。 ③ 用本例数据验证证明题?的推导结果。 表2.1 古生物腕足动物贝壳标本数据 样品编号 长度x 1 宽度x 2 样品编号 长度x 1 宽度x 2 1 3 2 14 12 10 2 4 10 15 12 11 3 6 5 16 13 6 4 6 8 17 13 14 5 6 10 18 13 15 6 7 2 19 13 17 7 7 13 20 14 7 8 8 9 21 15 13 9 9 5 22 17 13

应用多元统计分析试题及答案

一、填空题: 1、多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法. 2、回归参数显著性检验是检验解释变量对被解释变量的影响是否著. 3、聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为 Q型聚类和 R型聚类。 4、相应分析的主要目的是寻求列联表行因素A 和列因素B 的基本分析特征和它们的最优联立表示。 5、因子分析把每个原始变量分解为两部分因素:一部分为公共因子,另一部分为特殊因子。 6、若 () (,), P x N αμα ∑=1,2,3….n且相互独立,则样本均值向量x服从的分布 为_x~N(μ,Σ/n)_。 二、简答 1、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。 在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。 2、简述相应分析的基本思想。 相应分析,是指对两个定性变量的多种水平进行分析。设有两组因素A和B,其中因素A包含r个水平,因素B包含c个水平。对这两组因素作随机抽样调查,得到一个rc的二维列联表,记为。要寻求列联表列因素A和行因素B的基本分析特征和最优列联表示。相应分析即是通过列联表的转换,使得因素A

和因素B 具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A 、B 的联系。 3、简述费希尔判别法的基本思想。 从k 个总体中抽取具有p 个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数 系数: 确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p 个指标值代入线性判别函数式中求出 值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。 5、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设 和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 协差阵的检验 检验0=ΣΣ 0p H =ΣI : /2 /21exp 2np n e tr n λ???? =-?? ? ???? S S 00p H =≠ΣΣI : /2 /2**1exp 2np n e tr n λ???? =-?? ? ???? S S

多元统计分析模拟考题及答案

一、判断题 ( 对 )112(,,,)p X X X X '=L 的协差阵一定是对称的半正定阵 ( 对 )2标准化随机向量的协差阵与原变量的相关系数阵相同。 ( 对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系 的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 ( 对 )4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。 ( 错)5),(~),,,(21∑'=μp p N X X X X Λ,,X S 分别是样本均值和样本离差阵,则, S X n 分别是,μ∑的无偏估计。 ( 对)6),(~),,,(21∑'=μp p N X X X X Λ,X 作为样本均值μ的估计,是 无偏的、有效的、一致的。 ( 错)7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 ( 对)8因子载荷阵()ij A a =中的ij a 表示第i 个变量在第j 个公因子上的相对重要性。 ( 对 )9 判别分析中,若两个总体的协差阵相等,则Fisher 判别与距离判别等 价。 (对)10距离判别法要求两总体分布的协差阵相等,Fisher 判别法对总体的分布无特定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵. 2、设∑是总体1(,,)m X X X =L 的协方差阵,∑的特征根(1,,)i i m λ=L 与相应的单 位正交化特征向量 12(,,,)i i i im a a a α=L ,则第一主成分的表达式是 11111221m m y a X a X a X =+++L ,方差为 1λ。 3设∑是总体1234(,,,)X X X X X =的协方差阵,∑的特征根和标准正交特征向量分别 为:' 112.920(0.1485,0.5735,0.5577,0.5814)U λ==--- ' 221.024(0.9544,0.0984,0.2695,0.0824)U λ==- '330.049(0.2516,0.7733,0.5589,0.1624)U λ==--

应用多元统计分析习题解答_第五章

第五章 聚类分析 判别分析和聚类分析有何区别 答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n 个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于k 个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。 试述系统聚类的基本思想。 答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 对样品和变量进行聚类分析时, 所构造的统计量分别是什么简要说明为什么这样构造 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n 个样本看作p 维空间的n 个点。点之间的距离即可代表样品间的相似度。常用的距离为 (一)闵可夫斯基距离:1/1 ()() p q q ij ik jk k d q X X ==-∑ q 取不同值,分为 (1)绝对距离(1q =) 1 (1)p ij ik jk k d X X ==-∑ (2)欧氏距离(2q =) 21/2 1 (2)() p ij ik jk k d X X ==-∑ (3)切比雪夫距离(q =∞) 1()max ij ik jk k p d X X ≤≤∞=- (二)马氏距离 (三)兰氏距离 对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 将变量看作p 维空间的向量,一般用 2 1()()()ij i j i j d M -'=--X X ΣX X 11()p ik jk ij k ik jk X X d L p X X =-=+∑

多元统计分析实验报告

多元统计分析实验报告 Document serial number【UU89WT-UU98YT-UU8CB-UUUT-UUT108】

1. 正态性检验 Kolmogorov-Smirnov a Shapir o-Wilk 统计量df Sig.统计量df Sig. 净资产收益 .11335.200*.97835.677 率 总资产报酬 .12135.200*.96435.298 率 资产负债率.08635.200*.96235.265 总资产周转 .18035.006.86435.000 率 流动资产周 .16435.018.88535.002 转率 已获利息倍 .28135.000.55135.000 数 销售增长率.10335.200*.94935.104 资本积累率.25135.000.65535.000 *. 这是真实显着水平的下限。 a. Lilliefors 显着水平修正 此表给出了对每一个变量进行正态性检验的结果,因为该例中样本中 n=35<2000,所以此处选用Shapiro-Wilk统计量。由Sig.值可以看到,总资产周转率、流动资产周转率、已获利息倍数及资本积累率均明显不遵从正态分布,因此,在下面的分析中,我们只对净资产收益率、总资产报酬率、资产负债率及销售增长率这四个指标进行比较,并认为这四个变量组成的向量遵从正态分布(尽管事实上并非如此)。这四个指标涉及公司的获利能力、资本结构及成长能力,我们认为这四个指标可以对公司运营能力做出近似的度量。 2. 主体间因子 N

行业电力、煤气及水的 生产和供应业 11 房地行业15 信息技术业9 多变量检验a 效应值F假设 df 误差 df Sig. 截距Pillai 的跟 踪 .967.000 Wilks 的 Lambda .033.000 Hotelling 的跟踪 .000 Roy 的最大 根 .000 行业Pillai 的跟 踪 .481.027 Wilks 的 Lambda .563.025 Hotelling 的跟踪 .698.024 Roy 的最大 根 .559.008 a. 设计 : 截距 + 行业 b. 精确统计量 c. 该统计量是 F 的上限,它产生了一个关于显着性级别的下 限。 上面第一张表是样本数据分别来自三个行业的个数。第二张表是多变量检验表,该表给出了几个统计量,由Sig.值可以看到,无论从哪个统计量来看,三个行业的运营能力(从净资产收益率、总资产报酬率、资产负债率及销售增长率这四个指标的整体来看)都是有显着差别的。 3. 主体间效应的检验

应用多元统计分析SAS作业第六章资料

6-10 今有6个铅弹头,用“中子活化”方法测得7种微量元素的含量数据(见表1)。 (1) 试用多种系统聚类法对6个弹头进行分类;并比较分类结果; (2) 试用多种方法对7种微量元素进行分类。 问题求解 1对6个弹头进行分类 对数据进行标准化变换,样品间距离定义为欧式距离,系统聚类的方法分别使用类平均法(A VE )、中间距离法(MID )、可变类平均法(FLE )和离差平方合法(WARD )。使用SAS 软件CLUSTER 过程对数据进行聚类分析(程序见附录1)。 1.1类平均法 图1 类平均聚类法相关矩阵特征值图 图2 类平均聚类分析法聚类历史图 由图2可知,NCL=1时半偏R 2最大且伪F 统计量在NCL=2,5时和伪t 方统计量在NCL=1,4时较大。因此,将6个弹头分为两类{}{}(2) (2) 121,2,4,6,3,5G G ==。SAS 绘制的谱系聚类图如图 3所示。

图3 类平均聚类分析法谱系聚类图 1.2中间距离法 图4 中间距离聚类法相关矩阵特征值图 图5 中间距离聚类法聚类历史图 由图5可知,中间距离法与类平均法结果一致。因此,也将6个弹头分为两类 {}{}(2)(2) 121,2,4,6,3,5G G ==。 SAS 绘制的谱系聚类图如图6所示。

图6中间距离聚类法谱系聚类图 1.3可变类平均法 图7可变类平均聚类法分析结果图 图8 可变类平均聚类法聚类历史图 由图8可知,可变类平均法(=0.25 β-)输出结果与前两种方法稍有不同,NCL=1时半偏R2最大且伪F统计量在NCL=2时次大,NCL=5时最大;而伪t方统计量在NCL=1时最大。因此,分

多元统计分析期末试题及答案.doc

22121212121 ~(,),(,),(,),, 1X N X x x x x x x ρμμμμσρ ?? ∑==∑= ??? +-1、设其中则Cov(,)=____. 10 31 2~(,),1,,10,()()_________i i i i X N i W X X μμμ=' ∑=--∑L 、设则=服从。 ()1 2 34 433,4 92,32 16___________________ X x x x R -?? ?'==-- ? ?-? ? =∑、设随机向量且协方差矩阵则它的相关矩阵 4、 __________, __________, ________________。 215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--L 、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。 12332313116421(,,)~(,),(1,0,2),441, 2142X x x x N x x x x x μμ-?? ?'=∑=-∑=-- ? ?-?? -?? + ??? 、设其中试判断与是否独立? (), 1 2 3设X=x x x 的相关系数矩阵通过因子分析分解为 211X h = 的共性方差111X σ= 的方差21X g = 1公因子f 对的贡献1213 30.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.10320 13 R ? ? - ????? ? -?? ? ? ?=-=-+ ? ? ? ??? ? ? ????? ? ???

多元统计分析实验报告doc

多元统计与程序设计》课程实验报告 项目名称: 学生姓名: 学生学号: 指导教师: 完成日期:

1 实验内容 2 模型建立与求解 2.1聚类分析的形成思路 2.2.1类平均法 2.2.2谱系图的形成 2.3.快速聚类法 (以上内容见课本) 3 实验数据与实验结果 3.1实验数据 设有20个土壤样品分别对5个变量的观测数据如表5.16所示,试利用 聚类法对其进行样品聚类分析 样品号 含沙量1X 淤泥含量2X 粘土含量3X 有机物4X PH 值5X 1 77.3 13.0 9.7 1.5 6.4 2 82.5 10.0 7.5 1.5 6.5 3 66.9 20.0 12.5 2.3 7.0 4 47.2 33.3 19.0 2.8 5.8 5 65.3 20.5 14.2 1.9 6.9 6 83.3 10.0 6.7 2.2 7.0 7 81.6 12.7 5.7 2.9 6.7 8 47.8 36.5 15.7 2.3 7.2 9 48.6 37.1 14.3 2.1 7.2 10 61.6 25.5 12.6 1.9 7.3 11 58.6 26.5 14.9 2.4 6.7 12 69.3 22.3 8.4 4.0 7.0 13 61.8 30.8 7.4 2.7 6.4 14 67.7 25.3 7.0 4.8 7.3 15 57.2 31.2 11.6 2.4 6.3 16 67.2 22.7 10.1 33.3 6.2 17 59.2 31.2 9.6 2.4 6.0 18 80.2 13.2 6.6 2.0 5.8

19 82.2 11.1 6.7 2.2 7.2 20 69.7 20.7 9.6 3.1 5.9 3.2实验过程及结果 Case Processing Summary(a) Cases Valid Missing Total N Percent N Percent N Percent 20 100.0% 0 .0% 20 100.0% a Squared Euclidean Distance used 上表是接近度矩阵,计算距离使用的是平方欧氏距离,所以样品间距离越大,样品越相异,由表中矩阵可以看出样品8号和样品9号的距离是最小的,因此它们最先聚为一类。 Average Linkage (Between Groups) Agglomeration Schedule Stage Cluster Combined Coefficient s Stage Cluster First Appears Next Stage Cluster 1 Cluster 2 Cluster 1 Cluster 2 1 8 9 .153 16

多元统计分析实验报告

多元统计分析实验报告 1、实验内容 根据课本习题3-12做相关分析。 2、实验目的 (1)检验H0:;H1:协方差阵不全相等。 (2)检验H0: U1=U2 ; H1:U1≠U2; (3)检验H0: U1=U2 =U3 ; H1:U1,U2,U3不全等; (4)检验三种化学成分相互独立。 3、实验方案分析 (1)这是关于判断三个3元正态总体的协方差阵是否相等的问题; (2)均值是否相等,在两个协方差阵相等的情况下均值是否相等的问题; (3)比较三组的3项指标是否有差异的问题,就是多总体均值向量是否相等的检验问题; (4)检验 是否独立相当于检验任意2个子向量的协方差阵是否为零矩阵; 4、实验原理及操作过程,结果如下: (1)SAS 代码实现过程如下: data d3121; input y1-y3 group @@; cards; 47.22 5.06 0.10 1 1 23 ==∑∑∑

47.45 4.35 0.15 1 47.52 6.85 0.12 1 47.86 4.19 0.17 1 47.31 7.57 0.18 1 54.33 6.22 0.12 2 56.17 3.31 0.15 2 54.40 2.43 0.22 2 52.62 5.92 0.12 2 43.12 10.33 0.05 3 42.05 9.67 0.08 3 42.50 9.62 0.02 3 40.77 9.68 0.04 3 ; proc iml; n1=5;n2=4;n3=4; n=n1+n2+n3;k=3; p=3; use d3121(obs=5); xa={y1 y2 y3 }; read all var xa into x1; print x1; use d3121(firstobs=6 obs=9); read all var xa into x2; print x2; use d3121(firstobs=10 obs=13); read all var xa into x3; print x3; xx=x1//x2//x3; ln={[5] 1} ; x10=(ln*x1)/n1; print x10; mm1=i(n1)-j(n1,n1,1)/n1; mm=i(n)-j(n,n,1)/n; a1=x1`*mm1*x1; print a1; ln={[4] 1} ; x10=(ln*x2)/n2; print x20;

应用多元统计分析课后答案

应用多元统计分析课后答案 第五章 聚类分析 5.1 判别分析和聚类分析有何区别? 答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n 个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于k 个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。 5.2 试述系统聚类的基本思想。 答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么这样构造? 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n 个样本看作p 维空间的n 个点。点之间的距离即可代表样品间的相似度。常用的距离为 (一)闵可夫斯基距离:1/1()()p q q ij ik jk k d q X X ==-∑ q 取不同值,分为 (1)绝对距离(1q =) 1 (1)p ij ik jk k d X X ==-∑ (2)欧氏距离(2q =) 21/2 1 (2)() p ij ik jk k d X X ==-∑ (3)切比雪夫距离(q =∞) 1()max ij ik jk k p d X X ≤≤∞=- (二)马氏距离 (三)兰氏距离 21()()()ij i j i j d M -'=--X X ΣX X 11()p ik jk ij k ik jk X X d L p X X =-= +∑

多元统计分析期末复习试题

第一章: 多元统计分析研究的容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X均值向量: 随机向量X与Y的协方差矩阵: 当X=Y时Cov(X,Y)=D(X);当Cov(X,Y)=0 ,称X,Y不相关。 随机向量X与Y的相关系数矩阵: 2、均值向量协方差矩阵的性质 (1).设X,Y为随机向量,A,B 为常数矩阵 E(AX)=AE(X); E(AXB)=AE(X)B; D(AX)=AD(X)A’; )' ,..., , ( ) , , , ( 2 1 2 1P p EX EX EX EXμ μ μ = ' = )' )( ( ) , cov(EY Y EX X E Y X- - = q p ij r Y X ? =) ( ) , (ρ

Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的变量之间的比较。 4、对数变换:对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。它将具有指数特征的数据结构变换为线性数据结构。 三、样品间相近性的度量 研究样品或变量的亲疏程度的数量指标有两种:距离,它是将每一个样品看作p 维空),(~∑μP N X μ∑μp X X X ,,,21 ),(~∑μP N X ),('A A d A N s ∑+μ)()1(,,n X X X )',,,(21p X X X )')(()()(1X X X X i i n i --∑=n 1X μ ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

数学建模多元统计分析

实验报告 一、实验名称 多元统计分析作业题。 二、实验目的 (一)了解并掌握主成分分析与因子分析的基本原理和简单解法。 (二)学会使用matlab编写程序进行因子分析,求得特征值、特征向量、载荷矩阵等值。(三)学会使用排序、元胞数组、图像表示最后的结果,使结果更加直观。 三、实验内容与要求

四、实验原理与步骤 (一)第一题: 1、实验原理: 因子分析简介: (1) 1.1 基本因子分析模型 设p维总体x=(x1,x2,....,xp)'的均值为u=(u1,u2,....,u3)',因子分析的一般模型为 x1=u1+a11f1+a12f2+........+a1mfm+ε 1 x2=u2+a21f1+a22f2+........+a2mfm+ε 2 ......... xp=up+ap1f1+fp2f2+..........+apmfm+εp 其中,f1,f2,.....,fm为m个公共因子;εi是变量xi(i=1,2,.....,p)所独有的特殊因子,他们都是不可观测的隐变量。称aij(i=1,2,.....,p;j=1,2,.....,m)为变量xi的公共因子fi上的载荷,它反映了公共因子对变量的重要程度,对解释公共因子具有重要的作用。上式可以写为矩阵形式 x=u+Af+ε

其中A=(aij)pxm 称为因子载荷矩阵;f=(f1,f2,....,fm)'为公共因子向量;ε=(ε1,ε2,.....εp)称为特殊因子向量 (2) 1.2 共性方差与特殊方差 xi的方差var(xi)由两部分组成,一个是公共因子对xi方差的贡献,称为共性方差;一个是特殊因子对xi方差的贡献,称为特殊方差。每个原始变量的方差都被分成了共性方差和特殊方差两部分。 (3) 1.3 因子旋转 因子分析的主要目的是对公共因子给出符合实际意义的合理解释,解释的依据就是因子载荷阵的个列元素的取值。当因子载荷阵某一列上各元素的绝对值差距较大时,并且绝对值大的元素较少时,则该公共因子就易于解释,反之,公共因子的解释就比较困难。此时可以考虑对因子和因子载荷进行旋转(例如正交旋转),使得旋转后的因子载荷阵的各列元素的绝对值尽可能量两极分化,这样就使得因子的解释变得容易。 因子旋转方法有正交旋转和斜交旋转两种,这里只介绍一种普遍使用的正交旋转法:最大方差旋转。这种旋转方法的目的是使因子载荷阵每列上的各元素的绝对值(或平方值)尽可能地向两极分化,即少数元素的绝对值(或平方值)取尽可能大的值,而其他元素尽量接近于0. (4) 1.4 因子得分 在对公共因子做出合理解释后,有时还需要求出各观测所对应的各个公共因子的得分,就比如我们知道某个女孩是一个美女,可能很多人更关心该给她的脸蛋、身材等各打多少分,常用的求因子得分的方法有加权最小二乘法和回归法。 注意:因子载荷矩阵和得分矩阵的区别: 因子载荷矩阵是各个原始变量的因子表达式的系数,表达提取的公因子对原始变量的影响程度。因子得分矩阵表示各项指标变量与提取的公因子之间的关系,在某一公因子上得分高,表明该指标与该公因子之间关系越密切。简单说,通过因子载荷矩阵可以得到原始指标变量的线性组合,如X1=a11*F1+a12*F2+a13*F3,其中X1为指标变量1,a11、a12、a13分别为与变量X1在同一行的因子载荷,F1、F2、F3分别为提取的公因子;通过因子得分矩阵可以得到公因子的线性组合,如F1=a11*X1+a21*X2+a31*X3,字母代表的意义同上。 (5) 1.5 因子分析中的Heywood(海伍德)现象 如果x的各个分量都已经标准化了,则其方差=1。即共性方差与特殊方差的和为1。也就是说共性方差与特殊方差均大于0,并且小于1。但在实际进行参数估计的时候,共性方差

应用多元统计分析习题解答-主成分分析

主成分分析 6.1 试述主成分分析的基本思想。 答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。当第一个组合不能提取止。这就是主成分分析的基本思想。 6.2 主成分分析的作用体现在何处? 答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数” 6.3 简述主成分分析中累积贡献率的具体含义。 答:主成分分析把p 个原始变量12,, ,p X X X 的总方差()tr Σ分解成了p 个相互独立的变量p 个主成分的,忽略 一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们()m p <个主成分,则称1 1 p m m k k k k ψλλ ===∑∑ 为主成分1, ,m Y Y 的累计贡献率,累计贡献率表明1,,m Y Y 综合12,, ,p X X X 的能力。通常取m ,使得累计贡 献率达到一个较高的百分数(如85%以上)。 答:这个说法是正确的。 即原变量方差之和等于新的变量的方差之和 6.5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。 答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。从协方差矩阵出发的,其结果受变量单位的影响。主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。实际表明,这种差异有时很大。我 6.6 已知X =()’的协差阵为 试进行主成分分析。 解:=0 计算得 当 时 ,

多元统计分析期末复习

第一章: 多元统计分析研究的内容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X 均值向量: 随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵: 2、均值向量协方差矩阵的性质 (1).设X ,Y 为随机向量,A ,B 为常数矩阵 E (AX )=AE (X ); E (AXB )=AE (X )B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’ ; )' ,...,,(),,,(2121P p EX EX EX EX μμμ='= )' )((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ

(2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的变量之间的比较。 4、对数变换:对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。它将具有指数特征的数据结构变换为线性数据结构。 三、样品间相近性的度量 研究样品或变量的亲疏程度的数量指标有两种:距离,它是将每一个样品看作p 维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属),(~∑μP N X μ∑μp X X X ,,,21 ),(~∑μP N X ),('A A d A N s ∑+μ)()1(,,n X X X )',,,(21p X X X )')(()()(1X X X X i i n i --∑=n 1X μ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

相关主题
文本预览
相关文档 最新文档