当前位置：文档之家› 应用多元统计分析习题解答因子分析.doc

应用多元统计分析习题解答因子分析.doc

第七章因子分析

7.1 试述因子分析与主成分分析的联系与区别。

答：因子分析与主成分分析的联系是：①两种分析方法都是一种降维、简化数据的技术。②两种分析的求解过程是类似的，都是从一个协方差阵出发，利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇，将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳，那么因子分析可以说是将原指标给予分解、演绎。

因子分析与主成分分析的主要区别是：主成分分析本质上是一种线性变换，将原始坐标变换到变异程度大的方向上为止，突出数据变异的方向，归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外，主成分分析不需要构造分析模型而因子分析要构造因子模型。

7.2 因子分析主要可应用于哪些方面？答：因子分析是一种通过显在变量测评潜在变量，通过具体指标测评抽象因子的统计分析方法。目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。具体来说，①因子分析可以用于分类。如用考试分数将学生的学习状况予以分类；用空气中各种成分的比例对空气的优劣予以分类等等②因子分析可以用于探索潜在因素。即是探索未能观察的或不能观测的的潜在因素是什么，起的作用如何等。对我们进一步研究与探讨指示方向。在社会调查分析中十分常用。③因子分析的另一个作用是用于时空分解。如研究几个不同地点的不同日期的气象状况，就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判断各自的影响和变化规律。

7.3 简述因子模型中载荷矩阵A 的统计意义。

答：对于因子模型

1122i i i ij j im m i X a F a F a F a F ε=++

++ 1,2,

,i p =

因子载荷阵为1112

121

22212

(,,

,)m m m p p pm a a a a a a A A A a a a ?????

?==????????

i X 与j F 的协方差为：

1Cov(,)Cov(,)m

i j ik k i j k X F a F F ε==+∑

Cov(

,)Cov(,)m

k j i j k a

F F F ε=+∑

=ij a

若对i X 作标准化处理，=ij a ,因此 ij a 一方面表示i X 对j F 的依赖程度；另一方面也反映了

变量

X 对公共因子

F 的相对重要性。

变量共同度221

1,2,

j h a

i p ==

=∑

21122()()()()()i i i im m i D X a D F a D F a D F D ε=++

++22i i h σ=+ 说明变量i X 的方差由

两部分组成：第一部分为共同度2

i h ，它描述了全部公共因子对变量i X 的总方差所作的贡献，反映了公共因子对变量i X 的影响程度。第二部分为特殊因子i ε对变量i X 的方差的贡献，通常称为个性方差。

而公共因子j F 对X 的贡献2

1,2,,p

i g a

j m ==

=∑

表示同一公共因子j F 对各变量所提供的方差贡献之总和，它是衡量每一个公共因子相对重要性的一个尺度。

7.4 在进行因子分析时，为什么要进行因子旋转？最大方差因子旋转的基本思路是什么？答：因子分析的目标之一就是要对所提取的抽象因子的实际含义进行合理解释。但有时直接根据特征根、特征向量求得的因子载荷阵难以看出公共因子的含义。这种因子模型反而是不利于突出主要矛盾和矛盾的主要方面的，也很难对因子的实际背景进行合理的解释。这时需要通过因子旋转的方法，使每个变量仅在一个公共因子上有较大的载荷，而在其余的公共因子上的载荷比较小。

最大方差旋转法是一种正交旋转的方法，其基本思路为： ①

其中令**

*(),

/ij p m ij ij i a d a h ?===A A Γ 21

j ij i d d p

==∑

*A 的第j 列元素平方的相对方差可定义为2

1()p j ij j i V d d p ==

-∑ ②12m V V V V =++

最大方差旋转法就是选择正交矩阵Γ，使得矩阵*A 所有m 个列元素平方的相对方差之和达

到最大。

7.5 试分析因子分析模型与线性回归模型的区别与联系。

答：因子分析模型是一种通过显在变量测评潜在变量，通过具体指标测评抽象因子的统计分析方法的模型。而线性回归模型回归分析的目的是设法找出变量间的依存(数量)关系, 用函数关系式表达出来。

因子分析模型中每一个变量都可以表示成公共因子的线性函数与特殊因子之和。即

1122i i i im m i X a F a F a F ε=++++，（1,2,,

i p =）该模型可用矩阵表示为：=+X AF ε

而回归分析模型中多元线性回归方程模型为：

其中是常数项，是偏回归系数，是残差。

因子模型满足：

（1）m p ≤；（2）(,)0Cov =F ε，即公共因子与特殊因子是不相关的；

（3）101

()0

1F m D ???

??===??????

D F I ，即各个公共因子不相关且方差为1；（4）212

20()0p D εσσσ??

??==????????

D ε，即各个特殊因子不相关，方差不要求相等。而回归分析模型满足（1）正态性：随机误差（即残差）e 服从均值为 0，方差为σ２

的正

态分布；（2）等方差：对于所有的自变量x ，残差e 的条件方差为σ２

，且σ为常数；（3）独立性：在给定自变量x 的条件下，残差e 的条件期望值为0（本假设又称零均值假设）；（4）无自相关性：各随机误差项e 互不相关。

两种模型的联系在于都是线性的。因子分析的过程就是一种线性变换。

7.6 设某客观现象可用X =()’来描述，在因子分析时，从约相

关阵出发计算出特征值为

由于,所以找前两个特征值所对应的公共因子即可，又知对应的正则化特征向量分别为(0.707,-0.316,0.632)’及（0，0.899，0.4470）’，要求：

（1）计算因子载荷矩阵A ，并建立因子模型。

（2）计算共同度。

（3）计算第一公因子对X的“贡献”。

解：（1）根据题意，A=

建立因子模型为

（2）

（3）因为是从约相关阵计算的特征值，所以公共因子对X的“贡献”为

。

7.7 利用因子分析方法分析下列30个学生成绩的因子构成，并分析各个学生较适合学文科

解:令数学成绩为X1，物理为X2，化学为X3，语文为X4，历史为X5，英语为X1，用spss 分析学生成绩的因子构成的步骤如下：

1. 在SPSS窗口中选择Analyze→Data Reduction→Factor，调出因子分析主界面，并将六个变量移入Variables框中。

图7.1 因子分析主界面

2. 点击Descriptives按钮，展开相应对话框，见图7.2。选择Initial solution复选项。这个选项给出各因子的特征值、各因子特征值占总方差的百分比以及累计百分比。单击Continue按钮，返回主界面。

图7.2 Descriptives子对话框

3. 点击Extraction按钮，设置因子提取的选项，见图7.3。在Method下拉列表中选择因子提取的方法，SPSS提供了七种提取方法可供选择，一般选择默认选项，即“主成分法”。在Analyze栏中指定用于提取因子的分析矩阵，分别为相关矩阵和协方差矩阵。在Display 栏中指定与因子提取有关的输出项，如未旋转的因子载荷阵和因子的碎石图。在Extract栏中指定因子提取的数目，有两种设置方法：一种是在Eigenvalues over后的框中设置提取的因子对应的特征值的范围，系统默认值为1，即要求提取那些特征值大于1的因子；第二种设置方法是直接在Number of factors后的矩形框中输入要求提取的公因子的数目。这里我们均选择系统默认选项，单击Continue按钮，返回主界面。

图7.3 Extraction子对话框

4.点击Rotation按钮，设置因子旋转的方法。这里选择Varimax(方差最大旋转)，并选择Display栏中的Rotated solution复选框，在输出窗口中显示旋转后的因子载荷阵。单击Continue按钮，返回主界面。

图7.4 Rotation子对话框

5.点击Scores按钮，设置因子得分的选项。选中Save as variables复选框，将因子得分作为新变量保存在数据文件中。选中Display factor score coefficient matrix复选框，这样在结果输出窗口中会给出因子得分系数矩阵。单击Continue按钮返回主界面。

图7.5 Scores子对话框

6. 单击OK按钮，运行因子分析过程。

结果分析：

表7.1 旋转前因子载荷阵表7.2 旋转后因子载荷阵

从表7.1中可以看出，每个因子在不同原始变量上的载荷没有明显的差别，为了便于对因

子进行命名，需要对因子载荷阵进行旋转，得表7.2。经过旋转后的载荷系数已经明显地两极分化了。第一个公共因子在后三个指标上有较大载荷，说明这三个指标有较强的相关性，可以归为一类，属于文科学习能力的指标；第二个公共因子在前三个指标上有较大载荷，同样可以归为一类，这三个指标同属于理科学习能力的指标。根据表7.3易得：

6432.05378.04332.03137.02085.01064.01X X X X X X F +++++= 6169.05073.04014.03484.02400.01439.02X X X X X X F +++++=

表7.3 因子得分系数矩阵

将每个学生的六门成绩分别代入F1、F2，比较两者的大小，F1大的适合学文，F2大的适合学理。

计算结果为学号是1、16、24的学生适合学文，其余均适合学理。

7.8 某汽车组织欲根据一系列指标来预测汽车的销售情况，为了避免有些指标间的相关关系影响预测结果，需首先进行因子分析来简化指标系统。下表是抽查欧洲某汽车市场7个品牌

解：令价格为X1，发动机为X2，功率为X3，轴距为X4，宽为X5，长为X6，轴距为X7，燃料容量为X8，燃料效率为X9，用SPSS 找简化的指标系统的具体步骤同7.7。

此时在系统默认情况下提取因子，结果是只抽取了一个成分，从方差贡献来看，前三个成分贡献了90.9%,因此重复因子分析过程，并在第三步Extraction 子对话框中的Number of factors 后的矩形框中输入3，即为要提取的公因子的数目。因子分析结果如下：

表7.4 旋转后的因子得分系数矩阵

其简化了指标体系为1F 、2F 、3F ，从旋转后的因子得分系数矩阵得：

9071.08186.07036.06599.05354.04305.03060.02015.01399.01X X X X X X X X X F --++++---= 9082.08221.07291.06100.05195.04344.03700.02525.01289.02X X X X X X X X X F +---+-++= 9239.08651.07494.06332.05338.04241.03409.02278.01342.03X X X X X X X X X F --+--+--=

7.9 根据人均 GDP 、第三产业从业人员占全部从业人员的比重、第三产业增加值占GDP 的比重、人均铺装道路面积、万人拥有公共汽电车、万人拥有医生、百人拥有电话机数、万人拥有高等学校在校学生人数、人均居住面积、百人拥有公共图书馆藏书、人均绿地面积等十一项指标对目前我国省会城市和计划单列市的城市化进行因子分析，并利用因子得分对其进行

排序和评价。（数据可从《中国统计年鉴》查获） (略)

7.10 根据习题5.10中2003年我国省会城市和计划单列市的主要经济指标数据，利用因子分析法对其进行排序和分类，并与聚类分析的结果进行比较。解：对其进行因子分析的步骤与7.7相同，结果如下：

表7.5 特征根与方差解释分析表

由表7.5可知，提取的两个因子方差贡献达到了82.75%。

表7.6 旋转后的因子得分系数矩阵

由上面的因子得分矩阵可知：

9233.08086.07057.06248.05219.04258.03167.02100.01093.01X X X X X X X X X F ++-++++--= 9

008.08169.07282.06022.05017.04097.03103.02316.01315.02X X X X X X X X X F -++-+--+=与主成分分析中计算综合得分同理，用2121F F F ∑∑+=

λλ进行加权，得排序：

根据F的最终数值进行分类，由于没有给出具体的分类标准，分类具有一定的主观性，只要合理即可。聚类分析的结果见5.11，可将两者进行比较。

(完整word版)实用多元统计分析相关习题

练习题一、填空题 1．人们通过各种实践，发现变量之间的相互关系可以分成（相关）和（不相关）两种类型。多元统计中常用的统计量有：样本均值、样本方差、样本协方差和样本相关系数。 2．总离差平方和可以分解为（回归离差平方和）和（剩余离差平方和）两个部分，其中（回归离差平方和）在总离差平方和中所占比重越大，则线性回归效果越显著。3．回归方程显著性检验时通常采用的统计量是（S R/p）/[S E/（n-p-1）]。 4．偏相关系数是指多元回归分析中，（当其他变量固定时，给定的两个变量之间的）的相关系数。 5．Spss中回归方程的建模方法有（一元线性回归、多元线性回归、岭回归、多对多线性回归）等。 6．主成分分析是通过适当的变量替换，使新变量成为原变量的（线性组合），并寻求（降维）的一种方法。 7．主成分分析的基本思想是（设法将原来众多具有一定相关性（比如P个指标），重新组合成一组新的互相无关的综合指标来替代原来的指标）。 8．主成分表达式的系数向量是（相关系数矩阵）的特征向量。 9．样本主成分的总方差等于（1）。 10．在经济指标综合评价中，应用主成分分析法，则评价函数中的权数为（方差贡献度）。主成分的协方差矩阵为（对称）矩阵。主成分表达式的系数向量是（相关矩阵特征值）的特征向量。 11．SPSS中主成分分析采用（analyze—data reduction—facyor）命令过程。 12．因子分析是把每个原始变量分解为两部分因素，一部分是（公共因子），另一部分为（特殊因子）。 13．变量共同度是指因子载荷矩阵中（第i行元素的平方和）。 14．公共因子方差与特殊因子方差之和为（1）。 15．聚类分析是建立一种分类方法，它将一批样品或变量按照它们在性质上的（亲疏程度）进行科学的分类。 16．Q型聚类法是按（样品）进行聚类，R型聚类法是按（变量）进行聚类。 17．Q型聚类统计量是（距离），而R型聚类统计量通常采用（相关系数）。 18．六种Q型聚类方法分别为（最长距离法）、（最短距离法）、（中间距离法）、（类平均法）、（重心法）、（离差平方和法）。 19．快速聚类在SPSS中由（k-均值聚类（analyze—classify—k means cluster））过程实现。 20．判别分析是要解决在研究对象已（已分成若干类）的情况下，确定新的观测数据属于已知类别中哪一类的多元统计方法。 21．用判别分析方法处理问题时，通常以（判别函数）作为衡量新样本点与各已知组别接近程度的指标。 22．进行判别分析时，通常指定一种判别规则，用来判定新样本的归属，常见的判别准则有（Fisher准则）、（贝叶斯准则）。 23．类内样本点接近，类间样本点疏远的性质，可以通过（类与类之间的距离）与（类内样本的距离）的大小差异表现出来，而两者的比值能把不同的类区别开来。这个比值越大，说明类与类间的差异越（类与类之间的距离越大），分类效果越（好）。24．Fisher判别法就是要找一个由p个变量组成的（线性判别函数），使得各自组内点的

多元统计分析模拟考题及答案.docx

一、判断题（对） 1 X ( X 1 , X 2 ,L , X p ) 的协差阵一定是对称的半正定阵（对（） 2 标准化随机向量的协差阵与原变量的相关系数阵相同。对） 3 典型相关分析是识别并量化两组变量间的关系，将两组变量的相关关系的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。（对）4 多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。（错）5 X (X 1 , X 2 , , X p ) ~ N p ( , ) ， X , S 分别是样本均值和样本离差阵，则 X , S 分别是 , 的无偏估计。 n （对） 6 X ( X 1 , X 2 , , X p ) ~ N p ( , ) ， X 作为样本均值的估计，是无偏的、有效的、一致的。（错） 7 因子载荷经正交旋转后，各变量的共性方差和各因子的贡献都发生了变化（对） 8 因子载荷阵 A ( ij ) ij 表示第 i 个变量在第 j 个公因子上 a 中的 a 的相对重要性。（对）9 判别分析中，若两个总体的协差阵相等，则 Fisher 判别与距离判别等价。（对） 10 距离判别法要求两总体分布的协差阵相等， Fisher 判别法对总体的分布无特定的要求。二、填空题 1、多元统计中常用的统计量有：样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵． 2、设是总体的协方差阵，的特征根 ( 1, , ) 与相应的单 X ( X 1,L , X m ) i i L m 位正交化特征向量 i ( a i1, a i 2 ,L ,a im ) ，则第一主成分的表达式是 y 1 a 11 X 1 a 12 X 2 L a 1m X m ，方差为 1 。 3 设是总体 X ( X 1, X 2 , X 3, X 4 ) 的协方差阵，的特征根和标准正交特征向量分别为： 1 2.920 U 1' (0.1485, 0.5735, 0.5577, 0.5814) 2 1.024 U 2' (0.9544, 0.0984,0.2695,0.0824) 3 0.049 U 3' (0.2516,0.7733, 0.5589, 0.1624) 4 0.007 U 4' ( 0.0612,0.2519,0.5513, 0.7930) ，则其第二个主成分的表达式是

多元统计分析期末试题

一、填空题（20分） 1、若),2,1(),,(~)(n N X p 且相互独立，则样本均值向量X 服从的分布为 2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。 3、判别分析是判别样品所属类型的一种统计方法，常用的判别方法有__距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。 4、Q 型聚类是指对_样品_进行聚类，R 型聚类是指对_指标(变量)_进行聚类。 5、设样品),2,1(,),,(' 21n i X X X X ip i i i ，总体),(~ p N X ，对样品进行分类常用的距离 2 ()ij d M )()(1j i j i x x x x ，兰氏距离()ij d L 6、因子分析中因子载荷系数ij a 的统计意义是_第i 个变量与第j 个公因子的相关系数。 7、一元回归的数学模型是： x y 10，多元回归的数学模型是： p p x x x y 22110。 8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。二、计算题（60分） 1、设三维随机向量),(~3 N X ，其中 200031014，问1X 与2X 是否独立？),(21 X X 和3X 是否独立？为什么？解：因为1),cov(21 X X ，所以1X 与2X 不独立。把协差矩阵写成分块矩阵 22211211，),(21 X X 的协差矩阵为11 因为12321),),cov(( X X X ，而012 ，所以),(21 X X 和3X 是不相关的，而正态分布不相关与相互

应用多元统计分析习题解答_因子分析报告

第七章因子分析 7.1 试述因子分析与主成分分析的联系与区别。答：因子分析与主成分分析的联系是：①两种分析方法都是一种降维、简化数据的技术。②两种分析的求解过程是类似的，都是从一个协方差阵出发，利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇，将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳，那么因子分析可以说是将原指标给予分解、演绎。因子分析与主成分分析的主要区别是：主成分分析本质上是一种线性变换，将原始坐标变换到变异程度大的方向上为止，突出数据变异的方向，归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外，主成分分析不需要构造分析模型而因子分析要构造因子模型。 7.2 因子分析主要可应用于哪些方面？答：因子分析是一种通过显在变量测评潜在变量，通过具体指标测评抽象因子的统计分析方法。目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。具体来说，①因子分析可以用于分类。如用考试分数将学生的学习状况予以分类；用空气中各种成分的比例对空气的优劣予以分类等等②因子分析可以用于探索潜在因素。即是探索未能观察的或不能观测的的潜在因素是什么，起的作用如何等。对我们进一步研究与探讨指示方向。在社会调查分析中十分常用。③因子分析的另一个作用是用于时空分解。如研究几个不同地点的不同日期的气象状况，就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判断各自的影响和变化规律。 7.3 简述因子模型中载荷矩阵A 的统计意义。答：对于因子模型 1122i i i ij j im m i X a F a F a F a F ε=++ ++ ++ 1,2, ,i p = 因子载荷阵为1112 121 22212 12 (,, ,)m m m p p pm a a a a a a A A A a a a ????? ?==?????? ? ?A i X 与j F 的协方差为： 1Cov(,)Cov(,)m i j ik k i j k X F a F F ε==+∑ =1 Cov( ,)Cov(,)m ik k j i j k a F F F ε=+∑ =ij a 若对i X 作标准化处理，=ij a ,因此 ij a 一方面表示i X 对j F 的依赖程度；另一方面也反映了

应用多元统计分析试题及答案

一、填空题： 1、多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法. 2、回归参数显著性检验是检验解释变量对被解释变量的影响是否著. 3、聚类分析就是分析如何对样品（或变量）进行量化分类的问题。通常聚类分析分为 Q型聚类和 R型聚类。 4、相应分析的主要目的是寻求列联表行因素A 和列因素B 的基本分析特征和它们的最优联立表示。 5、因子分析把每个原始变量分解为两部分因素：一部分为公共因子，另一部分为特殊因子。 6、若 () (,), P x N αμα ∑=1,2,3….n且相互独立，则样本均值向量x服从的分布为_x~N(μ，Σ/n)_。二、简答 1、简述典型变量与典型相关系数的概念，并说明典型相关分析的基本思想。在每组变量中找出变量的线性组合，使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合，使其配对，并选取相关系数最大的一对，如此下去直到两组之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量，它们的相关系数称为典型相关系数。 2、简述相应分析的基本思想。相应分析，是指对两个定性变量的多种水平进行分析。设有两组因素A和B，其中因素A包含r个水平，因素B包含c个水平。对这两组因素作随机抽样调查，得到一个rc的二维列联表，记为。要寻求列联表列因素A和行因素B的基本分析特征和最优列联表示。相应分析即是通过列联表的转换，使得因素A

和因素B 具有对等性，从而用相同的因子轴同时描述两个因素各个水平的情况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上，从而得到因素A 、B 的联系。 3、简述费希尔判别法的基本思想。从k 个总体中抽取具有p 个指标的样品观测数据，借助方差分析的思想构造一个线性判别函数系数：确定的原则是使得总体之间区别最大，而使每个总体内部的离差最小。将新样品的p 个指标值代入线性判别函数式中求出值，然后根据判别一定的规则，就可以判别新的样品属于哪个总体。 5、简述多元统计分析中协差阵检验的步骤第一，提出待检验的假设和H1；第二，给出检验的统计量及其服从的分布；第三，给定检验水平，查统计量的分布表，确定相应的临界值，从而得到否定域；第四，根据样本观测值计算出统计量的值，看是否落入否定域中，以便对待判假设做出决策（拒绝或接受）。协差阵的检验检验0=ΣΣ 0p H =ΣI ： /2 /21exp 2np n e tr n λ???? =-?? ? ???? S S 00p H =≠ΣΣI ： /2 /2**1exp 2np n e tr n λ???? =-?? ? ???? S S

多元统计分析模拟试题教学提纲

多元统计分析模拟试题

多元统计分析模拟试题（两套：每套含填空、判断各二十道） A卷 1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐步判别法。 2)Q型聚类分析是对样品的分类，R型聚类分析是对变量_的分类。 3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、极大似然法 5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6)分组数据的Logistic回归存在异方差性，需要采用加权最小二乘估计 7)误差项的路径系数可由多元回归的决定系数算出，他们之间的关系为 = 8)最短距离法适用于条形的类，最长距离法适用于椭圆形的类。 9)主成分分析是利用降维的思想，在损失很少的信息前提下，把多个指标转化为几个综合指标的多元统计方法。 10)在进行主成分分析时，我们认为所取的m（m

多元统计分析课程设计

多元统计分析课程设计题目：《因子分析在环境污染方面的应用》姓名：王厅厅专业班级：统计学级2班学院：数学与系统科学学院时间： 1月 3 日

目录 1.摘要: (1) 2.引言： (1) 2.1背景 (1) 2.2问题的研究意义 (1) 2.3方法介绍 (2) 3.实证分析 (10) 3.1指标 (10) 3.2原始数据 (10) 3.3数据来源 (13) 3.4分析过程： (13) 4.结论及建议 (25) 5.参考文献 (26)

1.摘要: 中国的环境问题，由于中国政府对环境问题的关注，环境法律日趋完善，执法力度加大，对环境污染治理的投人逐年有较大幅度的增加，中国环境问题已朝着好的方面发展。可是，仍存在着环境问题，主要体现在环境污染问题，其中主要为水污染和大气污染。关键词：环境污染水污染大气污染因子分析2.引言： 2.1背景：中国的环境保护取得了明显的成就，部分地区环境质量有所改进。可是，从整体上看，中国的环境污染仍在加剧，环境质量还在恶化。大气二氧化硫含量居高不下，境质量呈恶化趋势，固体废弃物污染量大面广，噪声扰民严重，环境污染事故时有发生。据中国社会科学院公布的一项报告表明：中国环境污染的规模居世界前列。 2.2问题的研究意义：

为分析比较各地环境污染特点，利用因子分析对环境污染的各个指标进行降维处理并得到影响环境的内在因素，进一步对环境污染原因及治理措施进行分析，让更多的人认识到环境的重要性，准确把握各地区环境治理方法以及针对不同地区制定不同的政策改进环境问题，这对综合治理环境问题具有重要意义。 2.3方法介绍因子分析的意义：变量间的信息的高度重叠和高度相关会给统计方法的应用设置许多障碍。为解决此问题，最简单和最直接的解决方案是削减变量个数，但这必然会导致信息丢失和信息不完全等问题的产生。为此人们希望探索一种更有效地解决方法，它既能大幅减少参与数据建模的变量个数，同时也不会造成信息的大量丢失。因子分析正是这样一种能够有效降低变量维数的分析方法。因子分析的步骤： ·因子分析的前提条件：要求原有变量之间存在较强的相关关系。 ·因子提取：将原有变量综合成少数几个因子是因子分析的核心内容。

多元统计分析模拟考题及答案

一、判断题（对）112(,,,)p X X X X '=L 的协差阵一定是对称的半正定阵（对）2标准化随机向量的协差阵与原变量的相关系数阵相同。（对）3典型相关分析是识别并量化两组变量间的关系，将两组变量的相关关系的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。（对）4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。（错）5),(~),,,(21∑'=μp p N X X X X Λ，,X S 分别是样本均值和样本离差阵，则, S X n 分别是,μ∑的无偏估计。（对）6),(~),,,(21∑'=μp p N X X X X Λ，X 作为样本均值μ的估计，是无偏的、有效的、一致的。（错）7 因子载荷经正交旋转后，各变量的共性方差和各因子的贡献都发生了变化（对）8因子载荷阵()ij A a =中的ij a 表示第i 个变量在第j 个公因子上的相对重要性。（对）9 判别分析中，若两个总体的协差阵相等，则Fisher 判别与距离判别等价。（对）10距离判别法要求两总体分布的协差阵相等，Fisher 判别法对总体的分布无特定的要求。二、填空题 1、多元统计中常用的统计量有：样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵． 2、设∑是总体1(,,)m X X X =L 的协方差阵，∑的特征根(1,,)i i m λ=L 与相应的单位正交化特征向量 12(,,,)i i i im a a a α=L ，则第一主成分的表达式是 11111221m m y a X a X a X =+++L ，方差为 1λ。 3设∑是总体1234(,,,)X X X X X =的协方差阵，∑的特征根和标准正交特征向量分别为：' 112.920(0.1485,0.5735,0.5577,0.5814)U λ==--- ' 221.024(0.9544,0.0984,0.2695,0.0824)U λ==- '330.049(0.2516,0.7733,0.5589,0.1624)U λ==--

多元统计分析试题(2012)

近几年，中国房地产业得到了长足的发展，但房地产价格的上涨一直饱受争议，甚至有逃离“北、上、广”的言论，这也从侧面反映了房地产价格的区域性特征，下表为2008年中国31个省、市、自治区房地产业的相关统计数据，试根据这些数据进行聚类分析。表1中指标说明如下： X1：房屋平均销售价格； X2：住宅平均销售价格； X3：别墅、高档公寓平均销售价格； X4：经济适用房平均销售价格； X5：办公楼平均销售价格； X6：商业营业用房平均销售价格 X7：其他平均销售价格； X8：商品房销售面积； X9：住宅销售面积表1

为研究某地区人口死亡状况，已按某种方法将15个已知样品分为3类，指标及原始数据见表2，试建立判别函数，并判定另外4个待判样品属于哪类？表2 X1：0岁组死亡概率X4：55岁组死亡概率 X2：1岁组死亡概率X5：80岁组死亡概率 X3：10岁组死亡概率X6：平均预期寿命题3 利用主成分分析综合评价全国重点水泥企业的经济效益。原始数据见表3。表3

题4 反映城镇居民消费支出状况的指标主要有食品、衣着、居住、家庭设备用品及服务、医疗保健、交通和通信以及教育文化娱乐服务等八项消费支出指标，数据如下表4所示。以2008年为例进行说明。选取反映我国各省、市、自治区的城镇居民人均消费支出8个指标作为原始变量，运用SPSS软件，对全国31个中心城市的人均消费水平水平作因子分析。

题5、在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设基金收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量。自变量如下:x 1 ——农业增加值(亿元),x 2——工业增加值(亿元),x 3 ——建筑业增加值(亿元),x 4 ——人口数(万人),x 5 ——社会消费总额(亿元),x 6 ——受灾面积(万公顷)。据《中国统计年鉴》获得1979—1998共20个年分的统计数据,见表5。由定性分析知,所选自变量都与变量y有较强的相关性,试做出一个较为理想的回归方程。表5

多元统计分析期末试题及答案.doc

22121212121 ~(,),(,),(,),, 1X N X x x x x x x ρμμμμσρ ?? ∑==∑= ??? +-1、设其中则Cov(,)=____. 10 31 2~(,),1,,10,()()_________i i i i X N i W X X μμμ=' ∑=--∑L 、设则=服从。 ()1 2 34 433,4 92,32 16___________________ X x x x R -?? ?'==-- ? ?-? ? =∑、设随机向量且协方差矩阵则它的相关矩阵 4、 __________， __________， ________________。 215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--L 、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。 12332313116421(,,)~(,),(1,0,2),441, 2142X x x x N x x x x x μμ-?? ?'=∑=-∑=-- ? ?-?? -?? + ??? 、设其中试判断与是否独立？ (), 1 2 3设X=x x x 的相关系数矩阵通过因子分析分解为 211X h = 的共性方差111X σ= 的方差21X g = 1公因子f 对的贡献1213 30.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.10320 13 R ? ? - ????? ? -?? ? ? ?=-=-+ ? ? ? ??? ? ? ????? ? ???

多元统计分析题

多元统计分析模拟试题（两套：每套含填空、判断各二十道） A卷 1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐步判别法。 2)Q型聚类分析是对样品的分类，R型聚类分析是对变量_的分类。 3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、极大似然法 5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6)分组数据的Logistic回归存在异方差性，需要采用加权最小二乘估计 7)误差项的路径系数可由多元回归的决定系数算出，他们之间的关系为 P e= 1?R2 8)最短距离法适用于条形的类，最长距离法适用于椭圆形的类。 9)主成分分析是利用降维的思想，在损失很少的信息前提下，把多个指标转化为几个综合指标的多元统计方法。 10)在进行主成分分析时，我们认为所取的m（m

多元统计分析期末复习试题

第一章：多元统计分析研究的容（5点） 1、简化数据结构（主成分分析） 2、分类与判别（聚类分析、判别分析） 3、变量间的相互关系（典型相关分析、多元回归分析） 4、多维数据的统计推断 5、多元统计分析的理论基础第二三章：二、多维随机变量的数字特征 1、随机向量的数字特征随机向量X均值向量：随机向量X与Y的协方差矩阵：当X=Y时Cov（X，Y）=D（X）；当Cov（X，Y）=0 ，称X，Y不相关。随机向量X与Y的相关系数矩阵： 2、均值向量协方差矩阵的性质 (1).设X，Y为随机向量，A，B 为常数矩阵 E（AX）=AE（X）； E（AXB）=AE（X）B; D(AX)=AD(X)A’; )' ,..., , ( ) , , , ( 2 1 2 1P p EX EX EX EXμ μ μ = ' = )' )( ( ) , cov(EY Y EX X E Y X- - = q p ij r Y X ? =) ( ) , (ρ

Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ，Y 独立，则Cov(X,Y)＝０，反之不成立． (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地，当为对角阵时，相互独立。 (2).若，Ａ为sxp 阶常数矩阵，d 为s 阶向量，ＡＸ＋d ～ . 即正态分布的线性函数仍是正态分布． (3).多元正态分布的边缘分布是正态分布，反之不成立． (4).多元正态分布的不相关与独立等价．例３．见黑板．三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的（简单）样本”的理解---独立同截面． (2)多元分布样本的数字特征---常见多元统计量样本均值向量＝样本离差阵Ｓ＝样本协方差阵Ｖ＝ S ;样本相关阵Ｒ (3) ,Ｖ分别是和的最大似然估计； (4)估计的性质是的无偏估计； ,Ｖ分别是和的有效和一致估计；；Ｓ～，与Ｓ相互独立；第五章聚类分析：一、什么是聚类分析：聚类分析是根据“物以类聚”的道理，对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚，甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法：系统聚类法（直观易懂）、动态聚类法（快）、有序聚类法（保序）...... Q-型聚类分析（样品）R-型聚类分析（变量）变量按照测量它们的尺度不同，可以分为三类：间隔尺度、有序尺度、名义尺度。二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换（优缺点） 1、中心化变换（平移变换）：中心化变换是一种坐标轴平移处理方法，它是先求出每个变量的样本平均值，再从原始数据中减去该变量的均值，就得到中心化变换后的数据。不改变样本间的相互位置，也不改变变量间的相关性。 2、标准化变换：首先对每个变量进行中心化变换，然后用该变量的标准差进行标准化。经过标准化变换处理后，每个变量即数据矩阵中每列数据的平均值为0，方差为1，且也不再具有量纲，同样也便于不同变量之间的比较。 3、极差正规化变换（规格化变换）：规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值，这两者之差称为极差，然后从每个变量的每个原始数据中减去该变量中的最小值，再除以极差。经过规格化变换后，数据矩阵中每列即每个变量的最大数值为1，最小数值为0，其余数据取值均在0－1之间；且变换后的数据都不再具有量纲，便于不同的变量之间的比较。 4、对数变换：对数变换是将各个原始数据取对数，将原始数据的对数值作为变换后的新值。它将具有指数特征的数据结构变换为线性数据结构。三、样品间相近性的度量研究样品或变量的亲疏程度的数量指标有两种：距离，它是将每一个样品看作p 维空),(~∑μP N X μ∑μp X X X ,,,21 ),(~∑μP N X ),('A A d A N s ∑+μ)()1(,,n X X X )',,,(21p X X X )')(()()(1X X X X i i n i --∑=n 1X μ ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

应用多元统计分析课后答案

应用多元统计分析课后答案第五章聚类分析判别分析和聚类分析有何区别答：即根据一定的判别准则，判定一个样本归属于哪一类。具体而言，设有n 个样本，对每个样本测得p 项指标（变量）的数据，已知每个样本属于k 个类别（或总体）中的某一类，通过找出一个最优的划分，使得不同类别的样本尽可能地区别开，并判别该样本属于哪个总体。聚类分析是分析如何对样品（或变量）进行量化分类的问题。在聚类之前，我们并不知道总体，而是通过一次次的聚类，使相近的样品（或变量）聚合形成总体。通俗来讲，判别分析是在已知有多少类及是什么类的情况下进行分类，而聚类分析是在不知道类的情况下进行分类。试述系统聚类的基本思想。答：系统聚类的基本思想是：距离相近的样品（或变量）先聚成类，距离相远的后聚成类，过程一直进行下去，每个样品（或变量）总能聚到合适的类中。对样品和变量进行聚类分析时，所构造的统计量分别是什么简要说明为什么这样构造答：对样品进行聚类分析时，用距离来测定样品之间的相似程度。因为我们把n 个样本看作p 维空间的n 个点。点之间的距离即可代表样品间的相似度。常用的距离为（一）闵可夫斯基距离：1/1 ()() p q q ij ik jk k d q X X ==-∑ q 取不同值，分为（1）绝对距离（1q =） 1 (1)p ij ik jk k d X X ==-∑ （2）欧氏距离（2q =） 21/2 1 (2)() p ij ik jk k d X X ==-∑ （3）切比雪夫距离（q =∞）

1()max ij ik jk k p d X X ≤≤∞=- （二）马氏距离（三）兰氏距离对变量的相似性，我们更多地要了解变量的变化趋势或变化方向，因此用相关性进行衡量。将变量看作p 维空间的向量，一般用（一）夹角余弦（二）相关系数在进行系统聚类时，不同类间距离计算方法有何区别选择距离公式应遵循哪些原则答：设d ij 表示样品X i 与X j 之间距离，用D ij 表示类G i 与G j 之间的距离。（1）. 最短距离法 ,min i k j r kr ij X G X G D d ∈∈= min{,}kp kq D D = （2）最长距离法 ,max i p j q pq ij X G X G D d ∈∈= 21 ()()()ij i j i j d M -'=--X X ΣX X 11()p ik jk ij k ik jk X X d L p X X =-=+∑ cos p ik jk ij X X θ= ∑ ()() p ik i jk j ij X X X X r --= ∑ ij G X G X ij d D j j i i ∈∈= ,min

多元统计分析期末复习试题

第一章：多元统计分析研究的内容（5点） 1、简化数据结构（主成分分析） 2、分类与判别（聚类分析、判别分析） 3、变量间的相互关系（典型相关分析、多元回归分析） 4、多维数据的统计推断 5、多元统计分析的理论基础第二三章：二、多维随机变量的数字特征 1、随机向量的数字特征随机向量X 均值向量：随机向量X 与Y 的协方差矩阵：当X=Y 时Cov （X ，Y ）=D （X ）；当Cov （X ，Y ）=0 ，称X ，Y 不相关。随机向量X 与Y 的相关系数矩阵： )',...,,(),,,(2121P p EX EX EX EX μμμ='=Λ)')((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ

2、均值向量协方差矩阵的性质 (1).设X ，Y 为随机向量，A ，B 为常数矩阵 E （AX ）=AE （X ）； E （AXB ）=AE （X ）B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ，Y 独立，则Cov(X,Y)＝０，反之不成立． (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地，当为对角阵时，相互独立。 (2).若，Ａ为sxp 阶常数矩阵，d 为s 阶向量，ＡＸ＋d ～ . 即正态分布的线性函数仍是正态分布． (3).多元正态分布的边缘分布是正态分布，反之不成立． (4).多元正态分布的不相关与独立等价．例３．见黑板．三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的（简单）样本”的理解---独立同截面． (2)多元分布样本的数字特征---常见多元统计量样本均值向量＝样本离差阵Ｓ＝样本协方差阵Ｖ＝ S ;样本相关阵Ｒ (3) ,Ｖ分别是和的最大似然估计； (4)估计的性质是的无偏估计； ,Ｖ分别是和的有效和一致估计；；Ｓ～，与Ｓ相互独立；第五章聚类分析：一、什么是聚类分析：聚类分析是根据“物以类聚”的道理，对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚，甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法：系统聚类法（直观易懂）、动态聚类法（快）、有序聚类法（保序）...... Q-型聚类分析（样品）R-型聚类分析（变量）变量按照测量它们的尺度不同，可以分为三类：间隔尺度、有序尺度、名义尺度。二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换（优缺点） 1、中心化变换（平移变换）：中心化变换是一种坐标轴平移处理方法，它是先求出每个变量的样本平均值，再从原始数据中减去该变量的均值，就得到中心化变换后的数据。不改变样本间的相互位置，也不改变变量间的相关性。 2、标准化变换：首先对每个变量进行中心化变换，然后用该变量的标准差进行标准化。经过标准化变换处理后，每个变量即数据矩阵中每列数据的平均值为0，方差为1，且也不再具有量纲，同样也便于不同变量之间的比较。 3、极差正规化变换（规格化变换）：规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值，这两者之差称为极差，然后从每个变量的每个原始数据中减去该变量中的最小值，再除以极差。经过规格化变换后，数据矩阵中每列即每个变量的最大数值为1，最小数值为0，其余数据取值均在0－1之间；且变换后的数据都不再具有量纲，便于不同的),(~∑μP N X μ∑μp X X X ,,,21Λ),(~∑μP N X ) ,('A A d A N s ∑+μ)()1(,, n X X ΛX )',,,(21p X X X Λ)')(()()(1X X X X i i n i --∑=n 1X μ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

多元统计分析习题3.6

习题3.6 1992年美国总统选举的三位候选人为布什、佩罗特、克林顿。从支持三位候选人的选民中分别假定三组都服从富哦元正态分布,检验这三组的总体均值是否有显著性差异(a=0.05). 解:分析：该题自变量为三位候选人，因变量为年龄段和受教育程度。从自变量来看要进行方差分析，从因变量来看是二元分析，所以最终确定使用多变量分析. 具体操作: 1.打开spss，录入数据，如图, 被投票人：1、布什 2、佩罗特 3、克林顿

2.在spss窗口中选择分析——一般线性模型——多变量，调出多变量分析主界面，将年龄段和受教育程度移入因变量框中，被投票人移入固定因子框中. 3.结果解释:

协方差矩阵等同性的 Box 检验a Box 的 M 7.574 F 1.198 df1 6 df2 80975.077 Sig. .304 检验零假设，即观测到的因变量的协方差矩阵在所有组中均相等。 a. 设计 : 截距 + 被投票人结果说明:此Box检验的协方差矩阵为三位候选人每个人的支持者的年龄段和受教育程度的协方差矩阵。因为sig>0.05，所以差异不显著，即各个因变量的协方差矩阵在所有三个候选人组中是相等的。可以对其进行多元方差分析。多变量检验a 效应值 F 假设 df 误差 df Sig. 截距Pillai 的跟踪.922 330.834b 2.000 56.000 .000 Wilks 的 Lambda .078 330.834b 2.000 56.000 .000 Hotelling 的跟踪11.815 330.834b 2.000 56.000 .000 Roy 的最大根11.815 330.834b 2.000 56.000 .000 被投票人Pillai 的跟踪.226 3.637 4.000 114.000 .008 Wilks 的 Lambda .779 3.725b 4.000 112.000 .007 Hotelling 的跟踪.277 3.807 4.000 110.000 .006 Roy 的最大根.249 7.109c 2.000 57.000 .002 a. 设计 : 截距 + 被投票人 b. 精确统计量 c. 该统计量是 F 的上限，它产生了一个关于显著性级别的下限。结果说明：被投票人在四种统计方法中的sig均小于0.05，所以差异显著，即三组的总体均值有显著性差异

多元统计分析模拟考题及答案

、判断题（对）1X （兀公2丄，X p）的协差阵一定是对称的半正定阵（对）2标准化随机向量的协差阵与原变量的相关系数阵相同。（对）3典型相关分析是识别并量化两组变量间的关系，将两组变量的相关关系的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。（对）4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。（错）5X （X-X2，,X p） ~ N p（ , ），X,S分别是样本均值和样本离 S 差阵，则X,—分别是，的无偏估计。 n （对）6X （X「X2， ,X p） ~ N p（ , ），X作为样本均值的估计，是无偏的、有效的、一致的。（错）7因子载荷经正交旋转后，各变量的共性方差和各因子的贡献都发生了变化（对）8因子载荷阵A （a j）中的a ij表示第i个变量在第j个公因子上的相对重要性。（对）9判别分析中，若两个总体的协差阵相等，则Fisher判别与距离判别等价。（对）10距离判别法要求两总体分布的协差阵相等，Fisher判别法对总体的分布无特定的要求。二、填空题 1、多元统计中常用的统计量有：样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵. 2、设是总体X （X」,X m）的协方差阵，的特征根i（i 1,L ,m）与相应的单位正交化特征向量i （盼无丄,a m），则第一主成分的表达式是 y1 Q1X1 812X2 L QmX m 方差为1。 3设是总体X （X1,X2,X3, X4）的协方差阵，的特征根和标准正交特征向量分别为： 1 2.920 U；(0.1485, 0.5735, 0.5577, 0.5814) 2 1.024 U2(0.9544, 0.0984,0.2695,0.0824) 3 0.049 U3(0.2516,0.7733, 0.5589, 0.1624) 0.007U4 （ 0.0612,0.2519,0.5513, 0.7930），则其第二个主成分的表达式是 4

文档之家

应用多元统计分析习题解答因子分析.doc

(完整word版)实用多元统计分析相关习题

多元统计分析模拟考题及答案.docx

多元统计分析期末试题

应用多元统计分析习题解答_因子分析报告

应用多元统计分析试题及答案

多元统计分析模拟试题教学提纲

多元统计分析课程设计

多元统计分析模拟考题及答案

多元统计分析试题(2012)

多元统计分析期末试题及答案.doc

最新多元统计分析之因子分析

多元统计分析题

多元统计分析期末复习试题

应用多元统计分析课后答案

多元统计分析期末复习试题

多元统计分析习题3.6

多元统计分析模拟考题及答案