当前位置:文档之家› 基于CANOCO的多元统计分析1

基于CANOCO的多元统计分析1

基于CANOCO的多元统计分析1
基于CANOCO的多元统计分析1

基于CANOCO的生态学数据的多元统计分析

著者:Jan Leps 捷克南波希米亚大学植物学系和捷克科学院昆虫研究所生态学教授Petr Smilauer 捷克南波希米亚大学多元统计分析讲师

译者:赖江山中国科学院植物研究所生物多样性与生物安全研究组助理研究员这本书目的主要在于帮助生态学者分析野外观测数据和实验获得的数据。本书对于学生或研究人员处理复杂的生态学问题非常有用,比如生物群落随环境条件的如何变化,或是生物群落在控制实验中的变化。在简单介绍排序原理之后,本书的着重介绍约束排序方法(RDA 和CCA)和置换统计检验在多元数据中的应用。同时介绍了如何利用分类的方法及现代回归技术(GLM,GAM,loess)来正确解读排序图。最后,用CANOCO软件分析了7个难度不同的研究案例。这些案例对于大家选择排序方法及分析排序结果很有帮助。案例的数据均可以从网络本书的主页(http://regent.bf.jcu.cz/maed/)上获得。

原书前言

群落的组成的多维数据,比如种群的属性,或是环境因子的属性,是生态学家研究生涯的面包与黄油。这些数据被分析时候需要考虑它们的多维性。用多元统计的方法来分析群落数据是比较适合的。

在这本书,我们尽量使用一套一致的方法来回答生态学家在研究中常遇到的问题。然而,我们也经常用自己观点来表述一些内容,同时,我们也关注一些非参数的方法,比如非度量多维尺度分析(NMDS)的算法等等。我们并不要是强调不同的方法对于分析多元数据的差异,而是想说明要解决一个问题,可以用很多方法。

在本书主要内容讲排序的方法,但并不意味着分类的方法没有用(译者注:排序与分类密不可分,分类分析群落的间断分布,排序分析群落的连续分布)。同时,我们也对回归方做了一些总结,包括最新发展的内容比如广义可加模型(generalized additive models)。

在这本书的所描述的方法可以广泛被研究植物、动物和土壤的研究人员利用,当然也可以是水生生物方面的人员。由于本书的两位作者的背景,本书的内容偏向植物生态学。

这本手册的材料原先是作为“生态数据多元分析”的课件。我们也希望这本书能用于其它相关类似的课程,也期望每个学生能够从这本书提高他们的分析数据的能力。

我们希望这本书可以作为Canoco 4.5 使用手册的简明的补充材料。

Jan Lep 和Petr Smilauer

译者前言

四年前,我开始接触CANOCO软件时候,也是菜鸟一个,自己并不是学统计出身,学习的过程也非常缓慢。当时也不会想到四年后今天,我居然还能为大家翻译这样一本有关CANOCO的书。这个过程,不得不承认普兰塔(https://www.doczj.com/doc/d417671160.html,)的作用,正是为了回答塔友有关排序和CANOCO相关的问题,我不断翻文献、看软件说明书和自己摸索,积累了一点关于多元统计方法和CANOCO软件的一些知识。我相信很多的塔友的排序知识比我丰富,CANOCO软件用得比我熟练,但至今不愿“出山”写本中文的参考书,哪怕是翻译一本也行。没办法,只能由我这个半桶水的家伙来承担此任务。

《士兵突击》的许三多有口头禅:“俺就是想做有意义的事情”。我一直觉得,翻译这本书就是非常有意义的事情,尽管现在的评价考核体系根本不会考虑我翻译了这本书,但我还是很乐意做这个事情。如果有很多CANOCO的初学者将从中受益,我也深感欣慰。当然,我发现每天早上上班和晚上下班前翻译一两段这本书还是一件很惬意的事情,而在翻译的过程,我也学到很多的东西。

由于本人非统计科班出身,而且时间比较仓促,翻译过程中可能有不少错误。有些统计学术语内容也可能斟酌不够,把握不准。因此,希望各个兄弟姐妹发现错误后给直接在博客里面回复,我会尽快修改。

赖江山

2009/6/25

1.导论和数据处理(Introduction and data manipulation)1.1为什么排序?(Why ordination?)

当考察植物或动物群落沿着一系列环境条件下的变化情况,我们经常发现在不同条件的群落不仅物种组成变化很大,而且这些变化往往具有连续性(consistency)和可预测性(predictability)。例如,我们为了要考察景观尺度上的草地群落的变化,可以通过观测样方内物种组成变化来描述,我们可以在一、两个或是三个虚拟坐标轴上将这些样方一个一个进行排列。当我们的目光在虚拟的排序轴上从一个样方移动到下一个相邻的样方,我们就会发现群落内物种组成变化通常很小。

群落中物种组成渐变跟每个物种对环境条件有着需求不同但又有重叠的生物学性质息息相关,这些环境因子如土壤平均湿度及随季节的波动变化、物种间竞争养分和光照能力等等。如果我们原来排列样方的虚拟轴走向恰好能反映某种环境因子的变化规律(比如土壤湿度或是土壤养分丰富度),这些排序轴便可以被称为土壤湿度梯度、养分梯度等等。这些环境梯度偶尔恰好又能跟实际的景观联系起来,例如土壤湿度梯度与河岸坡面,经常是沿着坡面从下到上,土壤湿度逐渐降低。但大部分情况下,我们并不能发现这些轴具体反映什么环境因子,或是反映什么空间变化,因此我们只能称这些轴为群落组成变化梯度。

生物群落的变化可以用很多统计方法来描述,但我们如果着重考察群落变化的连续性,所谓的“排序方法”是很好的选择。自从上个世纪五十年代开始,生态学家就开始用排序的方法分析生态学数据,经过半个世纪的发展,现在已经创制出种类繁多排序技术。我们利用刚才那个草地群落的例子来说明一下最简单的排序使用。当我们通过样方调查法来描述群落物种变化规律的时候,把样方数据总结在一个表格里面形成一个物种-样方矩阵,矩阵的列代表物种,行代表样方。如果用排序的方法分析数据矩阵并在排序图上表示出来(图1-1),我们可以获得对于这个草地群落相当直观的认识。

排序图的解读规则将在随后的第10章进行讨论。但即使现在不知道这些规则,只要脑子里有群落连续性分布的思想和相似相近的原则(Proximity implies similarity),我们也能从这个图解读出一些信息。在图1-1中灰色的圆圈代表样方,我们可以相信如果两个样方在排序图上挨得越近,它们的物种组成和种间数量比例应该越相似。

在图1-1中用三角型代表物种。或许这些物种的生态学特征能够帮我们解读排序轴所表示的生态学梯度。有几个偏好丰富养分的土壤的物种(如Urtica dioica, Aegopodium podagraria, or Filipendula ulmaria)排在图的右边,另外一些偏好养分匮乏的土壤的物种排在左边(如(Viola palustris, Carex echinata, or Nardus stricta)。因此,排序图中的水平轴(第一轴)可以解读为表示土壤养分的梯度,从左到右,养分越丰富。同样的道理,排序图下面几个物种(如Galium palustre, Scirpus sylvaticus, or Ranunculus repens)比排在上面的一些物种(如Achillea millefolium, Trisetum flavescens, or Veronica chamaedrys)更喜欢湿生环境。因此,纵轴(第二轴)可以解读为表示土壤的湿度梯度。

同样,或许大家都可以猜到,在排序图上,如果某一物种的越靠近某一个样方,表示该物种在此样方内个体数量越多。同样,两个物种离一个样方的距离也可以代表它们在该样方所占比例的差异,离得越近该物种相对数量越多。

上面的例子已经展示了排序方法对于群落分析的最基本的用途。通过排序分析,我们可以认识群落格局,也可以将排序轴跟我们已知的环境条件联系起来,看是否代表某一环境梯度。当然,也许我们必须用统计手段来检验排序轴到底是否真能代表环境因子

的梯度,比如,上面这个例子,我们可以这样问个问题:群落物种组成分布真的是随土壤湿度的变化,还是仅仅是一个巧合呢?通过约束排序法(constrained ordination methods)可以帮我们回答这样的问题。这些内容通通将要在本书的后半部分介绍。

然而,这本书并没有止步于仅仅用排序的方法来探讨上述这些简单的确定性的分析。这本书还介绍了各种类型的回归和方差分析,包括了固定样点重复观察的数据分析,空间结构数据分析和各种等级的方差分析。这些方法能够让生态学家探讨更复杂、更现实的科学问题。另外,这本书不仅是告诉如何分析问题,还手把手教大家怎么做。

图1.1 草地植被物种组成的CA排序图

1.2专业术语(Terminology)

多元统计分析的专业术语非常复杂。本书内至少有两套不同的术语,一套是很多学科领域共同使用的、纯粹统计学术语,本书中我们将这部分术语斜体并放在括号里面;

另外一套是群落生态学惯用的多元统计学术语。本书也大部分统计术语基于群落生态学,偶尔用纯粹统计学术语来表达一些常用的统计学理论。本书中的术语跟CANOCO软件中的术语是一致的。

在群落学分析中,大部分情况是下是基于样方单元(sampling units)观测的原始数据。每个样方内包含很多物种的数量信息,或是其他属性的信息。原始数据常用矩阵来表示,一般是一行代表一个样方,一列代表一个属性特征(如物种,水分或土壤的物理化学特征等等)

生态学原始数据一般由两个部分构成,一组是响应变量(response variable),另外一组是解释变量(explanatory variables)。在群落学分析里面,响应变量经常是物种的组成数据,而解释变量通常是环境因子,比如土壤或水的特征属性等。在一个模型里,我们要利用解释变量来预测响应变量(群落的组成)。在排序分析中,解释变量又经常可以分为两组:一类主环境变量,我们主要关心它们与群落内物种分布的关系;另外一组叫

协环境变量(在一般统计方法里面也叫协同变量covariates)。协环境变量与主环境变量同时对响应应变起作用,因此我们要分析主环境变量效应之前,应先将协环境变量的效应剔除出来,以便更准确考察主环境变量与物种分布的关系。

举个例子,我们要分析一个特定区域土壤的属性特征和管理模式(刈割或放牧)对草地群落物种组成的影响。当我们感兴趣的土壤的属性的影响,不关心管理模型的影响时,物种组成数据作为响应变量,土壤的属性数据作为解释变量,得出的结论可以看出每个物种分布与土壤梯度的关系。同样,我们考察管理模式对物种分布的影响,不关心土壤的属性的影响时,只用管理模型数据作为解释变量即可。然而,假设管理模式可能改变土壤的属性,这样就能通过影响土壤属性改变来间接影响物种分布。现在我们只要分析管理模式单独对群落内物种组成的影响,需要排除掉通过影响土壤间接影响物种分布的这部分效应。此时,就应该把管理模式作为主环境变量,而土壤属性数据作为协环境变量。

在CANOCO程序里面,理解“物种数据”内涵是很关键的。其实只要是需要我们去预测的数据,都可以成为物种数据。例如我们预测集水区不同景观内多种水金属离子的数量的时候,此时一种金属离子在CANOCO软件里面即代表一种物种。在群落学里,CANOCO里面的物种数据经常是用物种的组成来表示,描述物种组成的属性通常用不同的多度指标来表示,例如个体数,频率估计和生物量估计。当然也可以用表示物种在样方内存在与否的二元数据描述物种组成属性。同样,数量型变量和0-1型(presence-absence)都可以成为环境变量。对于这部分内容将在下面详细讨论。

1.3分析类型(Types of analyses)

如果我们要使用数量统计方法描述一个或多个响应变量,如何选择合适的统计模型要依赖于所研究的响应变量是一个还是多个,以及是否有解释变量。

表1-1总结了不同变量条件与统计方法的对应关系。如果只有一个响应变量数据,而没预测器(解释变量),我们仅仅需要、也只能归纳这个变量的分布特征(如通过直方图、中值,标准差、四分位极差等)。如果有多个响应变量,依然没有解释变量,我们可以用排序(间接梯度分析)来分析数据,例如可以用主成分分析(PCA)、对应分析(CA)、去趋势对应分析(DCA)和非度量多维尺度分析(NMDS),当然也可以用等级分类,如聚类的方法将样方分为有区别的几类(详见第7章的聚类分析)。

如果我们有一个或多个的解释变量,要分析一个响应变量,可以用广义的回归模型,包括传统的回归模型和方差分析、协方差分析。这类分析统称为一般线性模型(general linear model),最近在一般线性模型基础上,发展出了广义线性模型(generalized linear models, GLM)和广义可加模型(generalized additive models, GAM)。有关这回归模型更多的信息,我们将在第8章讨论。

如果有多个响应变量需要分析,解释变量一个或多个,我们可以通过直接梯度排序来分析解释变量与多个响应变量(群落学里通常是物种)之间的关系。常用的有冗余分析(RDA)和典范对应分析(CCA)等排序技术。

1.4响应变量(Response variables)

响应变量是多元分析固有的成分。如果解释变量(见1.5节)并没有被测量,统计的方法可以设定虚拟的解释变量,但响应变量是不可虚拟的。

响应变量(在群落学分析中习惯称物种数据)通常能够用比较准确的量化方法观测或测量获得,比如植物地上部分生物量干重、掉到捕获器里昆虫种类和个体数量、景观尺度内各种植被群落的盖度百分比等等。这样的观测得到的量化数值不仅可以用大于、小于、相等这样的关系来比较,还可以用比例来比较(比如一个值是另外一个值的两倍)。

还有一些情况下,响应变量是半变量化的,比如样方内物种多度分级估计(Braun-Blanquet等级估计法等)就是典型的例子。最简单响应变量数据是二元数据,比如一个物种是否存在于一个样方中,存在记为1,不存在记为0,就构成了二元生态数据。种存在与否的二元数据在数量分析中用的也非常广泛,有些分析方法只适合分析二元数据。

如果响应变量是一组描述不同属性的数据,比如描述水的温度、离子浓度、酸度等等,尽管每种属性都有量化的数据,但是不同属性的量纲是不一致的。这种类型的响应变量在有些排序方法是不适用的,另外一些排序方法中需要经过标准化才能适用(见

4.4节)。

1.5解释变量(explanatory variables)

解释变量(统计学也叫预测器predictors或自变量independent variables)就是从样方测量得到用来预测响应变量(不同物种的在样方内多度)的环境因子数据。例如,我们可以用土壤属性和土地管理方式预测群落内物种组成,此时土壤属性和土地管理方式即可称为解释变量。需要注意的是,解释变量不是用来预测它本身,而是使用“预测规则”(通常通过排序图获得)来获得更多关于被研究的有机体或系统信息。

解释变量可以是数量数据(如土壤中硝酸盐离子的浓度),半量化数据(如人类影响程度,比如可分为0-3级),或是因子(属性或等级数据)。最简单的解释变量是二元变量(0-1数据),1表示某特征或某事件存在或发生,0表示不存在或不发生。

因子(factors)经常是样方或是事件的分类数据,例如草地管理模式分类、研究污染对河流影响时河流的类型等,或是0-1数据。在CANOCO程序里面,我们经常叫因子为哑变量(dummy variables),有时也叫指示变量(indicator variables)(或二元变量)。

对于每个因子水平,应该有一个分离的哑变量代表。一个因子水平,在一个样方内用哑

变量1来表示,对于在这个样方内的同一因子另外的水平,只能哑变量0来表示。比如,如果我们要标记一个样方草地植被类型为牧场、草甸或是废弃草地则三种类型中任何一种,此时需要二个哑变量(D1,D2)来代表这个因子三个水平,

另外,可以将因子更精细分解到哑变量,允许我们去产生所谓的模糊编码(fuzzy coding)。比如用我们刚举的例子,如果有一个样点(样方),前几年是作为割草的草地,这几年是作为放牧的草地。如果我们期望考察两种类型的管理模式对于物种组成影响的时候,这时候我们就可以用一个大于0而小于1的数值来代表所处的因子水平。这里一个很重要的限制是,所有因子水平加起来的数值应该等于1(类似于正常的因子的虚拟变量)。除非我们能够量化两种管理模式对于该样点的相对重要性,否则我们最好设立三个虚拟变量为0.5,0.5和0。

当我们在解释变量(环境因子数据)与响应变量(物种数据)之间建立预测模型的时候,经常会遇到这样的情况,往往我们仅仅考察解释变量中某几个环境因子的对物种数据的影响,但剩下的环境因子也会对物种产生影响,这些剩余环境因子我们经常称为协变量(Covariables) 。在CANOCO中,协变量的影响可以用偏分析(partial analyze)剔除出来。

实际上,任何一个环境因子变量均可以成为协变量。例如,我们要研究管理模式对蝴蝶群落中组成的影响,我们可以在不同的海拔地点取样,海拔也许对群落物种组成影响很大,但此时我们感兴趣的是管理模式的影响,而非海拔梯度的影响。这个时候,如果能剔除出海拔的影响,我们能管理模型与蝴蝶种群之间更清晰的关系。

1.6如何处理丢失的数据(Handing missing values in data)

无论准备工作多么充分,我们也经常不能够完全收集到我们所需要的数据。比如土壤在从野外到实验室运送过程丢失了一部分,或是我们在记录数据时忘了某一个数据。

大部分情况,我们很难将漏掉数据补回来。所有经常把漏掉数据让它空着,但这样做往往不是明智的。例如,在记录一个只含有零星个体的群落数据时(比如整个群落物种数为300,但每个样方的平均物种数很少),如果我们会将忘了记录的数据当作该物种在此样方内不存在,比如记录为0,但实际上忘了记录跟物种在此样方内不存在是两码事,差别很大。有些统计软件会提供处理缺失值的表示方法(经常用NA表示),但也仅仅是表述上的方便。真正统计学上的方法必须严格处理缺失值,下面几个处理缺失值的方法是值得我们参考的:

1.如果仅仅在少数几个样方里存在缺失值,可以将这些带有缺失值的样方去掉。当然,

切记仅仅是少数的样方带缺失值才可以做。例如,一个带有30个变量的500个样

方矩阵数据,如果有20个数据丢失,且这20个缺失的数据仅仅发生在3个样方里

面。在数据分析之前,将这3个样方去掉可能是明智之举。这个策略在很多常用统

计软件里面称为“个案删除”(case-wise deletion)。

2.同样,如果缺失值集中在少数几个非关键性的变量里,我们也可以将这几个变量去

掉。当我们做化学分析的时候,这样的情况比较常发生。例如,我们如果知道空气

沉淀物镉的浓度,我们经常能够通过镉的浓度合理推断出水银的浓度。这两种物质

的浓度具有高度的相关性,因此如果我们只知道一种的浓度,就可以很好预测另一

种的浓度。如果我们缺失了镉的浓度的值,只要有水银的浓度,我们完全可以把镉

的数据去掉。

3.上面两种处理缺失值的方法可能是比较粗糙的,因为我们经常花了不少财力和物力

来收集数据,最终因为缺失值而把整个样方或变量去掉,显然是很可惜的。实际上

有很多内插(imputation)可以来处理缺失值。最简单办法就是用未缺失的平均值

来填充缺失值。或许,更复杂一点,可以利用现有的数据先建立一个回归模型,通

过其它变量来预测缺失值。用这种方式可以将我们缺失的数据一一填补,而不必将

样方或是变量删除。当然,我们不能欺骗自己,我们仅仅能近似补充这些数据,但

是数据中的自由度是没法恢复回来的。

值得注意的是,如果我们用估计的数据来替代缺失的数据,在统计检验的时候经常会造成跟自由度水平判断失误,从而让显著性水平估计并不是很准确(经常是过分乐观估计)。我们可以通过降低这些带有补充数据的样方权重以减轻这种影响。这个算法比较简单,例如,有个20个变量的数据矩阵,如果一个样方缺失了5个变量数据,那么这个样方的权重为0.75(等于1.0-5/20),即将样方内所有值乘以0.75,以减少该方法在统计分析中的权重。当然,这种处理法并不是很完美。如果缺失的变量在统计分析中是很关键变量,我们这么将样方权重整体降低,将会影响关键变量的作用。

有关如何处理缺失数据的方法讨论,可以参考Little & Rubin (1987).

1.7从表格内输入数据—WCanoimp 程序(Importing data from spreadsheets – WCanoImp program)

数据输入对于初学者常常是很大障碍。在CANOCO的老版本中,对数据格式具有严格的要求,必须是按照它自带的格式才能识别。在CANOCO4.0以后的版本,增加一个从普通的数据表格转为CANOCO可识别数据的WCanoimp程序[在开始菜单里有]。下面将演示如果将Excel表格中的数据转化成CANOCO可识别的数据。

图1-2a WCanoimp程序打开途径

图1-2 b 数据的参考模式及WCanoimp对话框

在Excel表格里面,你必须将数据做成矩形形式。默认的方式(也是常用的方式)是一行代表一个样方,一列代表一个变量。表格左顶格最好是空着。最好第一列和第一行分别有样方编号和变量的名称。必须注意的是名称不能超过8个字符,如果超过8个字符,CANOCO会自动截取前8个字符作为名称。变量名称最好是英文字母、数字、圆点或是连字符,空格也可以。

除了第一行和第一列,表格内剩下的填充内容必须是数字或是空着,绝对不能使用字符型数据。定性变量(因子)必须转换为哑变量(0-1数据)方可进入CANOCO分析。

当数据在Excel表格里按要求整理好后,将包含数据的矩形方阵选定,然后选择“复制”按钮,此时数据便复制到剪贴板中。WCanoImp 便可以从剪贴板中读取数据。如图1-2a所示,WCanoImp可以从“开始”菜单中Canoco for windows下来菜单中打开。此时会弹出WCanoImp对话框,上半部分包含如何使用该程序的简短信息,下半部分是一些可选框。如果在Excel表格数据是按照默认方式组织你的数据,第一选项不必选,相反,如果是数据结构正好相反,以列代表样方,以行代表变量,必须选中这个“Each column is a Sample”选项。除非你的数据是样方很少而变量很多(Excel表格里面列数不能超过256列),否则不推荐用这种方式组织数据。如果你没有样方或是变量没有编号或是名称,可以选择下面两个选框,程序会帮你给各行各列附上默认名称(Sample1,)。最后一个选项是问你是否存为压缩型数据类型,除非你觉得硬盘空间不够大,否则不必选这个选项,是否选这个选项中对于分析结果毫不影响。

当你确定所以的选择是正确的,你就可以按下save按钮,系统弹出新的对话框让你选择保存新文件地方和取个文件名,之后会让你给这个文件加个标注,这个标注内容将显示在新文件的数据内容第一行,以便日后数据内容的识别。选定确认后,程序会告诉你保存成功

1.8物种数据的转化(Transformation of species data)

排序的过程在于寻找最佳预测响应变量的坐标轴,此时坐标轴代表回归预测器(解释变量)(这些内容将第3章详细解释)。因此,在排序中对响应变量进行转化,就好比在多重回归中要将很多物种数据转化一个单因变量的形式一样。有点限制的是,在排序中,所有的响应变量应该是做一致的转化,因为响应变量经常是同一属性的数据,具有一致的量纲。在基于单峰模型(加权平均)的排序(见3.2节),所有响应变量的数据不能是负值,这就要求某些带负值的数据必须转化,而且对于转化的结果有更严格的要求(不能为负值)。

这个限定(非负值)对于对数转化更应该值得注意。因为1的对数为0,而处于0-1之间的值取对数是负值。因此,在CANOCO里面提供了变通的对数转化公式:

在对y转化之前,你可设定上面公式中A和C的值,让输出的y`值保证不小于0。在系统中,A和C默认值均为1,这样可以保证本来是0的值,转化后仍为0,而其他的值依然是正的。然而,如果你的原始值很小(比如说处于0-0.1之间),可以将A的值适当增大,比如说设为10。但对于百分比数据和普通的点数据,默认的转化(log(y+1))是比较合适的。

什么情况下需要对响应变量进行对数转化是个很难回答的问题,统计学家的答案也是五花八门。我们建议你不必太在意关于数据的分布特征,比如原始数据不一定符合理想的正态分布,对于排序来说,也不一定非要通过对数转化为正态分布的类型。是否需要对数转化,关键还是比较原始数据和转化数据分析处理的最终结果哪个更好解释你所要探讨的问题。

正如上面所描述那样,排序可以被看作多重回归的扩展,所以整个排序方法可以用简单回归的语言来描述。你可以通过一个或多个预测器(环境因子或排序轴)来预测一个响应变量(比如物种的多度)。比如,在一元线形回归方程中(y=B0+BX+E),你可以问当x变化一个单位时,y的平均值是如何变化的?如果自变量和因变量都没有对数转化,你可以回答这个问题:当x增加一个单位时候,y的增量是B。但在很多情况下,你可能更倾向听到这样的解释,如果变量X增加一个单位,Y的量将增加10%,或是,y 增加1.1倍这样的话。显然,这已经并不是线形回归模型所能体现出来的,因此,这种前情况下,你需要对响应变量进行对数转化。

同样,如果预测器(环境因子)变化是成倍增长,此时的环境变量也应该被对数转化。

植物群落组成数据有时是半量化估计尺度数据,比如最典型的例子是多度的Braun-Blanquet等级估计(7个等级水平,分别为r,+,1,2,3,4,5这7个标号表示)。这个等级估计经常在数据表格里用1-7的数据来代替原来的标号进行分析。其实,这个量化1-7的数字已经相当原始多度数据的对数转化,因为不同等级的多度变化往往是成倍增加的,不是简单的单位量的变化。

在CANOCO里面另外一种有用的数据转化模式是平方根转化。平方根转化更适合观测计数数据(count data),比如在土壤收集器中收集到标本个体的数量,或是通过某一条标志线蚂蚁的数量等等这样的观测数据。但对数转化对这样的数据进行转化也是可以的。

当然,如果你觉得需要某种除了对数转化和平方根之外的数据转化,你可以在数据

输入CANOCO之前通过别的数据软件进行。

1.1解释变量的转化(Transformation of explanatory variables)

因为解释变量(环境因子变量,包括协变量)经常是样方的多属性数据,量纲往往不一样的,所以你经常需要选择合适的转化方法分别对环境变量进行单独转化。CANOCO 里面并没有提供这样的转化,因为很多环境因子在被输入CANOCO之前,就应该被转化好。

但你应该知道,CANOCO读了了环境变量或协变量后,它们会自动被中心化和标准化,让它们的均值为0和方差为1(这个转化通常被称为“单位方差标准化”)。

应用多元统计分析课后答案

2.1.试叙述多元联合分布和边际分布之间的关系。 解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,12(,,)p X X X X '=L 的联合分布密 度函数是一个p 维的函数,而边际分布讨论是12(,,)p X X X X '=L 的子向量的概率分布,其概率密度 函数的维数小于p 。 2.2设二维随机向量1 2()X X '服从二元正态分布,写出其联合分布。 解:设1 2()X X '的均值向量为()1 2μμ'=μ,协方差矩阵为21 122212σσσσ?? ? ?? ,则其联合分布密度函数为 1/2 12 2 2112112222122121()exp ()()2f σσσσσσσσ--???????? '=---?? ? ??? ?????? x x μx μ。 2.3已知随机向量12()X X '的联合密度函数为 12121222 2[()()()()2()()] (,)()()d c x a b a x c x a x c f x x b a d c --+-----= -- 其中1a x b ≤≤,2c x d ≤≤。求 (1)随机变量1X 和2X 的边缘密度函数、均值和方差; (2)随机变量1X 和2X 的协方差和相关系数; (3)判断 1X 和2X 是否相互独立。 (1)解:随机变量 1X 和2X 的边缘密度函数、均值和方差; 11212122 2[()()()()2()()] ()()()d x c d c x a b a x c x a x c f x dx b a d c --+-----=--? 1221222222 2()()2[()()2()()]()()()() d d c c d c x a x b a x c x a x c dx b a d c b a d c -------=+----? 121 222202()()2[()2()]()()()() d d c c d c x a x b a t x a t dt b a d c b a d c ------= +----? 221212222 2()()[()2()] 1()()()()d c d c d c x a x b a t x a t b a d c b a d c b a ------=+= ----- 所以 由于1X 服从均匀分布,则均值为2b a +,方差为 ()2 12 b a -。

多元统计分析期末试题

一、填空题(20分) 1、若),2,1(),,(~)(n N X p 且相互独立,则样本均值向量X 服从的分布 为 2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。 3、判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有__距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。 4、Q 型聚类是指对_样品_进行聚类,R 型聚类是指对_指标(变量)_进行聚类。 5、设样品),2,1(,),,(' 21n i X X X X ip i i i ,总体),(~ p N X ,对样品进行分类常用的距离 2 ()ij d M )()(1j i j i x x x x ,兰氏距离()ij d L 6、因子分析中因子载荷系数ij a 的统计意义是_第i 个变量与第j 个公因子的相关系数。 7、一元回归的数学模型是: x y 10,多元回归的数学模型是: p p x x x y 22110。 8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。 二、计算题(60分) 1、设三维随机向量),(~3 N X ,其中 200031014,问1X 与2X 是否独立?),(21 X X 和3X 是否独立?为什么? 解: 因为1),cov(21 X X ,所以1X 与2X 不独立。 把协差矩阵写成分块矩阵 22211211,),(21 X X 的协差矩阵为11 因为12321),),cov(( X X X ,而012 ,所以),(21 X X 和3X 是不相关的,而正态分布不相关与相互

应用多元统计分析习题解答典型相关分析Word版

第九章 典型相关分析 9.1 什么是典型相关分析?简述其基本思想。 答: 典型相关分析是研究两组变量之间相关关系的一种多元统计方法。用于揭示两组变量之间的内在联系。典型相关分析的目的是识别并量化两组变量之间的联系。将两组变量相关关系的分析转化为一组变量的线性组合与另一组变量线性组合之间的相关关系。 基本思想: (1)在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。即: 若设(1) (1)(1) (1)12(,, ,)p X X X =X 、(2)(2)(2) (2) 12(,, ,)q X X X =X 是两组相互关联的随机变量, 分别在两组变量中选取若干有代表性的综合变量Ui 、Vi ,使是原变量的线性组合。 在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大。(2)选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对。 (3)如此继续下去,直到两组变量之间的相关性被提取完毕为此。 9.2 什么是典型变量?它具有哪些性质? 答:在典型相关分析中,在一定条件下选取系列线性组合以反映两组变量之间的线性关系,这被选出的线性组合配对被称为典型变量。具体来说, ()(1)()(1) ()(1) ()(1)1122i i i i i P P U a X a X a X '=++ +a X ()(2)()(2) ()(2) ()(2)1122i i i i i q q V b X b X b X '=+++b X 在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大,则称 (1)(1)'a X 、(1)(2)'b X 是(1)X 、(2)X 的第一对典型相关变量。 典型变量性质: 典型相关量化了两组变量之间的联系,反映了两组变量的相关程度。 1. ()1,()1 (1,2,,)k k D U D V k r === (,)0,(,)0()i j i j Cov U U Cov V V i j ==≠ 2. 0(,1,2,,) (,)0 ()0() i i j i j i r Cov U V i j j r λ≠==?? =≠??>? 9.3 试分析一组变量的典型变量与其主成分的联系与区别。 答:一组变量的典型变量和其主成分都是经过线性变换计算矩阵特征值与特征向量得出的。主成分分析只涉及一组变量的相互依赖关系而典型相关则扩展到两组变量之间的相互依赖关系之中 ()(1)()(1)()(1)()(1) 1122i i i i i P P U a X a X a X '=+++a X ()(2)()(2)()(2)()(2)1122i i i i i q q V b X b X b X '=+++b X (1)(1)(1)(1)1 2 (,,,)p X X X =X 、(2)(2)(2)(2)1 2 (,,,)q X X X =X

多元统计分析模拟试题教学提纲

多元统计分析模拟试 题

多元统计分析模拟试题(两套:每套含填空、判断各二十道) A卷 1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐 步判别法。 2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的分类。 3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、 极大似然法 5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6)分组数据的Logistic回归存在异方差性,需要采用加权最小二乘估计 7)误差项的路径系数可由多元回归的决定系数算出,他们之间的关系为 = 8)最短距离法适用于条形的类,最长距离法适用于椭圆形的类。 9)主成分分析是利用降维的思想,在损失很少的信息前提下,把多个指标转 化为几个综合指标的多元统计方法。 10)在进行主成分分析时,我们认为所取的m(m

应用多元统计分析习题解答_第五章

第五章 聚类分析 判别分析和聚类分析有何区别 答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n 个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于k 个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。 试述系统聚类的基本思想。 答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 对样品和变量进行聚类分析时, 所构造的统计量分别是什么简要说明为什么这样构造 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n 个样本看作p 维空间的n 个点。点之间的距离即可代表样品间的相似度。常用的距离为 (一)闵可夫斯基距离:1/1 ()() p q q ij ik jk k d q X X ==-∑ q 取不同值,分为 (1)绝对距离(1q =) 1 (1)p ij ik jk k d X X ==-∑ (2)欧氏距离(2q =) 21/2 1 (2)() p ij ik jk k d X X ==-∑ (3)切比雪夫距离(q =∞) 1()max ij ik jk k p d X X ≤≤∞=- (二)马氏距离 (三)兰氏距离 对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 将变量看作p 维空间的向量,一般用 2 1()()()ij i j i j d M -'=--X X ΣX X 11()p ik jk ij k ik jk X X d L p X X =-=+∑

多元统计分析期末试题及答案

22121212121 ~(,),(,),(,),, 1X N X x x x x x x ρμμμμσρ ?? ∑==∑= ??? +-1、设其中则Cov(,)=____. 10 31 2~(,),1,,10,()()_________i i i i X N i W X X μμμ=' ∑=--∑L 、设则=服从。 ()1 2 34 433,4 92, 3216___________________ X x x x R -?? ?'==-- ? ?-? ? =∑、设随机向量且协方差矩阵则它的相关矩阵 4、 __________, __________, ________________。 215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--L 、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。 12332313116421(,,)~(,),(1,0,2),441, 2142X x x x N x x x x x μμ-?? ?'=∑=-∑=-- ? ?-?? -?? + ??? 、设其中试判断与是否独立? (), 1 2 3设X=x x x 的相关系数矩阵通过因子分析分解为 211X h = 的共性方差111X σ= 的方差21X g = 1公因子f 对的贡献1213 30.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.10320 13 R ? ? - ????? ? -?? ? ? ?=-=-+ ? ? ? ??? ? ? ????? ? ???

多元统计分析模拟考题及答案

一、判断题 ( 对 )112(,,,)p X X X X '=L 的协差阵一定是对称的半正定阵 ( 对 )2标准化随机向量的协差阵与原变量的相关系数阵相同。 ( 对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系 的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 ( 对 )4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。 ( 错)5),(~),,,(21∑'=μp p N X X X X Λ,,X S 分别是样本均值和样本离差阵,则, S X n 分别是,μ∑的无偏估计。 ( 对)6),(~),,,(21∑'=μp p N X X X X Λ,X 作为样本均值μ的估计,是 无偏的、有效的、一致的。 ( 错)7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 ( 对)8因子载荷阵()ij A a =中的ij a 表示第i 个变量在第j 个公因子上的相对重要性。 ( 对 )9 判别分析中,若两个总体的协差阵相等,则Fisher 判别与距离判别等 价。 (对)10距离判别法要求两总体分布的协差阵相等,Fisher 判别法对总体的分布无特定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵. 2、设∑是总体1(,,)m X X X =L 的协方差阵,∑的特征根(1,,)i i m λ=L 与相应的单 位正交化特征向量 12(,,,)i i i im a a a α=L ,则第一主成分的表达式是 11111221m m y a X a X a X =+++L ,方差为 1λ。 3设∑是总体1234(,,,)X X X X X =的协方差阵,∑的特征根和标准正交特征向量分别 为:' 112.920(0.1485,0.5735,0.5577,0.5814)U λ==--- ' 221.024(0.9544,0.0984,0.2695,0.0824)U λ==- '330.049(0.2516,0.7733,0.5589,0.1624)U λ==--

应用多元统计分析习题解答_因子分析

第七章 因子分析 7.1 试述因子分析与主成分分析的联系与区别。 答:因子分析与主成分分析的联系是:①两种分析方法都是一种降维、简化数据的技术。②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。 因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。 7.2 因子分析主要可应用于哪些方面? 答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。具体来说,①因子分析可以用于分类。如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等②因子分析可以用于探索潜在因素。即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。对我们进一步研究与探讨指示方向。在社会调查分析中十分常用。③因子分析的另一个作用是用于时空分解。如研究几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判断各自的影响和变化规律。 7.3 简述因子模型中载荷矩阵A 的统计意义。 答:对于因子模型 1122i i i ij j im m i X a F a F a F a F ε=++++ ++ 1,2, ,i p = 因子载荷阵为11 12121 22212 1 2 (,, ,)m m m p p pm a a a a a a A A A a a a ????? ?==???????? A i X 与j F 的协方差为: 1Cov(,)Cov(,)m i j ik k i j k X F a F F ε==+∑ =1 Cov( ,)Cov(,)m ik k j i j k a F F F ε=+∑ =ij a

应用多元统计分析试题及答案

一、填空题: 1、多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法. 2、回归参数显著性检验是检验解释变量对被解释变量的影响是否著. 3、聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为 Q型聚类和 R型聚类。 4、相应分析的主要目的是寻求列联表行因素A 和列因素B 的基本分析特征和它们的最优联立表示。 5、因子分析把每个原始变量分解为两部分因素:一部分为公共因子,另一部分为特殊因子。 6、若 () (,), P x N αμα ∑=1,2,3….n且相互独立,则样本均值向量x服从的分布 为_x~N(μ,Σ/n)_。 二、简答 1、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。 在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。 2、简述相应分析的基本思想。 相应分析,是指对两个定性变量的多种水平进行分析。设有两组因素A和B,其中因素A包含r个水平,因素B包含c个水平。对这两组因素作随机抽样调查,得到一个rc的二维列联表,记为。要寻求列联表列因素A和行因素B的基本分析特征和最优列联表示。相应分析即是通过列联表的转换,使得因素A

和因素B 具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A 、B 的联系。 3、简述费希尔判别法的基本思想。 从k 个总体中抽取具有p 个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数 系数: 确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p 个指标值代入线性判别函数式中求出 值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。 5、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设 和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 协差阵的检验 检验0=ΣΣ 0p H =ΣI : /2 /21exp 2np n e tr n λ???? =-?? ? ???? S S 00p H =≠ΣΣI : /2 /2**1exp 2np n e tr n λ???? =-?? ? ???? S S

多元统计分析期末复习试题

第一章: 多元统计分析研究的内容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X 均值向量: 随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵: )',...,,(),,,(2121P p EX EX EX EX μμμ='=Λ)')((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ

2、均值向量协方差矩阵的性质 (1).设X ,Y 为随机向量,A ,B 为常数矩阵 E (AX )=AE (X ); E (AXB )=AE (X )B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的),(~∑μP N X μ∑μp X X X ,,,21Λ),(~∑μP N X ) ,('A A d A N s ∑+μ)()1(,, n X X ΛX )',,,(21p X X X Λ)')(()()(1X X X X i i n i --∑=n 1X μ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

应用多元统计分析习题解答-主成分分析

主成分分析 6.1 试述主成分分析的基本思想。 答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。当第一个组合不能提取止。这就是主成分分析的基本思想。 6.2 主成分分析的作用体现在何处? 答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数” 6.3 简述主成分分析中累积贡献率的具体含义。 答:主成分分析把p 个原始变量12,, ,p X X X 的总方差()tr Σ分解成了p 个相互独立的变量p 个主成分的,忽略 一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们()m p <个主成分,则称1 1 p m m k k k k ψλλ ===∑∑ 为主成分1, ,m Y Y 的累计贡献率,累计贡献率表明1,,m Y Y 综合12,, ,p X X X 的能力。通常取m ,使得累计贡 献率达到一个较高的百分数(如85%以上)。 答:这个说法是正确的。 即原变量方差之和等于新的变量的方差之和 6.5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。 答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。从协方差矩阵出发的,其结果受变量单位的影响。主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。实际表明,这种差异有时很大。我 6.6 已知X =()’的协差阵为 试进行主成分分析。 解:=0 计算得 当 时 ,

多元统计分析期末复习试题

第一章: 多元统计分析研究的容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X均值向量: 随机向量X与Y的协方差矩阵: 当X=Y时Cov(X,Y)=D(X);当Cov(X,Y)=0 ,称X,Y不相关。 随机向量X与Y的相关系数矩阵: 2、均值向量协方差矩阵的性质 (1).设X,Y为随机向量,A,B 为常数矩阵 E(AX)=AE(X); E(AXB)=AE(X)B; D(AX)=AD(X)A’; )' ,..., , ( ) , , , ( 2 1 2 1P p EX EX EX EXμ μ μ = ' = )' )( ( ) , cov(EY Y EX X E Y X- - = q p ij r Y X ? =) ( ) , (ρ

Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的变量之间的比较。 4、对数变换:对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。它将具有指数特征的数据结构变换为线性数据结构。 三、样品间相近性的度量 研究样品或变量的亲疏程度的数量指标有两种:距离,它是将每一个样品看作p 维空),(~∑μP N X μ∑μp X X X ,,,21 ),(~∑μP N X ),('A A d A N s ∑+μ)()1(,,n X X X )',,,(21p X X X )')(()()(1X X X X i i n i --∑=n 1X μ ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

应用多元统计分析习题解答_朱建平_第九章

Abbo无私奉献,只收1个金币,BS收5个金币的… 何老师考简单点啊……

第九章 典型相关分析 9.1 什么是典型相关分析?简述其基本思想。 答: 典型相关分析是研究两组变量之间相关关系的一种多元统计方法。用于揭示两组变量之间的内在联系。典型相关分析的目的是识别并量化两组变量之间的联系。将两组变量相关关系的分析转化为一组变量的线性组合与另一组变量线性组合之间的相关关系。 基本思想: (1)在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。即: 若设(1) (1)(1) (1)12(,,,)p X X X =X 、(2) (2)(2)(2) 12(,,,)q X X X =X 是两组相互关联的随机变量, 分别在两组变量中选取若干有代表性的综合变量Ui 、Vi ,使是原变量的线性组合。 在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大。(2)选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对。 (3)如此继续下去,直到两组变量之间的相关性被提取完毕为此。 9.2 什么是典型变量?它具有哪些性质? 答:在典型相关分析中,在一定条件下选取系列线性组合以反映两组变量之间的线性关系,这被选出的线性组合配对被称为典型变量。具体来说, ()(1) ()(1)()(1)()(1) 11 22i i i i i P P U a X a X a X ' =+++a X ()(2) ()(2)()(2) ()(2) 11 22i i i i i q q V b X b X b X ' =+++b X 在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大,则称 (1)(1)'a X 、(1)(2) 'b X 是(1)X 、(2)X 的第一对典型相关变量。 典型变量性质: 典型相关量化了两组变量之间的联系,反映了两组变量的相关程度。 1. ()1,()1 (1,2,,)k k D U D V k r === (,)0, (,)0 ()i j i j C ov U U C ov V V i j ==≠ 2. 0 (,1,2,,)(,)0()0()i i j i j i r C ov U V i j j r λ≠==?? =≠??>? 9.3 试分析一组变量的典型变量与其主成分的联系与区别。 答:一组变量的典型变量和其主成分都是经过线性变换计算矩阵特征值与特征向量得出的。主成分分析只涉及一组变量的相互依赖关系而典型相关则扩展到两组变量之间的相互依赖关系之中,度量了这两组变量之间联系的强度。 ()(1)()(1)()(1)()(1) 1122i i i i i P P U a X a X a X '=+++a X ()(2)()(2)()(2)()(2) 1122i i i i i q q V b X b X b X '=+++b X (1)(1)(1)(1)1 2 (,,,)p X X X = X 、(2)(2)(2)(2)1 2 (,,,)q X X X = X

多元统计分析期末考试考点整理共5页

多元统计分析 题型一定义、名词解释 题型二计算(协方差阵、模糊矩阵) 题型三解答题 一、定义 二名词解释 1、多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广 2、聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。使类内对象的同质性最大化和类间对象的异质性最大化 3、随机变量:是指变量的值无法预先确定仅以一定的可能性(概率)取值的量。它是由于随机而获得的非确定值,是概率中的一个基本概念。即每个分量都是随机变量的向量为随机向量。类似地,所有元素都是随机变量的矩阵称为随机矩阵。 4、统计量:多元统计研究的是多指标问题,为了了解总体的特征,通过对总体抽样得到代表总体的样本,但因为信息是分散在每个样本上的,就需要对样本进行加工,把样本的信息浓缩到不包含未知量的样本函数中,这个函数称为统计量 三、计算题 解: 答:

答: 题型三解答题 1、简述多元统计分析中协差阵检验的步骤 答: 第一,提出待检验的假设和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 2、简述一下聚类分析的思想 答:聚类分析的基本思想,是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕. 3、多元统计分析的内容和方法 答:1、简化数据结构,将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。(1)主成分分析(2)因子分析(3)对应分析等 2、分类与判别,对所考察的变量按相似程度进行分类。(1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。(2)判别分析:判别样本应属何种类型的统计方法。

应用多元统计分析课后答案

应用多元统计分析课后答案 第五章 聚类分析 判别分析和聚类分析有何区别 答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n 个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于k 个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。 试述系统聚类的基本思想。 答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 对样品和变量进行聚类分析时, 所构造的统计量分别是什么简要说明为什么这样构造 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n 个样本看作p 维空间的n 个点。点之间的距离即可代表样品间的相似度。常用的距离为 (一)闵可夫斯基距离:1/1 ()() p q q ij ik jk k d q X X ==-∑ q 取不同值,分为 (1)绝对距离(1q =) 1 (1)p ij ik jk k d X X ==-∑ (2)欧氏距离(2q =) 21/2 1 (2)() p ij ik jk k d X X ==-∑ (3)切比雪夫距离(q =∞)

1()max ij ik jk k p d X X ≤≤∞=- (二)马氏距离 (三)兰氏距离 对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 将变量看作p 维空间的向量,一般用 (一)夹角余弦 (二)相关系数 在进行系统聚类时,不同类间距离计算方法有何区别选择距离公式应遵循哪些原则 答: 设d ij 表示样品X i 与X j 之间距离,用D ij 表示类G i 与G j 之间的距离。 (1). 最短距离法 ,min i k j r kr ij X G X G D d ∈∈= min{,}kp kq D D = (2)最长距离法 ,max i p j q pq ij X G X G D d ∈∈= 21 ()()()ij i j i j d M -'=--X X ΣX X 11()p ik jk ij k ik jk X X d L p X X =-=+∑ cos p ik jk ij X X θ= ∑ ()() p ik i jk j ij X X X X r --= ∑ ij G X G X ij d D j j i i ∈∈= ,min

多元统计分析模拟考题及答案

、判断题 (对)1X (兀公2丄,X p)的协差阵一定是对称的半正定阵 (对)2标准化随机向量的协差阵与原变量的相关系数阵相同。 (对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 (对)4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。(错)5X (X-X2,,X p) ~ N p( , ),X,S分别是样本均值和样本离 S 差阵,则X,—分别是,的无偏估计。 n (对)6X (X「X2, ,X p) ~ N p( , ),X作为样本均值的估计,是无偏的、有效的、一致的。 (错)7因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 (对)8因子载荷阵A (a j)中的a ij表示第i个变量在第j个公因子上的相对重要性。 (对)9判别分析中,若两个总体的协差阵相等,则Fisher判别与距离判别等价。(对)10距离判别法要求两总体分布的协差阵相等,Fisher判别法对总体的分布无特 定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵. 2、设是总体X (X」,X m)的协方差阵,的特征根i(i 1,L ,m)与相应的单 位正交化特征向量i (盼无丄,a m),则第一主成分的表达式是 y1 Q1X1 812X2 L QmX m 方差为1。 3设是总体X (X1,X2,X3, X4)的协方差阵,的特征根和标准正交特征向量分别为: 1 2.920 U;(0.1485, 0.5735, 0.5577, 0.5814) 2 1.024 U2(0.9544, 0.0984,0.2695,0.0824) 3 0.049 U3(0.2516,0.7733, 0.5589, 0.1624) 0.007U4 ( 0.0612,0.2519,0.5513, 0.7930),则其第二个主成分的表达式是 4

多元统计分析期末考试考点整理

二名词解释 1、 多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理 论和方法,是一元统计学的推广 2、 聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方 法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 使类内对象的同质性最大化和类间对象的异质性最大化 3、 随机变量:是指变量的值无法预先确定仅以一定的可能性 (概率)取值的量。它是由于随 机而获得的非确定值,是概率中的一个基本概念。即每个分量都是随机变量的向量为随机向 量。类 似地,所有元素都是随机变量的矩阵称为随机矩阵。 4、统计量:多元统计研究的是多指标问题 ,为了了解总体的特征,通过对总体抽样得到代表 总体的样本,但因为信息是分散在每个样本上的 ,就需要对样本进行加工,把样本的信息浓缩 到不包含未知量的样本函数中,这个函数称为统计量 二、计算题 ^16 -4 2 k 设H = 其中启= (1Q —纣眉=-4 4-1 [― 试判断叼+ 2吟与 「花一? [是否独立? 解: "10 -6 -15 -6 1 a 2U -16 20 40 故不独立口 -r o 2丿 按用片的联合分帚再I -6 lti 20 -1G 20 ) -1V16 -4 0 -4 A 2 丿"-1

2.对某地区农村的百名2周宙男翌的身高、胸圉、上半骨圉进行测虽,得相关数据如下』根据汶往资料,该地区城市2周岁男婴的遠三个指标的均值血二(90Q乩16庆现欲在多元正态性的假定下检验该地区农村男娶是否与城市男婴有相同的均值?伽厂43107-14.62108.946^1 ]丼中乂=60.2x^)-1=(115.6924)-1-14.6210 3.172-37 3760 、8.9464-37 376035.S936」= 0.01, (3,2) = 99.2, 03) =293 隔亠4) =16.7) 答: 2、假设检验问题:比、# =险用‘//H地 r-8.o> 经计算可得:X-^A 22 厂 「3107 -14.6210 ST1=(23J3848)-1 -14.6210 3.172 8 9464 -37 3760 E9464 -37.3760 35.5936 构造检验统计量:尸=旳(丟-間)〃丿(巫-角) = 6x70.0741=420.445 由题目已知热“(3,)= 295由是 ^I =^W3,3)^147.5 所以在显著性水平ff=0.01下,拒绝原设尽即认 为农村和城市的2周岁男婴上述三个指标的均 值有显著性差异 (] 4、设盂=(耳兀.昂工/ ~M((XE),协方差阵龙=P P (1)试从匸出发求X的第一总体主成分; 答: (2)试|可当卩取多大时才链主成分册贡蕭率达阳滋以上.

相关主题
文本预览
相关文档 最新文档