当前位置:文档之家› 主成分分析、聚类分析、因子分析的基本思想及优缺点

主成分分析、聚类分析、因子分析的基本思想及优缺点

主成分分析、聚类分析、因子分析的基本思想及优缺点
主成分分析、聚类分析、因子分析的基本思想及优缺点

主成分分析:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),用综合指标来解释多变量的方差- 协方差结构,即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的综合指标即为主成分。

求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知)。(实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计)

注意事项:1. 由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法;

2. 对于度量单位或是取值范围在同量级的数据,可直接求协方差阵;对于度量单位不同的指标或是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分;

3.主成分分析不要求数据来源于正态分布;

4. 在选取初始变量进入分析时应该特别注意原始变量是否存在多重共线性的问题(最小特征根接近于零,说明存在多重共线性问题)。

优点:首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息。其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价。再次它在应用上侧重于信息贡献影响力综合评价。

缺点:当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。命名清晰性低。

聚类分析:将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。

。其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。

常用聚类方法:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。

注意事项:1. 系统聚类法可对变量或者记录进行分类,K-均值法只能对记录进行分类;2. K-均值法要求分析人员事先知道样品分为多少类;

3. 对变量的多元正态性,方差齐性等要求较高。

应用领域:细分市场,消费行为划分,设计抽样方案等

优点:聚类分析模型的优点就是直观,结论形式简明。

缺点:在样本量较大时,要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试间内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。

因子分析:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子。(因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系),就是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。

求解因子载荷的方法:主成分法,主轴因子法,极大似然法,最小二乘法,a因子提取法。注意事项:5. 因子分析中各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。

应用领域:解决共线性问题,评价问卷的结构效度,寻找变量间潜在的结构,内在结构证实。优点:第一它不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据;第二,它通过旋转使得因子变量更具有可解释性,命名清晰性高。缺点:在计算因子得分时,采用的是最小二乘法,此法有时可能会失效。

判别分析:从已知的各种分类情况中总结规律(训练出判别函数),当新样品进入时,判断其与判别函数之间的相似程度(概率最大,距离最近,离差最小等判别准则)。

常用判别方法:最大似然法,距离判别法,Fisher判别法,Bayes判别法,逐步判别法等。

注意事项:1. 判别分析的基本条件:分组类型在两组以上,解释变量必须是可测的;

2. 每个解释变量不能是其它解释变量的线性组合(比如出现多重共线性情况时,判别权重会出现问题);

3. 各解释变量之间服从多元正态分布(不符合时,可使用Logistic回归替代),且各组解释

变量的协方差矩阵相等(各组协方方差矩阵有显著差异时,判别函数不相同)。

4. 相对而言,即使判别函数违反上述适用条件,也很稳健,对结果影响不大。

应用领域:对客户进行信用预测,寻找潜在客户(是否为消费者,公司是否成功,学生是否被录用等等),临床上用于鉴别诊断。

对应分析/最优尺度分析:利用降维的思想以达到简化数据结构的目的,同时对数据表中的行与列进行处理,寻求以低维图形表示数据表中行与列之间的关系。

对应分析:用于展示变量(两个/多个分类)间的关系(变量的分类数较多时较佳);

最优尺度分析:可同时分析多个变量间的关系,变量的类型可以是无序多分类,有序多分类或连续性变量,并对多选题的分析提供了支持。

典型相关分析:借用主成分分析降维的思想,分别对两组变量提取主成分,且使从两组变量提取的主成分之间的相关程度达到最大,而从同一组内部提取的各主成分之间互不相关。

相同点:

1.主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题。并且新的变量彼此间互不相关,消除了多重共线性。

2.这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量。在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到。在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。

因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子。

3.对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度。

4.聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系。它是通过一个大的对称矩阵来探索相关关系的一种数学分析方法,是多元统计分析方法,分析的结果为群集。对向量聚类后,我们对数据的处理难度也自然降低,所以从某种意义上说,聚类分析也起到了降维的作用。

不同之处:

1.主成分分析是研究如何通过少数几个主成分来解释多变量的方差一协方差结构的分析方法,也就是求出少数几个主成分(变量) ,使它们尽可能多地保留原始变量的信息,且彼此不相关。它是一种数学变换方法,即把给定的一组变量通过线性变换,转换为一组不相关的变量(两两相关系数为0 ,或样本向量彼此相互垂直的随机变量) ,在这种变换中,保持变量的总方差(方差之和) 不变,同时具有最大方差,称为第一主成分;具有次大方差,称为第二主成分。依次类推。若共有p 个变量,实际应用中一般不是找p 个主成分,而是找出m (m < p) 个主成分就够了,只要这m 个主成分能反映原来所有变量的绝大部分的方差。主成分分析可以作为因子分析的一种方法出现。

2.因子分析是寻找潜在的起支配作用的因子模型的方法。因子分析是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同的组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子。对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。通过因子分析得来的新变量是对每个原始变量进行内部剖析。因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两部分。具体地说,就是要找出某个问题中可直接测量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又不可直接测量到、

且相对独立的因子支配的规律,从而可用各指标的测定来间接确定各因子的状态。因子分析只能解释部分变异,主成分分析能解释所有变异。

3.聚类分析算法是给定m 维空间R 中的n 个向量,把每个向量归属到k 个聚类中的某一个,使得每一个向量与其聚类中心的距离最小。聚类可以理解为: 类内的相关性尽量大,类间相关性尽量小。聚类问题作为一种无指导的学习问题,目的在于通过把原来的对象集合分成相似的组或簇,来获得某种内在的数据规律。

从三类分析的基本思想可以看出,聚类分析中并没于产生新变量,但是主成分分析和因子分析都产生了新变量。

就数据标准化来说,区别如下:

1.主成分分析中为了消除量纲和数量级,通常需要将原始数据进行标准化,将其转化为均值为0方差为1 的无量纲数据。

2.因子分析在这方面要求不是太高,因为在因子分析中可以通过主因子法、加权最小二乘法、不加权最小二乘法、重心法等很多解法来求因子变量,并且因子变量是每一个变量的内部影响变量,它的求解与原始变量是否同量纲关系并不太大,当然在采用主成分法求因子变量时,仍需标准化。

不过在实际应用的过程中,为了尽量避免量纲或数量级的影响,建议在使用因子分析前还是要进行数据标准化。在构造因子变量时采用的是主成分分析方法,主要将指标值先进行标准化处理得到协方差矩阵,即相关矩阵和对应的特征值与特征向量,然后构造综合评价函数进行评价。

3.聚类分析中如果参与聚类的变量的量纲不同会导致错误的聚类结果。因此在聚类过程进行之前必须对变量值进行标准化,即消除量纲的影响。不同方法进行标准化,会导致不同的聚类结果要注意变量的分布。如果是正态分布应该采用z 分数法。

总结来说:

1. 目的不同:因子分析把诸多变量看成由对每一个变量都有作用的一些公共因子和仅对某一个变量有作用的特殊因子线性组合而成,因此就是要从数据中控查出对变量起解释作用的公共因子和特殊因子以及其组合系数;主成分分析只是从空间生成的角度寻找能解释诸多变量变异的绝大部分的几组彼此不相关的新变量(主成分)。

2. 线性表示方向不同:因子分析是把变量表示成各公因子的线性组合;而主成分分析中则是把主成分表示成各变量的线性组合。

3. 假设条件不同:主成分分析中不需要有假设;因子分析的假设包括:各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。

4. 提取主因子的方法不同:因子分析抽取主因子不仅有主成分法,还有极大似然法,主轴因子法,基于这些方法得到的结果也不同;主成分只能用主成分法抽取。

5. 主成分与因子的变化:当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的;而因子分析中因子不是固定的,可以旋转得到不同的因子。

6. 因子数量与主成分的数量:在因子分析中,因子个数需要分析者指定(SPSS根据一定的条件自动设定,只要是特征值大于1的因子主可进入分析),指定的因子数量不同而结果也不同;在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分(只是主成分所解释的信息量不等)。

7. 功能:和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势;而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这种情况也可以使用因子得分做到,所以这种区分不是绝对的。

基于主成分分析法的科技投入产出聚类分析

2009年第11期 科技管理研究Science and Technol ogyM anage ment Research 2009No 111 收稿日期:2009-08-25,修回日期:2009-09-11 文章编号:1000-7695(2009)11-0169-03 基于主成分分析法的科技投入产出聚类分析 秦浩源 (华中科技大学管理学院,湖北武汉 430074) 摘要:在科技投入与产出指标体系的基础上,利用主成分分析法将指标进行综合,通过区域聚类分析对我国科技经费的配置效果进行评价,为科技体制改革、科技活动的结构调整、科技经费的优化配置和科学管理提供依据。 关键词:科技经费;投入产出;主成分分析法;聚类分析法中图分类号:F223 文献标识码:A 1 引言 随着科技经济一体化进程的不断加深,科技对经济增长 的贡献程度不断提高,各国纷纷加大对科技经费的投入力度以促进科技经济更好更快地协调发展。在各国科技投入不断增加的同时,科技经费资源的稀缺性、配置的低效性则越来越凸显出来:我国长期以来形成科技经费资源的粗放式投入模式,造成了科技经费配置中的巨大浪费[1-2];较高的科技投入并不能带来高质量的科技成果,等等。这严重制约了我国科技创新能力的提高,不利于充分发挥科技对经济的支撑和促进作用。 因此,对科技投入产出状况进行研究,提高科技经费配置效率就显得十分必要,这对缓解我国科技投入压力、提高我国的科技创新能力和科技竞争力具有极其重要的现实意义。 2 指标体系及数据获取 在进行指标选取时,分别考虑科技经费投入、科技活动产出以及两者的关系。科技经费投入指标主要考虑各种科技财力资源,而科技产出指标主要包括知识形态的成果和科技转化成果。因此,在指标的选取时,注重对统计指标进行研究,以避免定性分析带来主观影响。本文选取科技经费投入指标包括:科技经费筹集总额,科技经费中政府投资总额,R&D 经费内部支出总额,R&D 经费内部支出总额与G DP 的比值等;科技活动产出指标包括:发明专利申请受理数,被SC I 、E I 、I STP 检索的论文数,技术市场成交合同金额,高技术产业增加值等。具体的科技投入产出指标如表1所示。 表1 科技投入产出指标 指标 分类 指标名称 指标编号 科技投入指标 科技经费筹集总额(万元)T 1科技经费中政府投资总额(万元)T 2R&D 经费内部支出总额(万元)T 3R&D 经费内部支出总额与G DP 的比值(%) T 4科技产出指标 发明专利申请受理数(件)C 1被SC I 、E I 、I STP 检索的论文数(篇)C 2技术市场成交合同金额(万元)C 3高技术产业增加值(万元) C 4 注:所用数据为2007年各地区科技投入产出指标数值,数据来源于《中国统计年鉴2008》和《中国科技统计年鉴2008》。 3 基于主成分分析法的科技投入产出能力指标综合 本文采用主成分分析法获得投入产出综合能力指数。主成分分析法是通过研究指标体系的内在结构关系,将多个指标的问题化为少数指标问题的一种多元统计分析方法,即把原来多个指标转化为一个或几个综合指标,并且这些少量的指标能够包含原来多个指标的绝大部分信息。 (1)主成分分析法的基本步骤 1)标准化处理。标准化处理也即无量纲化,就是针对量纲不同的各指标间不能简单相加的情况,通过变换,用比率的形式来消除量纲不同所带来的影响,使原本不可以直接相加的变量可以相加。 本文采用的无量纲化的计算公式为: 指标L 比率=011+019×[(L -L m in )/(L max -L m in )] 其中,L max 、L m in 分别表示参加比较的各地区中该指标的最大值和最小值;L 则表示某地区该指标的实际值。 2)通过SPSS 主成分分析选取所选数据主成分,一般要求累计贡献率达到一定要求(如不小于85%)来确定样本主成分个数。 3)用原指标的线性组合来计算各主成分得分[3-4] 。以各主成分对原指标的相关系数为权,即载荷系数为权,将主成分用原指标的线性组合表示,主成分的经济意义由权数较大指标的综合意义决定。 I j =u j 1T 1+u j 2T 2+u j 3T 3+u j 4T 4 (u j 1,u j 2,u j 3,u j 4为主成分对应载荷) O j =v j 1C 1+v j 2C 2+v j 3C 3+v j 4C 4 (v j 1,v j 2,v j 3,v j 4为主成分对应载荷) 4)综合得分。以各主成分方差贡献率为权,进行线性组合得到综合评价指标函数。 I = w 1I 1+w 2I 2+…+w j I j w 1+w 2+…+w j O = w 1O 1+w 2O 2+…+w j O j w 1+w 2+…+w j 其中,w j 为主成分占总方差的比例。 5)得分排序。算出总得分进行名次排序。(2)科技投入产出能力计算 运用SPSS 对标准化后数据进行主成分分析,得到投入指标第一个主成分占总方差的861393%,可代表原来四个指标的全部信息,并且第一主成分在投入指标上的载荷分别为

主成分分析和聚类分析报告

北京建筑工程学院 理学院信息与计算科学专业实验报告 课程名称《数据分析》实验名称《主成分分析和聚类分析》实验地点:基础楼C-423日期__2016.5.5_____ 姓名张丽芝班级信131 学号201307010108___指导教师王恒友成绩 【实验目的】 (1)熟悉利用主成分分析进行数据分析,能够使用SPSS软件完成数据的主成分分析; (2)熟悉利用聚类分析进行数据分析,能够运用主成分分析的结果,做进一步分析,如聚类分析、回归分析等,能够使用SPSS软件完成该任务。 【实验要求】 根据各个题目的具体要求,分别运用SPSS软件完成实验任务。 【实验内容】 1、表4.9(数据见exercise4_5.txt)给出了1991年我国30个省市、城镇居民的月平均消 费数据,所考察的八个指标如下:(单位均为元/人) X1: 人均粮食支出;X2:人均副食支出; X3: 人均烟酒茶支出;X4: 人均其他副食支出; X5:人均衣着商品支出;X6: 人均日用品支出; X7: 人均燃料支出;X8: 人均非商品支出。 (1)求样本相关系数矩阵R。 (2)从R出发做主成分分析,求出各主成分的贡献率及前两个主成分的累积贡献率; 2、(1)对题1中的数据,按照原有的八个指标,对30个省份进行聚类,给出分为3

类的聚类结果。 (2)利用题1得到的前2个主成分指标,分别按最短距离法(最近邻居距离)、最长距离法(最远邻居距离)、类平均距离法(组间平均距离)、重心距离法;其中距离均采用欧式平方距离,对样本进行谱系聚类分析,并画出谱系聚类图;给出分为3类的聚类结果。并与(1)的结果进行比较 【实验步骤】(此部分主要包括实验过程、方法、结果、对结果的分析、结论等) 1 1) 2) 表:方差贡献率和累计贡献率

主成分分析(资料分享)

主成分分析 起源及发展 主成分分析是1901年Pearson对非随机变量引入的,1933年Hotelling将此方法推广到随机向量的情形,主成分分析和聚类分析有很大的不同,它有严格的数学理论作基础。 原理 在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。 设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统 计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。 应用学科 主成分分析作为基础的数学分析方法,其实际应用十分广泛,比如人口统计学、数量地理学、分子动力学模拟、数学建模、数理分析等学科中均有应用,是一种常用的多变量分析方法。 评价步骤 1)对原始数据进行标准化处理 假设进行主成分分析的指标变量有m个:,,…,,共有n个评价对象,第i个评价对象的第j个指标的取值为。将各指标值转换成标准化指标,有 ,(i =1,2,…,n ; j =1,2,…,m)

其中, , ,即为第j个指标的样本均值和样本标准差。对应地,称 ,(j =1,2,…,m) 为标准化指标变量。 2)计算相关系数矩阵R 相关系数矩阵, 有 , (i,j =1,2,…,m) 式中,=,是第i个指标与第j个指标的相关系数。 3)计算特征值和特征向量 计算相关系数矩阵R的特征值,及对应的特征向量,其中,由特征向量组成m个新的指标变量: ? 式中是第1主成分,是第2主成分,…,是第m 主成分。 4)选择个主成分,计算综合评价值 ① 计算特征值的信息贡献率和累积贡献率。称

主成分分析、聚类分析、因子分析的基本思想及优缺点

注意事项:1. 系统聚类法可对变量或者记录进行分类,K-均值法只能对记录进行分类; 2. K-均值法要求分析人员事先知道样品分为多少类; 3. 对变量的多元正态性,方差齐性等要求较高。应用领域:细分市场,消费行为划分,设计抽样方案等 优点:聚类分析模型的优点就是直观,结论形式简明。 缺点:在样本量较大时,要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试间内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密 的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。 因子分析:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子。(因子

分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系),就是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。 求解因子载荷的方法:主成分法,主轴因子法,极大似然法,最小二乘法,a因子提取法。 注意事项:5. 因子分析中各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。 应用领域:解决共线性问题,评价问卷的结构效度,寻找变量间潜在的结构,内在结构证实。 优点:第一它不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据;第二,它通过旋转使得因子变量更具有可解释性,命名清晰性高。 缺点:在计算因子得分时,采用的是最小二乘法,此法有时可能会失效。 判别分析:从已知的各种分类情况中总结规律(训练出判别函数),当新样品进入时,判断其与判别函数之间的相似程度(概率最大,距离最

主成分分析、聚类分析、因子分析的基本思想及优缺点

主成分分析:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),用综合指标来解释多变量的方差- 协方差结构,即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的综合指标即为主成分。 求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知)。(实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计) 注意事项:1. 由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法; 2. 对于度量单位或是取值范围在同量级的数据,可直接求协方差阵;对于度量单位不同的指标或是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分; 3.主成分分析不要求数据来源于正态分布; 4. 在选取初始变量进入分析时应该特别注意原始变量是否存在多重共线性的问题(最小特征根接近于零,说明存在多重共线性问题)。 优点:首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息。其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价。再次它在应用上侧重于信息贡献影响力综合评价。 缺点:当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。命名清晰性低。 聚类分析:将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。 。其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。 常用聚类方法:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。 注意事项:1. 系统聚类法可对变量或者记录进行分类,K-均值法只能对记录进行分类;2. K-均值法要求分析人员事先知道样品分为多少类;

多元数据处理——因子分析法

多元数据处理 ---因子分析方法 多元数据处理主要包括多元随机变量,协方差分析,趋势面分析,聚类分析,判别分析,主成分分析,因子分析,典型相关分析,回归分析以及各个分析方法的相互结合等等。本文主要针对其中的因子分析方法展开了论述,并举了一个因子分析法在我国房地产市场绩效评价中的应用实例。 第一章因子分析方法概述 1.1因子分析的涵义 为了更全面和准确的测量和评估对象的特征,在实际的应用中,我们往往尽可能多的选用特征指标进行系统评估,选取的指标越多,就越能全面、客观的反映评价对象的特征。选取众多指标的同时也带来了统计分析的困难:一、不同的指标,不同重要程度需要赋予不同的权重,而靠主观的评价避免不了一些失误与错误。二、收集到的指标之间可能存在较大的相关性,大量收集指标带来了人力、物力和财力的浪费。而因子分析方法则较好的解决了上述问题。 因子分析[1]是一种多元统计方法,该方法起源于20世纪初Karl Pearson 和Charles Spearman 等人关于心理测试的统计分析,它的核心是用最少的相互独立的因子反映原有变量的绝大部分信息。[2]通过分析事物内部的因果关系来找出其主要矛盾,找出事物内在的基本规律。 因子分析的基本思想是通过变量的相关系数矩阵内部结构的研究,找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系,但是,这少数几个随机变量是不可观测的,通常称为因子。然后根据相关性的大小把变量分组,使得同组内的变量之间相关性较高,使不同组内的变量相关性较低[3]。对于所研究的问题就可试图用最少个数的所谓因子的线性函数与特殊因子之和来描述原来观测的每一变量[4]。因子变量的特点:第一,因子变量的数量远小于原指标的数量,对因子变量的分析能够减少分析的工作量;第二,因子变量不是原有变量的简单取舍,而是对原有变量的

系统工程 主成分分析及聚类分析

泛珠三角区域物流发展水平综合评价研究 资料来源:吴晓燕. 泛珠三角区域物流发展水平综合评价研究 泛珠三角区域是我国最主要的经济发达地区之一,也是现代物流最为强劲的“增长极”,具有优越的地理、交通与经济区位优势。但是区域内有发达省份,也有不发达省份,有沿海的省份,也有内陆省份,有东部省份,也有西部省份,彼此之间存在不同的优势和劣势。因此对泛珠三角区域物流发展水平进行评估与分析,有利于明确广东、福建、江西、广西、海南、湖南、四川、云南、贵州九省(区)的区域物流发展现状及差异,找出区域间的优势互补项目,为区域内物流资源有效利用和合理共享、促进区域物流一体化发展提供方向和依据。 评价区域物流综合发展水平是一项很复杂的工作。选择并构建区域物流发展水平综合评价指标体系是评价的关键。因此选择指标构建评价指标体系,必须以综合评价目的为依据,对所要考察的事物进行认真分析,寻找出影响评价对象的因素,从中选出若干主要因素,构建成综合评价指标体系。在多指标综合评价中,如果指标选择不当,再好的综合评价方法也会出现差错,甚至完全失败。 区域物流发展水平评价指标体系实际上就是利用具体的指标将区域物流所包括的功能、区域物流的内涵、特征具体化、层次化的统计描述和综合评价。为了合理评估区域物流发展综合水平,我们主要选取6个一级评价指标,20个次级评价指标对其进行评估,具体结构如下表:

表1 区域物流发展水平评价指标体系 1、社会经济发展类 经济发展是区域物流发展的基础保障,一个地区雄厚的经济基础有利于该物流的加速发展。一般来说,区域物流发展水平与区域的经济发展水平成正比。因此,我们考虑GDP和人均GDP两个次级指标,他们综合反映了物流发展的社会经济基础。 2、生产、消费流通类 从物流需求源考虑,农业、制造业等产业中的物流需求主要是生产资料的位移、储存和流通加工等,这类产业的物流需求与各行业的产量产值存在正比关系,物流需求是商品需求的派生物,与消费品销售,生产资料市场直接相关,商品市场的规模直接决定物流需求的大

主成分分析、聚类分析比较教学提纲

主成分分析、聚类分 析比较

主成分分析、聚类分析的比较与应用

主成分分析、聚类 分析的比较与应用 摘要:主成分分析、聚类分析是两种比较有价值的多元统计方法,但同时也是在使用过程中容易误用或混淆的几种方法。本文从基本思想、数据的标准化、应用上的优缺点等方面,详细地探讨了两者的异同,并且 举例说明了两者在实际问题中的应用。 关键词:spss、主成分分析、聚类分析 一、基本概念 主成分分析就是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。综合指标即为主成分。所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关。 因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。 聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程。 其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。 二、基本思想的异同 (一)共同点 主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题。并且新的变量彼此间互不相关,消除了多重共线性。这两种分析

法得出的新变量,并不是原始变量筛选后剩余的变量。在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到。在诸多主成分Zi中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子。 对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度。 聚类分析的基本思想是: 采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的内在必然联系。也就是说,聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系。聚类分析是通过一个大的对称矩阵来探索相关关系的一种数学分析方法,是多元统计分析方法,分析的结果为群集。对向量聚类后,我们对数据的处理难度也自然降低,所以从某种意义上说,聚类分析也起到了降维的作用。 (二) 不同之处 主成分分析是研究如何通过少数几个主成分来解释多变量的方差一协方差结构的分析方法,也就是求出少数几个主成分(变量) ,使它们尽可能多地保留原始变量的信息,且彼此不相关。它是一种数学变换方法,即把给定的一组变量通过线性变换,转换为一组不相关的变量(两两相关系数为0 ,或样本向量彼此相互垂直的随机变量) ,在这种变换中,保持变量的总方差(方差之和) 不变,同时具有最大方差,称为第一主成分;具有次大方差,称为第二主成分。依次类推。若共有p 个变量,实际应用中一般不是找p 个主成分,而是找出m

主成分和聚类分析

4实证过程与结果 4.1主成分与聚类分析 首先通过SPSS软件对环境污染的相应指标进行主成分分析,得到:提取Y1、Y2、Y3和Y4四个主成分,其累积贡献率已经达到,超过80%,代表所有环境污染指标的绝大部分信息。Y1偏向于解释工业氢氧化物排放量,Y2偏向于解释生活烟尘排放量,Y3偏向于解释生活废水排放量,Y4偏向于解释工业二氧化硫排放量。 然后,根据主成分分析结果,用Z=0.43226*Y1+0.21911*Y2+0.10380*Y3+ 0.06519*Y4计算综合得分,见下表1。 表1环境污染地区的主成分综合得分表 序号地区Z 排名序号地区Z 排名 1 北京0.863 5 17 武汉-0.116 13 2 天津 1.088 4 18 长沙-0.841 28 3 石家庄0.455 6 19 广州-0.373 19 4 太原0.209 8 20 南宁-0.519 24 5 呼和浩特-0.052 12 21 海口-1.29 31 6 沈阳-0.273 1 7 22 重庆 2.767 1 7 长春-0.257 16 23 成都-0.451 20 8 哈尔滨 2.489 2 24 贵阳-0.331 18 9 上海 1.979 3 25 昆明-0.552 26 10 南京-0.232 15 26 拉萨-1.275 30 11 杭州0.175 9 27 西安0.357 7 12 合肥-0.5 21 28 兰州-0.514 23 13 福州-0.525 25 29 西宁0.004 11 14 南昌-0.949 29 30 银川-0.702 27 15 济南0.022 10 31 乌鲁木齐-0.502 22 16 郑州-0.152 14 最后将环境污染的综合得分作为个案进行层次聚类分析,将31个地区分为5类,如表2。

主成分分析、聚类分析比较

主成分分析、聚类分析的比较与应用

主成分分析、聚类 分析的比较与应用 摘要:主成分分析、聚类分析是两种比较有价值的多元统计方法,但同时也是在使用过程中容易误用或混淆的几种方法。本文从基本思想、数据的标准化、应用上的优缺点等方面,详细地探讨了两者的异同,并且 举例说明了两者在实际问题中的应用。 关键词:spss、主成分分析、聚类分析 一、基本概念 主成分分析就是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。综合指标即为主成分。所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关。因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。 聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的在结构,并且对每一个数据集进行描述的过程。其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。 二、基本思想的异同 (一)共同点 主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题。并且新的变量彼此间互不相关,消除了多重共线性。这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量。在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过

基于聚类_因子分析的科技评价指标体系构建_顾雪松

第28卷 第4期2010年4月科 学 学 研 究 S t u d i e s i nS c i e n c e o f S c i e n c e V o l .28N o .4 A p r .2010   文章编号:1003-2053(2010)04-0508-07 基于聚类-因子分析的科技评价指标体系构建 顾雪松,迟国泰,程 鹤 (大连理工大学管理学院,辽宁大连116024) 摘 要:根据“坚持以人为本,树立全面、协调、可持续的发展观,促进经济社会和人的全面发展”的科学发展观的内涵,从科技投入、科技产出、科技对经济与社会的影响三个方面海选科学技术评价指标,利用R 聚类与因子分析相结合的方法定量筛选指标,构建了科学技术综合评价指标体系。本文的创新与特色:一是通过R 聚类将同一准则层内的指标分类,使不同的类代表科技评价的不同方面。二是通过因子分析筛选出各个类中因子载荷最大的指标、并剔除其他指标,既保证了筛选出的指标在所在类别中对评价结果影响最显著、又避免了同一类指标的信息重复。三是研究结果表明,最终建立的指标体系用18%的指标反映了98%的原始信息。四是通过科技进步贡献率、万元G D P 综合能耗等指标反映了全面、协调与可持续发展的科学发展内涵。五是在国际权威机构典型观点高频指标基础上进行客观数据筛选的指标体系,兼具专家知识和客观实际的双重信息。 关键词:科技评价体系;科技评价指标;科学发展;指标体系中图分类号:N 945.16;F 204 文献标识码:A 收稿日期:2009-06-11;修回日期:2009-10-19 基金项目:国家社会科学基金重大项目(06&Z D 039);大连理工大学人文社会科学研究基金重大项目(D U T H S 2007101) 作者简介:顾雪松(1984-),男,辽宁抚顺人,硕士研究生,研究方向为复杂系统评价。 迟国泰(1955-),男,黑龙江海伦人,教授、博士生导师,博士,研究方向为复杂系统评价。 程 鹤(1983-),女,吉林松原人,博士研究生,研究方向为复杂系统评价。 科学技术评价指标体系的构建是根据“坚持以人为本,树立全面、协调、可持续的发展观,促进经济社会和人的全面发展”的科学发展观的内涵,筛选出对科学技术评价有重要影响的代表性指标。建立合理的指标体系是科学技术评价的关键。如果指标体系不合理,则无论采用什么评价方法,评价结果都不会有任何意义。 (1)科学技术评价指标体系的研究现状一是国外权威机构的评价指标体系。代表性的有经济合作与发展组织(O E C D )[1] 、瑞士洛桑国际管理研究院(I M D )[2] 、世界银行(W o r l dB a n k )[3] 等建立的科学技术评价指标体系。 二是国内权威机构的科技评价指标体系。代表性的有中国科学技术部建立的科技发展评价指标体系 [4] 。 以上两类指标体系虽然权威性强,但是偏向于 宏观层面各个国家科学技术综合竞争力的评价,不适合不同一国之内不同地区微观层面的评价。 三是学术文献整理得出的评价体系。代表性的 有唐炎钊建立的区域科技创新评价指标体系[5] 。 吴强等用文献聚合分析建立的科技评价指标体 系 [6] 。T i s d e l l C l e m 等针对中国的科技体制改革建 立的科技评价指标体系[7] 。S h i n i c h i K o b a y a s h i 等在 日本建立的科技评价指标体系[8] 。H a r i o l f G r u p p 等 建立的评价国家科技政策的指标体系[9] 。 这类指标体系存在反映同一科技信息的多个重复指标,指标体系庞杂。 (2)科学技术评价指标筛选方法的研究现状一是基于专家经验的主观筛选方法。孙兰学从科学技术评价的内涵出发对科技创新评价指标进行筛选 [10] 。专家主观筛选法存在的问题是单纯依靠 指标的含义和个人经验,主观随意性强。 二是客观的评价指标筛选方法。范柏乃等对城市技术创新能力评价指标进行筛选[11] 。郭冰洋筛 选农业科技现代化评价指标 [12] 。赵金楼等建立了 科技创新型企业评价指标阶段式综合筛选方法[13] 。 客观筛选法存在的问题是过度依赖于指标数据,忽 略了指标的实际含义。 DOI :10.16192/j .cn ki .1003-2053.2010.04.021

主成分和聚类分析

4实证过程与结果 主成分与聚类分析 首先通过SPSS软件对环境污染的相应指标进行主成分分析,得到: 提取Y 1、Y 2 、Y 3 和Y 4 四个主成分,其累积贡献率已经达到,超过80%,代表 所有环境污染指标的绝大部分信息。Y 1偏向于解释工业氢氧化物排放量,Y 2 偏向 于解释生活烟尘排放量,Y 3偏向于解释生活废水排放量,Y 4 偏向于解释工业二氧 化硫排放量。 然后,根据主成分分析结果,用Z=*Y 1+*Y 2 +*Y 3 + *Y 4 计算综合得分,见下表1。 表1 环境污染地区的主成分综合得分表 序号地区Z排名序号地区Z排名1北京517武汉13 2天津418长沙28 3石家庄619广州19 4太原820南宁24 5呼和浩特1221海口31 6沈阳1722重庆1 7长春1623成都20 8哈尔滨224贵阳18 9上海325昆明26 10南京1526拉萨30 11杭州927西安7 12合肥2128兰州23 13福州2529西宁11 14南昌2930银川27 15济南1031乌鲁木齐22 16郑州14 最后将环境污染的综合得分作为个案进行层次聚类分析,将31个地区分为5类,如表2。 表2 各地区污染分类 分类污染情况地区 1轻度污染海口、拉萨

2比较轻度污染合肥、乌鲁木齐、福州、南宁、兰州、,昆明、成都、银川、南昌、长沙、沈阳、长春、南京、广州、贵阳、郑州、武汉、济南、西宁、呼和浩特 3污染情况一般太原、杭州、石家庄、西安 4污染比较严重北京、天津 5污染十分严重上海、哈尔滨、重庆 主成分分析和聚类分析在SPSS中的操作过程 打开SPSS,“文件-打开-数据”,选中excel,如下图结果。 首先将变量标准化,“分析-描述统计-描述”,将变量全部选入对话框,点上“将标准化得分另存为变量(Z)”,结果如下。

聚类分析与主成分分析SAS的程序

实验三我国各地区城镇居民消费性支出的 主成分分析和聚类分析 (王学民编写) 一、实验目的 1.掌握如何使用SAS软件来进行主成分分析和聚类分析; 2.看懂和理解SAS输出的结果,并学会以此来作出分析; 3.掌握对实际数据如何来进行主成分分析; 4.对同一组数据使用五种系统聚类方法及k均值法,学会对各种聚类效果的比较,获取重要经验; 5.掌握使用主成分进行聚类 二、实验内容 数据集sasuser.examp633中含有1999年全国31个省、直辖市和自治区的城镇居民家庭平均每人全年消费性支出的八个主要变量数据。对这些数据进行主成分分析,可将这31个地区的前两个主成分得分标示于平面坐标系内,对各地区作直观的比较分析。对同样的数据使用五种系统聚类方法及k均值法聚类,并对聚类效果作比较。最后,对主成分的图形聚类和正规聚类的效果进行比较。 实验1 进行主成分分析,根据前两个主成分得分所作的散点图对31个地区进行比较分析。 实验2 分别使用最长距离法、中间距离法、两种类平均法、离差平方和法和k均值法进行聚类分析,并比较其聚类效果。 实验3 主成分聚类,并与上述正规的聚类方法进行比较 三、实验要求 1.用SAS软件的交互式数据分析菜单系统完成主成分分析; 2.完成五种系统聚类方法及k均值法,比较其聚类效果; 3.根据前两个主成分得分的散点图作直观的聚类,并与上述正规的聚类方法进行比较。 四、实验指导

1.进行主成分分析 在inshigt中打开数据集sasuser.examp633,见图1。选菜单过程如下: 在图1中选分析?多元(Y X)?在变量框中选x1,x2,x3,x4,x5,x6,x7,x8(见图2)?Y?选输出?选主分量分析,主分量选项(见图3)?在图4中作图中的选择(主成分个数缺省时为“自动”选项,此时只输出特征值大于1的主成分)?确定?确定?确定 图1 图2

主成分分析法概念及例题

主成分分析法 主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法 [编辑] 什么是主成分分析法 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。 在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。 [编辑] 主成分分析的基本思想

在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。的各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。 例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。 [编辑] 主成分分析法的基本原理 主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。 [编辑] 主成分分析的主要作用

使用SPSS软件进行因子分析和聚类分析的方法

使用SPSS软件进行因子分析和聚类分析的方法 一、方法原理 1.因子分析(FactorAnalysis ) 因子分析是从多个变量指标中选择出少数几个综合变量指标的一种降维的多元统计方法。 我们在多元分析中处理的是多指标的问题,观察指标的增加是为了使研究过程趋于完整,但由于指标太多,使得分析的复杂性增加;同时在实际工作中,指标间经常具备一定的相关性,使得观测数据所放映的信息有重叠,故人们希望用较少的指标代替原来较多的指标,但依然能放映原有的全部信息,于是就产生了因子分析方法。 2.聚类分析(ClusterAnlysis ) 聚类分析是根据事物本身特性来研究个体分类的统计方法,是按照物以类聚的原则来研究的事物分类。 3.市场细分方法的流程图

1理■業2凳| 1因子A 因孑A 1園不&A 1…因€ i zld W余五头冒卓巨云奈蓉跻门彳耳字

、实证分析

总人口d生产总值 〔亿J 消费忌霰 〔亿) 人均年工資 (千) 年度总储番 额丿忑亿 年屢阳政 总收入/亿 1启东币U4 33 153 63 50.27io. as ⑵551O.02 2江郡币10S. 69139. ZB 43.3610. &4119.4211用3丹阳币80. 2E 174 T546. 0113.50 95 81 16.62 4如皋市143 S7 他.7& 37.3611.M33 18gm 5Xft市154. 99103. 29 26.00 10.3T 76.61 7.K 6东台市116. 24135 03 36.02 101.60 35.39 3.30 7 如东县109. 36 102. 57 36.8011.&£33.68 3.37 fi沐阳县174. 54 87. 05 21.35 9.15 空⑷ 3 81 Q邳州市158 0492. 6323.798.664J0.24S.70 10海妄县95. 5493 54 26.4411.5S111.7& 8.51 11油县119. 5086. 60IB. 53 8.8453.51 5. W IL姜堰市90. TO36. 33 31.51 10.96 76.40 3.S2 13 射阳县104. TO96. 15 25.509.60 46.43 5 90 14105. 0073. 50 1^.70g.2S40.61 3 85 15丈丰市73. 3T go. so 21芒一9.8€53 33& 31 1&91. gg S7. 8&20.35 9.7S 47.39 4.83 17建湖县79. L2ei. az 23.269.5146.£1 5.82 10 东海县114. 35 5S 2816.24 a.24S8.O4 3.00 10高邯市03 06 TO. SI 20.95 10.2051.53 5 5C 20107.筍SI. 73 19.29 9.5627.4T 3 0E 21丰县LOQ. 0054 2016.80 8.2S28.8& 2 53 22103. DO56. 70 14 60 9 3927 19 3.00 23琵都县35. 0090. 6022.009,7S12.75 5.01 24枚征市50. 35724Q29.0014.56S2 35 11 2S £5m洪103. 00sa go 12.30T.9E22.0& 3 ZE新沂市S5. GO54 £01T.S0 3 31 Z6 15 3 33 2T谨水县103. 0052. 60 14. TO S.D3 1^.41 2.51 2?谨云县107. 23 10. 02 14.51 7.95 1^.65 1 97 29杼中币27 2480. Id i甘.1813.坨51.22 8.31 ?0肝胎县T3. 2256. 6513^810.00 le.^r 3.06 31踝水县40. E3&】,E5 19.71 13. 9T Z2.23 6. H 芳曜南72. T1 瓯470S6 T .95 11.53 2 W 33响水县57. 00瓯47 a. 9T 3.94 15.3& 2.04 34金湖县36. 0431. 4510.409.3517.5& 2.7^

聚类分析、判别分析、主成分分析、因子分析

聚类分析、判别分析、主成分分析、因子分析 主成分分析与因子分析的区别 1. 目的不同:因子分析把诸多变量看成由对每一个变量都有作用的一些公共因子和仅对某一个变量有作用的特殊因子线性组合而成,因此就是要从数据中控查出对变量起解释作用的公共因子和特殊因子以及其组合系数;主成分分析只是从空间生成的角度寻找能解释诸多变量变异的绝大部分的几组彼此不相关的新变量(主成分)。 2. 线性表示方向不同:因子分析是把变量表示成各公因子的线性组合;而主成分分析中则是把主成分表示成各变量的线性组合。 3. 假设条件不同:主成分分析中不需要有假设;因子分析的假设包括:各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。 4. 提取主因子的方法不同:因子分析抽取主因子不仅有主成分法,还有极大似然法,主轴因子法,基于这些方法得到的结果也不同;主成分只能用主成分法抽取。 5. 主成分与因子的变化:当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的;而因子分析中因子不是固定的,可以旋转得到不同的因子。 6. 因子数量与主成分的数量:在因子分析中,因子个数需要分析者指定(SPSS 根据一定的条件自动设定,只要是特征值大于1的因子主可进入分析),指定的因子数量不同而结果也不同;在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分(只是主成分所解释的信息量不等)。 7. 功能:和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势;而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这种情况也可以使用因子得分做到,所以这种区分不是绝对的。 1 、聚类分析 基本原理:将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。 常用聚类方法:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。

(整理)因子分析与聚类分析案例.

1 因子分析与聚类分析理论简介 1.1 因子分析法 因子分析法是一种通过分析多个变量间协方差矩阵(或相关系数矩阵)的内部依赖关系,找出能代表所有变量的少数几个随机变量的计量分析方法。其中,找出的几个随机变量是不可测量的,将其称为公因子。每个公因子之间是互不相关的,所有变量都可以由这几个公因子的线性表示。因子分析通过减少变量的数目,用少数因子代替所有变量去分析整个经济问题,大大简化了现实分析过程。 假设有N 个样本,P 个指标,()T P X X X X ,,,21???=是随机向量,需要寻找的公 因子是()T m F F F F ,,,21???=,则将模型 112121111ε++???++=m m F a F a F a X 222221212ε++???++=m m F a F a F a X ... p m pm p p p F a F a F a X ε++???++=2211 称为因子模型。将矩阵() ij a A =称为因子载荷矩阵,将ij a 称为因子载荷(Loading ),因子载荷的实质是公因子Fi 与变量Xj 的相关系数。其中,ε为特殊因子,代表公因子以外的影响因素,在实际分析时一般忽略不计。 对于需要求出的的公因子,其实际含义取决于该公因子在哪些变量上有较大的载荷。但一般情况下,初始因子模型的因子载荷矩阵都比较复杂,不利于因子的解释。因此可进一步通过因子旋转,给出对各公因子更加合理明显的解释。 公因子求出后,可以进一步用回归估计等方法求出各个公因子得分的数学模型,将其表示成变量的线性形式,从而计算求出得分。模型如下: n in i i i X b X b X b F +???++=2211 (i = 1,2,...,m ) 1.2 层次聚类法 聚类分析的实质是按照距离的远近将数据分为若干个类别,以使得类别内数据的“差异”尽可能小,类别间的“差异”尽可能大。 “差异”的描述是通过距离或相似性的方法来描述。在统计学中最常用的是距离表达式欧几里得距离,对于两条数据),,(111z y x 和),,(222z y x ,欧几里得距离的计算公式是: 221221221)()()()2,1(z z y y x x Euclid -+-+-= 本文应用的是聚类分析法中的层次分析法,选用的是欧几里得距离的计算方法。 层次分析法通过把距离接近的数据一步一步归为一类,直到数据数据完全归为

相关主题
文本预览
相关文档 最新文档