第六章 判别分析
近年来,判别分析在植物分类、天气预报、经济决策与管理、社会调查、农业科研、科研数据整理分析中都得到了广泛的应用。判别分析是一种很有实用价值而且应用极其广泛的一种统计方法。本章介绍两种常用的判别方法:距离判别及Fisher 判别。
§1 距离判别
距离判别是先给出一个样品到某个总体的距离的定义,然后根据样品到各个总体的距离的远近,来判断该样品应归属于哪一个总体。本节先介绍多元分析中广泛应用的马氏距离的概念,然后,再介绍距离判别的方法。
一、马氏距离 1.概念
距离是一个最直观的概念,多元分析中许多方法都可用距离的观点来推导,其中最著名的一个距离是印度统计学家Mahalanobis 于1936年引进的,所以习惯上称之为马氏距离。下面我们很快会看到,马氏距离是我们熟知的欧氏距离的一种推广。
定义:设P 维总体G 的均值向量为u ,协差阵为V>0(有V -
1>0存在)X,Y 是总体G 的两个样品,则:
(1)X 与Y 两点的马氏距离d(X,Y)为:
2
11)]()[(),(Y X V Y X Y X d -'-=-
(2) X 与总体G 的马氏距离为:
2
11
)]()[(),(u X V u X G X d -'-=-
2.性质
很容易证明,马氏距离符合作为距离的三条基本公理: 设X ,Y ,Z 是总体G 的三个样品,则有: (1)非负性:Y X Y X d Y X d =?=≥0),(,0),( (2)对称性:),(),(X Y d Y X d =
(3)满足三角不等式:),(),(),(Z Y d Y X d Z X d +≤
证:(2)),()]()[()]()[(),(2
112
11X Y d X Y V X Y Y X V Y X Y X d =-'-=-'-=-- 其它性质不证。
由马氏距离的定义知,当V=E 时,X 与Y 的马氏距离就变成为欧氏距离:
22112
1)()()]()[(),(p p y x y x Y X Y X Y X d -++-=-'-=
所以,马氏距离是欧氏距离的推广,欧氏距离是马氏距离的特例。
有了马氏距离的概念,我们就可用马氏距离作为尺度来判别样品的归属。 3.计算
以二维为例介绍一下计算。设二维总体G 的均值向量为???
?
??=???? ??=0021μμμ,协差阵为
???? ??=19.09.01V ,求点?
??
?
??=11A 和???? ??-=11B 与总体G 之间的欧氏距离与马氏距离。 解:???? ??--=???? ?
?=-19
.09.0119.01,19
.09.01
1
V V (1)欧氏距离 2)01()01(22=-+-=
AG d
2)01()01(22=--+-=BG A
(2)马氏距离
192019.02.01119.09.0119.01)1,1(2==???
? ?????? ??--=AG d 05.1=AG d
2019.08.31119
.09.0119.01)1,1(2==???? ??-???? ??---=BG d 47.4=BG d
二、判别规则
下面介绍一下两个总体的距离判别规则
设有两个P 维总体G 1与G 2,对于给定的一个样品Z ,要判断Z 是来自哪一个总体。一般方法是:
先计算出Z 到G 1与G 2的两上马氏距离d(),1G Z 与d(),2G Z ,然后按下述规则进行判别:
1G Z ∈,当),(),(21G Z d G Z d ≤ 2G Z ∈,当),(),(21G Z d G Z d >
为便于应用,我们考察Z 到G 2的马氏距离的平方与Z 到G 1的马氏距离的平方之差:
221121221111111122
211111111122
21221111112121212
(,)(,)()()()()[2][2]2()2()()()2(2
d Z G d Z G Z V Z Z V Z Z V Z Z V V Z V Z Z V V Z V V V V V Z V V Z μμμμμμμμμμμμμμμμμμμμμμμμμμμμ---------------''-=-----''''''=-+--+'''''=-++--''=--+-+'=-
112)()
V μμ--
令 2
2
1μμμ+=
)()()(211μμμ-'-=-V Z Z w
则判别规则可写成:
12
()0()0w Z Z G w Z Z G ≥∈<∈当时,当时,
(1)当V ,,21μμ已知时,令
)(211μμ-=-V a ,则a 为已知的P 维向量,这时
)()()(μμ-'='-=Z a a Z Z w
为Z 的线性判别函数,a 为判别系数。由12Va μμ=-,求出a
(2)当V ,,21μμ未知时,可求出相应的估计值,再代入上述函数)(Z w ,求出a 。 估计值求法如下:
∑∑===
===2
11
2
21111
,1n k k
n k k y
n Y x n X μμ
)(2
1
2121S S n n S V +-+=
=
其中 ∑='--=
1
11))((n k k k
X x X x
S
∑='--=2
1
2))((n k k k Y y Y y S
三、例题
试用距离判别确定样品)9,6('=U ,)10,4('=V 的归属 解:(1)求均值:
记 ???
?
? ??=????? ??=765531,19131710157Y X
3,)5,4(,)17,10(21=='='=n n y X
(2)求协方差阵:
??
????=??????=???
???+??????=+-+==45.55.581622223241810101482121841)(212121S S n n S V
???? ?
?=???? ??=81212182221
1211
1S S
S S S ???? ?
?=???? ??''
''=8101014222112
11
2S S S S S (3)求判别系数:
令 ),()(211'=--a a Y X S
即 Y X a a S -=???
?
??21
即 ???
?
??=?
??? ??????
??12645.55.5821a a 解得 a 1=-24,a 2=36 (4)求判别函数
21212136242283624)11,7()2()(z z z z a a Y X Z Z w +--=???? ??---=???
?
??'+-= (5)判别:
12,036)(;,048)(;)10,4(,)9,6(G V V w G U U w V U ∈>=∈<-='='=
§2 Fisher 判别
现以两个总体为例,介绍Fisher 判别的方法。 设1,,,:211n X X X G ,且
),,1(,),,,(121n i x x x X im i i i ='=]
2,,,:212n Y Y Y G ,且
),,1(,),,,(221n j y y y Y jm j j j ='=
现在研究待识样品),,,(21m z z z Z =属于G 1还是属于G 2?
这里仅从样本出发,来估计总体的均值与协差阵,介绍一下Fisher 判别的基本思想与计算方法。
一、基本思想
Fisher 判别是借助于方差分析的思想来导出判别函数。这个判别函数可以是线性函数,也可能是其它函数,在正态母体、协差阵相等的情况下,可以导出一个线性判别函数,这里仅就此作一介绍。
记 )1?
(,))((11
1
1S n V X X X X S i i ='--=
∑ ∑='--=)1?(,))((2
2
22S n V Y Y Y Y S i i 并定义:组间协差阵 ))((2
1
'--=
Y X Y X B 组内协差阵 )(2
1
2121S S n n E +-+=
,即
)??(2
1221121V n V n n n E +-+=
对一个固定的),,,(21'=m c c c C ,BC C '值越大,组与组间相隔越远;EC C '越小,组内样本间越靠近。于是可定义判别效率 EC
C BC
C C ''=
?)( 欲判别效率最好,即使)(C ?取最大值,可得)(1
Y X E C -=-为判别系数,判别函数为)()(1
Y X E Z C Z Z f -'='=-
即 )()()2()(1
2121Y X S S Z n n Z f -+'-+=- 其中 m m z c z c z c Z f +++= 2211)( 二、计算方法 1.计算平均值
),,(1'=m X X X ∑==1
111n k ki i x n X
),,(1'=m Y Y Y ∑==
2
1
2
1
n k ki
i y
n Y
),,(1'=m g g G ),,2,1(2
121m i n n Y n X n g i
i i =++=
2.计算组内协差阵)(2
1
2121S S n n E +-+=
即计算出差阵2121S S S S +及,
m m ij S S ?=)(1 ∑=--=1
1))((n k j kj i ki ij X x X x S
∑=?--=''=2
1
2))((,)(n k j kj i ki ij m m ij
Y y Y y S S S m m ij
ij S S S S S ?'+=+=)(21 其中 ∑∑====2
11
2
111
,1n k ki
i n k ki i y
n
Y x n X
3.求判别系数 ),,(1'=m c c C
)())(2(12121Y X S S n n C -+-+=-
或 ))(2()(2121Y X n n C S S --+=+ 解方程组可得 c 1,…,c m
4.建立判别函数,并计算临界值
m m z c z c C Z Z f ++='= 11)(且计算临界值:
m m g c g c G f R ++== 110)( m m X c X c X f R ++== 111)( m m Y c Y c Y f R ++== 112)(
比较210,,R R R ,有201R R R ≤≤或102R R R ≤≤ 5.计算判别值:计算待识样品判别值并进行判别。 对任一特征样品 ),,(1'=m z z Z 计算判别值 m m z z c z c Z f R ++== 11)( 若z R 位于R 0的R 1一边,则1G Z ∈ 若z R 位于R 0的R 2一边,则2G Z ∈ 6.显著性检验:检验均值差异显著性
)2()1(:0μμ=H
)1,(~)2(1212
2121--+-+--+=
m n n m F T m
n n m n n F
其中 C Y X n n n
n Y X c Y X c n n n n T m m m )()]()([2
12111121212
'-+=-++-+=
若 αF F >,则拒绝H 0
7.计算判别的正确率
正确率=(新类与原类相同样品数/样品总数)?100% 三、例题
试用Fisher 判别,确定样品)9,6('=u ,)10,4('=v 的归属 解:(1)计算G Y X ,,
????
?
??='
?
??
? ??=1913171015719171513107X ?
???
?
??='???? ??=765531753651Y )11,7(117,)5,4(54,)17,10(1710'=???
? ??='=???? ??='=???? ??=G Y X
(2)求S 1,S 2及S 1+S 2
????
??=???? ??=8101014,812121821S S
???
? ??=+1622223221S S
(3)求判别系数 ),(21'=c c C
从方程组 ???
?
??=?
??? ??=????
??48241622223221c c 解得:c 1=-24,c 2=36
(4)建立判别函数并计算临界值
213624)(z z Z f +-=
经计算得:22811367)24()(0=?+?-==G f R
372173610)24()(1=?+?-==X f R 845364)24()(2=?+?-==Y f R
且 102R R R << (5)计算判别值
1809366)24()(=?+?-==u f R u 26410364)24()(=?+?-==v f R v
有 202),,(180G u R R R u ∈∈=
110),,(264G v R R R v ∈∈=
(6)显著性检验
C Y X n n n n T )(2
12
12'-+=
432]12366)24[(3
33
32=?+?-+?=
T 162)2(1)3,2(2
2121=-+--+=
T m
n n m n n F
而 82.30)3,2(01.0=F ,且 )3,2(01.0F F > 所以G 1,G 2两总体平均值向量差异显著 (7)计算样品判别的正确率 样品判别值:
样品判别值计算如下:
1f ’1=-24×1+36×3=84.
由表可知,全部样品的新的分类与原分类相同,说明所求得的判别函数正确率很高。 例2 根据经验,今天与昨天的湿度差X 1及今天的压温差(气压与温度差)X 2是预报明天下雨或不下雨的两个重要因素。今测得X 1=8.1,X 2=2.0试问应预报明天下雨还是不下
解:???
? ??=+-+=
08.70424.5424.5495.423)(21
2121S S n n E )69.8,56.1()9.8,64.0()21.0,92.0()2()1('-='--'=-X X )010.0,004.0())2()1((1'-=-=-X X E C 2101.0004.0)(X X C X X f -='=
0347.0))1((1-==X f R 0915.0))2((2-==X f R
0449.02)2()1()55.4,14.0(2
)
2()1(0-=????
??+=∴'
=+X X f R X X
0124.0)(==X f R X
所以 1G X ,即明天下雨。
R 0
R X
R 2
R 1
《应用多元统计分析》 实验教案 数学与计算科学学院 二〇一五年三月
目录 SAS系统简介 (1) 第一讲 SAS软件应用基础 (4) 第二讲描述性统计分析 (9) 第三讲多元正态总体参数的假设检验 (17) 第四讲判别分析方法 (29) 第五讲聚类分析 (42) 第六讲主成分分析 (56) 第七讲因子分析 (64) 第八讲对应分析 (72) 第九讲典型相关分析 (76)
SAS系统简介 SAS (Statistical Analysis System ) 系统是国际著名的数据分析软件系统。 该系统1966年开始研制,1976年由美国SAS公司实现商业化,1985年推出SAS/PC 版本,1987年推出6.03版,目前已推出Windows 系统支持的8.2和9.0版,是目前国际上公认的著名的数据统计分析软件系统之一。从1976年SAS开发成功至今,SAS的用户遍及119个国家,它已经成为同类产品中的领导者。在财富500强中,有90%的公司使用SAS。而在财富500强的前100家企业中,有98%的公司使用SAS。如此广泛的应用源于SAS系统的强大的分析功能、可组合的模块式软件系统和简单易学。 SAS系统是集数据分析、生成报表于一体的一种集成软件系统。它由基本部分和外加模块组成,其中基本部分包含的功能如下: –基本部分: BASE SAS 部分; –统计分析计算部分: SAS/STA T ; –绘图部分: SAS/GRAPH ; –矩阵运算部分: SAS/IML ; –运筹学和线性规划: SAS/OR ; –经济预测和时间序列分析: SAS/ETS 。 1.1.SAS的启动 1.2.SAS8.0 软件界面
第五章 聚类分析 判别分析和聚类分析有何区别 答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n 个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于k 个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。 试述系统聚类的基本思想。 答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 对样品和变量进行聚类分析时, 所构造的统计量分别是什么简要说明为什么这样构造 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n 个样本看作p 维空间的n 个点。点之间的距离即可代表样品间的相似度。常用的距离为 (一)闵可夫斯基距离:1/1 ()() p q q ij ik jk k d q X X ==-∑ q 取不同值,分为 (1)绝对距离(1q =) 1 (1)p ij ik jk k d X X ==-∑ (2)欧氏距离(2q =) 21/2 1 (2)() p ij ik jk k d X X ==-∑ (3)切比雪夫距离(q =∞) 1()max ij ik jk k p d X X ≤≤∞=- (二)马氏距离 (三)兰氏距离 对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 将变量看作p 维空间的向量,一般用 2 1()()()ij i j i j d M -'=--X X ΣX X 11()p ik jk ij k ik jk X X d L p X X =-=+∑
钟灵经济学博士 毕业于XXX大学XXX专业,。主持并参与多项国家级自然科学、社会科学基金项目,并发表一级论文2篇,国内外会议论文3篇。具备丰富的统计建模和数据分析教学经验。 第一讲简介 1.1数据的类型 1.2数据的来源 1.3数据的展示 1.4数据的概括性度量 第二讲列联分析 2.1 问题:泰坦尼克号的死亡记录 2.2 列联表的构造 2.3 拟合优度检验 2.4 独立性检验 2.5 案例分析:家庭状况与青少年犯罪的关系研究 2.6 列联分析的项目演练 第三讲方差分析 3.1 问题:新药的临床试验 3.2 方差分析的引论 3.3 单因素方差分析 3.4 多因素方差分析 3.5 案例分析:广告媒体和广告方案对销售额的影响研究 3.5 方差分析的项目演练 第四讲回归分析 4.1 问题:父代和子代的关系 4.2 变量间关系的度量 4.3 一元线性回归 4.4 多元线性回归 4.5 案例分析:研究我国民航客运量的变化趋势及其成因 4.6 回归分析的项目演练 第五讲聚类分析 5.1 问题:欧洲各国语言的相似性 5.2 相似性度量 5.3 系统聚类 5.4 K-means聚类 5.5 案例分析:上市公司的财务数据分析 5.6 聚类分析的项目演练 第六讲判别分析 6.1 问题:菲谢尔的尾花数据
6.2 判别分析的基本思想 6.3 两总体的距离判别 6.4 多总体的距离判别 6.5 案例分析:全国各地区消费水平的类型研究 6.6 判别分析的项目演练 第七讲主成分分析 7.1 问题:各地区生产总值比较 7.2 主成分分析的基本思想 7.3 主成分分析的模型 7.4 主成分分析的性质 7.5 案例分析:企业经济效益评价研究 7.6 主成分分析的项目演练 第八讲因子分析 8.1 问题:1904年Spearman对学生考试成绩的研究 8.2 因子分析的基本思想 8.3 因子分析的模型 8.4 因子分析的步骤 8.5 案例分析:全国35个中心城市的综合发展水平评价研究8.6 因子分析的项目演练 第九讲市场调查 9.1 市场调查总论 9.2 市场调查过程 9.3 问卷设计 9.4 抽样设计 9.5 案例分析:规模以下工业抽样调查方案 第十讲项目案例分析 10.1 基于手机app数据的重复消费行为 10.2 中国市场经济秩序的测度指标体系研究 10.3 北京市水资源分配博弈模型研究 10.4 全国经济普查方案研究
第四章 判别分析 一、填空题 1.进行判别分析时,通常指定一种判别准则,用来判定新样本的归属,按照判 别准则的不同,又有多种判别方法,其中常用的方法有______ _____ _ 、____________ _、 、和 。 2.判别分析按判别的组数来区分,有 和 ;按区分不同总体的所用的数学模型来分,有 和 。 3.Fisher 判别是借助于 的思想,来导出 和建立判别准则。 4.判别分析是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立 和 。 5.在进行距离判别时,通常采用的距离是 ,它的基本公式为: 。 二、判断题 1.在正态等协差阵的条件下,Bayes 线性判别函数等价于距离判别准则。 ( ) 2.费歇判别和距离判别都对判别变量的分布类型没有要求。 ( ) 3.只有当两个总体的均值有显著差异时,做判别分析才有意义。( ) 4.如果()x ?是费歇判别准则的判别函数,则对于任何β与任意常数γ来说,()γβ?+x 也都是它的线性函数。 ( ) 5.Bayes 判别不仅考虑了各个总体出现的先验概率,而且也考虑到了错判所造成的损失。( ) 6.在进行两类判别时,两总体的协差阵如果相等,那么费歇判别与距离判别是等价的。( ) 7.逐步判别法中筛选变量的过程实质上就是作假设检验,通过检验找出显著变量,剔除不显著变量。( ) 8.在进行距离判别时,通常采用的是马氏距离。( ) 9.设k R R ,,1 为p 维空间p R 上的k 个子集,而且要求互不相交,它们的和集为 p R ,则称k R R ,,1 为p R 的一个划分。而Bayes 判别实质上就是找这个划分。 ( ) 三、简答题 1. 判别分析和聚类分析有何区别与联系?
第四章判别分析 4.1 简述欧几里得距离与马氏距离的区别和联系。 答:设p维欧几里得空间中的两点X=和Y=。则欧几里得距离为 。欧几里得距离的局限有①在多元数据分析中,其度量不合理。②会受到实际问题中量纲的影响。 设X,Y是来自均值向量为,协方差为 的总体G中的p维样本。则马氏距离为D(X,Y)= 。当 即单位阵时, D(X,Y)==即欧几里得距离。 因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。 4.2 试述判别分析的实质。
答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,…,Rk 是p 维空 间R p 的k 个子集,如果它们互不相交,且它们的和集为,则称为的一 个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p 维空间构造一个“划 分”,这个“划分”就构成了一个判别规则。 4.3 简述距离判别法的基本思想和方法。 答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。 ①两个总体的距离判别问题 设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是μ1和μ 2,对于一个新的样品X , 要判断它来自哪个总体。计算新样品X 到两个总体的马氏距离D 2(X ,G 1)和D 2 (X ,G 2),则 X ,D 2 (X ,G 1) D 2(X ,G 2) X ,D 2(X ,G 1)> D 2 (X ,G 2, 具体分析, 2212(,)(,) D G D G -X X 111122111111 111222********* ()()()() 2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2() 22()2() ---''=-++-' +? ?=--- ?? ?''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为
第五章 聚类分析 5.1 判别分析和聚类分析有何区别? 答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n 个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于k 个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。 5.2 试述系统聚类的基本思想。 答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么这样构造? 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n 个样本看作p 维空间的n 个点。点之间的距离即可代表样品间的相似度。常用的距离为 (一)闵可夫斯基距离:1/1 ()() p q q ij ik jk k d q X X ==-∑ q 取不同值,分为 (1)绝对距离(1q =) 1 (1) p ij ik jk k d X X ==-∑ (2)欧氏距离(2q =) 21/2 1 (2) () p ij ik jk k d X X ==-∑ (3)切比雪夫距离(q =∞) 1()max ij ik jk k p d X X ≤≤∞=- (二)马氏距离 (三)兰氏距离 对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 2 1()()()ij i j i j d M -'=--X X ΣX X 11()p ik jk ij k ik jk X X d L p X X =-= +∑
5.1 判别分析和聚类分析有何区别? 答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n 个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于k 个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。 5.2 试述系统聚类的基本思想。 答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么这样构造? 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n 个样本看作p 维空间的n 个点。点之间的距离即可代表样品间的相似度。常用的距离为 (一)闵可夫斯基距离:1/1 ()() p q q ij ik jk k d q X X ==-∑ q 取不同值,分为 (1)绝对距离(1q =) 1 (1)p ij ik jk k d X X ==-∑ (2)欧氏距离(2q =) 21/2 1 (2)() p i j i k j k k d X X ==-∑ (3)切比雪夫距离(q =∞) 1()max ij ik jk k p d X X ≤≤∞=- (二)马氏距离 (三)兰氏距离 对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 将变量看作p 维空间的向量,一般用 (一)夹角余弦 2 1()()()ij i j i j d M -'=--X X ΣX X 11()p ik jk ij k ik jk X X d L p X X =-=+∑
第六章 判别分析 §6.1 什么是判别分析 判别分析是判别样品所属类型的一种统计方法,其应用之广可与回归分析媲美。 在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;在市场预测中,根据以往调查所得的种种指标,判别下季度产品是畅销、平常或滞销;在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在油田开发中,根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层;在农林害虫预报中,根据以往的虫情、多种气象因子来判别一个月后的虫情是大发生、中发生或正常; 在体育运动中,判别某游泳运动员的“苗子”是适合练蛙泳、仰泳、还是自由泳等;在医疗诊断中,根据某人多种体验指标(如体温、血压、白血球等)来判别此人是有病还是无病。总之,在实际问题中需要判别的问题几乎到处可见。 判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型的。 正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。 判别分析内容很丰富,方法很多。判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。判别分析可以从不同角度提出的问题,因此有不同的判别准则,如马氏距离最小准则、Fisher 准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。本章仅介绍四种常用的判别方法即距离判别法、Fisher 判别法、Bayes 判别法和逐步判别法。 §6.2 距离判别法 基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i 类的重心距离最近,就认为它来自第i 类。 距离判别法,对各类(或总体)的分布,并无特定的要求。 1 两个总体的距离判别法 设有两个总体(或称两类)G 1、G 2,从第一个总体中抽取n 1个样品,从第二个总体中抽取n 2个样品,每个样品测量p 个指标如下页表。 今任取一个样品,实测指标值为),,(1'=p x x X ,问X 应判归为哪一类? 首先计算X 到G 1、G 2总体的距离,分别记为),(1G X D 和),(2G X D ,按距离最近准则
一、数学建模算法介绍: 算法内容 规划类算法线性规划:运输问题、指派问题、投资收益风险 非线性规划:无约束、约束极值问题 整数规划:分支定界、0-1整数规划、蒙特卡洛、生产销售问题目标规划:多目标、数据包络分析 动态规划:最短路线、资源分配、生产计划问题 数理统计分析方法插值拟合:插值方法、最小二乘法、曲线拟合与函数逼近 方差分析:单因素方差分析、双因素方差分析、正交试验设计与方差分析回归分析:一元线性回归、多元线性回归、偏相关分析、变量筛选方法、复共线性与有偏估计方法、非线性回归 数据统计:参数估计与假设检验 图论算法动短路问题、旅行商问题、中国邮递员问题、染色问题 微分方程与方法论常(偏)微分方程、差分方程 排队论:等待制、损失制、混合制排队问题对策论:零和对策线性规划解法等 存贮论 多元分析方法主成分分析因子分析 聚类分析 判别分析 典型相关分析对应分析 多维标度法 现代优化算法模拟退火算法、遗传算法、粒子群算法、人工蜂群算法、人工鱼群算法、蚁群算法、神经网络模型、禁忌搜索算法 模糊数学模型模糊聚类分析模糊决策分析 时间序列模型移动平均法 指数平滑法 差分指数平滑法自适应滤波法 趋势外推预测法平稳时间序列ARMA时间序列季节性序列 异方差性 灰色系统关联分析
二、数学建模论文写作 【摘要】 1、研究目的:本文研究…问题。 2、建立模型思路:首先,本文…。然后针对第一问…问题,本文建立…模型:在第一个…模型中,本文对哪些问题进行简化,利用什么知识建立了什么模型在第二个…模型中,本文对哪些问题进行简化,利用什么知识建立了什么模型 3、求解思路,使用的方法、程序针对模型的求解,本文使用什么方法,在数学上属于什么类型,计算出,并只用什么工具求解出什么问题,进一步求解出什么结果。 4、建模特点(模型优点,建模思想或方法,算法特点,结果检验,灵敏度分析,模型检验等) 5、在模型的检验模型中,本文分别讨论了以上模型的精度和稳定性 6、模型推广与改进:最后,本文通过改变,得出什么模型 论文写作总体思想:一定要写好。主要写三个方面:1. 解决什么问题(一句话)2. 采取什么方法(引起阅卷老师的注意,不能太粗,也不能太细)3.得到什么结果(简明扼要、生动、公式要简单、必要时可采用小图表)假设的合理性,建模的创造性,结果的合理性,表述的清晰度。摘要部分注意事项:(300-500字左右) (总结):1.在摘要中一定要突出方法,算法,结论,创新点,特色,不要有废话,一定要突出重点,让人一看就知道这篇论文是关于什么的,做了什么工作,用的什么方法,得到了什么效果,有什么创新和特色。一定要精悍,字字珠玑,闪闪发光,一看就被吸引。这样的摘要才是成功的。2.不该省地绝对不能省,各个板块须叙述清晰(亮点详实,自圆其说,恰到好处)!运用了什么方法,建立了什么模型,解决了什么问题,在现实实践中能有什么应用及推广!3.要用一定的关联连接词是论文过渡自然,读起来顺畅,增加论文的可读性与清晰性!4.摘要应表述准确,简明,条理清晰,合乎语法,打印排版符合文章格式。 关键字:3-5 个即可,无需太多!(结合问题、方法、理论、概念等,在题中反复出现的专业名词也需酌情考虑。总之,具体情况具体分析)
第五章立地条件划分 一、造林地 (一)无林地 –荒山地:不具备森林植被和土壤特征。 灌木地:灌木覆盖大于50%; 草丛地:灌木覆盖小于50%; 竹丛地:各种矮小竹丛植被覆盖。 –平坦荒地:撂荒地、沙地、盐碱地、沼泽地、河滩地、海涂、退化草牧场。–农耕地:复合经营地、退耕地、四旁地。 –主要障碍:杂草、灌木、小竹竞争,困难立地的限制因素。 (二)人工更新林地 –采伐迹地:森林采伐后空出的林地。 新采伐迹地:土壤、光照条件好; 老采伐迹地:大量杂草侵入。 –火烧迹地:森林被火烧之后空出的林地。 新火烧迹地条件好。局部更新造林地: 低产林改造:效益低、无利用前途的林分; 局部更新地:主伐前进行的局部更新。 –主要障碍:采伐、火烧迹地尽快更新,避免条件恶化。 二、基本概念 1、立地条件* –又称立地,是指林业用地上体现气候、地质、地貌、土壤、水文、植被、生物等对林木生存、生长有重大意义的生态环境因子的综合。 2、立地条件类型*
–具有相同或相似的气候、土壤、生物条件的各个地段的总称。把立地条件及其生长效果相似的造林地归并成为类型即立地条件类型。简称为立地类型,是立地分类中最基本的单位。 3、立地分类* –是指对林业用地的立地条件、宜林性质及其生产力的划分。然后在此基础上,科学地确定造林营林措施,以期达到造林营林的生态、经济目的。 4、林业区划 –根据当地国民经济发展的需要和林业所占地位,合理确定当地的林种区划。–比如,防护林、用材林、经济林、薪炭林、特用林等地划分、区划。 5、造林区划 –是在林业区划的基础上,根据实施林种的需要,科学地确定造林所用的乔灌木树种以及与之相关的一系列造林、营林技术措施。 三、立地条件划分 (一)森林植物带的划分 –森林植物带:在较大的地理范围内,由于降水和热量的地带性分布,导致了土壤、植被也有相似的地带性分布。这种气候、土壤、植被的规律性分布按其同异性划分为带,即为森林植物地带。它综合反映了环境条件与森林植物之间的关系。 1、森林植物带的划分 温度带的划分指标 (1)日均气温≥10℃的积温:≥3400℃积温走向为暖温带和中温带区划线,并兼顾一些地貌单元的完整性;辅助指标:最冷月平均气温,绝对最低气温。 (2)干湿带区划指标:干燥度 干燥度1.0-1.5半湿润,1.5-2.0半干旱,>2.0干旱; 辅助指标:年平均降水量、年平均蒸发量。
第五讲 因子分析 在许多实际问题中,涉及的变量众多,各变量间还存在错综复杂的相关关系,这时最好能从中提取少数综合变量,这些综合变量彼此不相关,而且包含原变量提供的大部分信息。因子分析就是为解决这一问题提供的统计分析方法。 以后,如无特别说明,都假定总体是一个p 维变量: ),...,,(21'=p X X X x 它的均值向量μ =)(x E ,协方差矩阵V =(σij )p ?p 都存在。 第一节 正交因子模型 1.1 公共因子与特殊因子 从总体中提取的综合变量:F 1, F 2, … , F m (m
其中m
Abbo无私奉献,只收1个金币,BS收5个金币的… 何老师考简单点啊……
第五章 聚类分析 5.1 判别分析和聚类分析有何区别? 答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n 个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于k 个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。 5.2 试述系统聚类的基本思想。 答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么这样构造? 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n 个样本看作p 维空间的n 个点。点之间的距离即可代表样品间的相似度。常用的距离为 (一)闵可夫斯基距离:1/1 ()() p q q ij ik jk k d q X X ==-∑ q 取不同值,分为 (1)绝对距离(1q =) 1 (1)p ij ik jk k d X X ==-∑ (2)欧氏距离(2q =) 21/2 1 (2)() p ij ik jk k d X X ==-∑ (3)切比雪夫距离(q =∞) 1()max ij ik jk k p d X X ≤≤∞=- (二)马氏距离 (三)兰氏距离 对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 2 1()()()ij i j i j d M -'=--X X ΣX X 11()p ik jk ij k ik jk X X d L p X X =-=+∑
2019年中央财经大学应用统计专业课复习经验指导 央财应用统计的专业课整体而言并不难,但是考查的很细致,学弟学妹们务必要认真复习。最好可以找个学长学姐辅导,既可以节省时间又能有针对性的学习。笔者前期也是自己复习的,但在冲刺阶段报了新祥旭的一对一辅导,老师很给力,解答了之前自己没有搞懂的知识,平时上课也讲得非常细心。下面从参考书目开始介绍:中央财经大学研究生院官网上并没有制定初试专业课的参考书目,但是一般来说专业课所用的参考书目主要包括刘扬主编的《统计学》和贾俊平主编的、中国人民大学出版社出版的《统计学》。 人大出版社的《统计学》讲得很细,知识点非常全面,所以比较适合对专业课知识了解得比较少,甚至不太懂统计学的同学或是一些跨考的同学,人大这本《统计学》还有配套的学习指导用书,上面有一些练习题,复习时间比较充裕的同学可以当做练习题做一做来巩固知识点。 刘扬的那本《统计学》虽然讲得不如人大那本细致,但是它是央财统计与数学学院的老师自己编的书,也是应用统计复试的指定书目,所讲内容比较贴合专业课笔试的内容,基本上专业课考试中所有的题目都可以从这本书上找到答案。因此,无论对于本专业的同学还是跨考的同学,刘扬主编的《统计学》务必要认认真真、仔仔细细地过上7、8遍甚至更多,这样才能保证在专业课考试中取得高分。在初试复习的时候,可以先不看第六章非参数检验、第十章主成分分析和因
子分析、第十一章聚类分析和判别分析以及第十二章列联表和对应分析,这几章的知识点在初试的时候一般不会涉及到,但是有时间的学弟学妹还是要看一下,毕竟专业课是学校出题,可能每一年的考查范围都会有变化,也不一定严格按照教育部发的应用统计大纲来出题,而且这几章在在复试的时候一定会考,早一点看没坏处。因为刘扬的《统计学》这本书本来就很薄,所以学弟学妹在复习的时候一定要做到对每一个知识点都烂熟于心,每一部分的内容都要把大意背出来(考试中的简答题最好还是提前背一背-),在复习的时候不要遗漏任何一个知识点,这样才可以应付考试。由于我本专业就是统计学,对统计学专业课知识了解得比较深入,而且我复习的时间太有限,因此老师建议我直接看刘扬那本《统计学》,人大的那本《统计学》只是粗略地过了一遍,着重记忆了我以前不太知道的知识点。 在专业课复习上,除了要把教材复习好,还要将历年真题,包括初试真题和复试真题(可以先不看第六章非参数检验、第十章主成分分析和因子分析、第十一章聚类分析和判别分析以及第十二章列联表和对应分析的题目)都做好,务必要把每一道题都弄明白。因为央财在专业课出题的时候很喜欢重复出题,基本上每一年专业课考试都会碰到原题,所以历年真题非常有参考价值,一定要都弄明白了。除了历年真题,央财《统计学》这门课程的期末考试题也很有用,这些期末题中也可能会出原题,现在能找到的期末题基本上都比较久远了,都是2010年左右的,学弟学妹可以在网上搜一下。报班了的,机构都会给你提供,就可以省下这个时间啦。
多元统计分析重点宿舍版 第一讲:多元统计方法及应用;多元统计方法分类(按变量、模型、因变量等) 多元统计分析应用 选择题:①数据或结构性简化运用的方法有:多元回归分析,聚类分析,主成分分析,因子分析 ②分类和组合运用的方法有:判别分析,聚类分析,主成分分析 ③变量之间的相关关系运用的方法有:多元回归,主成分分析,因子分析, ④预测与决策运用的方法有:多元回归,判别分析,聚类分析 ⑤横贯数据:{因果模型(因变量数):多元回归,判别分析相依模型(变量测度):因子分析,聚类分析 多元统计分析方法 选择题:①多元统计方法的分类:1)按测量数据的来源分为:横贯数据(同一时间不同案例的观测数据),纵观数据(同样案例在不同时间的多次观测数据) 2)按变量的测度等级(数据类型)分为:类别(非测量型)变量,数值型(测量型)变量 3)按分析模型的属性分为:因果模型,相依模型 4)按模型中因变量的数量分为:单因变量模型,多因变量模型,多层因果模型 第二讲:计算均值、协差阵、相关阵;相互独立性 第三讲:主成分定义、应用及基本思想,主成分性质,主成分分析步骤 主成分定义:何谓主成分分析 就是将原来的多个指标(变量)线性组合成几个新的相互无关的综合指标(主成分),并使新的综合指标尽可能多地反映原来的指标信息。 主成分分析的应用 :(1)数据的压缩、结构的简化;(2)样品的综合评价,排序 主成分分析概述——思想:①(1)把给定的一组变量X1,X2,…XP,通过线性变换,转换为一组不相关的变量Y1,Y2,…YP 。(2)在这种变换中,保持变量的总方差(X1,X2,…Xp 的方差之和)不变,同时,使Y1具有最大方差,称为第一主成分;Y2具有次大方差,称为第二主成分。依次类推,原来有P 个变量,就可以转换出P 个主成分(3)在实际应用中,为了简化问题,通常找能够反映原来P 个变量的绝大部分
输出结果4—1 未加权案例N 百分比有效150 100.0 排除的缺失或越界组代码0 .0 至少一个缺失判别变量0 .0 缺失或越界组代码还有 至少一个缺失判别变量 0 .0 合计0 .0 合计150 100.0 y 均值标准差有效的N(列表状态) 未加权的已加权的 1 Sepal.Length 5.006 .3525 50 50.000 Sepal.Width 3.428 .3791 50 50.000 Petal.Length 1.46 2 .1737 50 50.000 Petal.Width .246 .1054 50 50.000 2 Sepal.Length 5.936 .5162 50 50.000 Sepal.Width 2.770 .3138 50 50.000 Petal.Length 4.260 .4699 50 50.000 Petal.Width 1.326 .1978 50 50.000 3 Sepal.Length 6.588 .6359 50 50.000 Sepal.Width 2.97 4 .322 5 50 50.000 Petal.Length 5.552 .5519 50 50.000 Petal.Width 2.02 6 .274 7 50 50.000 合计Sepal.Length 5.843 .8281 150 150.000 Sepal.Width 3.057 .4359 150 150.000 Petal.Length 3.758 1.7653 150 150.000 Petal.Width 1.199 .7622 150 150.000 组均值的均等性的检验 Wilks 的 Lambda F df1 df2 Sig. Sepal.Length .381 119.265 2 147 .000 Sepal.Width .599 49.160 2 147 .000 Petal.Length .059 1180.161 2 147 .000 Petal.Width .071 960.007 2 147 .000
第四讲 判别分析 第一节 判别分析概述 1.1 判别分析的任务 假设事先存在若干个已知类(group),判别分析是研究将一个新的个体(case),用什么方法将它分到最合适的已知类中去。 1.2 数学描述 设有m 个已知类:G 1, G 2, … ,G m ,类的特征由p 个变量X 1,X 2,…,X p 决定,这p 个变量也叫判别指标。今后用一个p 维 向量),...,,(21'=p X X X x 表示;类G i 含n i 个个体,其弟k 个个 体(特征)为: m i n k X X X x i i kp i k i k i k ,...,2,1,,...,2,1, ),...,,()()(2 )(1 ) (=='= 并且有:∑==m i i n n 1。 现有一个新的个体),...,,()0() 0(2)0(1)0(' =p X X X x ,设计一 种归类的方法,将)0(x 归入最适合它的已知类中去。 第二节 判别函数 2.1 判别的基本方法是把新个体归入与它性质最相近的类。在表达“性质最相近”时,有时候是的距离远近衡量,有时候用损失的大小表示。不管用什么方法表达,都离不开判别函数。 2.2 判别函数 1.形式 (线性)判别函数是判别指标(变量)的线性函数 q s x c X c X c X c f s p sp s s s ,...,2,1, 2211='=+++= 其中,向量:q s c c c c sp s s s ,...,2,1, ),...,,(21='= (
2.本质 判别函数是一组由R p →R q 的映射,它把一个原本属于高维空间的问题转换成为一个维数较低的空间问题。我们把空间R p 中原始已知类G i 经过f s 映射后在空间R q 中的像记为f s (G i )。 3.判别函数应具备的基本要求 判别函数是从高维空间R p 到较低维空间R q 的一组线性变换,为了使低维空间内的判别工作变得更容易,很自然地对判别函数提出两个基本要求: (1)空间R p 中的原始类:G 1,G 2,…,G m 在空间R q 中的像集合f (G 1),f (G 2),…,f (G m )应该容易区分,即这些像集合之间应有较大的间隔空间; (2)每个原始类G i 的像集合f (G i ),其元素在空间的分布上应较为集中,或者说f (G i )有较大的“密度”。 4.基本要求的数学表达 (1)引入一些符号: 像集合f (G i )的中心: m i x f n f i n k i k i i ,...,2,1, )(11 ) () (== ∑ = 像空间R q 中,所有像点的中心: ∑ ∑ ∑ ==== = m i i i m i n k i k f n n x f n f i 1 ) (1 1 ) (1)(1 (2)定义两个平方和: 组内平方和(Within Groups) ∑ ∑ ==-= m i n k i i k i f f SW 1 1 2 ) ()() ( 组间平方和(Between Groups) 2 1 ) () (∑ =-= m i i i f f n SB
实验项目四判别分析的计算机实现 一、实验内容、目标及要求 (一)实验内容 选取140家上市公司作为样本,其中70家为由于“财务状况异常”而被交易所对其股票实行特别处理(Special Treatment,简称ST)的公司,另外70家为财务正常的公司。为了研究上市公司发生财务困境的可能性,以“是否被ST”为分组变量,选择资产负债率、总资产周转率和总资产利润率几个财务指标作为判别分析变量,这三个指标分别从上市公司的偿债能力、资产管理能力和获利能力三个不同的角度反映了企业的财务状况。(数据略) (二)实验目标 贝叶斯判别、费希尔判别法的计算机操作及结果分析。 (三)实验要求 要求学生能熟练应用计算机软件进行判别分析并对结果进行分析,培养实际应用能力。 二、实验准备 (一)运行环境说明 电脑操作系统为Windows XP及以上版本,所需软件为SPSS 16.0。 (二)基础数据设置说明 将数据正确导入SPSS,设置相应的变量值。 三、实验基本操作流程及说明 (一)系统界面及说明 同实验一。
(二)操作步骤 1. 选择菜单项Analyze→Classify→Discriminate,打开Discriminate Analysis对话框,如图4-1。将分组变量st移入Grouping V ariable列表框中,将自变量x1-x3选入Independents 列表框中。 选择Enter independents together单选按钮,即使用所有自变量进行判别分析。若选择了Use stepwise method单选按钮,则可以根据不同自变量对判别贡献的大小进行变量筛选,此时,对话框下方的Method按钮被激活,可以通过点击该按钮设置变量筛选的方法及变量筛选的标准。 图4-1 Discriminate Analysis对话框 2. 单击Define Range按钮,在打开的Define Range子对话框中定义分组变量的取值范围。本例中分类变量的取值范围为0到1,所以在Minimum和Maximum输入框中分别输入0和1。单击Continue按钮,返回主对话框。 3. 如果不想使用全部的样本进行分析,单击Select按钮,则Discriminate Analysis对话框下方会跳出一个Selection Variable列表框,将一个选择变量移入Selection Variable列表框,并单击Rule按钮,设置选择条件。这样,只有满足选择条件的观测才能参与判别分析。 4. 单击Statistics按钮,在跳出的Statistics子对话框中指定输出的描述统计量和判别函数系数。该对话框中各选项的含义如下: Descriptives选项栏:输出原始数据的描述性统计量 ◆Means:输出各类中所有自变量的均值、组内标准差以及总样本的均值和标准差; ◆Univariate ANOV A:进行单因素方差分析,检验的原假设为不同类别中自变量的均 值不存在显著差异; ◆Box’s M:对各类的协方差矩阵是否相等进行检验。 Matrices选项栏:输出各种不同的协差阵和相关系数矩阵 ◆Within-groups correlation matrix:平均组内相关系数矩阵,它是由平均组内协差阵 计算得到的; ◆Within-groups covariance matrix:平均组内协差阵,它是由各组的协差阵平均后得 到的; ◆Separate-groups covariance matrix:分别输出各个类的协差阵; ◆Total covariance matrix:总体协差阵。 Function Coefficients选项栏:输出不同的判别函数系数 ◆Fisher’s:给出Bayes线性判别函数的系数。(注意:这个选项不是要给出Fisher判 别函数的系数。这个复选框的名字之所以为Fisher’s,是因为按判别函数值最大进
第六章 判别分析 § 什么是判别分析 判别分析是判别样品所属类型的一种统计方法,其应用之广可与回归分析媲美。 在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;在市场预测中,根据以往调查所得的种种指标,判别下季度产品是畅销、平常或滞销;在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在油田开发中,根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层;在农林害虫预报中,根据以往的虫情、多种气象因子来判别一个月后的虫情是大发生、中发生或正常; 在体育运动中,判别某游泳运动员的“苗子”是适合练蛙泳、仰泳、还是自由泳等;在医疗诊断中,根据某人多种体验指标(如体温、血压、白血球等)来判别此人是有病还是无病。总之,在实际问题中需要判别的问题几乎到处可见。 判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型的。 正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。 判别分析内容很丰富,方法很多。判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。判别分析可以从不同角度提出的问题,因此有不同的判别准则,如马氏距离最小准则、Fisher 准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。本章仅介绍四种常用的判别方法即距离判别法、Fisher 判别法、Bayes 判别法和逐步判别法。 § 距离判别法 基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i 类的重心距离最近,就认为它来自第i 类。 距离判别法,对各类(或总体)的分布,并无特定的要求。 1 两个总体的距离判别法 设有两个总体(或称两类)G 1、G 2,从第一个总体中抽取n 1个样品,从第二个总体中抽取n 2个样品,每个样品测量p 个指标如下页表。 今任取一个样品,实测指标值为),,(1'=p x x X ,问X 应判归为哪一类 首先计算X 到G 1、G 2总体的距离,分别记为),(1G X D 和),(2G X D ,按距离最近准则