当前位置:文档之家› 多元统计分析第十章 属性数据的统计分析

多元统计分析第十章 属性数据的统计分析

多元统计分析第十章 属性数据的统计分析
多元统计分析第十章 属性数据的统计分析

第10章 属性数据的统计分析

10.1列联表的独立性分析

10.1.1实例

列联表通常是用来描述两个及两个以上变量在各自不同的取值(或属性)组合水平上的观测频数数据,它常与定性变量相联系。通过对列联表的分析,可以了解这些变量之间的依赖关系。

例10.1 在一个有三个主要大型商场的商贸中心,调查479个不同年龄阶段的人首先去三个商场中的哪一个,结果如表10-1所示。

表10-1 商场调查数据

那么通过对这个数据列表的分析,我们希望知道顾客对首先选择去什么样的商场与顾客的年龄段是否有关。可以看到,表中只有两个变量,这样的列联表称为二维列联表。

例10.2 下表给出了一个假设的某大学毕业生的专业M (文科、理工科),性别G 及毕业后工作的收入I (高、低)为变量的三维列联表,结果如表10-2所示。

表10-2 大学毕业生调查牙刷

则根据这样的含有三个变量(专业、性别和收入)的列联表,我们可以观察这些变量之间的关系,这样的列联表称为三维列联表。

10.1.2 定性变量与列联表

对定性变量的观测,一般是对它们在不同水平组合上的频数的记录,这里我们将定性变量所描述的不同状态称为该定性变量的水平。我们用C B A ,,表示定性变量,用k j i C B A ,,表示相应的水平。假设有n 个随机实验的结果按照两个变量A 和B 分类,A 取值为r A A A ,,21,B 取值为s B B B ,,21,将变量A 和B 的各种情况的组合用一张s r ?列联表表示,称s r ?列联表,如表8-3所示。其中ij n 表示A 取i A 及B 取j B 的频数。

∑∑===r i s

j ij

n n

11

,其中:

表示各行之和,,2,1,1

.r i n n s

j ij i ==∑=

∑∑∑=======r

i i s

j j r

i ij j n n n s j n n 1

.

1

.1...,,,2,1,表示各列之和

表10-3 变量频数表

体表,但这样通常用起来不方便,所以一般是采用象例10.2的方式把三维列联表给出。

10.1.3 二维s r ?列联表的独立性检验

二维s r ?列联表的两个变量A 和B 可视为离散型随机变量,取值分别r A A A ,,21和s B B B ,,21,以ij p 表示A 取i A 及B 取j B 的概率,通常称为格子概率,以j i p p ..,分别表示A 和B 的边缘概率。则对于二维s r ?列联表,变量A 和B 的联合及边缘分布列如表10-4所示。

其中

.,,2,1,;

,,2,1,1

.1

.s j p p r i p p r

i ij j s

j ij i ====∑∑==

这时检验变量A 和B 是否独立等价于检验假设

不成立。

上式中至少对某组成立,及对一切j i H s j r p p p H j i ij ,:1i 1:1..0≤≤≤≤=

如果0H 为真,则在n 次观测中事件},{j i B B A A ==发生的理论频数为

.,2,1;,,2,1,

..s j r i p np np j i ij ===

当n 较大时,理论频数j i p np ..与表10-3中相应的观测频数ij n 的差异对r i ,2,1=,s j ,2,1=均不应很大,为此,我们用

∑∑

==-=r i s

j j

i j i ij p np p np n Q 11

..2

..2)( (10.1)

来描述理论频数与相应的观测频数的总差异量。当0H 为真时,2Q 的值应较小,所以,当2Q 的值显著偏大时,就拒绝0H ,也就是认为A 和B 不独立。

但是在实际中,由于j i p p ..,均未知,则我们采用相应的观测概率

n

n p

n

n p

j j i i ....?,?==

分别作为概率j i p p ..和的估计(s j r i ,,2,1;,,2,1 ==)。这样,将概率j i p p ..和的估计代入(10.1),则可以得到2

χPearson 统计量:

∑∑

==-=r i s

j j

i j i ij n n n n nn Q 11

..2

..2

)( (10. 2)

理论上可以证明,当0H 为真时,2Q 渐近服从自由度为2)1)(1(χ的--s r 分布,一般的要求

5..>n

n n j i ,即每个单

元格的频数不少于5。如果2

χPearson 值过大,或p 值很小,则拒绝原假设,认为行变量和列变量存在关联。这

种关联并没有指出两变量之间的相关或其他特殊的关系,所以称为一般关联。

例10.3(续例10.1)根据例题10.1所给的数据以及所表示的列联表,为了探讨两个变量之间的关系,不妨给出原假设:这两个变量是相互独立的。我们只要将表格中相应的频数代入到式子(10.2),则就可以得到相应的2

Q

值,利用2

Q 渐近服从自由度为2

)1)(1(χ的--s r 分布,就可以根据2

χ分布表查出是否在水平α下拒绝原假设,我们看看如何利用SAS 语言来解决这样的问题。

为了得到不同年龄段的顾客与他们先去哪一个商场这样两个变量之间的关系,则我们可以利用SAS 语言中关于列联表检验的语言PROC FREQ 来求出2

χPearson 值,则如下所示:

data client; do i=1 to 3; do j=1 to 3; input f@@; output;

end;

end;

cards;

80 70 45

91 86 15

41 38 10

;

run;

proc freq;

weight f;

tables i*j/chisq;

run;

其中用i=1,2,3分别表示顾客的年龄段为≤30,31--50,>51;用j=1,2,3分别表示顾客首先去的商场为商场1,商场2,商场3。则运行程序可以得到下面的结果:

TABLE OF I BY J

I J

Frequency?

Percent ?

Row Pct ?

Col Pct ? 1? 2? 3? Total

?????????????????????????????????????

1 ? 80 ? 70? 45 ? 195

? 16.81 ? 14.71 ? 9.45 ? 40.97

? 41.03 ? 35.90 ? 23.08 ?

? 37.74 ? 36.08 ? 64.29?

?????????????????????????????????????

2 ? 91 ? 86? 15 ? 192

? 19.12 ? 18.07? 3.15 ? 40.34

? 47.40 ? 44.79? 7.81 ?

? 42.92 ? 44.33? 21.43 ?

?????????????????????????????????????

3 ? 41 ? 38 ? 10 ? 89

? 8.61 ? 7.98 ? 2.10 ? 18.70

? 46.07 ? 42.70? 11.24 ?

? 19.34 ? 19.59? 14.29 ?

?????????????????????????????????????

Total 212 194 70 476

44.54 40.76 14.71 100.00

STATISTICS FOR TABLE OF I BY J

Statistic DF Value Prob ?????????????????????????????????????????????????????? Chi-Square 4 19.142 0.001 Likelihood Ratio Chi-Square 4 19.142 0.001 Mantel-Haenszel Chi-Square 1 5.808 0.016 Phi Coefficient 0.201 Contingency Coefficient 0.197 Cramer's V 0.142

Sample Size = 476

上面的结果分为两个部分,第一部分左上角分别是指:频数(Frequency ),百分比(Percent ),行百分比(Row Pct )和列百分比(Col Pct )。第二部分给出了2χPearson 检验的结果:我们可以看到2χPearson 的值为19.1425,自由度为4,p 值为0.0007小于0.05,所以可以拒绝不同年龄段的顾客与他们先去哪个商场相互独立的原假设,即认为它们是相关的。

下面我们再看一个例题来加深一下印象。

例10.4 为研究血型与肝病之间的关系,对295名肝病患者及638名非肝病患者(对照组)调查不同血型的得病情况,如表10-5所示,问肝病与血型之间是否存在关联?

表10-5 血型与肝病调查数据表

本例中行和列都是分类变量,不妨给出原假设肝病与血型之间是相互独立的,即它们之间不存在关联,则可以利用列联表的独立性检验来判断原假设是否正确,为了得到2

χPearson 值,可如下得到:

data blood; do i=1 to 4; do j=1 to 3; input f@@; output; end; end; cards; 98 38 289 67 41 262 13 8 57 18 12 30 ; run;

proc freq; weight f;

tables i*j/chisq;

run;

则可以得到结果:

TABLE OF I BY J

I J

Frequency?

Percent ?

Row Pct ?

Col Pct ? 1? 2? 3? Total

?????????????????????????????????????

1 ? 98? 38? 289 ? 425

? 10.50? 4.07? 30.98 ? 45.55

? 23.06 ? 8.94 ? 68.00 ?

? 50.00 ? 38.38 ? 45.30 ?

?????????????????????????????????????

2 ? 67 ? 41 ? 262 ? 370

? 7.18 ? 4.39 ? 28.08? 39.66

? 18.11 ? 11.08 ? 70.81?

? 34.18 ? 41.41 ? 41.07?

?????????????????????????????????????

3 ? 13? 8 ? 57? 78

? 1.39? 0.86 ? 6.11 ? 8.36

? 16.67? 10.26 ? 73.08 ?

? 6.63? 8.08 ? 8.93 ?

?????????????????????????????????????

4 ? 18 ? 12 ? 30 ? 60

? 1.93 ? 1.29 ? 3.22 ? 6.43

? 30.00? 20.00 ? 50.00 ?

? 9.18? 12.12 ? 4.70 ?

?????????????????????????????????????

Total 196 99 638 933

21.01 10.61 68.38 100.00 STATISTICS FOR TABLE OF I BY J

Statistic DF Value Prob

?????????????????????????????????????????????????????? Chi-Square 6 15.073 0.020 Likelihood Ratio Chi-Square 6 14.223 0.027 Mantel-Haenszel Chi-Square 1 0.519 0.471 Phi Coefficient 0.127

Contingency Coefficient 0.126 Cramer's V 0.090

Sample Size = 933

运行程序可以得到2χPearson 检验结果,自由度为6,2χPearson 值为15.0734,p 值为0.0197,由于p 值小于0.05,可以拒绝血型与病种独立的假设,所以认为血型与肝炎有一定的关联。

10.1.4 三维t s r ??列联表的独立性检验

当列联表是三维时,便涉及到C B A ,,三个变量,它们之间的关系要比二维情形复杂的多。如果根据不同的变量的水平(取值)将它们之间的关系列表,则将得到一个三维立体,为了应用描述的方便,通常我们固定一个变量的取值,然后根据这个变量的取值画出其他两个变量所构成的二维列联表,若将这样若干个(由固定变量的水平决定)二维列联表画在一起,则就可以得到如例10.2所示。

对于一个三维列联表中的变量C B A ,,,最重要的独立性是(1)C B A ,,相互独立;(2)其中的两个变量联合独立于第三个变量;(3)给定一个变量时,另两个变量是条件独立的。从中我们不难看出:(1)中的独立性最强,(2)次之,(3)最弱,并且对与不同的独立性,我们也可以推导出相应的格子概率满足的条件,为此,我们给出下表10-6。

表10-6 三变量之间关系表格

其中ijk p 表示变量A 取第i 个水平,变量B 取第j 个水平,变量C 取第k 个水平时候的格子概率;其中的“.”表示在ijk p 中对相应下标求和。

为了检验上表中的独立性是否成立,也就是对一切r i ,2,1=,s j ,2,1=,t k ,,2,1 =,检验格子概率ijk

p 是否满足相应的条件。设ijk ijk np m =表示三维列联表中事件},,{k j i C C B B A A ===发生的理论频数,但一般来

说,格子概率是未知的,所以我们用相应的频率去估计(例如:n

n

p n n p

k i k i i i ......?,?==,等等),这样就得到相应的

理论频数估计),2,1;,2,1;,2,1(?t k s j r i m

ijk ===,由此可以构造统计量: ∑∑∑

===-=r

i s

j t

k ijk ijk ijk m

m

n Q 11122

?)?( (10.3),

可以证明在某一独立性为真的情况下,2Q 渐近服从自由度为f 的2χ分布,若某独立性为真,则2Q 的值应偏小,否则2Q 的值有偏大的趋势,即拒绝独立性为真的假设。表10-7列出了各种独立性下的格子概率形式,理论频数估计及相应的2Q 统计量的渐近分布的自由度。

则利用上表,根据不同的原假设,可以得到相应的2

Q 值,从而可以利用2

χ分布来检验各种情况的独立性是否成立。

对一个三维列联表,在一定的显著性水平下,先检验原假设),,(:0C B A H 。若接受0H ,则根据各种独立性的关系,C B A ,,的其他两类独立性均成立,否则进一步检验原假设),(),(),,(A BC B AC C AB 或,若其中的两种为真,则第三类独立性均成立;否则继续检验第三类独立性。

例10.5(续例10.2)以例10.2中大学毕业生的收入问题为例,检验变量专业M ,性别G 及毕业后工作的收入I 的各种独立性,并分析大学生收入与专业性别之间的关系。

为了解决这样的问题,我们只要根据表10-7以及式子(10.3),则将相应的

),2,1;,2,1;,2,1(?t k s j r i m

ijk ===和ijk n 代入,就可以求出对于不同独立性检验所对应的2Q 值,从而可以

利用2χ分布来检验各种情况的独立性是否成立。

解:根据变量专业M ,性别G 及毕业后工作的收入I 的顺序,可以得到下面的频数表示:

.

80,20,320,80,120,180,80,120222221212211122121112111========n n n n n n n n

首先检验),,(I G M 。

则由所给数据可得n=1000,且:

.

6008012032080,4002018080120;4008020120180,6003208080120;500802032080,500120*********..1...2..1...2..1=+++==+++==+++==+++==+++==+++=n n n n n n 所以理论频数的估计分别为:

.120?,80?,180?,120?,120?,80?;1801000

600

600500?,1201000400600500?2222212122111221212

1122111=======??==??=m m m m m

m

m m 所以2Q 的观测值为

∑∑∑

===-=r i s j t

k ijk ijk ijk m

m

n Q 111

22?)?(

11

.3611201208080802018018032012012080120

1201208080180180180801201201202

2222

222=-+-+-+-+-+

-+-+-=)()()()()()()()(

2Q 的渐近分布为自由度为4,而2

205

.049.94Q <=)(χ,所以拒绝独立性),,(I G M ,所以认为大学生所学的专业,他们的性别同他们毕业后的工作收入是有关联的。同理可以验证其他的独立性。

经过验证,可以发现在给定M 时,G 和I 是条件独立的,但G 和I 不是联合独立与M ,即不是边缘独立的。 这样的结果表明,大学生毕业后工作的收入不仅和他们的专业有关,并且和他们的性别是有关系的。前者反映了不同行业的工资待遇差异性,而后者则反映了不同性别之间在工资待遇存在着差异。但是在给定学生专业的条件下,学生的工作待遇与究竟他(她)是男性还是女性无关。

10.2 Logistic 回归

10.2.1 实例

例10.6 购房与家庭收入:在一次住房展销会上,与房地产签定初步购房意向书的共有580名顾客,在随后的3个月内只有一部分顾客购买了房屋,购买了房屋的顾客记为1,没有购买房屋的顾客记为0,将数据汇总可得下表。

其中x表示家庭月收入;n表该种收入调查户数; r表示该种收入买房户数。请问是否能判断家庭收入为48000元的顾客买房的可能性?

例10.7 北京市25年有关降雨资料如下表,x1,x2,x3,x4是4个预报因子,y表示降雨情况:y=1表示偏少,y=2表示正常,y=3表示偏多。

试建立模型,并对于 1976 年(预报因子为0.42 81.0 21.0 52.2),1977年(预报因子为0.52 81.0 38.0 45.8),1978年(预报因子为0.36 82.0 34.0 34.9),1979年(预报因子为0.43 84.0 34.0 60.5)预报降雨情况。

线性回归模型在定量分析的实际研究中是非常流行的方法,但是在许多的情况下,因变量是一个分类变量而不是一个连续变量,这时候线性回归就不适用了。实际中,许多社会科学的观察都只是分类的而不是连续的。比如在经济学研究中所涉及的是否销售或购买某种商品,这种选择度量通常分为两类,即“是”与“否”;在社会调查研究中,对态度、心理等的调查通常会分为几类,如“很满意”、“满意”、“不满意”等;还有的时候,人们会将连续量转换为类型划分,分成几个不同的类别用来分析。从上面两个例子可以看到,我们要判断某种现象发生的可能性,也就是要研究的社会现象发生的概率p 的大小,比如是否买房,降雨的概率是多少等等。但是由于因变量是分类变量,直接处理可能性数值p 存在困难,由于10≤≤p ,所以p 与自变量的关系难以用线性模型来描述,并且当p 接近0或1的时,p 值的微小变化用普通的方法难以发现和处理好。所以我们不直接处理p ,而是对p 的一个严格单调函数)(p Q 来分析。

10.2.2 Logistic 回归的基本理论和方法

由于线性回归的不适用性,所以对因变量的分析采用非线性函数。比如对于常见的二分类变量,用一个严格单调函数来反映事件发生的条件概率)|1(i i x y P =与i x 之间的非线性关系,即随着i x 的增加)|1(i i x y P =也单调增加,或者是随着i x 的减少)|1(i i x y P =也单调减少。一个自然的选择就是值域在)1,0(之间有着S 形状的曲线,这样在i x 趋近与负无穷时有)(i y E 趋近与0,在i x 趋近与正无穷时有)(i y E 趋近与1。于是令

p

p Q -=1ln

将p 换成Q ,这一变换称为Logit 变换,从Logit 变换可以看出,当p 从10→时,Q 的值从+∞→∞-;

并且

dp dQ 与)

1(1

p p -成比例,所以)(p Q 在0=p 和1=p 的附近的微小变化很敏感。这样Logit 变换完全克服了一开始所提出的困难,在数据处理方面带来很多的方便。如果自变量的关系是线性的、二次的或多项式的,那么利用普通的最小二乘法就可以处理,然后利用p 与Q 的关系求出p 与自变量的关系。例如x a Q '=,则有

x

a x

a e e p ''1+=。

根据上面的思想,当因变量是一个二元变量只取0与1两个值时,因变量取1的概率)1(=y p 就是要研究的对象。如果有很多因素影响y 的取值,这些因素就是自变量记为k x x ,,1 ,这些i x 中既有定性变量,也有定量变量。最重要的一个条件是:

k k x b x b b p

p

+++=- 1101ln

满足上面条件的称为Logistic 线性回归。

Logistic 回归直接预测出事件发生的概率,这同回归分析是不同的。并且不能从普通回归的角度来分析

Logistic 回归,因为这样会违反几个假定。首先,离散变量的误差形式遵从贝努里分布而不是正态分布,这样使得

基于正态性假设的统计检验无效,在Logistic 回归中所采用的检验统计量与多元回归中的t 检验统计量不同,称为

Wald 统计量。其次,二值变量的方差不是常数,会造成异方差。普通的回归分析是利用最小二乘法来估计模型的

参数的,而由于Logistic 回归的非线性特征,使得在估计模型的时候可以采用极大似然估计的迭代方法,找到系数的“最可能”估计。Logistic 回归的另一个好处就是我们只要知道一件事情有没有发生,那么如果预测的概率大于0.5,则预测发生,反之就不发生。 一、分组数据的Logistic 回归模型

例题10.6是一个分组观测试验资料,要确定购房与否(属性变量)与收入(连续变量)之间的关系可以利用

Logistic 回归来完成,由于只有一个自变量,所以分组数据的Logistic 回归方程可以写为:

c i x b b x b b p i i i ,,2,1,)

exp(1)

exp(1010 =+++=

其中c 为分组数据的组数,本例中10=c 。又由于题设中要求判断收入为48000元的顾客的买房的可能性,则可在编程计算时令11=c ,加有收入数据而有购房意向顾客和买房顾客缺省的组,该观测并不参与模型的拟合,但却可用于预测。

为了解决这个问题,下面建立名为house 的SAS 数据集,其中income 代表家庭月收入,number 代表每一收入组签定初步购房意向的客户,而purchase 代表在每组的客户中有多少客户购买了房屋。另外在DATA 步的最后一个观测只给出了收入水平,签定购房意向的客户数和买房客户数为缺省。则利用SAS 程序的PROC LOGISTIC 过程就可以利用Logistic 回归来解决所要求的问题了,程序及运行结果如下:

data house;

input income number purchase; cards ; 6 40 8 8

50 12

10 60 18 13 80 28 15 100 45 20 70 36 25 65 39 30 50 33 35 40 30 40 25 20 48 . .

;

proc logistic;

model purchase/number=income;

output out=result p=predict;

run;

proc print data=result;

run;

其中由于本例为分组数据的类型,所以在应用Logistic回归时,在model语句后面将代表每组事件发生数量的变量同代表每组试验数量的变量用“/”加以分隔,再同自变量做Logistic回归;如果处理未分组数据的话,则model 语句后面就为代表事件是否发生的变量与自变量做Logistic回归。从程序中还可以看出,程序结果输出到文件名为

result的SAS数据集中,并用变量predict来表示预测值,程序结果如下;

The LOGISTIC Procedure

Data Set: WORK.HOUSE

Response Variable (Events): PURCHASE

Response Variable (Trials): NUMBER

Number of Observations: 10

Link Function: Logit

Response Profile

Ordered Binary

Value Outcome Count

1 EVENT 269

2 NO EVENT 311

WARNING: 1 observation(s) were deleted due to missing values for the response or explanatory variables.

Model Fitting Information and Testing Global Null Hypothesis BETA=0

Intercept

Intercept and

Criterion Only Covariates Chi-Square for Covariates

AIC 803.007 734.603 .

SC 807.370 743.329 .

-2 LOG L 801.007 730.603 70.404 with 1 DF (p=0.0001)

Score . . 67.713 with 1 DF (p=0.0001)

Analysis of Maximum Likelihood Estimates

Parameter Standard Wald Pr > Standardized Odds

Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio

INTERCPT 1 -1.6023 0.2040 61.6746 0.0001 . . INCOME 1 0.0791 0.0101 61.1313 0.0001 0.411928 1.082

Association of Predicted Probabilities and Observed Responses

Concordant = 64.7% Somers' D = 0.397 Discordant = 25.0% Gamma = 0.442 Tied = 10.3% Tau-a = 0.198 (83659 pairs) c = 0.698

OBS INCOME NUMBER PURCHASE PREDICT

1 6 40 8 0.24454

2 8 50 12 0.27492

3 10 60 18 0.30753

4 13 80 28 0.36020

5 15 100 45 0.39739

6 20 70 36 0.49474

7 25 65 39 0.59250

8 30 50 33 0.68344

9 35 40 30 0.76223 10 40 25 20 0.82639

11 48 . . 0.89960

从程序的输出结果中,我们可以看到关于模型的拟合信息与参数的检验情况,参数的联合检验结果给出了

LogL 2-的检验值为730.603,其卡方统计量值为70.404,对应的概率0001.0

量的卡方统计量值所对应的概率都有0001.0

最大似然估计分析结果表明,不论是自变量income 的回归系数(0.0791),还是截距项intercept (-1.6023)在0.0001显著性水平上都是显著的,由此可得回归方程为:

income p

p

L 0791.06023.1)1ln(+-=-=

输出结果中还给出了观测因变量与预测概率之间的关联性以及对应每个观测的预测概率。可以看到观测因变量与预测概率之间的一致性比率为64.7%,而不一致性比率为25%,关联系数Somers' D=0.397和Gamma=0.442表明两者之间具有中等程度的关联性。从购房比率与预测概率之间的对比可以看粗两者基本接近。输出的最后一行为收入为48000元的家庭购房的预测概率,该值达到0.8996,说明这种收入的家庭的购房可能性非常大。

以上的例子是只有一个自变量的情况,分组数据的Logistic 回归模型可以很方便的推广到多个自变量的情形。 分组数据的Logistic 回归模型只适用于大样本的分组数据,对于大样本的分组数据可以以组数c 为回归拟合的样本量,从而通过回归拟合出较好的参数值,而对小样本的未分组数据,以组数c 为回归拟合的样本量,会使拟合

的精度低,所以在实际中我们可以利用极大似然估计直接拟合未分组数据的Logistic 回归模型。 二、未分组数据的Logistic 回归模型

我们利用一个例题来说明怎样利用SAS 软件来建立对未分组数据的Logistic 模型。 例10.8 在一次关于公共交通的社会调查中,一个调查项目为“是乘坐公共汽车上下班,还是骑自行车上下班”。因变量1=y 表示主要乘坐公共汽车上下班,0=y 表示主要骑自行车上下班。自变量age 是年龄,作为连续型变量;income 是月收入(元);sex 是性别,1=sex 表示男性,0=sex 表示女性。调查对象为工薪族群体,数据见表10.10,试建立y 与自变量间的Logistic 回归。

则由于本例为未分组数据,所以利用SAS 软件用于未分组数据的Logistic 回归模型,并利用变量:

y

,

,分别代表题目中所列出的变量:序号、性别、年龄、月收入和因变量y;则可编写程number,

,

sex

income

age

序如下:

data jiaotong;

input number sex age income y;

cards;

1 0 18 850 0

2 0 21 1200 0

3 0 23 850 1

4 0 23 950 1

5 0 28 1200 1

6 0 31 850 0

7 0 36 1500 1

8 0 42 1000 1

9 0 46 950 1

10 0 48 1200 0

11 0 55 1800 1

12 0 56 2100 1

13 0 58 1800 1

14 1 18 850 0

15 1 20 1000 0

16 1 25 1200 0

17 1 27 1300 0

18 1 28 1500 0

19 1 30 950 1

20 1 32 1000 0

21 1 33 1800 0

22 1 33 1000 0

23 1 38 1200 0

24 1 41 1500 0

25 1 45 1800 1

26 1 48 1000 0

27 1 52 1500 1

28 1 56 1800 1

;

run;

proc logistic;

model y=sex age income/selection=stepwise;

output out=result p=predict;

run;

proc print data=result;

run;

在程序中为了对回归模型选出正确的自变量,所以在程序中加入了“/selection=stepwise”来对自变量做逐步自回归,以便能选出恰当的自变量来做Logistic回归。对程序运行后可得如下的结果:

The LOGISTIC Procedure

Data Set: WORK.JIAOTONG

Response Variable: Y

Response Levels: 2

Number of Observations: 28

Link Function: Logit

Response Profile

Ordered

Value Y Count

1 0 15

2 1 13

Stepwise Selection Procedure

Step 0. Intercept entered:

Residual Chi-Square = 10.4135 with 3 DF (p=0.0154)

Step 1. Variable AGE entered:

Model Fitting Information and Testing Global Null Hypothesis BETA=0

Intercept

Intercept and

Criterion Only Covariates Chi-Square for Covariates

AIC 40.673 36.218 .

SC 42.005 38.882 .

-2 LOG L 38.673 32.218 6.455 with 1 DF (p=0.0111) Score . . 6.038 with 1 DF (p=0.0140)

Residual Chi-Square = 5.8084 with 2 DF (p=0.0548)

Step 2. Variable SEX entered:

Model Fitting Information and Testing Global Null Hypothesis BETA=0

Intercept

Intercept and

Criterion Only Covariates Chi-Square for Covariates

AIC 40.673 32.653 .

SC 42.005 36.649 .

-2 LOG L 38.673 26.653 12.021 with 2 DF (p=0.0025)

Score . . 10.198 with 2 DF (p=0.0061)

Residual Chi-Square = 0.6819 with 1 DF (p=0.4089)

NOTE: No (additional) variables met the 0.05 significance level for entry into the model.

Summary of Stepwise Procedure

Variable Number Score Wald Pr >

Step Entered Removed In Chi-Square Chi-Square Chi-Square

1 AGE 1 6.0377 . 0.0140

2 SEX 2 5.331

3 . 0.0209

Analysis of Maximum Likelihood Estimates

Parameter Standard Wald Pr > Standardized Odds Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio

INTERCPT 1 2.6285 1.5537 2.8621 0.0907 . .

SEX 1 2.2239 1.0476 4.5060 0.0338 0.622699 9.243 AGE 1 -0.1023 0.0458 4.9857 0.0256 -0.713729 0.903

Association of Predicted Probabilities and Observed Responses

Concordant = 86.2% Somers' D = 0.723

Discordant = 13.8% Gamma = 0.723

Tied = 0.0% Tau-a = 0.373

(195 pairs) c = 0.862

OBS NUMBER SEX AGE INCOME Y _LEVEL_ PREDICT

1 1 0 18 850 0 0 0.68734

2 2 0 21 1200 0 0 0.61797

3 3 0 23 850 1 0 0.56867

4 4 0 23 950 1 0 0.56867

5 5 0 28 1200 1 0 0.44154

6 6 0 31 850 0 0 0.36779

7 7 0 36 1500 1 0 0.25864

8 8 0 42 1000 1 0 0.15887

9 9 0 46 950 1 0 0.11148

10 10 0 48 1200 0 0 0.09277

11 11 0 55 1800 1 0 0.04760

12 12 0 56 2100 1 0 0.04318

13 13 0 58 1800 1 0 0.03547

14 14 1 18 850 0 0 0.95310

15 15 1 20 1000 0 0 0.94306

16 16 1 25 1200 0 0 0.90853 17 17 1 27 1300 0 0 0.89005 18 18 1 28 1500 0 0 0.87963 19 19 1 30 950 1 0 0.85624 20 20 1 32 1000 0 0 0.82919 21 21 1 33 1800 0 0 0.81422 22 22 1 33 1000 0 0 0.81422 23 23 1 38 1200 0 0 0.72438 24 24 1 41 1500 0 0 0.65915 25 25 1 45 1800 1 0 0.56229 26 26 1 48 1000 0 0 0.48592 27 27 1 52 1500 1 0 0.38571 28 28 1 56 1800 1 0 0.29433

从程序的结果中可以看到,通过逐步自回归的变量选择,最终选取的变量为sex 和age 变量,并且两个变量以及常数项,通过比较Wald 卡方值(以及ChiSq >Pr )都是统计显著的。结果中给出的AIC 和SC 分别为Akaike 信息准则和Schwarz 信息准则,这两个统计量可用于比较不同模型的好坏。一般来说,这两个值越小越好。则可得到最终的回归方程为:

)

1023.02239.26285.2exp(1)

1023.02239.26285.2exp(?age sex age sex p

i -++-+=.

结果中“Association of Predicted Probabilities and Observed Responses ”的输出表示预测结果与观测因变

量之间的联系,其中,一致性(Percent Concordant )达到了86.2%,输出的最后一部分给出了部分观测以及对应这些观测的预测值。注意这里的预测概率是针对_)_(LEVEL y P ≤给出的,即)0(≤y P 。由于

)0()0(==≤y P y P ,所以给出的概率为骑自行车上下班的概率。例如我们可以从结果中看到骑自行车上下班的

人男性比例比较高,并且年龄越小比例越高。如果想从结果中看到乘公交车上下班的概率,则可以在程序中做如下的调整,将PROC LOGISTIC 改为:proc logistic descending ;即可。 三、多分类因变量的Logistic 回归

有些时候一个事件的响应水平不仅仅是两个(有或无,购买或未购买等),而是有三个或三个以上类别(等级),那么这样的因变量为多分类变量。多分类因变量又有有序和无序之分,当因变量的多个类别之间不存在等级的递增或递减关系时(例如,人的血型可以分为A ,B ,O ,AB 型;诊断一个病人可以得出,感冒、高烧、腹泻),称为无序多分类变量, 如果多分类变量可以排序(例如,人们的营养状况评价,可以是好、中、差;某种疾病的疗效可以是痊愈、显效、好转、无效),则这样的变量为有序多分类变量。

对于怎样利用SAS 软件来对多分类Logistic 回归模型分析,我们通过下面的例题来说明。

在例10.7中给出了北京市25年有关降雨资料的数据,其中x1,x2,x3,x4是4个预报因子,y 表示降雨情况:y=1表示偏少,y=2表示正常,y=3表示偏多。这是一个因变量有多个取值的问题,为了处理这批数据,可编写下面的程序。

data rain;

input year x1 x2 x3 x4 y; cards ; 1951

0.58

82.0

44.0

40.6

1

1952 0.40 83.0 18.0 43.0 3

1953 0.55 85.0 36.0 30.7 3

1954 0.40 85.0 36.0 40.7 3

1955 0.48 88.0 49.0 43.0 3

1956 0.41 82.0 35.0 78.6 2

1957 0.65 80.0 29.0 33.2 1

1958 0.45 82.0 32.0 33.1 2

1959 0.39 81.0 27.0 46.5 2

1960 0.34 85.0 28.0 41.7 2

1961 0.42 84.0 38.0 20.4 2

1962 0.52 86.0 38.0 0.2 1

1963 0.46 88.0 25.0 56.7 3

1964 0.48 83.0 46.0 13.6 1

1965 0.53 84.0 41.0 32.3 1

1966 0.65 81.0 31.0 28.9 1

1967 0.66 83.0 38.0 46.6 1

1968 0.53 80.0 42.0 93.1 2

1969 0.56 85.0 18.0 16.3 2

1970 0.45 83.0 37.0 23.9 2

1971 0.34 80.0 42.0 26.3 2

1972 0.41 79.0 38.0 40.8 2

1973 0.53 83.0 23.0 61.3 2

1974 0.48 84.0 19.0 23.2 3

1975 0.30 85.0 27.0 17.5 3

;

proc logistic;

model y=x1 x2 x3 x4/selection=stepwise;

output out=result p=predict;

run;

proc print data=result;

run;

在程序中,选择利用逐步自回归来做变量选择,并给出对每个观测的预测值。程序的输出结果为: The LOGISTIC Procedure

Data Set: WORK.RAIN

Response Variable: Y

Response Levels: 3

Number of Observations: 25

Link Function: Logit

Response Profile

Ordered

Value Y Count

多元统计分析实例汇总

多元统计分析实例 院系:商学院 学号: 姓名:

多元统计分析实例 本文收集了2012年31个省市自治区的农林牧渔和相关农业数据,通过对对收集的数据进行比较分析对31个省市自治区进行分类.选取了6个指标农业产值,林业产值.牧业总产值,渔业总产值,农村居民家庭拥有生产性固定资产原值,农村居民家庭经营耕地面积. 数据如下表: 一.聚类法

设定4个群聚,采用了系统聚类法.下表为spss分析之后的结果.

Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 内蒙 5 -+ 吉林 7 -+ 云南 25 -+-+ 江西 14 -+ +-+ 陕西 27 -+-+ | 新疆 31 -+ +-+ 安徽 12 -+-+ | | 广西 20 -+ +-+ +-------+ 辽宁 6 ---+ | | 浙江 11 -+-----+ | 福建 13 -+ | 重庆 22 -+ +---------------------------------+ 贵州 24 -+ | | 山西 4 -+---+ | | 甘肃 28 -+ | | | 北京 1 -+ | | | 青海 29 -+ +---------+ | 天津 2 -+ | | 上海 9 -+ | | 宁夏 30 -+---+ | 西藏 26 -+ | 海南 21 -+ | 河北 3 ---+-----+ | 四川 23 ---+ | | 黑龙江 8 -+-+ +-------------+ | 湖南 18 -+ +---+ | | | 湖北 17 -+-+ +-+ +-------------------------+ 广东 19 -+ | | 江苏 10 -------+ | 山东 15 -----------+-----------+ 河南 16 -----------+

多元统计分析期末复习试题

第一章: 多元统计分析研究的内容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章:

二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X 均值向量: 随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵: 2、均值向量协方差矩阵的性质 (1).设X ,Y 为随机向量,A ,B 为常数矩阵 E (AX )=AE (X ); E (AXB )=AE (X )B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . )' ,...,,(),,,(2121P p EX EX EX EX μμμ='= )' )((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ) ,(~∑μP N X μ ∑ p X X X ,,,21

特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 μ ) ,(~∑μP N X ) ,('A A d A N s ∑+μ) () 1(,,n X X X )' ,,,(21p X X X )' )(() () (1 X X X X i i n i --∑=n 1 X μ∑μ X ) 1 , (~∑n N X P μ) ,1(∑-n W p X X

多元统计分析方法

多元统计分析方法 Document serial number【UU89WT-UU98YT-UU8CB-UUUT-UUT108】

多元统计分析概述 目录 一、引言 (3) 二、多元统计分析方法的研究对象和主要内容 (3) 1.多元统计分析方法的研究对象 (3) 2.多元统计分析方法的主要内容 (3) 三、各种多元统计分析方法 (3) 1.回归分析 (3) 2.判别分析 (6) 3.聚类分析 (8) 4.主成分分析 (10) 5.因子分析 (10) 6. 对应分析方法 (11) 7. 典型相关分析 (11) 四、多元统计分析方法的一般步骤 (12) 五、多元统计分析方法在各个自然领域中的应用 (12) 六、总结 (13) 参考文献 (14) 谢辞 (15)

一、引言 统计分布是用来刻画随机变量特征及规律的重要手段,是进行统计分布的基础和提高。多元统计分析方法则是建立在多元统计分布基础上的一类处理多元统计数据方法的总称,是统计学中的具有丰富理论成果和众多应用方法的重要分支。在本文中,我们将对多元统计分析方法做一个大体的描述,并通过一部分实例来进一步了解多元统计分析方法的具体实现过程。 二、多元统计分析方法的研究对象和主要内容 (一)多元统计分析方法的研究对象 由于大量实际问题都涉及到多个变量,这些变量又是随机变量,所以要讨论多个随机变量的统计规律性。多元统计分析就是讨论多个随机变量理论和统计方法的总称。其内容包括一元统计学中某些方法的直接推广,也包括多个随即便量特有的一些问题,多元统计分析是一类范围很广的理论和方法。 现实生活中,受多个随机变量共同作用和影响的现象大量存在。统计分析中,有两种方法可同时对多个随机变量的观测数据进行有效的分析和研究。一种方法是把多个随机变量分开分析,一次处理一个随机变量,分别进行研究。但是,这样处理忽略了变量之间可能存在的相关性,因此,一般丢失的信息太多,分析的结果不能客观全面的反映整个问题,而且往往也不容易取得好的研究结论。另一种方法是同时对多个随机变量进行研究分析,此即多元统计方法。通过对多个随即便量观测数据的分析,来研究随机变量总的特征、规律以及随机变量之间的相互

多元统计分析期末复习

多元统计分析期末复习 Document number:WTWYT-WYWY-BTGTT-YTTYU-2018GT

第一章: 多元统计分析研究的内容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X 均值向量: 随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵: 2、均值向量协方差矩阵的性质 (1).设X ,Y 为随机向量,A ,B 为常数矩阵 E (AX )=AE (X ); E (AXB )=AE (X )B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. )' ,...,,(),,,(2121P p EX EX EX EX μμμ='= )')((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ

(3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确),(~∑μP N X μ ∑ μ p X X X ,,,21 ),(~∑μP N X ),('A A d A N s ∑+μ) ()1(,,n X X X )',,,(21p X X X )' )(() ()(1X X X X i i n i --∑=n 1X μ∑μX ) 1,(~∑n N X P μ),1(∑-n W p X X

统计学--统计学-——典型案例、问题和思想

经济管理类“十二五”规划教材统计学 -基于典型案例、问题和思想 主讲林海明

第一章绪论 【引言】我们从如下9个重要事例,说明统计学有什么用。 事例1:二次世界大战中,最激烈的空战是英国抗击德国的空战,英军为了提高战斗力,急需找到英军战机空战中的危险区域加固钢板,统计学家瓦尔德用统计学

方法找到了危险区域,英军用钢板加固了这些危险区域,使英军取得了空战的胜利。 事例2:上世纪20-30年代,为了找到中国革命的主力军和道路,政治家毛泽东悟出了统计学的频数方法,用此找到了中国革命的主力军是农民,中国革命的道路是农村包围城市。由此不屈不饶的奋斗,由弱变强,建立了独立自主的中华人民共和国,他还发现了“没有调查,就没有发

言权”的科学论断。 事例3:1998年,美国博耶研究型大学本科生教育委员会发表了题为《重建本科生教育:美国研究型大学发展蓝图》的报告,该报告指出:为了培养科学、技术、学术、政治和富于创造性的领袖,研究型大学必须“植根于一种深刻的、永久性的核心:探索、调查和发现”。这说明了统计学中调查的重要性。

事例4:在居民收入贫富差距的测度方面,美国统计学家洛仑兹(1907)、意大利经济学家基尼(1922)找到了统计学的洛仑兹曲线、基尼系数,由此给出了居民收入贫富差距的划分结果,为政府改进居民收入贫富不均的问题提供了政策依据。 事例5:二战后产品质量差的日本,以田口玄一为代表的质量管理学者用统计学方法找到了3σ质量管理原则,用其大幅提

高了企业的产品质量,其产品畅销海内外,日本因此成为当时的第二经济强国。该学科现已发展到了6σ质量管理原则。 事例6:在第二次世界大战的苏联卫国战争中,专家们用英国统计学家费歇尔(1 925)的最大似然法、无偏性,帮助苏军破解了德军坦克产量的军事秘密,由此苏军组织了充足的军事力量并联合盟军,打败了德军的疯狂进攻并占领了柏林。

多元统计分析课程设计

多元统计分析课程设计 题目:《因子分析在环境污染方面的应用》 姓名:王厅厅 专业班级:统计学2014级2班 学院:数学与系统科学学院 时间:2016年1月 3 日

目录 1.摘要: (1) 2.引言: (1) 背景 (1) 问题的研究意义 (1) 方法介绍 (2) 3.实证分析 (10) 指标 (10) 原始数据 (10) 数据来源 (13) 分析过程: (13) 4.结论及建议 (25) 5.参考文献 (26)

1.摘要: 中国的环境问题,由于中国政府对环境问题的关注,环境法律日趋完善,执法力度加大,对环境污染治理的投人逐年有较大幅度的增加,中国环境问题已朝着好的方面发展。但是,仍存在着环境问题,主要体现在环境污染问题,其中主要为水污染和大气污染。 关键词:环境污染水污染大气污染因子分析2.引言: 背景: 我国的环境保护取得了明显的成就,部分地区环境质量有所改善。但是,从整体上看,我国的环境污染仍在加剧,环境质量还在恶化。大气二氧化硫含量居高不下,境质量呈恶化趋势,固体废弃物污染量大面广,噪声扰民严重,环境污染事故时有发生。据中国社会科学院公布的一项报告表明:中国环境污染的规模居世界前列。 问题的研究意义: 为分析比较各地环境污染特点,利用因子分析对环境污染的各个指标进行降维处理并得到影响环境的内在因素,进一步对环境污染

原因及治理措施进行分析,让更多的人认识到环境的重要性,准确把握各地区环境治理方法以及针对不同地区制定不同的政策改善环境问题,这对综合治理环境问题具有重要意义。 方法介绍 因子分析的意义:变量间的信息的高度重叠和高度相关会给统计方法的应用设置许多障碍。为解决此问题,最简单和最直接的解决方案是削减变量个数,但这必然会导致信息丢失和 信息不完全等问题的产生。为此人们希望探索一种更有效地解决方法,它既能大幅减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子分析正是这样一种能够有效降低变量维数的分析方法。 因子分析的步骤: ·因子分析的前提条件:要求原有变量之间存在较强的相关关系。 ·因子提取:将原有变量综合成少数几个因子是因子分析的核心内容。 若存在随机向量 ) (),,(1p q F F F q ≤'=Λ及 ),,(1' =p εεεΛ,使 ??????????+??????????????????? ?=??????????p q pq p q p F F a a a a X X εεM M ΛM M ΛM 1111111 简记为ε+=AF X ,且 (1) q I F D F E ==)(,0)((标准化);

多元统计分析(最终版)

题目:研究不同温度与不同湿度对粘虫发育历期的影响,得试验数据如表。分析不同温度和湿度对粘虫发育历期的影响是否存在着显著性差异。(注:要对方差齐性进行检验) 不同温度与不同湿度粘虫发育历期表 根据上述题目,分析结果如下。 一、相关理论概述 F检验与方差齐性检验 在方差分析的F检验中,是以各个实验组内总体方差齐性为前提的,因此,按理应该在方差分析之前,要对各个实验组内的总体方差先进行齐性检验。如果各个实验组内总体方差为齐性,而且经过F检验所得多个样本所属总体平均数差异显著,这时才可以将多个样本所属总体平均数的差异归因于各种实验处理的不同所致;如果各个总体方差不齐,那么经过F 检验所得多个样本所属总体平均数差异显著的结果,可能有一部分归因于各个实验组内总体方差不同所致。 但是,方差齐性检验也可以在F检验结果为多个样本所属总体平均数差异显著的情况下进行,因为F检验之后,如果多个样本所属总体平均数差异不显著,就不必再进行方差齐性检验。本文分析数据采用后一种方法,即先F检验再方差齐次性检验。

二、从单因子方差角度分析 (一)在假定相对湿度不变的情况下分析 1、假定相对湿度恒为40%,分析不同温度对粘虫发育历期的影响。如下表: 温度℃ 重复 25 27 29 31 1 100. 2 90.6 77.2 73.6 2 103. 3 91.7 85.8 73.2 3 98.3 94.5 81.7 76. 4 4 103.8 92.2 79.7 72. 5 Ti 405. 6 369 324.4 295.7 T 2 i 164511.36 136161 105235.36 87438.49 在本例中,r=4,m=4, n=16 , =1394.7, = 123413.4696 T 2 /n=(1394.7)2/ 16=121574.2556 (式1) ( 式2) (式3) S E =S T -S A =1839.214-1762.297=76.917 (式4) 数据的方差分析表见表1. 表1 粘虫发育历期方差分析表 粘虫发育历期 (相对湿度40%) 来源 平方和 df 均方 F 显著性 组间 1762.297 3 587.432 91.646 .000 组内 76.917 12 6.410 总数 1839.214 15 分析表1可知,F 0.05(3,12)=3.49,F 值=,91.646,F>F 0.05,P=0.000<0.05,说明在相对湿度为40%时,不同温度对粘虫发育历期有显著影响。同时,在方差齐次性检验中P=0.304>0.05,说明方差齐次性显著,如下表。以下方差齐次性检验于此类同,限于篇幅,直接得出结果,方差齐性检验 粘虫发育历期 Levene 统计量 df1 df2 显著性 1.351 3 12 .304 相关程序源代码附录如下:DATASET ACTIV ATE 数据集0. ONEW AY 粘虫发育历期 BY X2 /STA TISTICS HOMOGENEITY =493346.2105/4-121574.2556=1762.297 =123413.4696-121574.2556=1839.214

多元统计分析案例分析.docx

精品资料 一、对我国30个省市自治区农村居民生活水平作聚类分析 1、指标选择及数据:为了全面分析我国农村居民的生活状况,主要考虑从收入、消费、就业等几个方面对农村居民的生活状况进行考察。因此选取以下指标:农村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村居民家庭人均纯收入、耕地面积及农村就业人数。现从2010年的调查资料中

2、将数据进行标准化变换:

3、用K-均值聚类法对样本进行分类如下:

分四类的情况下,最终分类结果如下: 第一类:北京、上海、浙江。 第二类:天津、、辽宁、、福建、甘肃、江苏、广东。 第三类:浙江、河北、内蒙古、吉林、黑龙江、安徽、山东、河南、湖北、四川、云南。 第四类:山西、青海、宁夏、新疆、重庆、贵州、陕西、湖南、广西、江西、。从分类结果上看,根据2010年的调查数据,第一类地区的农民生活水平较高,第二类属于中等水平,第三类、第四类属于较低水平。 二、判别分析 针对以上分类结果进行判别分析。其中将新疆作作为待判样本。判别结果如下:

**. 错误分类的案例 从上可知,只有一个地区判别组和原组不同,回代率为96%。 下面对新疆进行判别: 已知判别函数系数和组质心处函数如下: 判别函数分别为:Y1=0.18x1 +0.493x2 + 0.087x3 + 1.004x4 + 0.381x5 -0.041x6 -0.631x7 Y2=0.398x1+0.687x2 + 0.362x3 + 0.094x4 -0.282x5 + 1.019x6 -0.742x7 Y3=0.394x1-0.197x2 + 0.243x3-0.817x4 + 0.565x5-0.235x6 + 0.802x7 将西藏的指标数据代入函数得:Y1=-1.08671 Y2=-0.62213 Y3=-0.84188 计算Y值与不同类别均值之间的距离分别为:D1=138.5182756 D2=12.11433124 D3=7.027544292 D4=2.869979346 经过判别,D4最小,所以新疆应归于第四类,这与实际情况也比较相符。 三,因子分析: 分析数据在上表的基础上去掉两个耕地面积和农村固定资产投资两个指标。经spss软件分析结果如下:

多元统计分析方法在商业企业中的应用_党玮

65 《商场现代化》2006年10月(上旬刊)总第481期 一、引言 多元统计分析是统计学中一个非常重要的分支。在国外,从20世纪30年代起,已开始在自然科学、管理科学、社会和经济等领域广泛应用。我国自20世纪80年代起在许多领域拉开了多元统计分析应用的帷幕,20多年来在多元统计分析的理论研究和应用上取得了很显著的成绩。 在商业企业经营过程中,往往需要对诸如产品销售收入、产品销售成本、产品销售费用、产品销售税金及附加、产品销售利润、管理费用、利润总额、利税总额等变量进行分析和研究,如何同时对多个变量的观测数据进行有效的分析和研究,这就需要利用多元统计分析方法来解决,通过对多个变量观察数据的分析,来研究变量之间的相互关系以及揭示这些变量之间内在的变化规律。实践证明,多元分析是实现做定量分析的有效工具。 二、多元统计分析研究的主要内容 在当前科技和经济迅速发展的今天,在国民经济许多领域中,特别是对社会现象的分析,只停留在定性分析的基础上是不够的,为提高科学性、可靠性,通常需要定性和定量的分析。如果说一元统计方法是研究一个随机变量统计科学的规律,那么多元统计分析方法是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科。同时,利用多元统计分析中不同的方法可以对研究对象进行分类和简化。 多元统计分析包括的主要内容有:聚类分析、判别分析、主成分分析、因子分析、对应分析、典型相关分析等。 三、多元统计分析方法在商业企业中的应用 在这里,重点研究聚类分析、判别分析、主成分分析、因子分析方法及其在商业企业中的应用。 1.聚类分析 随着生产技术和科学的发展,人类的认识不断加深,分类越来越细,要求也越来越高,光凭经验和专业知识是不能确切分类的,往往需要定量和定性的分析结合起来去分类,于是数学工具逐渐被引进分类学中,形成了数值分类学。后来随着多元分析的引进,聚类分析逐渐从数值分类学中脱离出来而形成一个相对独 立的分支。 聚类分析又称群分析,它是研究分类问题的一种多元统计方 法。所谓类,通俗地说,就是指相似元素的集合。聚类分析的基本思想是首先将每个样本当作一类,然后根据样本之间的相似程度并类,并计算新类与其它类之间的距离,再选择相近者并类,每合并一次减少一类,继续这一过程,直到所有样本都并成一类为止。所以,聚类分析依赖于对观测间的接近程度(距离)或相似程度的理解,定义不同的距离量度和相似性量度就可以产生不同的聚类结果。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。 在企业销售领域,销售商需要考虑对不同生产企业生产的同名称商品的分类问题。例如,某商场对销售的20种啤酒进行分类,以便对不同类别的啤酒采用不同的销售策略,变量包括啤酒名称、热量卡路里、钠含量、酒精含量、价格。根据以上指标, 利用聚类分析可以实现把同一类型的啤酒企业归到同一类别。再如商业企业制定商品销售价格时,需要对某个大城市的物价指数进行考察,而物价指数很多,有农用生产物价指数、服务项目物价指数、食品消费物价指数、零售价格指数等等。由于要考察的价格指数很多,通常先对这些价格指数利用聚类分析方法进行分类。 2.判别分析 在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。判别分析是判断样品所属类型的一种多元统计分析方法,其目的是对已知分类的数据,建立由数值指标构成的分类规则,然后把这样的规则应用到未知分类的样本中去分类。 判别分析与聚类分析不同。判别分析是已知研究对象分成若干类型并取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分析。 判别分析内容很丰富,方法很多。判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体所用的模型来分,有线性判别和非线性判别;按判别式所处理的变量方法不同,又分逐步判别和序贯判别等。判别分析可以从不同角度提出问题,因此有不同的判别准则,如马氏距离最小准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等。 商业企业在市场预测中,往往根据以往所调查的种种指标,用判别分析方法判断下季度是畅销、平销或滞销。当然,判别分析与聚类分析常常联合起来使用。在聚类分析中,某商场对销售的20种啤酒进行分类,假定分类结果为一级品、二级品及三级品,现在判断某种新商标的啤酒属于哪个级别的产品就需要用判别分析。 3.主成分分析 在实际问题中,研究多指标(变量)问题是经常遇到的,然而在多数情况下,不同指标之间有一定相关性。由于指标较多,再加上指标之间有一定的相关性,势必增加了分析问题的复杂性。主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标,尽可能多地反映原来指标的信息,这种将多个指标化为少数相互无关的综合指标的统计方法,叫做主成分分析 多元统计分析方法在商业企业中的应用 党 玮 石河子大学商学院 [摘 要] 随着市场经济的发展和竞争的日益激烈,如何运用科学的分析方法,对收集到的数据做出准确、及时的分析并制定正确的决策,已成为企业极为关注的问题。本文重点介绍了多元统计分析方法中的聚类分析、判别分析、主成分分析、因子分析及其在商业企业中的应用。 [关键词] 多元统计 分析方法 商业企业

何晓群多元统计分析(数据)

第二章数据 行业公司简称净资产 收益 率% 总资产 报酬 率% 资产负 债率% 总资产周 转率 流动资 产周转 率 已获利 息倍数 销售增 长率% 资本积 累率% 电力、煤气及水的生产和供应业深能源A16.8512.35 42.32 0.37 1.78 7.18 45.73 54.54 深南电A2215.30 46.51 0.76 1.77 15.67 48.11 19.41 富龙热力8.977.98 30.56 0.17 0.58 10.43 17.80 9.44 穗恒运A10.258.99 40.44 0.46 2.46 5.06 11.06 1.09 粤电力A20.8120.00 35.87 0.43 1.25 34.89 24.77 12.67 韶能股份8.867.52 27.59 0.24 0.84 20.59 -3.50 54.02 惠天热电10.987.94 49.30 0.36 0.69 12.43 16.88 3.52 原水股份8.858.88 36.20 0.13 0.41 8.53 -11.49 2.44 大连热电9.037.41 46.89 0.28 0.79 6.86 16.23 -1.52 龙电股份12.078.70 16.81 0.28 0.68 29.75 4.11 63.06 华银电力 6.85 6.12 41.93 0.24 0.65 4.38 11.20 3.80 房地行业长春经开9.8510.50 31.23 0.34 0.40 17.13 18.05 7.18 兴业房产 1.07 1.52 66.91 0.21 0.24 1.53 -31.93 1.08 金丰投资19.447.01 73.34 0.26 0.30 7.02 71.22 12.73 新黄浦7.61 5.92 39.64 0.16 0.17 4.20 14.77 7.91 浦东金桥 4.24 3.99 37.30 0.20 0.25 3.98 -9.24 4.69 外高桥 1.673 1.92 49.05 0.03 0.05 1.06 -21.74 0.24 中华企业8.78 6.28 57.42 0.17 0.19 3.58 75.29 2.93 渝开发A0.2 2.24 63.40 0.09 0.15 1.07 -12.56 0.29 辽房天8.12 3.98 69.10 0.10 0.72 2.65 -35.83 3.16 粤宏远A0.42 1.16 37.42 0.09 0.15 1.59 19.18 0.43 ST中福 5.17 6.62 65.48 0.16 0.21 1.33 -19.91 23.74 倍特高新0.72 2.76 65.39 0.30 0.42 1.24 8.40 0.70 三木集团 5.99 4.53 65.17 0.74 0.88 4.14 75.36 0.87 寰岛实业0.420.20 24.03 0.02 0.03 -8.18 -71.33 0.42 中关村9.32 4.48 67.76 0.32 0.37 16.42 -29.42 4.09 信息技术 业中兴通讯18.7811.09 69.15 0.93 1.08 4.79 80.80 23.27 长城电脑14.949.48 45.53 1.14 1.85 9.51 34.47 35.93 青鸟华光9.7888.70 36.67 0.28 0.39 13.11 28.36 7.87 清华同方15.919.08 34.19 0.85 1.19 15.61 98.92 95.66 永鼎光缆9.48.67 32.75 0.79 1.25 13.49 41.75 6.33 宏图高科14.577.96 65.86 0.76 0.94 3.95 54.45 15.71 海星科技 4.06 3.35 36.49 0.48 0.60 4.64 -16.28 1.69 方正科技27.4816.69 57.13 2.51 2.87 7.40 63.27 32.02

多元统计分析重点归纳.归纳.docx

多元统计分析重点宿舍版 第一讲:多元统计方法及应用;多元统计方法分类(按变量、模型、因变量等) 多元统计分析应用 选择题:①数据或结构性简化运用的方法有:多元回归分析,聚类分析,主成分分析,因子分析 ②分类和组合运用的方法有:判别分析,聚类分析,主成分分析 ③变量之间的相关关系运用的方法有:多元回归,主成分分析,因子分析, ④预测与决策运用的方法有:多元回归,判别分析,聚类分析 ⑤横贯数据:{因果模型(因变量数):多元回归,判别分析相依模型(变量测度):因子分析,聚类分析 多元统计分析方法 选择题:①多元统计方法的分类:1)按测量数据的来源分为:横贯数据(同一时间不同案例的观测数据),纵观数据(同样案例在不同时间的多次观测数据) 2)按变量的测度等级(数据类型)分为:类别(非测量型)变量,数值型(测量型)变量 3)按分析模型的属性分为:因果模型,相依模型 4)按模型中因变量的数量分为:单因变量模型,多因变量模型,多层因果模型 第二讲:计算均值、协差阵、相关阵;相互独立性 第三讲:主成分定义、应用及基本思想,主成分性质,主成分分析步骤 主成分定义:何谓主成分分析 就是将原来的多个指标(变量)线性组合成几个新的相互无关的综合指标(主成分),并使新的综合指标尽可能多地反映原来的指标信息。 主成分分析的应用 :(1)数据的压缩、结构的简化;(2)样品的综合评价,排序 主成分分析概述——思想:①(1)把给定的一组变量X1,X2,…XP ,通过线性变换,转换为一组不相关的变量Y1,Y2,…YP 。(2)在这种变换中,保持变量的总方差(X1,X2,…Xp 的方差之和)不变,同时,使Y1具有最大方差,称为第一主成分;Y2具有次大方差,称为第二主成分。依次类推,原来有P 个变量,就可以转换出P 个主

多元统计分析自己写

多元统计分析有哪些应用? 比较 关系 预测 分类 评价 各种应用对应的多元统计分析方法 比较:多元方差分析 关系:回归模型 预测:回归模型 分类:聚类分析与判别分析、回归模型 评价:主成分分析与因子分析 ?多元回归、logisitic回归、Cox回归、Poisson回归 多元统计分析方法主要内容 多元T检验、多元方差分析 ?Hotelling T2 ?multivariate analysis of variance (MANOV A) 多元线性回归(multivariate linear regression) logistic回归(logistic regression) Cox比例风险模型(Cox model) Poisson回归(Poisson regression) 聚类分析(cluster analysis) 判别分析(discriminant analysis) 主成分分析和因子分析 生存分析 本课程的要求 上机做练习,分析实际资料 学会看文献,判断统计分析的应用是否正确 统计软件SAS,或Stata, SPSS10.01 考试: 理论占30%,实验占70% 二、多元统计分析的基本概念 研究因素从广义的角度看,所有可以测量的变量都可以成为研究因素,比如:年 龄、性别、文化程度、人体的各种生物学特征和生理生化指标环境因素、心理因素等。狭义来看,研究因素是指可能与研究目的有关的影响因素 多元统计分析对多变量样本的要求 ①分布:多元正态分布、相互独立、多元方差齐 ②样本含量 目前尚没有多元分析的样本含量估计方法,一般认为样本含量应超过研究因素5-10倍以上即可。 数值变量→分类成有序分类变量 哑变量的数量=K-1(K为分类数)

数学建模多元统计分析

实验报告 一、实验名称 多元统计分析作业题。 二、实验目的 (一)了解并掌握主成分分析与因子分析的基本原理和简单解法。 (二)学会使用matlab编写程序进行因子分析,求得特征值、特征向量、载荷矩阵等值。(三)学会使用排序、元胞数组、图像表示最后的结果,使结果更加直观。 三、实验内容与要求

四、实验原理与步骤 (一)第一题: 1、实验原理: 因子分析简介: (1) 1.1 基本因子分析模型 设p维总体x=(x1,x2,....,xp)'的均值为u=(u1,u2,....,u3)',因子分析的一般模型为 x1=u1+a11f1+a12f2+........+a1mfm+ε 1 x2=u2+a21f1+a22f2+........+a2mfm+ε 2 ......... xp=up+ap1f1+fp2f2+..........+apmfm+εp 其中,f1,f2,.....,fm为m个公共因子;εi是变量xi(i=1,2,.....,p)所独有的特殊因子,他们都是不可观测的隐变量。称aij(i=1,2,.....,p;j=1,2,.....,m)为变量xi的公共因子fi上的载荷,它反映了公共因子对变量的重要程度,对解释公共因子具有重要的作用。上式可以写为矩阵形式 x=u+Af+ε

其中A=(aij)pxm 称为因子载荷矩阵;f=(f1,f2,....,fm)'为公共因子向量;ε=(ε1,ε2,.....εp)称为特殊因子向量 (2) 1.2 共性方差与特殊方差 xi的方差var(xi)由两部分组成,一个是公共因子对xi方差的贡献,称为共性方差;一个是特殊因子对xi方差的贡献,称为特殊方差。每个原始变量的方差都被分成了共性方差和特殊方差两部分。 (3) 1.3 因子旋转 因子分析的主要目的是对公共因子给出符合实际意义的合理解释,解释的依据就是因子载荷阵的个列元素的取值。当因子载荷阵某一列上各元素的绝对值差距较大时,并且绝对值大的元素较少时,则该公共因子就易于解释,反之,公共因子的解释就比较困难。此时可以考虑对因子和因子载荷进行旋转(例如正交旋转),使得旋转后的因子载荷阵的各列元素的绝对值尽可能量两极分化,这样就使得因子的解释变得容易。 因子旋转方法有正交旋转和斜交旋转两种,这里只介绍一种普遍使用的正交旋转法:最大方差旋转。这种旋转方法的目的是使因子载荷阵每列上的各元素的绝对值(或平方值)尽可能地向两极分化,即少数元素的绝对值(或平方值)取尽可能大的值,而其他元素尽量接近于0. (4) 1.4 因子得分 在对公共因子做出合理解释后,有时还需要求出各观测所对应的各个公共因子的得分,就比如我们知道某个女孩是一个美女,可能很多人更关心该给她的脸蛋、身材等各打多少分,常用的求因子得分的方法有加权最小二乘法和回归法。 注意:因子载荷矩阵和得分矩阵的区别: 因子载荷矩阵是各个原始变量的因子表达式的系数,表达提取的公因子对原始变量的影响程度。因子得分矩阵表示各项指标变量与提取的公因子之间的关系,在某一公因子上得分高,表明该指标与该公因子之间关系越密切。简单说,通过因子载荷矩阵可以得到原始指标变量的线性组合,如X1=a11*F1+a12*F2+a13*F3,其中X1为指标变量1,a11、a12、a13分别为与变量X1在同一行的因子载荷,F1、F2、F3分别为提取的公因子;通过因子得分矩阵可以得到公因子的线性组合,如F1=a11*X1+a21*X2+a31*X3,字母代表的意义同上。 (5) 1.5 因子分析中的Heywood(海伍德)现象 如果x的各个分量都已经标准化了,则其方差=1。即共性方差与特殊方差的和为1。也就是说共性方差与特殊方差均大于0,并且小于1。但在实际进行参数估计的时候,共性方差

(整理)多元统计分析各章的电子版数据.

第二章数据

第三章数据

例3-1 X1 职工标准工资收入 X5 单位得到的其他收入 X2 职工奖金收入 X6 其他收入 X3 职工津贴收入 X7 性别 X4 其他工资性收入 X8 就业身份 X1 X2 X3 X4 X5 X6 X7 X8 540.00 0.0 0.0 0.0 0.0 6.00 男国有1137.00 125.00 96.00 0.0 109.00 812.00 女集体1236.00 300.00 270.00 0.0 102.00 318.00 女国有1008.00 0.0 96.00 0.0 86.0 246.00 男集体1723.00 419.00 400.00 0.0 122.00 312.00 男国有1080.00 569.00 147.00 156.00 210.00 318.00 男集体1326.00 0.0 300.00 0.0 148.00 312.00 女国有1110.00 110.00 96.00 0.0 80.00 193.00 女集体1012.00 88.00 298.00 0.0 79.00 278.00 女国有1209.00 102.00 179.00 67.00 198.00 514.00 男集体1101.00 215.00 201.00 39.00 146.00 477.00 男集体 例3-3 English Norwegian Danish Dutch German French One En en een ein un Two To to twee zwei deux Three Tre tre drie drei trois Four Fire fire vier vier quatre Five Fem fem vijf funf einq Six Seks seks zes sechs six seven Sju syv zeven siebcn sept Eight Ate otte acht acht huit Nine Ni ni negen neun neuf Ten Ti ti tien zehn dix Spanish Italian Polish Hungarian Finnish Uno uno jeden egy yksi Dos due dwa ketto kaksi Tres tre trzy harom kolme cuatro quattro cztery negy neua Cinco cinque piec ot viisi Seix sei szesc hat kuusi Siete sette siedem het seitseman Ocho otto osiem nyolc kahdeksau nueve nove dziewiec kilenc yhdeksan Diez dieci dziesiec tiz kymmenen 例3-4

多元统计分析论文

多元统计分析实践论文 院系:理学院 专业:统计学 年级:2010 姓名:樊恩泽 学号:20101004005

我国城镇居民人均消费支出的多元统计分析 樊恩泽 摘要:本文本文综合了主成分因子分析与系统聚类分析,先进行主成分因子分析, 再用进行聚类分析。采用2011年我国31个省、市、自治区城镇居民人均消费支出数据,首先利用主成分因子分析的方法, 找出影响我国城镇居民人均消费支出的主成分, 计算各样本的主成分得分;其次运用系统聚类分析法,对各地区人均消费水平进行分类,结果表明,系统聚类分析法得到的结果也较好;最后对于扩大国内消费提出相关建议。 关键词:主成分分析聚类分析居民人均消费支出 1、引言 人均消费支出指居民用于满足家庭日常生活消费的全部支出,包括购买实物支出和服务性消费支出。消费支出按商品和服务的用途可分为食品、衣着、家庭设备用品及服务、医疗保健、交通和通讯、娱乐教育文化服务、居住、杂项商品和服务等八大类。人均消费支出是社会消费需求的主体,是拉动经济增长的直接因素,是体现居民生活水平和质量的重要指标。 本文选取2011年我国城镇居民人均消费支出数据,主要利用三种统计方法进行分析:主成分分析法、聚类分析法。将全国31个省、市、自治区进行分类和排序,并与人们实际观察到的情况进行比较。 1.1主成分分析 主成分分析是将分量相关的原始变量, 借助于一个正交变换转化为不相关的新变量, 并以方差作为信息量的测度, 对新变量进行降维, 取累计贡献率大的若干成分作为主成分。这些主成分能够反映原始变量的绝大部分信息, 它们通常表示为原始变量的某种线性组合。

1.2聚类分析 聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类的分析技术。 在市场研究领域,聚类分析主要应用方面是帮助我们寻找目标消费群体,运用这项研究技术,我们可以划分出产品的细分市场,并且可以描述出各细分市场的人群特征,以便于客户可以有针对性的对目标消费群体施加影响,合理地开展工作 2、数据来源及处理 2.1统计思想 主成分因子分析的基本思想是通过对变量相关系数矩阵内部结构的研究,找出能控制所以变量的少数几个随机变量去描述多个变量之间的相关关系,并依据相关性的大小将变量分组,使得同组内的变量之间相关性较高,不同组的变量相关性较低。每组代表一个基本结构,这个基本结构成为公共因子。对于所研究的问题试图用最小个数的不可观测的所谓公共因子的线性函数与特殊因子之和来描述原来可观测的每一个变量。 下表是要进行处理的31个省市的城镇居民人均消费支出的相关原始数据,数据来源于《2011中国统计年鉴》。 X1:食品x2:衣着x3:居住x4:家庭用品x5:交通通信x6:文教娱乐x7:医疗保健 表1

(整理)基于SPSS的多元统计分析三种算法的实例研究.

基于SPSS的多元统计分析三种算法的实例研究 摘要 本文主要应用多元统计中的多元回归分析模型、因子分析模型、判别分析模型解决三个有关经济方面的问题,从而能更深的理解多元统计分析这门课程,并熟悉SPSS软件的一些基本操作。 关键词:多元回归分析,因子分析,判别分析,SPSS

第一章 多元线性回归分析 1.1 研究背景 消费是宏观经济必不可少的环节,完善的消费模型可以为宏观调控提供重要的依据。根据不同的理论可以建立不同的消费函数模型,而国内的许多学者研究的主要是消费支出与收入的单变量之间的函数关系,由于忽略了对消费支出有显著影响的变量,其所建立的方程必与实际有较大的偏离。本文综合考察影响消费的主要因素,如收入水平、价格、恩格尔系数、居住面积等,采用进入逐步、向前、向后、删除、岭回归方法,对消费支出的多元线性回归模型进行研究,找出能较准确描述客观实际结果的最优模型。 1.2 问题提出与描述、数据收集 按照经济学理论,决定居民消费支出变动的因素主要有收入水平、居民消费意愿、消费环境等。为了符合我国经济发展的不平衡性的现状,本文主要研究农村居民的消费支出模型。文中取因变量Y 为农村居民年人均生活消费支出(单位:元),自变量为农村居民人均纯收入X 1(单位:元)、商品零售价格定基指数X 2(1978年的为100)、消费价格定基指数X 3(1978年的为100)、家庭恩格尔系数X 4(%)、人均住宅建筑面积X 5(单位:m 2)。本文取1900年至2009年的数据(数据来源:中华人民共和国国家统计局网公布的1996至2010年中国统计年鉴)列于附录的表一中。 1.3 模型建立 1.3.1 理论背景 多元线性回归模型如下: εββββ+++++=p p X X X Y ...... 22110 Y 表示因变量,X i (i=1,…,p )表示自变量,ε表示随机误差项。 对于n 组观测值,其方程组形式为 εβ+=X Y 即

相关主题
文本预览
相关文档 最新文档