当前位置：文档之家› 第二章--经典单方程计量经济学模型：一元线性回归模型.doc

第二章--经典单方程计量经济学模型：一元线性回归模型.doc

第二章经典单方程计量经济学模型：一元线性回归模型

一、内容提要

本章介绍了回归分析的基本思想与基本方法。首先，本章从总体回归模型与总体回归函数、样本回归模型与样本回归函数这两组概念开始，建立了回归分析的基本思想。总体回归函数是对总体变量间关系的定量表述，由总体回归模型在若干基本假设下得到，但它只是建立在理论之上，在现实中只能先从总体中抽取一个样本，获得样本回归函数，并用它对总体回归函数做出统计推断。

本章的一个重点是如何获取线性的样本回归函数，主要涉及到普通最小二乘法（OLS）的学习与掌握。同时，也介绍了极大似然估计法（ML）以及矩估计法（MM）。

本章的另一个重点是对样本回归函数能否代表总体回归函数进行统计推断，即进行所谓的统计检验。统计检验包括两个方面，一是先检验样本回归函数与样本点的“拟合优度”，第二是检验样本回归函数与总体回归函数的“接近”程度。后者又包括两个层次：第一，检验解释变量对被解释变量是否存在着显著的线性影响关系，通过变量的t检验完成；第二，检验回归函数与总体回归函数的“接近”程度，通过参数估计值的“区间检验”完成。

本章还有三方面的内容不容忽视。其一，若干基本假设。样本回归函数参数的估计以及对参数估计量的统计性质的分析以及所进行的统计推断都是建立在这些基本假设之上的。其二，参数估计量统计性质的分析，包括小样本性质与大样本性质，尤其是无偏性、有效性与一致性构成了对样本估计量优劣的最主要的衡量准则。Goss-markov定理表明OLS估计量是最佳线性无偏估计量。其三，运用样本回归函数进行预测，包括被解释变量条件均值与个值的预测，以及预测置信区间的计算及其变化特征。

二、典型例题分析

例1、令kids表示一名妇女生育孩子的数目，educ表示该妇女接受过教育的年数。生育率对教育年数的简单回归模型为

β+

kids

=educ

（1）随机扰动项μ包含什么样的因素？它们可能与教育水平相关吗？

（2）上述简单回归分析能够揭示教育对生育率在其他条件不变下的影响吗？请解释。解答：

（1）收入、年龄、家庭状况、政府的相关政策等也是影响生育率的重要的因素，在上述简单回归模型中，它们被包含在了随机扰动项之中。有些因素可能与教育水平相关，如收入水平与教育水平往往呈正相关、年龄大小与教育水平呈负相关等。

（2）当归结在随机扰动项中的重要影响因素与模型中的教育水平educ 相关时，上述回归模型不能够揭示教育对生育率在其他条件不变下的影响，因为这时出现解释变量与随机扰动项相关的情形，基本假设4不满足。

例2．已知回归模型μβα++=N E ，式中E 为某类公司一名新员工的起始薪金（元），N 为所受教育水平（年）。随机扰动项μ的分布未知，其他所有假设都满足。

（1）从直观及经济角度解释α和β。

（2）OLS 估计量α

?和β?满足线性性、无偏性及有效性吗？简单陈述理由。（3）对参数的假设检验还能进行吗？简单陈述理由。解答：

（1）N βα+为接受过N 年教育的员工的总体平均起始薪金。当N 为零时，平均薪金为α，因此α表示没有接受过教育员工的平均起始薪金。β是每单位N 变化所引起的E 的变化，即表示每多接受一年学校教育所对应的薪金增加值。

（2）OLS 估计量α

?和仍β?满足线性性、无偏性及有效性，因为这些性质的的成立无需随机扰动项μ的正态分布假设。

（3）如果t μ的分布未知，则所有的假设检验都是无效的。因为t 检验与F 检验是建立在μ的正态分布假设之上的。

例3、在例2中，如果被解释变量新员工起始薪金的计量单位由元改为100元，估计的

截距项与斜率项有无变化？如果解释变量所受教育水平的度量单位由年改为月，估计的截距项与斜率项有无变化？解答：

首先考察被解释变量度量单位变化的情形。以E*表示以百元为度量单位的薪金，则

μβα++=?=N E E 100*

由此有如下新模型

)100/()100/()100/(*μβα++=N E

或 ****μβα++=N E

这里100/*αα=，100/*ββ=。所以新的回归系数将为原始模型回归系数的1/100。再考虑解释变量度量单位变化的情形。设N*为用月份表示的新员工受教育的时间长度，则N*=12N ，于是

μβαμβα++=++=)12/*(N N E

或 μβα++=*)12/(N E

可见，估计的截距项不变，而斜率项将为原回归系数的1/12。

例4．对于人均存款与人均收入之间的关系式t t t Y S μβα++=使用美国36年的年度数据得如下估计模型，括号内为标准差：

)

011.0()

105.151(067.0105.384?t

t Y S +=

2R ＝0.538 023.199?=σ

（1）β的经济解释是什么？

（2）α和β的符号是什么？为什么？实际的符号与你的直觉一致吗？如果有冲突的话，你可以给出可能的原因吗？

（3）对于拟合优度你有什么看法吗？

（4）检验是否每一个回归系数都与零显著不同（在1%水平下）。同时对零假设和备择假设、检验统计值、其分布和自由度以及拒绝零假设的标准进行陈述。你的结论是什么？解答：

（1）β为收入的边际储蓄倾向，表示人均收入每增加1美元时人均储蓄的预期平均变化量。

（2）由于收入为零时，家庭仍会有支出，可预期零收入时的平均储蓄为负，因此α符号应为负。储蓄是收入的一部分，且会随着收入的增加而增加，因此预期β的符号为正。实际的回归式中，β的符号为正，与预期的一致。但截距项为负，与预期不符。这可能与由于模型的错误设定形造成的。如家庭的人口数可能影响家庭的储蓄形为，省略该变量将对截距项的估计产生影响；另一种可能就是线性设定可能不正确。

（3）拟合优度刻画解释变量对被解释变量变化的解释能力。模型中53.8%的拟合优度，表明收入的变化可以解释储蓄中53.8 %的变动。

（4）检验单个参数采用t 检验，零假设为参数为零，备择假设为参数不为零。双变量

情形下在零假设下t 分布的自由度为n-2=36-2=34。由t 分布表知，双侧1%下的临界值位于2.750与 2.704之间。斜率项计算的t 值为0.067/0.011=6.09，截距项计算的t 值为384.105/151.105=2.54。可见斜率项计算的t 值大于临界值，截距项小于临界值，因此拒绝斜率项为零的假设，但不拒绝截距项为零的假设。

三、教材中部分习题

2.1、为什么计量经济学模型的理论方程中必须包含随机干扰项？

计量经济模型考察的是具有因果关系的随机变量间的具体联系方式。由于是对基变量，意味着影响被解释变量的因素是复杂的除了解释变量的影响外，还有其他无法在模型中独立列出的各种因素的影响。这样，模型中就必须使用一个随机干扰项变量来代表所有这些在模型中无法独立表示出来的影响因素。（或见第一章习题） 2-2．下列方程哪些是正确的？哪些是错误的？为什么？

⑴ y x t n t t =+=αβ12,,,Λ ⑵ y x t n t t t =++=αβμ12,,,Λ

⑶ y x t n t t t =++=??,,,αβμ12Λ ⑷ ???,,,y x t n t t t =++=αβμ12Λ ⑸ y x t n t t =+=??,,,αβ12Λ ⑹ ???,,,y x t n t t =+=αβ12Λ

⑺ y x t n t t t =++=???,,,αβμ12Λ ⑻ ????,,,y x t n t t t

=++=αβμ12Λ

其中带“＾”者表示“估计值”。

答：错；正；错；错；错；正，正，错。

2.3、线性回归模型有哪些基本假设？违背基本假设的计量经济学模型是否就不可估计？

答：线性回归模型的基本假设（实际是针对普通最小二乘法的基本假设）有两大类：一类是关于解释变量的，解释变量是确定性变量，而且如果是随机变量则解释变量与随机干扰项之间互不相关；一类是关于随即干扰项的，随机误差项具有0均值和同方差；随机误差项在不同样本点之间是独立的，不存在序列相关；随机误差项与解释变量之间不相关；随机误差项服从0均值、同方差的正态分布。违背基本假设的计量经济学模型还是可以估计的，只是不能使用普通最小二乘法进行估计。

2.4、线性回归模型

y x t n t t t

=++=αβμ12,,,Λ

的0均值假设是否可以表示为

t n

=∑=？为什么？

（答：严格来说，随机干扰项的0均值假设是关于X 的条件期望为0，线性回归模型：

t t x y μβα++=中的0均值假设0)E(2

=u 不可以表示为：

t n

=∑=，因为前者表示取

完所的可能的样本组合后的平均状态，而后者只是一个样本的平均值。）二者是两个完全不同的概念。

2.5、假设已经得到01Y X ββ=+关系的最小二乘估计，试回答：

假设决定把X 变量的计量单位扩大10倍，这样对远回归的斜率和截距有何影响？如果Y 变量的单位扩大10倍，又会怎样？

答：01010110/10,1010.

1010X X X X Y X X X ββββββ''=''=+=+=+记为原变量计量单位扩大倍的变量，。于是所以，解释变量的单位扩大倍，回归的截距不变，斜率项将为原系数的倍。

其他问题方法相同。

如果Y 变量的计量单位扩大10倍，斜率和截距系数都将为原始模型回归系数的1/10 2.10、下面数据是对X 和Y 的观察值得到的。

∑Y i =1110； ∑X i =1680； ∑X i Y i =204200∑X i 2=315400； ∑Y i 2=133300假定满足所有的古典线性回归模型的假设，要求：（1）b 1和b 2？

（2）b 1和b 2的标准差？（3）r 2？

（4）对B 1、B 2分别建立95%的置信区间？利用置信区间法，你可以接受零假设：B 2=0吗？

(解：⑴168==

∑n

X i

Θ，111==

∑n

Y i

17720

1111681011101681111680204200)())((=??+?-?-=+--=--∴∑∑Y X X Y X Y Y X Y Y X X i i i i i i

331601681681031540010102)2()(222222=??-=+?-=+-=-∑∑∑X X X X X X X X X i i i i Θ又

5344.03316017720)())((2

==---=∴∑

∑X X Y Y X X i

i i

22.211685344.011121=?-=-=X Y ββ

⑵8

)??2(2

10)?(2

?22

∑∑∑+-=

--=

i i i i

i i

Y Y Y Y Y

Y n e σ

i X Y 5344.022.21?+=Θ 81

.62016805344.022.2123154005344.05344.022.2122.21102042005344.02111022.212133300)25344.0222.212()??2(2122221222=???+??+??+??-??-=+++?-?-=+-∴∑∑i i i i i i i i i i X X Y X Y Y Y Y Y Y ββββ60.778

.620/?22===∴∑n e i σ

81.7333160

10315400

60.77)

()(2

=??=

∴∑∑X X n X Var i

σβ，5913.881.73)(1==βse

0023.033160

.77)(22

2==

∑i

Var σβ，0484.00023.0)(2==βse

⑶∑∑--

)

(1Y Y

r i

，

10090

123210133300)(,

81.6202

2=-=-=∑∑Y Y e i i ΘΘ又

9385.010090

.62012=-

=∴r

⑷%95)306.2(=≤t p Θ，自由度为8

306.25913

.822.21306.21

≤-≤

-∴β，解得：110315.414085.1ββ为≤≤的95%的置信区间。

同理，306.20484.05344.0306.22

≤-≤

-∴β，解得：646.04227.02≤≤β为2β的95%的置信区间。由于02=β不在2β的置信区间内，故拒绝零假设：02=β。

2-11.表中列出中国1978-2000年的财政收入Y 和国内生产总值GDP 的统计资料。要求： 1.作出散点图（略）建立Y 随X 变化的一元线性回归方程，并解释斜率的经济意义； 2.对所建立的回归方程进行检验；

3.若2001年中国GDP 为105709亿元，求财政收入的预测值及预测区间。答：1.

9609

.0R ,,,,)72.22()

52.2(:*1198.065.556?2

=+=值t GDP Y

，

斜率的经济意义是：在1978-2000年间中国国内生产总值每增加一亿元，财政收入平均增加0.1198亿元。

2.在5%的显著性水平下，自由度为23-2=21的t 分布临界值为2.08。因此从参数的t 检验值看，截距项和斜率项都显著不为零。另外拟合优度0.9609表明，财政收入的96%的变化可以由GDP 的变化来解释，拟合情况良好。

3.当2001年GDP 为105709亿元，预测的财政收入为556.65+0.1198*105709=13220.59（亿元）；预测区间（参考书中公式首先算出随机扰动项的方差）：

财政收入的均值预测区间为[13220.59-2.08*425.75, 13220.59+2.08*425.75] 财政收入的个值预测区间为[13220.59-2.08*846.13, 13220.59+2.08*846.13]

案例分析(一元线性回归模型)

案例分析报告（2014——2015学年第一学期）课程名称：预测与决策专业班级：电子商务1202 学号：2204120202 学生姓名：陈维维 2014 年11月

案例分析（一元线性回归模型）我国城镇居民家庭人均消费支出预测一、研究目的与要求居民消费在社会经济的持续发展中有着重要的作用，居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长，而且这也是人民生活水平的具体体现。从理论角度讲，消费需求的具体内容主要体现在消费结构上，要增加居民消费，就要从研究居民消费结构入手，只有了解居民消费结构变化的趋势和规律，掌握消费需求的热点和发展方向，才能为消费者提供良好的政策环境，引导消费者合理扩大消费，才能促进产业结构调整与消费结构优化升级相协调，才能推动国民经济平稳、健康发展。例如，2008年全国城镇居民家庭平均每人每年消费支出为11242.85元，最低的青海省仅为人均8192.56元，最高的上海市达人均19397.89元，上海是黑龙江的2.37倍。为了研究全国居民消费水平及其变动的原因，需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多，例如，零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素，并分析影响因素与消费水平的数量关系，可以建立相应的计量经济模型去研究。二、模型设定我研究的对象是各地区居民消费的差异。居民消费可分为城镇居民消费和农村居民消费，由于各地区的城镇与农村人口比例及经济结构有较大差异，最具有直接对比可比性的是城市居民消费。而且，由于各地区人口和经济总量不同，只能用“城镇居民每人每年的平均消费支出”来比较，而这正是可从统计年鉴中获得数据的变量。所以模型的被解释变量Y选定为“城镇居民每人每年的平均消费支出”。因为研究的目的是各地区城镇居民消费的差异，并不是城镇居民消费在不同时间的变动，所以应选择同一时期各地区城镇居民的消费支出来建立模型。因此建立的是2008年截面数据模型。影响各地区城镇居民人均消费支

经典线性回归模型

2 经典线性回归模型 §2.1 概念与记号 1．线性回归模型是用来描述一个特定变量y 与其它一些变量x 1，…，x p 之间的关系。 2．称特定变量y 为因变量（dependent variable ）、被解释变量（explained variable ）、响应变量（response variable ）、被预测变量（predicted variable ）、回归子（regressand ）。 3．称与特定变量相关的其它一些变量x 1，…，x p 为自变量（independent variable ）、解释变量（explanatory variable ）、控制变量（control variable ）、预测变量（predictor variable ）、回归量（regressor ）、协变量（covariate ）。 4．假定我们观测到上述这些变量的n 组值：( ) ip i i x x y , , , 1 L (i=1，…，n)。称这n 组值为样本（sample ）或数据（data ）。 §2.2 经典线性回归模型的假定假定 2.1（线性性(linearity)） i ip p i i x x y e b b b + + + + = L 1 1 0 (i=1，…，n)。（2.1）称方程（2.1）为因变量y 对自变量x 1，…，x p 的线性回归方程（linear regression equation ），其中 ( ) p ， k k , , 1 0 L = b 是待估的未知参数（unknown parameters ）， ( ) n i i , , 1 L = e 是满足一定限制条件的无法观测的误差项（unobserved error term ）。称自变量的函数 ip p i x x b b b + + + L 1 1 0 为回归函数（regression function ）或简称为回归（regression ）。称 0 b 为回归的截距(ntercept)，称 ( ) p k k , , 1 L = b 为自变量的回归系数（regression coefficients ）。某个自变量的回归系数表示在其它条件保持不变的情况下，

中级计量经济学讲义_第二章第一节数学基础 (Mathematics)第一节矩阵(Matrix)及

上课材料之二：第二章数学基础 (Mathematics) 第一节矩阵(Matrix)及其二次型(Quadratic Forms) 第二节分布函数(Distribution Function)，数学期望(Expectation)及方差(Variance) 第三节数理统计（Mathematical Statistics ）第一节矩阵及其二次型(Matrix and its Quadratic Forms) 2.1 矩阵的基本概念与运算一个m ×n 矩阵可表示为：矩阵的加法较为简单，若C=A +B ，c ij =a ij +b ij 但矩阵的乘法的定义比较特殊，若A 是一个m ×n 1的矩阵，B 是一个n 1×n 的矩阵，则C =AB 是一个m ×n 的矩阵，而且∑== n k kj ik ij b a c 1，一般来讲，AB ≠BA ，但如下运算是成立的： ● 结合律（Associative Law ） (AB )C =A （BC ） ● 分配律（Distributive Law ） A (B +C )=AB +AC 问题：(A+B)2=A 2+2AB+B 2是否成立？向量（Vector ）是一个有序的数组，既可以按行，也可以按列排列。行向量(row ve ctor)是只有一行的向量，列向量(column vector)只有一列的向量。如果α是一个标量，则αA =[αa ij ]。矩阵A 的转置矩阵(transpose matrix)记为A '，是通过把A 的行向量变成相应的列向量而得到。显然(A ')′=A ，而且（A +B ）′=A '+B '， ● 乘积的转置（Transpose of ａ production ） A B AB ''=')(，A B C ABC '''=')(。 ● 可逆矩阵（inverse matrix ），如果n 级方阵(square matrix)A 和B ，满足AB=BA=I 。则称A 、B 是可逆矩阵，显然1-=B A ，1-=A B 。如下结果是成立的： 1111111)()()()(-------='='=A B AB A A A A 。 2.2 特殊矩阵 1）恒等矩阵(identity matrix)

经典线性回归模型的诊断与修正

经典线性回归模型的诊断与修正下表为最近20年我国全社会固定资产投资与GDP的统计数据：1 年份国内生产总值（亿元）GDP 全社会固定资产投资（亿元）PI 1996 71813.6 22913.5 1997 79715 24941.1 1998 85195.5 28406.2 1999 90564.4 29854.7 2000 100280.1 32917.7 2001 110863.1 37213.49 2002 121717.4 43499.91 2003 137422 55566.61 2004 161840.2 70477.43 2005 187318.9 88773.61 2006 219438.5 109998.16 2007 270232.3 137323.94 2008 319515.5 172828.4 2009 349081.4 224598.77 2010 413030.3 251683.77 2011 489300.6 311485.13 2012 540367.4 374694.74 2013 595244.4 446294.09 1数据来源于国家统计局网站年度数据

1、普通最小二乘法回归结果如下：方程初步估计为： GDP=75906.54+1.1754PI (32.351) R2=0.9822F=1046.599 DW=0.3653 2、异方差的检验与修正首先，用图示检验法，生成残差平方和与解释变量PI的散点图如下：

从上图可以看出，残差平方和与解释变量的散点图主要分布在图形的下半部分，有随PI的变动增大的趋势，因此，模型可能存在异方差。但是否确定存在异方差，还需作进一步的验证。 G-Q检验如下：去除序列中间约1/4的部分后，1996-2003年的OLS估计结果如下所示：

计量经济学习题与解答

第五章经典单方程计量经济学模型：专门问题一、内容提要本章主要讨论了经典单方程回归模型的几个专门题。第一个专题是虚拟解释变量问题。虚拟变量将经济现象中的一些定性因素引入到可以进行定量分析的回归模型，拓展了回归模型的功能。本专题的重点是如何引入不同类型的虚拟变量来解决相关的定性因素影响的分析问题，主要介绍了引入虚拟变量的加法方式、乘法方式以及二者的组合方式。在引入虚拟变量时有两点需要注意，一是明确虚拟变量的对比基准，二是避免出现“虚拟变量陷阱”。第二个专题是滞后变量问题。滞后变量包括滞后解释变量与滞后被解释变量，根据模型中所包含滞后变量的类别又可将模型划分为自回归分布滞后模型与分布滞后模型、自回归模型等三类。本专题重点阐述了产生滞后效应的原因、分布滞后模型估计时遇到的主要困难、分布滞后模型的修正估计方法以及自回归模型的估计方法。如对分布滞后模型可采用经验加权法、Ａlmon多项式法、Koyck方法来减少滞项的数目以使估计变得更为可行。而对自回归模型，则根据作为解释变量的滞后被解释变量与模型随机扰动项的相关性的不同，采用工具变量法或OLS法进行估计。由于滞后变量的引入，回归模型可将静态分析动态化，因此，可通过模型参数来分析解释变量对被解释变量影响的短期乘数和长期乘数。第三个专题是模型设定偏误问题。主要讨论当放宽“模型的设定是正确的”这一基本假定后所产生的问题及如何解决这些问题。模型设定偏误的类型包括解释变量选取偏误与模型函数形式选取取偏误两种类型，前者又可分为漏选相关变量与多选无关变量两种情况。在漏选相关变量的情况下，OLS估计量在小样本下有偏，在大样本下非一致；当多选了无关变量时，OLS估计量是无偏且一致的，但却是无效的；而当函数形式选取有问题时，OLS估计量的偏误是全方位的，不仅有偏、非一致、无效率，而且参数的经济含义也发生了改变。在模型设定的检验方面，检验是否含有无关变量，可用传统的t检验与F检验进行；检验是否遗漏了相关变量或函数模型选取有错误，则通常用一般性设定偏误检验（RESET检验）进行。本专题最后介绍了一个关于选取线性模型还是双对数线性模型的一个实用方法。第四个专题是关于建模一般方法论的问题。重点讨论了传统建模理论的缺陷以及为避免这种缺陷而由Hendry提出的“从一般到简单”的建模理论。传统建模方法对变量选取的

一元线性回归分析的结果解释

一元线性回归分析的结果解释 1.基本描述性统计量分析：上表是描述性统计量的结果，显示了变量y和x的均数(Mean)、标准差(Std. Deviation)和例数(N)。 2．相关系数分析：上表是相关系数的结果。从表中可以看出，Pearson相关系数为0.749，单尾显著性检验的概率p值为0.003，小于0.05，所以体重和肺活量之间具有较强的相关性。 3．引入或剔除变量表

分析：上表显示回归分析的方法以及变量被剔除或引入的信息。表中显示回归方法是用强迫引入法引入变量x的。对于一元线性回归问题，由于只有一个自变量，所以此表意义不大。 4．模型摘要分析：上表是模型摘要。表中显示两变量的相关系数(R)为0.749，判定系数(R Square)为0.562，调整判定系数(Adjusted R Square)为0.518，估计值的标准误差(Std. Error of the Estimate)为0.28775。 5．方差分析表分析：上表是回归分析的方差分析表(ANOVA)。从表中可以看出，回归的均方(Regression Mean Square)为1.061，剩余的均方(Residual Mean Square)为0.083，F检验统计量的观察值为12.817,相应的概率p 值为0.005，小于0.05，可以认为变量x和y之间存在线性关系。

6．回归系数分析：上表给出线性回归方程中的参数(Coefficients)和常数项(Constant)的估计值，其中常数项系数为0(注：若精确到小数点后6位，那么应该是0.000413)，回归系数为0.059，线性回归参数的标准误差(Std. Error)为0.016,标准化回归系数(Beta)为0.749，回归系数T检验的t统计量观察值为3.580，T检验的概率p值为0.005，小于0.05，所以可以认为回归系数有显著意义。由此可得线性回归方程为： y=0.000413+0.059x 7．回归诊断分析：上表是对全部观察单位进行回归诊断(Casewise Diagnostics-all cases)的结果显示。从表中可以看出每一例的标准

高级计量经济学之第5章分布滞后与动态模型

第5章分布滞后与动态模型 §5.1 分布滞后模型很多经济模型在回归方程中有滞后项，例如，因为修建桥和高速公路需要很多时间，所以公共投资对GDP 的影响有一个滞后期，而且这个影响可能会持续数年；研发新产品需要时间，而后把这个新产品投入生产也需要时间；在研究消费行为时，一个工资的变化可能影响好几期的消费。在消费的恒久收入理论中，消费者会用若干期去决定真实可支配收入的变化是暂时的还是永久的。例如，今年额外的咨询费收入明年是否还会继续？同样，真实可支配收入的滞后值会在回归方程中出现，是因为消费者在平滑其消费行为时十分重视他自身的终身收入。一个人的终身收入可以用他过去和现在的收入来推测。换句话说，回归关系可以写为： T t X X X Y t s t s t t t ,,2,1110 =+++++=--εβββα （5.1）其中，t Y 代表被解释变量Y 在第t 期的观测值，t s X -代表解释变量X 第t s -期的观测值，α为截距项，0β，1β，…，s β是t X 当期和滞后期的系数。方程（5.1）式就是分布滞后模型因为它把收入增长对消费的影响分为s 期。X 的一个单位变化对Y 的短期影响由0β来表示，而X 的一个单位变化对Y 的长期影响由 (s βββ+++ 10)来表示。假设我们观察从1955年到1995年的t X ，1t X -为相同的变量，但是提前一期的，也就是1954-1994。因为1954年的数据观察不到，我们就从1955年开始观察 1t X -，到1994年结束。这意味着当我们滞后一期时，t X 序列将从1956年开始到 1995年结束。对于实际的应用来说，也就是当我们滞后一期时，我们将从样本中

计量经济学判断题 )

1. 总离差平方和可分解为回归平方和与残差平方和。（对） 2. 整个多元回归模型在统计上是显着的意味着模型中任何一个单独的解释变量均是统计显着的。（错） 3. 多重共线性只有在多元线性回归中才可能发生。（对） 4. 通过作解释变量对时间的散点图可大致判断是否存在自相关。（错） 5. 在计量回归中，如果估计量的方差有偏，则可推断模型应该存在异方差（错） 6. 存在异方差时，可以用广义差分法来进行补救。（错） 7. 当经典假设不满足时，普通最小二乘估计一定不是最优线性无偏估计量。（错） 8. 判定系数检验中，回归平方和占的比重越大，判定系数也越大。（对） 9. 可以作残差对某个解释变量的散点图来大致判断是否存在自相关。（错）做残差） n 5、经典线性回归模型（CLRM ）中的干扰项不服从正态分布的，OLS 估计量将有偏的。错，，即使经典线性回归模型（CLRM ）中的干扰项不服从正态分布的，OLS 估计量仍然是无偏的。因为222)()?(βμββ=+=∑i i K E E ，该表达式成立与否与正态性无关。 1、在简单线性回归中可决系数2R 与斜率系数的t 检验的没有关系。错误，在简单线性回归中，由于解释变量只有一个，当t 检验显示解释变量的影响显着时，必然会有该回归模型的可决系数大，拟合优度高。 2、异方差性、自相关性都是随机误差现象，但两者是有区别的。正确，异方差的出现总是与模型中某个解释变量的变化有关。自相关性是各回归模型的随机误差项之间具有相关关

系。3、通过虚拟变量将属性因素引入计量经济模型，引入虚拟变量的个数与模型有无截距项无关。错误，模型有截距项时，如果被考察的定性因素有m个相互排斥属性，则模型中引入m－1个虚拟变量，否则会陷入“虚拟变量陷阱”；模型无截距项时，若被考察的定性因素有m个相互排斥属性，可以引入m个虚拟变量，这时不会出现多重共线性。 4、满足阶条件的方程一定可以识别。错误，阶条件只是一个必要条件，即满足阶条件的的方程也可能是不可识别的。 5、库依克模型、自适应预期模型与局部调整模型的最终形式是不同的。错误，库依克模型、自适应预期模型与局部调整模型的最终形式是相同的，其最终形式都是一阶自回归模型。2、多重共线性问题是随机扰动项违背古典假定引起的。错误，应该是解释变量之间高度相关引起的. (3) 线性回归模型意味着因变量是自变量的线性函数。（错） (4) 在线性回归模型中，解释变量是原因，被解释变量是结果。（对） 1、虚拟变量的取值只能取0或1（对） 2、通过引入虚拟变量，可以对模型的参数变化进行检验（对） 1、简单线性回归模型与多元线性回归模型的基本假定是相同的。错在多元线性回归模型里除了对随机误差项提出假定外，还对解释变量之间提出无多重共线性的假定。 2、在模型中引入解释变量的多个滞后项容易产生多重共线性。对在分布滞后模型里多引进解释变量的滞后项，由于变量的经济意义一样，只

一元线性回归模型案例分析

一元线性回归模型案例分析一、研究的目的要求居民消费在社会经济的持续发展中有着重要的作用。居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长，而且这也是人民生活水平的具体体现。改革开放以来随着中国经济的快速发展，人民生活水平不断提高，居民的消费水平也不断增长。但是在看到这个整体趋势的同时，还应看到全国各地区经济发展速度不同，居民消费水平也有明显差异。例如，2002年全国城市居民家庭平均每人每年消费支出为6029.88元, 最低的黑龙江省仅为人均4462.08元，最高的上海市达人均10464元，上海是黑龙江的2.35倍。为了研究全国居民消费水平及其变动的原因，需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多，例如，居民的收入水平、就业状况、零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素，并分析影响因素与消费水平的数量关系，可以建立相应的计量经济模型去研究。二、模型设定我们研究的对象是各地区居民消费的差异。居民消费可分为城市居民消费和农村居民消费，由于各地区的城市与农村人口比例及经济结构有较大差异，最具有直接对比可比性的是城市居民消费。而且，由于各地区人口和经济总量不同，只能用“城市居民每人每年的平均消费支出”来比较，而这正是可从统计年鉴中获得数据的变量。所以模型的被解释变量Y 选定为“城市居民每人每年的平均消费支出”。因为研究的目的是各地区城市居民消费的差异，并不是城市居民消费在不同时间的变动，所以应选择同一时期各地区城市居民的消费支出来建立模型。因此建立的是2002年截面数据模型。影响各地区城市居民人均消费支出有明显差异的因素有多种，但从理论和经验分析，最主要的影响因素应是居民收入，其他因素虽然对居民消费也有影响，但有的不易取得数据，如“居民财产”和“购物环境”；有的与居民收入可能高度相关，如“就业状况”、“居民财产”；还有的因素在运用截面数据时在地区间的差异并不大，如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型，即便它们对居民消费有某些影响也可归入随即扰动项中。为了与“城市居民人均消费支出”相对应，选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。从2002年《中国统计年鉴》中得到表2.5的数据: 表2.52002年中国各地区城市居民人均年消费支出和可支配收入

计量经济学分析模型

摘要改革开放以来，我国经济呈迅速而稳定的增长趋势，由于分配机制和收入水平的变化，城镇居民生活水平在达到稳定小康之后，消费结构和消费水平都出现了一些新的特点。本文旨在对近几年，我国城镇年人均收入变动对年人均各种消费变动的影响进行实证分析。首先，我们综合了几种关于收入和消费的主要理论观点；本文根据相关的数据统计数据，运用一定的计量经济学的研究方法，进而我们建立了理论模型。然后，收集了相关的数据，利用EVIEWS软件对计量模型进行了参数估计和检验，并加以修正。最后，我们对所得的分析结果和影响消费的一些因素作了经济意义的分析，并相应提出一些政策建议。并找到影响居民消费的主要因素。关键词：居民消费；城镇居民；回归；Eviews

目录摘要.................................................................. II 前言. (1) 1 问题的提出 (2) 2 经济理论陈述 (3) 2.1西方经济学中有关理论假说 (3) 2.2有关消费结构对居民消费影响的理论 (4) 3 相关数据收集 (6) 4 计量经济模型的建立 (9) 5 模型的求解和检验 (10) 5.1计量经济的检验 (10) 5.1.1模型的回归分析 (10) 5.1.2拟合优度检验： (11) 5.1.3 F检验 (11) 5.1.4 T检验 (12) 5.2 计量修正模型检验： (12) 5.2.1 Y与的一元回归 (13) 5.2.2拟合优度的检验 (13) 5.2.3 F检验 (14) 5.2.4 T检验： (15) 5.3经济意义的分析: (15) 6 政策建议 (16) 结论 (17) 参考文献 (19)

一元线性回归模型习题及答案解析

一元线性回归模型一、单项选择题 1、变量之间的关系可以分为两大类__________。A A 函数关系与相关关系 B 线性相关关系和非线性相关关系 C 正相关关系和负相关关系 D 简单相关关系和复杂相关关系 2、相关关系是指__________。D A 变量间的非独立关系 B 变量间的因果关系 C 变量间的函数关系 D 变量间不确定性的依存关系 3、进行相关分析时的两个变量__________。A A 都是随机变量 B 都不是随机变量 C 一个是随机变量，一个不是随机变量 D 随机的或非随机都可以 4、表示x 和y 之间真实线性关系的是__________。C A 01???t t Y X ββ=+ B 01()t t E Y X ββ=+ C 01t t t Y X u ββ=++ D 01t t Y X ββ=+ 5、参数β的估计量?β 具备有效性是指__________。B A ?var ()=0β B ?var ()β为最小 C ?()0β β－＝ D ?()ββ－为最小 6、对于01??i i i Y X e ββ=++，以σ?表示估计标准误差，Y ?表示回归值，则__________。B A i i ??0Y Y 0σ∑ ＝时，（－）＝ B 2 i i ??0Y Y σ∑＝时，（－）＝0 C i i ??0Y Y σ∑＝时，（－）为最小 D 2 i i ??0Y Y σ∑＝时，（－）为最小 7、设样本回归模型为i 01i i ??Y =X +e ββ+，则普通最小二乘法确定的i ?β的公式中，错误的是__________。D A ()()()i i 1 2 i X X Y -Y ?X X β--∑∑＝ B ()i i i i 1 2 2 i i n X Y -X Y ?n X -X β ∑∑∑∑∑＝ C i i 1 2 2 i X Y -nXY ?X -nX β ∑∑＝ D i i i i 1 2 x n X Y -X Y ?β σ ∑∑∑＝ 8、对于i 01i i ??Y =X +e ββ+，以 ?σ表示估计标准误差，r 表示相关系数，则有__________。D A ?0r=1σ ＝时， B ?0r=-1σ ＝时， C ?0r=0σ ＝时， D ?0r=1r=-1σ ＝时，或 9、产量（X ，台）与单位产品成本（Y ，元/台）之间的回归方程为?Y 356 1.5X -＝，这说明__________。D

计量经济学多元线性回归模型

多元线性回归模型一．概述当今农村农民人均纯收入与多个因素存在着紧密的联系，例如人均工资收入，人均农林牧渔产值人均生产费用支出，人均转移性和财产性收入等。本次将以安徽1995－2009年农村居民纯收入与人均工资收入，人均生产费用支出，人均转移性和财产性收入等因素的数据，通过建立计量经济模型来分析上述变量之间的关系，强调农村居民生活的重要性，从而促进全国经济的发展。二、模型构建过程 ⒈变量的定义被解释变量：农民人均纯收入y 解释变量：人均工资收入x1, 人均农林牧渔产值x2 人均生产费用支出x3 人均转移性和财产性收入x4。建立计量经济模型：解释农民人均纯收入与人均工资收入，人均生产费用支出，人均转移性和财产性收入的关系 ⒉模型的数学形式设定农民人均纯收入与五个解释变量相关关系模型，样本回归模型为： ∧Y i=∧ β + ∧ β 1 X i1+∧β 2 X i2+∧β 3 X i3+∧β 4 X i4+e i ⒊数据的收集该模型的构建过程中共有四个变量,分别是中国从1995－2009年人均工资收入，人均农林牧渔产值人均生产费用支出，人均转移性和财产性收入，因此为时间序列数据，最后一个即2009年的数据作为预测对比数据，收集的数据如下所示： ⒋用OLS法估计模型回归结果,散点图分别如下:

Y?=33.632+0.659X1+0.59X2-0.274X3+0.152X4 i d.f.=10 ,R2=0.997116 , Se=(186.261) (0.1815 (0.1245) (0.2037) (0.5699) t=(0.1805) (3.632) (4.741) (-1.347) (2.674) 三、模型的检验及结果的解释、评价

现代计量经济学模型体系解析

#学术探讨# 现代计量经济学模型体系解析* 李子奈刘亚清内容提要:本文对现代计量经济学模型体系进行了系统的解析,指出了现代计量经济学的各个分支是以问题为导向,在经典计量经济学模型理论的基础上,发展成为相对独立的模型理论体系,包括基于研究对象和数据特征而发展的微观计量经济学、基于充分利用数据信息而发展的面板数据计量经济学、基于计量经济学模型的数学基础而发展的现代时间序列计量经济学、基于非设定的模型结构而发展的非参数计量经济学,并对每个分支进行了扼要的描述。最后在/交叉与综合0的方向上提出了现代计量经济学模型理论的研究前沿领域。关键词:经典计量经济学时间序列计量经济学微观计量经济学一、引言计量经济学自20世纪20年代末30年代初诞生以来,已经形成了十分丰富的内容体系。一般认为,可以以20世纪70年代为界将计量经济学分为经典计量经济学(Classical Econometrics)和现代计量经济学(Mo dern Eco no metr ics),而现代计量经济学又可以分为四个分支:时间序列计量经济学(Tim e Ser ies Econo metrics)、微观计量经济学(M-i cro-econometrics)、非参数计量经济学(Nonpara-m etric Econometrics)以及面板数据计量经济学(Panel Data Eco nom etrics)。这些分支作为独立的课程已经被列入经济学研究生的课程表,独立的教科书也已陆续出版,应用研究已十分广泛,标志着它们作为计量经济学的分支学科已经成熟。据此提出三个问题:一是经典计量经济学的地位问题。既然现代计量经济学模型体系已经成熟,而且它们都是在经典模型理论的基础上发展的,那么经典模型还有应用价值吗?是不是凡是采用经典模型的研究都是低水平和落后的?二是现代计量经济学的各个分支的发展导向问题。即它们是如何发展起来的?三是现代计量经济学进一步创新和发展的基点在哪里?回答这些问题,对于正确理解计量经济学的学科体系,对于计量经济学的课程设计和教学内容安排,对于正确评价计量经济学理论和应用研究的水平,对于进一步推动中国的计量经济学理论研究,都是十分有益的。现代计量经济学的各个分支是以问题为导向,以经典计量经济学模型理论为基础而发展起来的。所谓/问题0,包括研究对象和表征研究对象状态和变化的数据。研究对象不同,表征研究对象状态和变化的数据具有不同的特征,用以进行经验实证研究的计量经济学模型既然不同,已有的模型理论方法不适用了,就需要发展新的模型理论方法。按照这个思路,就可以用图1简单地描述经典计量经济学模型与现代计量经济学模型各个分支之间的关系。本文试图从方法论的角度对现代计量经济学模型的发展,特别是现代计量经济学模型与经典计量经济学模型之间的关系进行较为系统的讨论,以期对未来我国计量经济学的发展研究提供借鉴和启示。本文的内容安排如下:首先分析经典计量经济学模型的基础地位,明确它在现代的应用价值,同时对发生于20世纪70年代的/卢卡斯批判0的实质进行讨论;然后依次讨论时间序列计量经济学、微观计量经济学、非参数计量经济学以及面板数据计量经济学的发展,回答它们是以什么问题为导向,以什么为目的而发展的;最后以/现代计量经济学模型体系的分解与综合0为题,讨论现代计量经济学的前沿研究领域以及从对我国计量经济学理论的创新和发展 ) 22 ) *本文受国家社会科学基金重点项目(08AJY001,计量经济学模型方法论基础研究)的资助。

案例分析一元线性回归模型

案例分析报告（2014——2015学年第一学期）课程名称：预测与决策专业班级：电子商务1202 学号： 2204120202 学生姓名：陈维维 2014 年 11月案例分析（一元线性回归模型）我国城镇居民家庭人均消费支出预测一、研究目的与要求居民消费在社会经济的持续发展中有着重要的作用，居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长，而且这也是人民生活水平的具体体现。从理论角度讲，消费需求的具体内容主要体现在消费结构上，要增加居民消费，就要从研究居民消费结构入手，只有了解居民消费结构变化的趋势和规律，掌握消费需求的热点和发展方向，才能为消费者提供良好的政策环境，引导消费者合理扩大消费，才能促进产业结构调整与消费结构优化升级相协调，才能推动国民经济平稳、健康发展。例如，2008年全国城镇居民家庭平均每人每年消费支出为11242.85元，?最低的青海省仅为人均8192.56元，最高的上海市达人均19397.89元，上海是黑龙江的2.37倍。为了研究全国居民消费水平及其变动的原因，需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多，例如，零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素，并分析影响因素与消费水平的数量关系，可以建立相应的计量经济模型去研究。二、模型设定?

我研究的对象是各地区居民消费的差异。居民消费可分为城镇居民消费和农村居民消费，由于各地区的城镇与农村人口比例及经济结构有较大差异，最具有直接对比可比性的是城市居民消费。而且，由于各地区人口和经济总量不同，只能用“城镇居民每人每年的平均消费支出”来比较，而这正是可从统计年鉴中获得数据的变量。所以模型的被解释变量Y选定为“城镇居民每人每年的平均消费支出”。因为研究的目的是各地区城镇居民消费的差异，并不是城镇居民消费在不同时间的变动，所以应选择同一时期各地区城镇居民的消费支出来建立模型。因此建立的是2008年截面数据模型。影响各地区城镇居民人均消费支出有明显差异的因素有多种，但从理论和经验分析，最主要的影响因素应是居民收入，其他因素虽然对居民消费也有影响，但有的不易取得数据，如“居民财产”和“购物环境”；有的与居民收入可能高度相关，如“就业状况”、“居民财产”；还有的因素在运用截面数据时在地区间的差异并不大，如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型，即便它们对居民消费有某些影响也可归入随即扰动项中。为了与“城镇居民人均消费支出”相对应，选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。以下是2008年各地区城镇居民人均年消费支出和可支配收入表

计量经济学第三章、经典单方程计量经济学模型：多元线性回归模型

第三章、经典单方程计量经济学模型：多元线性回归模型一、内容提要本章将一元回归模型拓展到了多元回归模型，其基本的建模思想与建模方法与一元的情形相同。主要内容仍然包括模型的基本假定、模型的估计、模型的检验以及模型在预测方面的应用等方面。只不过为了多元建模的需要，在基本假设方面以及检验方面有所扩充。本章仍重点介绍了多元线性回归模型的基本假设、估计方法以及检验程序。与一元回归分析相比，多元回归分析的基本假设中引入了多个解释变量间不存在（完全）多重共线性这一假设；在检验部分，一方面引入了修正的可决系数，另一方面引入了对多个解释变量是否对被解释变量有显著线性影响关系的联合性F检验，并讨论了F检验与拟合优度检验的内在联系。本章的另一个重点是将线性回归模型拓展到非线性回归模型，主要学习非线性模型如何转化为线性回归模型的常见类型与方法。这里需要注意各回归参数的具体经济含义。本章第三个学习重点是关于模型的约束性检验问题，包括参数的线性约束与非线性约束检验。参数的线性约束检验包括对参数线性约束的检验、对模型增加或减少解释变量的检验以及参数的稳定性检验三方面的内容，其中参数稳定性检验又包括邹氏参数稳定性检验与邹氏预测检验两种类型的检验。检验都是以F检验为主要检验工具，以受约束模型与无约束模型是否有显著差异为检验基点。参数的非线性约束检验主要包括最大似然比检验、沃尔德检验与拉格朗日乘数检验。它们仍以估计无约束模型与受约束模型为基础，但以最大似然 χ分布为检验统计原理进行估计，且都适用于大样本情形，都以约束条件个数为自由度的2 量的分布特征。非线性约束检验中的拉格朗日乘数检验在后面的章节中多次使用。二、典型例题分析例1．某地区通过一个样本容量为722的调查数据得到劳动力受教育的一个回归方程为36 .0 . + = - 10+ 094 medu fedu .0 sibs edu210 131 .0 R2=0.214 式中，edu为劳动力受教育年数，sibs为该劳动力家庭中兄弟姐妹的个数，medu与fedu分别为母亲与父亲受到教育的年数。问

一元线性回归分析法

一元线性回归分析法一元线性回归分析法是根据过去若干时期的产量和成本资料，利用最小二乘法“偏差平方和最小”的原理确定回归直线方程，从而推算出a(截距)和b(斜率)，再通过y ＝a+bx 这个数学模型来预测计划产量下的产品总成本及单位成本的方法。方程y ＝a+bx 中，参数a 与b 的计算如下： y b x a y bx n -==-∑∑ 222 n xy x y xy x y b n x (x)x x x --==--∑∑∑∑∑∑∑∑∑ 上式中，x 与y 分别是i x 与i y 的算术平均值，即 x =n x ∑ y =n y ∑ 为了保证预测模型的可靠性，必须对所建立的模型进行统计检验，以检查自变量与因变量之间线性关系的强弱程度。检验是通过计算方程的相关系数r 进行的。计算公式为： 22xy-x y r= (x x x)(y y y) --∑∑∑∑∑∑ 当r 的绝对值越接近于1时，表明自变量与因变量之间的线性关系越强，所建立的预测模型越可靠；当r ＝l 时，说明自变量与因变量成正相关，二者之间存在正比例关系；当r ＝—1时，说明白变量与因变量成负相关，二者之间存在反比例关系。反之，如果r 的绝对值越接近于0，情况刚好相反。 [例]以表1中的数据为例来具体说明一元线性回归分析法的运用。表1：根据表1计算出有关数据，如表2所示：表2：

将表2中的有关数据代入公式计算可得： 1256750x == （件） 2256 1350y ==（元） 1750 9500613507501705006b 2=-??-?=（元/件） 100675011350a =?-=（元/件）所建立的预测模型为： y ＝100+X 相关系数为： 9.011638 10500])1350(3059006[])750(955006[1350 750-1705006r 22==-??-???= 计算表明，相关系数r 接近于l ，说明产量与成本有较显著的线性关系，所建立的回归预测方程较为可靠。如果计划期预计产量为200件，则预计产品总成本为： y ＝100+1×200＝300(元)

计量经济学回归模型实验报告

回归模型分析报告背景意义：教育是立国之本，强国之基。随着改革开放的进行、经济的快速发展和人们生活水平的逐步提高，“教育”越来越受到人们的重视。一方面，人均国内生产总值的增加与教育经费收入的增加有着某种联系，而人口的增长也必定会对教育经费收入产生影响。本报告将从这两个方面进行分析。我国1991年~2013年的教育经费收入、人均国内生产总值指数、年末城镇人口数的统计资料如下表所示。试建立教育经费收入Y关于人均国内生产总值指数X1和年末城镇人口数X2的回归模型，并进行回归分析。年份教育经费收入 Y（亿元）人均国内生产总值指数 X1(1978年=100) 年末城镇人口数 X2（万人） 199131203 199232175 199333173 199434169 199535174 199637304 199739449 199841608 199943748 200045906 200148064 200250212 200352376 200454283 200556212 200658288 200760633 200862403 200964512 201066978 201169079 201271182 201373111 资料来源：中经网统计数据库。根据经济理论和对实际情况的分析可以知道，教育经费收入Y依赖于人均国内生产总值指数X1和年末城镇人口数X2的变化，因此我们设定回归模型为 Y Y=Y0+Y1Y1Y+Y2Y2Y+Y Y 应用EViews的最小二乘法程序，输出结果如下表 Y?Y=5058.835+28.7491Y1Y?0.3982Y2Y

R2= Y???2= F= 异方差的检验 1.Goldfeld-Quandt检验 X1和X2的样本观测值均已按照升序排列，去掉中间X1和X2各5个观测值，用第一个子样本回归： Y?Y=?3510.668+5.9096Y1Y+0.0839Y2Y SSE1= 用第二个子样本回归： Y?Y=178636.6+107.5861Y1Y?4.7488Y2Y SSE2=6602898 H0=u t具有同方差， H1=u t具有递增型异方差构造F统计量。F=SSE2 SSE1=6602898 45633.64 =>(9,9) = 所以拒绝原假设，计量模型的随机误差项存在异方差 2.White检验因为模型中含有两个解释变量，辅助回归式一般形式如下 Y?Y2=Y0+Y1Y Y1+Y2Y Y2+Y3Y Y12+Y4Y Y22+Y5Y Y1Y Y2+Y Y 辅助回归式估计结果如下 Y?Y2=??40478.23Y Y1+1067.432Y Y2?18.9196Y Y12?0.0202Y Y22 +1.3633Y Y1Y Y2 因为TR2=>Y0.12 (5)= 该回归模型中存在异方差 3.克服异方差以1/X1做加权最小二乘估计，

经典线性回归模型自变量选择

§ 自变量选择信息时代的一个重要特征是数据便宜信息值钱，我们经常要从海量数据中挖掘有用信息。比如影响产品质量的因素，从生产过程、员工培训过程到原材料供应过程，可能多达几百个，甚至上千个。对这些质量指标和影响因素制造商在日常生产管理过程中都有记录。现在的问题是如何从这众多的影响因素中找出影响产品质量的重要因素。有时只需判断一个自变量对因变量是否有重要影响，而不需要了解它们之间的精确定量关系。比如判断原材料供应对产品质量是否有重要影响比了解它们之间的精确定量关系更重要。线性回归模型的自变量选择就是用于有众多自变量时识别重要自变量的方法。用于线性回归模型自变量选择的方法可分为两类：全局择优法和逐步回归法。一、全局择优法全局择优法就是用衡量回归模型与数据拟合程度的准则，从全部可能的回归模型中选择对数据拟合最优的回归模型。对于一个包含P 个自变量的回归问题，全部可能的回归模型有01 2P P P P P C C C +++=个，全局择优法要求出每个回归模型的准则值，然后找出最优的回归模型。回归模型对数据的拟合程度可用残差平方和来表示。残差平方和越小，模型拟合的越好。但残差平方和的大小与因变量的计量单位有关，因此我们定义了决定系数。决定系数越大，模型拟合的越好。决定系数不仅与因变量的计量单位无关，而且能说明在因变量的变异中，归功于自变量变化的部分所占比例。但不论是用残差平方和还是用决定系数来度量线性拟合模型拟合程度，都会得出模型中包含越多自变量拟合就越好的结论。但在样本容量给定的情况下，自变量越多，模型就越复杂，

模型参数估计就越不精确，导致模型应用的效果就越差。因此我们需要能综合用残差平方和表示的模型拟合精度和用模型中包含的自变量个数表示的模型复杂程度的准则，以便选择出最优的回归模型。回归分析中用于选择自变量的准则很多。由于残差平方和RSS p 和决定系数R 2只考虑模型拟合精度，因而只能作为自变量个数相同时自变量选择的准则。残差均方s 2和修正决定系数2 adj R 是一个综合模型拟合精度和模型复杂程度的准则。综合性准则除了残差均方和修正决定系数外，还有如下一些准则： ·Mallows C p 准则 )1(22 ++-= p n s RSS C p p 其中，s 2为包含全部自变量的拟合模型的残差均方，RSS p 为当前拟合模型的残差平方和，p 为当前拟合模型的自变量个数。 ·信息准则信息准则根据公式 npar *k +logLik *2- 计算，其中logLik= -n{log(RSS/n)+log(2π)+1}/2为当前拟合模型的对数似然函数，npar 为当前拟合模型的参数个数，当k=2时称为AIC 准则，当k=log(n)时称为BIC 准则。在小样本情况下，AIC 准则的表现不太好，为此人们提出的修正AIC 准则AICc ，其计算公式为 1 -npar -n n npar *2 +logLik *-2AICc = ()()1/1*2--++=napr n npar npar AIC

文档之家