当前位置:文档之家› 第八章__虚拟解释变量回归.doc

第八章__虚拟解释变量回归.doc

第八章__虚拟解释变量回归.doc
第八章__虚拟解释变量回归.doc

第八章虚拟变量回归

第一节虚拟变量

一、虚拟变量的基本概念

在前面的分析中,被解释变量主要受到一些可以直接度量的变量影响,如收入、产出、

商品需求量、价格、成本、资金、人数等。但现实经济生活中,影响被解释变量变动的因素,除了这些可以直接获得实际观测数据的定量变量外,还包括一些本质上为定性因素(或称属

性因素)的影响,例如性别、种族、肤色、职业、季节、文化程度、战争、自然灾害、政府经济政策的变动等因素。在实际经济分析中,这些定性变量有时具有不可忽视的重要影响。

例如,研究某个企业的销售水平,产业部门(制造业、零售业)、所有制(私营、非私营)、地理位置(东、中、西部)、管理者素质的高低等是值得经常考虑的影响因素,这些因素有共同的特征,即都是表示某种属性的,不能直接用数据精确描述的因素。因此,被解释变量的变动经常是定量因素和属性因素共同作用的结果。在计量经济模型中,应当同时包含定量和属性两种因素对被解释变量的影响作用。

定量因素是指那些可直接测度的数值型因素,如GDP、M2 等。定性因素,或称为属性

因素,是不能直接测度的、说明某种属性或状态存在与否的非数值型因素,如男性或女性、城市居民或非城市居民、气候条件正常或异常、政府经济政策不变与改革等。在计量经济学的建模中应当将定量因素和定性因素同时纳入模型之内。

为了在模型中反映定性因素,可以将定性因素转化为虚拟变量去表现。虚拟变量(或称为属性变量、双值变量、类型变量、定性变量、二元型变量等),是人工构造的取值为0 和1 的作为属性变量代表的变量,一般用字母

D (或DUM ,英文dummy 的缩写)表示。属性

因素通常具有若干类型或水平,通常虚拟变量的取值为0和1,当虚拟变量取值为0,即D=0 时,表示某种属性或状态不出现或不存在,即不是某种类型;当虚拟变量取值为1,即D=1 时,表示某种属性或状态出现或存在,即是某种类型。例如,构造政府经济政策人工变量,当经济政策不变时,虚拟变量取值为0,当经济政策改变时,虚拟变量取值为1。这种做法

实际上是一种变换或映射,将不能精确计量的定性因素的水平或状态变换为用0 和1 来定量描述。

二、虚拟变量的设置规则

在计量经济学模型中引入虚拟变量,可以使我们同时兼顾定量因素和定性因素的影响和作用。但是,在设置虚拟变量时应遵循一定的规则。

1、虚拟变量数量的设置规则

虚拟变量个数的设置规则是:若定性因素有m 个相互排斥的类型(或属性、水平),在有截距项的模型中只能引入m-1 个虚拟变量,否则会陷入所谓“虚拟变量陷阱”,产生完

全的多重共线性。在无截距项的模型中,定性因素有m个相互排斥的类型时,引入m个虚

拟变量不会导致完全多重共线性,不过这时虚拟变量参数的估计结果,实际上是D=1 时的

样本均值。

例如,城镇居民和农村居民住房消费支出的模型可设定为:

其 中 , C i 为 居 民 的 住 房 消 费 支 出 , Y i 为 居 民 的 可 支 配 收 入 , D i 为 虚 拟 变 量 , D i 1 城镇居民

,即当 D i 1时为城镇居民; 当 D i 0 时为其他 (农村居民)。这里区分城 Di 0 其他 i i

镇居民和农村居民的定性变量的类型有 m=2 个,按虚拟变量的设置规则应引入

m - 1=2- 1=1 个虚拟变量。

1 城镇居民 ,

1 农村居民

, 0 其他 D 3i 0 其他

3D 3i u i ( 8.2)

这时,当 D 2i =1 时同时有 D 3i =0;反之,当 D 2i =0 时有 D 3i =1。即对于任何被调查的居民家

庭都有D 2i + D 3i =1 , D 2和D 3存在完全的共线性,无法利用OLS 估计其参数,从而陷入“虚 拟变量陷阱” 。由此,所谓的 “虚拟变量陷阱 ”的实质是出现完全多重共线性。可见,虚拟变 量有其积极作用的一面, 也有不良影响的一面, 引入的虚拟变量适当, 则发挥了积极的作用, 引入的虚拟变量过度,则会带来负面的影响。

2、虚拟变量的 “0”和“1”的选取原则

虚拟变量取“ 1”或“ 0”的原则,应从分析问题的目的出发予以界定。从理论上讲,虚 拟变量取“ 0”值通常代表为比较的基础类型;而虚拟变量取“ 1 ”值通常代表为被比较的类

型。例如, 引入政府经济政策的变动对被解释变量的影响时, 由于此时的比较是在政府经济 政策不变的基础上进行的,故虚拟变量确定为:

1 基础类型 : 政府经济政策变动

D t 0 比较类型 : 政府经济政策不变

三、虚拟变量的作用 在计量经济模型中,虚拟变量可以发挥多方面的作用:

(1) 可以作为属性因素的代表,如性别、所有制等;

(2) 作为某些非精确计量的数量因素的代表,如受教育程度、管理者素质等;

(3) 作为某些偶然因素或政策因素的代表,如战争、灾害、改革前后等;

(4) 还可以作为时间序列分析中季节(月份)的代表;

C i

Y i 2D i u i 8.1)

但是,如果引入了 m=2 个虚假变量: D 2i 则有:

C i 1 Y i 2D

2i

(5)可以实现分段回归,研究斜率、截距的变动,或比较两个回归模型的结构差异。在计量经济学中,把包含有虚拟变量的模型称为虚拟变量模型。常用的虚拟变量模型有三种类型:(1)解释变量中只包含虚拟变量,作用是在假定其他因素都不变时,只研究定性变量是否使被解释变量表现出显著差异;(2)解释变量中既含定量变量,又含虚拟变量,研究定量变量和虚拟变量同时对被解释变量的影响;(3)被解释变量本身为虚拟变量的模型,

是被解释变量本身取值为0或1的模型,适于对某社会经济现象进行“是”与“否”的判断研究。

特别要注意的是,定型或属性变量,通常由1 个以上的虚拟变量描述。例如,分析考证区域这样一个定性因素的影响时,若将区域因素划分为东、中、西三种属性时,在有截距项的回归模型中,只能引人2 个虚拟变量,而这两个虚拟变量只是描述了1 个定性因素(区域因素),而不是2 个定性因素。当然,当定性因素为性别因素时,1 个虚拟变量就描述了1 个定性因素。

第二节虚拟解释变量的回归

在计量经济模型中,加入虚拟解释变量的途径有两种基本类型:一是加法类型;二是乘法类型。不同的途径引入虚拟变量有不同的作用,加法方式引入虚拟变量改变的是截距;乘法方式引入虚拟变量改变的是斜率。

一、用虚拟变量表示不同截矩的回归——加法类型以加法类型引入虚拟解释变量的模型,如(8.3)式那样,

Y t 1 2X t 3D u t (8.3)

在(8.3)所设定的计量经济模型中,虚拟解释变量与其他解释变量是相加关系。以加法形式引入虚拟解释变量,从计量经济模型的意义看,其作用是改变了设定模型的截距水平。

以加法方式引入虚拟变量时,分为四种情形:(1)解释变量只有一个分为两种相互排斥类型的定性变量而无定量变量;(2)解释变量包含一个定量变量和一个分为两种类型的定性变量;(3)解释变量包含一个定量变量和一个两种以上类型的定性变量;(4)解释变量包含

一个定量变量和两个定性变量。

1、解释变量只有一个分为两种相互排斥类型的定性变量而无定量变量的回归

这种情况的模型又被称为方差分析模型,例如(8.4)式

Y i D i u i 8.4)

其中, Y i 为居民的年可支配收入, D i 为虚拟解释变量, D i =1 代表城镇居民; D i =0 代表非 城镇居民。

8.4)式的意义是,假设其他因素(包括文化程度、职业、性别等)保持不变的条件

有:

其中:Y :消费支出;x :收入;D i 0城镇居民

模型( 8.7)的意义在于描述收入和城乡差别对居民消费支出的影响。 量解释变量 X 和一个分为两种类型的虚拟解释变量组成。注意这里一个定性变量具有两种 类型,只使用了一个虚拟变量。当( 8.7)式中的 u i 服从古典假定时,有:

基础类型: 农村居民消费支出: E Y i |x i ,D i 0 1 x i (8.8)

比较类型: 城镇居民消费支出: E Y i |x i ,D i 1 ( 1 2) x i (8.9) 其中 1为差异截距系数。 ( 8.7)式可图示为 8.1,表明非城镇居民与城镇居民两种类型收入函数的斜率相同(均

为 ),而截距水平不同。这说明,城镇居民和非城镇居民在消费支出水平上,存在着规模

下,研究城镇居民和非城镇居民的收入是否存在差别。当

u i 满足古典假设时,由式( 8.4)

非城镇居民的年平均收入: E (Y i |D i 0) (8.5)

城镇居民的年平均收入: E(Y i | D i 1)

8.6) 即在( 8.4)式中,截距项

给出了非城镇居民的年平均可支配收入水平,而另一系数 表明城镇居民年平均可支配水平不同于非城镇居民年平均可支配收入的部分。由式(

8.5) 和(8.6)可知,虚拟解释变量的作用是改变设定模型的截距水平。

为了检验城镇居民和非城镇居民的年均可支配收入是否有显著差别,可构造假设 H 0:

0 ,即城镇与非城镇居民年均可支配收入无差别。对式(

8.4)回归,依据 估计值的 t 检验是否显著,可作出接受或不能接受 H 0假设的判断。

2、解释变量包含一个定量变量和一个分为两种类型定性变量的回归

例如

Y i 1 2D i X i i 8.7)

8.7)式由一个定

为1的差异,而由收入因素而产生的平均消费支出水平变化却是相同的。

-a2

0X

图8.1城镇农村居民消费支出水平的差异

在H 0 : 1 0的假设下,对参数1估计值的t检验,可以进行消费支出是否存在城乡差异的检验。

3、解释变量包含一个定量变量和一个两种以上类型的定性变量的回归

考虑以下模型:

显然,模型( 8.9)是描述居民的年医疗保健费用支出与居民可支配收入(定量变量) 和受教育程度(定性变

量)间的因果关系。这里,定性因素(受教育的程度)划分为三种类 型;高中以下、高中、大专及大专以上。注意这里的定性变量有 3 种类型,依据虚拟变量设 置规则引入了 m - 1=3- 1=2 个虚拟变量,而且一个定性变量多种类型时,虚拟变量可同时 取值为 0,但不能同时取值为 1,因为同一定性变量的各种类型间 “非此即彼 ”。

当式( 8.10)服从古典假定时,有: 基础类型: 高中以下教育: E(Y i | X i ,D 2

0,D 3 0) 1 X 1 (8.11) 比较类型: 高中教育:

E(Y i |X i ,D 2 1,D 3 0) ( 1 2)

X i (8.12) 大专及大专以上 : E(Y i | X i ,D 2 0,D 3 1) ( 1 3) X i (8.13)

这表明,三种不同教育程度居民的医疗保健费用年均支出的起点水平(截距)不同,差

异截距系数为 2和3。对式(8.10)进行回归,检验 H 。: 2 0和H 。: , 0的t 检验可 以发现与比较基准组 (高中以下教育水平) 相比, 另两种类型截距的差异在统计上是否存在 显著差异。关于 2 3 0 的联合假设检验,也可由方差分析或 F 检验完成。

4、解释变量包含一个定量变量和两个定性变量的回归

以加法形式引入虚拟解释变量的作法, 很容易扩展到处理一个以上定性变量的情形。 例 如依据某地区家庭调查资料所建立的卷烟需求模型:

Q i

1 2D 2i 3D 3i Y i u i (8.14) 其中, Q i 为卷烟需求量,

Y i 为居民可支配收入,

D 2i 和D 3i 是虚拟解释变量, 1 城镇居民

1 男性 D 2i 0 其他 , D

3i 0 女性

一般认为, 城镇居民的卷烟消费量高于非城镇居民, 同时男性居民的吸烟量大于女性居 民。为了分析城乡差

别和性别差别对卷烟需求的影响,模型( 8 . 1 4 )以加法形式引入了两个 虚拟解释变量。注意,这里有两个定性变量选用了两个虚拟变量去表示,这并不会出现 “虚 拟变量陷阱 ”,对比前面一个定性变量有三种类型时也用了两个虚拟变量,二者性质是不同

Y i 1 2D 2i 3D 3i X i u i (8.10)

其中:Y i 为年医疗保健费用支出, X i 为居民的年可支配收入,

D 2

1高中及高中教育以上 0其他 ,D

3 1大专及大专以上

0其他

第七章 虚拟变量

第七章虚拟变量 第一节虚拟变量的引入 一、什么是虚拟变量 前面几章介绍的解释变量都是可以直接度量的,称为定量变量。如收入、支出、价格、资金等等。但在现实经济生活中,影响应变量变动的因素,除了这些可以直接获得实际观测数据的定量变量外,还包括一些无法定量的解释变量的影响,如性别、民族、国籍、职业、文化程度、政府经济政策变动等因素,他们只表示某种特征的存在与不存在,所以称为属性变量或定性变量。 属性变量:不能精确计量的说明某种属性或状态的定性变量。 在计量经济模型中,应当包含属性变量对应变量的影响作用。那怎么才能把定性变量包括在模型中呢?属性变量通常是非数值变量,直接纳入回归方程中进行回归,显然是很困难的。为此,人们采取了一种构造人工变量的方法,将这些定性变量进行量化,使其能与定量变量一样在回归模型中得以应用。 由于定性变量通常是表明某种特征或属性是否存在,如性别变量中以男性为分析基础的话,那就只有男性、非男性;政策变动变量中以政策不变为基准,则有政策不变,和政策变动;至于有两种以上的状态的话,比如学历分高中,本科,本科以上等等,我们又怎么办呢?把疑问留到后面去解决。既然定性变量只有存在或不存在两种状态,所以量化的一般方法是取值为0或1。称为虚拟变量。 虚拟变量:人工构造的取值为0或1的作为属性变量代表的变量。一般常用D表示。 D=0,表示某种属性或状态不存在D=1,表示某种属性或状态存在 比如前面说的性别变量,以男性为基准,则当样本为男性时,虚拟变量取0,当样本为女性时,则虚拟变量取1。 当虚拟变量作为解释变量引入计量经济模型时,对其回归系数的估计和统计检验方法都与定量解释变量相同。 二、虚拟变量的作用 1、作为属性因素的代表,如,性别、种族等 2、作为某些非精确计量的数量因素的代表,如:受教育程度、年龄段等; 3、作为某些偶然因素或政策因素的代表,如战争、911等。 4、时间序列分析中作为季节(月份)的代表(比如对某些明显有淡季、旺季之分的产品) 5、分段回归,研究斜率、截距的变动; 6、比较两个回归模型; 7、虚拟应变量概率模型,应变量本身是定性变量(比如你研究某产品的购买率,应变量本 身就是买或不买) 三、虚拟变量的设置规则 1、虚拟变量D取值为0,还是取值为1,要根据研究的目的决定。D取值为0的类型,是基础类型,是比较的基准。不如前面说的性别变量,如果你研究是以男性为研究基准,则样本为男性,D取值为0, 2、避免落入“虚拟变量陷阱”。 当一个定性变量含有m个相互排斥的类型时,应向模型引入m—1个虚拟变量。比如“性别”含男性和女性两个类别,所以当性别作为解释变量时,应向模型引入一个虚拟变量。取值方式是:D=1(男性)、D=0(女性)或D=0(男性)、D=1(女性) 而当“学历”含有四个类别时,即大学、中学、小学、无学历。当“学历”作为解释变量时,应向模型引入三个虚拟变量。一种取值方式是: 1 (大学)1(中学)1(小学) D1= 0 (非大学)D2 = 0(非中学)D3= 0(非小学) 所谓的“虚拟变量陷阱”就是当一个定性变量含有m个类别时,模型引入m个虚拟变量,造成了虚拟变量之间产生完全多重共线性,无法估计回归参数。 在m-1个虚拟变量中,虚拟变量可以同时取值为0,但不能全部取值为1。 3、当定性变量含有m个类别时,不能把虚拟变量的值设为D=0(第一类)D=1(二类)D=2(三类)等等。

第五章 虚拟变量模型和滞后变量模型

1. 表5.1中给出了中国1980—2001年以城乡储蓄存款新增额代表的居民当年储蓄及以GNP 代表的居民当年收入的数据。以1991年为界,判断1991年前和1991年后的两个时期中国居民的储蓄—收入关系是否已发生变化。 表5.1 1980—2001年中国居民储蓄与收入数据 单位:亿元 年份 储蓄S GNP 年份 储蓄S GNP 1980 118.5 4517.8 1991 2072.8 21662.5 1981 124.2 4860.3 1992 2438.4 26651.9 1982 151.7 5301.8 1993 3217 34560.5 1983 217.1 5957.4 1994 6756.4 46670 1984 322.2 7206.7 1995 8143.5 57494.9 1985 407.9 8989.1 1996 8858.5 66850.5 1986 615 10201.4 1997 7759 73142.7 1987 835.7 11954.5 1998 7127.7 76967.2 1988 728.2 14922.3 1999 6214.3 80579.4 1989 1345.4 16917.8 2000 4710.6 88228.1 1990 1887.3 18598.4 2001 9430 94346.4 估计以下回归模型: 0123()i i i i i i Y X D D X u ββββ=++++ 其中i D 为引入的虚拟变量:1,19910,1991i D ?=?? 年前年后 对上面的模型进行估计,结果如下: 所以表达式为: 15350.0751981.90.032()i i i i i Y X D D X =+-+ (1.40) (4.45) (-1.38) (0.37)

计量经济学第七章第5,6,7题答案

第7章练习5 解:根据Eview 软件得如下表: Dependent Variable: Y Method: ML - Binary Logit (Quadratic hill climbing) Date: 05/22/11 Time: 22:19 Sample: 1 16 Included observations: 16 Convergence achieved after 5 iterations Covariance matrix computed using second derivatives Variable Coefficient Std. Error z-Statistic Prob.?? C Q V McFadden R-squared ????Mean dependent var . dependent var ????. of regression Akaike info criterion ????Sum squared resid Schwarz criterion ????Log likelihood Hannan-Quinn criter. ????Restr. log likelihood LR statistic ????Avg. log likelihood Prob(LR statistic) Obs with Dep=0 7 ?????Total obs 16 Obs with Dep=1 9 于是,我们可得到Logit 模型为: V Q i 0177.0004.0107.11Y ?++-= () () () 685.40R 2 MCF = , LR(2)= 如果在Binary estination 这一栏中选择Probit 估计方法,可得到如下表:

第八章 虚拟变量回归 思考题

第八章 虚拟变量回归 思考题 8.1 什么是虚拟变量 ? 它在模型中有什么作用 ? 8.2 虚拟变量为何只选 0 、 1, 选 2 、 3 、 4 行吗 ? 为什么 ? 8.3 对 (8.10) 式的模型 , 如果选择一个虚拟变量 1,01D ?? =??-? 大专及大专以上,高中 ,高中以下 这样的设置方式隐含了什么假定 ? 这一假定合理吗 ? 8.4 引入虚拟解释变量的两种基本方式是什么 ? 它们各适用于什么情况 ? 8.5 四种加法方式引入虚拟变量会产生什么效应? 8.6 引入虚拟被解释变量的背景是什么?含有虚拟被解释变量模型的估计方法有哪些 ? 8.7 设服装消费函数为 12233t i i i i Y D D X u αααβ=++++ 其中, i X =收入水平 ;Y = 年服装消费支出 ; 1,30D ?=? ?大专及大学以上 ,其他 ;1,20D ?=??女性,其他 试写出不同人群组的服装消费函数模型。 8.8 利用月度数据资料 ,为了检验下面的假设,应引入多少个虚拟解释变量 ? 1) 一年里的 12 个月全部表现出季节模式 ; 2) 只有 2 月、 6 月、 8 月、 10 月和 12 月表现出季节模式。 练习题 8.1 1971 年 ,Sen 和 Sztvastava 在研究贫富国之间期望寿命的差异时 , 利用 101 个国家的数据 , 建立了如下回归模型 []? 2.409.39ln 3.36(ln 7)i i i i Y X D X =-+-- (4.37)(0.857)(2.42) R2=0.752 其中 ,X 是以美元计的人均收入 ;Y 是以年计的期望寿命 ; Sen 和 Srimstava 认为人均收入的临界值为 1097 美元 (ln1097=7), 若人均收入超过 1097 美元 , 则被认定为富国 ; 若人均收入低于1097美元 , 被认定为贫穷国。括号内的数值为对应参数估计值的t 值。 1) 解释这些计算结果。 2) 回归方程中引入(ln 7)i i D X =-的原因是什么?如何解释这个回归解释变量? 3) 如何对贫穷国进行回归 ? 又如何对富国进行回归 ? 4)这个回归结果中可得到的一般结论是什么 ?

计量经济学:第八章 虚拟变量回归

第八章 虚拟变量回归 第一节 虚拟变量的概念 一、问题的提出 计量经济学模型对变量的要求——可观测、可计量。但在现实经济问题中,存在定性影响因素,比如 1、属性(品质)因素的表达。 在经济活动中,有的经济变量的变动要受到属性因素(或品质因素)的影响。如收入在形成过程中,不同的性别所得到的收入是不一样的;在城乡、不同地区等收入存在差距;再比如,在我国,经济的发展水平对于不同的区域有不同的表现。 2、异常值现象。 当经济运行过程中,可能会受到突发事件的影响,那么,其值有可能出现异常,偏离正常轨迹很远,对这类现象需要加以修正。 3、季节因素的影响。 有的经济现象存在明显的季节特征,如啤酒的消费。那么,在建模过程中,季节变动这一因素怎样考虑? 4、离散选择现象的描述。 如公共交通与私人交通的选择、商品购买与否的决策、求职者对职业的选择等。 第1、2、3种情况属于解释变量为定性变量,第4情况为被解释变量属于定性变量。称前一种情况为虚拟解释变量,后一种为虚拟被解释变量。本章主要介绍虚拟解释变量的内容。 二、虚拟变量的定义 1、定义。设变量D 表示某种属性,该属性有两种类型,即当属性存在时D 取值为1;当属性不存在时D 取值为0。记为 ???=不具有该属性 具有某种属性01D

2、虚拟变量引入的规则。 (1)在模型里存在截距项的条件下,如果一个属性存在m 个相互排斥类型(非此即彼),则在模型里引入m-1个虚拟变量。否则,会出现完全的多重共线性。但要注意,在模型无截距项的情况下,如果一个属性存在m 个类型,即便引入m 个变量,不会出现多重共线性问题。( 请思考为什么?) (2)虚拟变量取值为0,意味着所对应的类型是基础类型。而虚拟变量取值为1,代表与基础类型相比较的类型,称为比较类型。例如“有学历”D 为1,“无学历”D 为0,则“无学历”就是基础类型,“有学历”为比较类型。 (3)当属性有m 个类型时,不能把虚拟变量的取值设成如下情况 D=0, 第一个类型; D=1, 第二个类型; …… D=m-1, 第m 个类型。 原因是上述情况没有反映出属性类型的相互排斥性。 第二节 虚拟解释变量的回归 一、加法引入规则 1、加法引入规则,虚拟解释变量与别的解释变量以相加的关系出现在模型里。加法引入虚拟变量对模型产生的结果是只改变截距项。 设模型为 123i i i i Y X D u βββ=+++ 式中,i D 为虚拟变量,它与其它解释变量是相加的关系。如果虚拟变量按这种方式引入模型,则称虚拟变量按加法类型引入。 2、加法引入虚拟变量的应用。 (1)模型中只有一个定性解释变量。 设模型形式为 12i i i Y D u ββ=++ n i ,,3,2,1 = 其中,i D 为具有两个属性类型的定性变量,如在教材第217页,设i Y 为居民的

第七章_虚拟变量

虚拟变量(dummy variable ) 在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。 由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量,用D 表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。 1.截距移动 设有模型, y t = β0 + β1 x t + β2D + u t , 其中y t ,x t 为定量变量;D 为定性变量。当D = 0 或1时,上述模型可表达为, β0 + β1x t + u t , (D = 0) y t = (β0 + β2) + β1x t + u t , (D = 1) 20 40 60 20 40 60X Y 图8.1 测量截距不同 D = 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若β2显著不为零,说明截距不同;若β2为零,说明这种分类无显著性差异。 例:中国成年人体重y (kg )与身高x (cm )的回归关系如下: –105 + x D = 1 (男) y = - 100 + x - 5D = – 100 + x D = 0 (女) 注意: ① 若定性变量含有m 个类别,应引入m -1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummy variable trap )。 ② 关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。 ③ 定性变量中取值为0所对应的类别称作基础类别(base category )。 ④ 对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如: 1 (大学) D = 0 (中学) -1 (小学)。 β0 β0+β2 D = 1 D =0

第七章 虚拟变量和随机解释变量 (2)

第七章 虚拟变量和随机解释变量 本章将讨论两种不同的模型:虚拟变量模型和随机解释变量模型,以及模型设定的其它问题。 第一节 虚拟变量模型 在我们以前考虑的模型中,解释变量都是定量变量(如成本、价格、收入、产出等),但在经济研究中,因变量经常受到一些定性变量的影响(如性别、种族、季节、不同历史时期等),我们把这类定性变量称为虚拟变量。习惯上用D表示虚拟变量,虚拟变量的取值通常为0和1。0表示变量具备某种属性,1表示变量不具备某种属性。 一、包含一个虚拟变量的模型 如果我们要研究的问题中解释变量只分为两类。则需引入一个模拟变量。 例9.1建立模型研究中国妇女在工作中是否受到歧视。 令Y=年薪,X=工作年限 ? ? ?=,女性,男性 101D 可以建立如下模型: i i i i u D B X B B Y +++=210 )1.9( 与一般的回归模型一样,假定0)(=i u E 男性就业者的平均年薪: i i i i X B B D X Y E 10)0,(+== )2.9( 女性就业者的平均年薪: 210)1,(B X B B D X Y E i i i i ++== )3.9( 如果B 2=0则说明不存在性别歧视,如果02

如果随着工龄增加,男性与女性的年薪差距也发生变化,则模型(9.1)就变为 i i i i i u X D B X B B Y +++=210 )4.9( 图9.2描绘了男性年薪增加较快的情况。 我们称虚拟变量只影响斜率而不影响截距的模型为乘法模型如(9.4) 如果男性与女性的初始年薪和年薪增加速度都有差异,我们可以将加法模型和乘法模型 结合起来,得到如下模型 i i i i i i u D B X D B X B B Y ++++=3210 )5.9( 模型(9.5)可以用来表示截距和斜率都发生变化的模型。其图形如图9.3所示。 我们还可以用加法模型与乘法模型相结合的方式建立模型来拟合经济发展出现转折的 情况。例如,进口商品消费支出Y主要取决于国民生产总值X(作为收入的替代变量)的多少。我们改革开放前后,由于国家政策的变化,及改革开放后外资的大量引入等因素的影响,1978年前后,Y 对X 的回归关系明显不同。以t *=1978年为转折点,1978年的国民生产总值X *t 为临界值。设虚拟变量

第8章 虚拟变量回归

计量经济学课程教案授课题目(教学章、节或主题): 第8章 虚拟变量回归 授课时间 安排 第16周共2课时教学器材与工具多媒体 授 课 类 型(请打√)理论课√讨论课□ 实验课□ 习题课□ 双语课程□ 其他□ 教学目的、要求(分掌握、熟悉、了解三个层次): 1、熟悉虚拟变量的含义; 2、掌握虚拟变量设置原则; 3、掌握虚拟变量回归引入方法; 4、了解虚拟被解释变量模型。 教学重点及难点: 虚拟变量回归引入方法与估计方法 教 学 基 本 内 容 §1 虚拟变量 §2 虚拟解释变量的回归 §3 虚拟被解释变量* §4 案例分析 教学过程设计: 一、引入 二、讲授 三、小结 教学方法及手段(请打√):讲授√、讨论□、多媒体讲解√、模型、实物讲解□、挂图讲解□、音像讲解□等。 作业、讨论题、思考题: 1、什么是虚拟变量?它在模型中有什么作用? 参考资料(含参考书、文献等):《计量经济学》,(美)D.Gujarati 著,林少宫译;《计量经济学》,李子奈编著;《经济计量学精要》,(美)D.Gujarati著,张寿等译。 课后小结:虚拟变量从本质上说是“数据分类器”,它根据样本的属性(性别、婚姻状况、种族、宗教等等)将样本分为各个不同的子群体并对

每个子群体进行回归分析。若模型包含多个定性变量,而且每个定性变量有多种分类,则引入模型的虚拟变量将消耗大量的自由度。因此,应当权衡进入模型的虚拟变量的个数以免超过样本观察值的个数。

第8章 虚拟变量回归 §8.1 虚拟变量 一、虚拟变量的基本含义 许多经济变量是可以定量度量的,如:商品需求量、价格、收入、产量等。 但也有一些影响经济变量的因素无法定量度量,如:职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等等。 为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”, 这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为虚拟变量(dummy variables),记为D。 例如,反映文程度的虚拟变量可取为: 1, 本科学历 D= 0, 非本科学历 一般地,在虚拟变量的设置中: 基础类型、肯定类型取值为1; 比较类型,否定类型取值为0。 二、虚拟变量的设置原则 虚拟变量的个数须按以下原则确定: 每一定性变量所需的虚拟变量个数要比该定性变量的类别数少1,即如果有m个定性变量,只在模型中引入m-1个虚拟变量。 例。已知冷饮的销售量Y除受k种定量变量Xk的影响外,还受春、夏、秋、冬四季变化的影响,要考察该四季的影响,只需引入三个虚拟变量即可: 则冷饮销售量的模型为: 在上述模型中,若再引入第四个虚拟变量:

计量经济学课件第八章 虚拟变量回归

计量经济学课件第八章虚拟变量回归 第八章虚拟变量回归 1 / 65

计量经济学课件第八章 虚拟变量回归 2 / 65 引子:男女大学生消费真有差异吗? 在对在校学生的消费行为进行的调查中,发现在校 生的消费行为呈现多元化的结构。人际交往消费、 手机类消费、衣着类消费、化妆品类消费、电脑类 消费、旅游类消费占有较大的比例;而食品类消费、 学习用品类消费不突显。 显然,男女生在消费上存在差异。为了了解男、女 生的消费支出结构差异,应当如何建立模型? 面临的问题:如何把男女生这样的非数量变量引

计量经济学课件第八章 虚拟变量回归 3 / 65 问题的一般性描述 在实际建模中,一些定性变量具有不可忽视的重要 影响。例如,研究某个企业的销售水平,产业属性 (制造业、零售业)、所有制(私营、非私营)、 地理位置(东、中、西部)、管理者的素质、不同 的收入水平等是值得考虑的重要影响因素,但这些 因素共同的特征是定性描述的。 如何对非定量因素进行回归分析? 采用“虚拟变量”对定性变量进行量化一种思路。

计量经济学课件第八章 虚拟变量回归 4 / 65 第八章 虚拟变量回归 本章主要讨论: ●虚拟变量 ●虚拟解释变量的回归 ●虚拟被解释变量的回归(选讲,不包括)

计量经济学课件第八章 虚拟变量回归 5 / 65 第一节 虚拟变量 本节基本内容: ●基本概念 ●虚拟变量设置规则

计量经济学课件第八章 虚拟变量回归 6 / 65 一、基本概念 定量因素:可直接测度、数值性的因素。 定性因素:属性因素,表征某种属性存在与否的 非数值性的因素。 基本思想: 直接在回归模型中加入定性因素存在诸多的困难 (那些困难?),是否可将这些定性因素进行量 化,以达到定性因素能与定量因素有着相同作用 之目的。

第七章 虚拟变量回归

第七章 虚拟变量回归 第一节 虚拟变量的性质 在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、政府的更迭(工党-保守党)、经济体制的改革、固定汇率变为浮动汇率、从战时经济转为和平时期经济等。这些因素也应该包括在模型中。 一、基本概念 由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量(dummy variable )。虚拟变量也称:哑元变量、定性变量等等。通常用字母D 或DUM 加以表示(英文中虚拟或者哑元Dummy 的缩写)。 用1表示具有某一“品质”或属性,用0表示不具有该“品质”或属性。 虚拟变量使得我们可以将那些无法定量化的变量引入回归模型中。 虚拟变量应用于模型中,对其回归系数的估计与检验方法和定量变量相同。 虚拟变量表示两分性质,即“是”或“否”,“男”或“女”等。 下面给出几个可以引入虚拟变量的例子。 例1:你在研究学历和收入之间的关系,在你的样本中,既有女性又有男性,你打算研究在此关系中,性别是否会导致差别。 例2:你在研究某省家庭收入和支出的关系,采集的样本中既包括农村家庭,又包括城镇家庭,你打算研究二者的差别。 例3:你在研究通货膨胀的决定因素,在你的观测期中,有些年份政府实行了一项收入政策。你想检验该政策是否对通货膨胀产生影响。 上述各例都可以用两种方法来解决,一种解决方法是分别进行两类情况的回归,然后看参数是否不同。另一种方法是用全部观测值作单一回归,将定性因素的影响用虚拟变量引入模型。 二、虚拟变量设置规则 虚拟变量的设置规则涉及三个方面: 1.“0”和“1”选取原则 虚拟变量取“1”或“0”的原则,应从分析问题的目的出发予以界定。 从理论上讲,虚拟变量取“0”值通常代表比较的基础类型;而虚拟变量取“1”值通常代表被比较的类型。 “0”代表基期(比较的基础,参照物);“1”代表报告期(被比较的效应)。 例如,比较收入时考察性别的作用。当研究男性收入是否高于女性时,是将女性作为比较的基础(参照物),故有男性为“1”,女性为“0”。 2.属性(状态、水平)因素与设置虚拟变量数量的关系 定性因素的属性既可能为两种状态,也可能为多种状态。例如,性别(男、女两种)、季节(4种状态),地理位置(东、中、西部),行业归属,所有制,收入的分组等。 虚拟变量数量的设置规则 1.若定性因素具有 m (m ≥2) 个相互排斥属性(或几个水平),当回归模型有截距项时,只能引入m 个虚拟变量; 2.当回归模型无截距项时,则可引入m 个虚拟变量;否则,就会陷入“虚拟变量陷阱”。 (0,1) (0,0)D D ????? 12(1,0)天气阴如:(,)=天气雨其 他

相关主题
文本预览
相关文档 最新文档