当前位置:文档之家› 虚拟解释变量回归

虚拟解释变量回归

虚拟解释变量回归
虚拟解释变量回归

虚拟变量回归

第一节虚拟变量

一、虚拟变量的基本概念

在前面的分析中,被解释变量主要受到一些可以直接度量的变量影响,如收入、产出、商品需求量、价格、成本、资金、人数等。但现实经济生活中,影响被解释变量变动的因素,除了这些可以直接获得实际观测数据的定量变量外,还包括一些本质上为定性因素(或称属性因素)的影响,例如性别、种族、肤色、职业、季节、文化程度、战争、自然灾害、政府

经济政策的变动等因素。在实际经济分析中,这些定性变量有时具有不可忽视的重要影响。例如,研究某个企业的销售水平,产业部门(制造业、零售业)、所有制(私营、非私营)、地理位置(东、中、西部)、管理者素质的高低等是值得经常考虑的影响因素,这些因素有共同的特征,即都是表示某种属性的,不能直接用数据精确描述的因素。因此,被解释变量的变动经常是定量因素和属性因素共同作用的结果。在计量经济模型中,应当同时包含定量和属性两种因素对被解释变量的影响作用。

定量因素是指那些可直接测度的数值型因素,如GDP、M2等。定性因素,或称为属性因素,是不能直接测度的、说明某种属性或状态存在与否的非数值型因素,如男性或女性、城市居民或非城市居民、气候条件正常或异常、政府经济政策不变与改革等。在计量经济学的建模中应当将定量因素和定性因素同时纳入模型之内。

为了在模型中反映定性因素,可以将定性因素转化为虚拟变量去表现。虚拟变量(或称为属性变量、双值变量、类型变量、定性变量、二元型变量等),是人工构造的取值为0和1的作为属性变量代表的变量,一般用字母D(或DUM,英文dummy的缩写)表示。属性因素通常具有若干类型或水平,通常虚拟变量的取值为0和1,当虚拟变量取值为0,即D=0时,表示某种属性或状态不出现或不存在,即不是某种类型;当虚拟变量取值为1,即D=1时,表示某种属性或状态出现或存在,即是某种类型。例如,构造政府经济政策人工变量,当经济政策不变时,虚拟变量取值为0,当经济政策改变时,虚拟变量取值为1。这种做法实际上是一种变换或映射,将不能精确计量的定性因素的水平或状态变换为用0 和 1 来定量描述。

二、虚拟变量的设置规则

在计量经济学模型中引入虚拟变量,可以使我们同时兼顾定量因素和定性因素的影响和作用。但是,在设置虚拟变量时应遵循一定的规则。

1、虚拟变量数量的设置规则

虚拟变量个数的设置规则是:若定性因素有m个相互排斥的类型(或属性、水平),在有截距项的模型中只能引入m-1个虚拟变量,否则会陷入所谓“虚拟变量陷阱”,产生完全的多重共线性。在无截距项的模型中,定性因素有m个相互排斥的类型时,引入m个虚拟变量不会导致完全多重共线性,不过这时虚拟变量参数的估计结果,实际上是D=1时的样本均值。

例如,城镇居民和农村居民住房消费支出的模型可设定为:

i i i i u D Y C +++=21αβα (8.1)

其中,i C 为居民的住房消费支出,i Y 为居民的可支配收入,i D 为虚拟变量,

10i D ?=??城镇居民其他,即当1=i D 时为城镇居民;当0=i D 时为其他(农村居民)

。这里区分城镇居民和农村居民的定性变量的类型有m=2个,按虚拟变量的设置规则应引入m -1=2-1=1个虚拟变量。

但是,如果引入了m=2个虚假变量:210i D ?=??城镇居民其他 , 310i D ?=??农村居民其他

, 则有:

i i i i i u D D Y C ++++=33221ααβα (8.2)

这时,当i D 2=1时同时有i D 3=0;反之,当i D 2=0时有i D 3=1。即对于任何被调查的居民家庭都有i D 2+i D 3=1,2D 和3D 存在完全的共线性,无法利用OLS 估计其参数,从而陷入“虚拟变量陷阱”。由此,所谓的“虚拟变量陷阱”的实质是出现完全多重共线性。可见,虚拟变量有其积极作用的一面,也有不良影响的一面,引入的虚拟变量适当,则发挥了积极的作用,引入的虚拟变量过度,则会带来负面的影响。

2、虚拟变量的“0”和“1”的选取原则

虚拟变量取“1”或“0”的原则,应从分析问题的目的出发予以界定。从理论上讲,虚拟变量取“0”值通常代表为比较的基础类型;而虚拟变量取“1”值通常代表为被比较的类型。例如,引入政府经济政策的变动对被解释变量的影响时,由于此时的比较是在政府经济政策不变的基础上进行的,故虚拟变量确定为:

1:0:t D ?=??

基础类型政府经济政策变动比较类型政府经济政策不变 三、虚拟变量的作用

在计量经济模型中,虚拟变量可以发挥多方面的作用:

(1)可以作为属性因素的代表,如性别、所有制等;

(2)作为某些非精确计量的数量因素的代表,如受教育程度、管理者素质等;

(3)作为某些偶然因素或政策因素的代表,如战争、灾害、改革前后等;

(4)还可以作为时间序列分析中季节(月份)的代表;

(5)可以实现分段回归,研究斜率、截距的变动,或比较两个回归模型的结构差异。 在计量经济学中,把包含有虚拟变量的模型称为虚拟变量模型。常用的虚拟变量模型有三种类型:(1)解释变量中只包含虚拟变量,作用是在假定其他因素都不变时,只研究定性变量是否使被解释变量表现出显著差异;(2)解释变量中既含定量变量,又含虚拟变量,研究定量变量和虚拟变量同时对被解释变量的影响;(3)被解释变量本身为虚拟变量的模型,是被解释变量本身取值为0或1的模型,适于对某社会经济现象进行“是”与“否”的判断研究。

特别要注意的是,定型或属性变量,通常由1个以上的虚拟变量描述。例如,分析考证区域这样一个定性因素的影响时,若将区域因素划分为东、中、西三种属性时,在有截距项的回归模型中,只能引人2个虚拟变量,而这两个虚拟变量只是描述了1个定性因素(区域因素),而不是2个定性因素。当然,当定性因素为性别因素时,1个虚拟变量就描述了1个定性因素。

第二节 虚拟解释变量的回归

在计量经济模型中,加入虚拟解释变量的途径有两种基本类型:一是加法类型;二是乘法类型。不同的途径引入虚拟变量有不同的作用,加法方式引入虚拟变量改变的是截距;乘法方式引入虚拟变量改变的是斜率。

一、用虚拟变量表示不同截矩的回归——加法类型

以加法类型引入虚拟解释变量的模型,如(8.3)式那样,

123t t t Y X D u ααα=+++ (8.3)

在(8.3)所设定的计量经济模型中,虚拟解释变量与其他解释变量是相加关系。以加法形式引入虚拟解释变量,从计量经济模型的意义看,其作用是改变了设定模型的截距水平。

以加法方式引入虚拟变量时,分为四种情形:(1)解释变量只有一个分为两种相互排斥类型的定性变量而无定量变量;(2)解释变量包含一个定量变量和一个分为两种类型的定性变量;(3)解释变量包含一个定量变量和一个两种以上类型的定性变量;(4)解释变量包含一个定量变量和两个定性变量。

1、解释变量只有一个分为两种相互排斥类型的定性变量而无定量变量的回归

这种情况的模型又被称为方差分析模型,例如(8.4)式

i i i u D Y ++=βα

(8.4)

其中,i Y 为居民的年可支配收入,i D 为虚拟解释变量,i D =1代表城镇居民;i D =0代表非城镇居民。

(8.4)式的意义是,假设其他因素(包括文化程度、职业、性别等)保持不变的条件下,研究城镇居民和非城镇居民的收入是否存在差别。当i u 满足古典假设时,由式(8.4)有:

非城镇居民的年平均收入:α==)0|(i i D Y E (8.5)

城镇居民的年平均收入: βα+==)1|(i i D Y E (8.6)

即在(8.4)式中,截距项α给出了非城镇居民的年平均可支配收入水平,而另一系数β则表明城镇居民年平均可支配水平不同于非城镇居民年平均可支配收入的部分。由式(8.5)和(8.6)可知,虚拟解释变量的作用是改变设定模型的截距水平。

为了检验城镇居民和非城镇居民的年均可支配收入是否有显著差别,可构造假设H 0:0=β,即城镇与非城镇居民年均可支配收入无差别。对式(8.4)回归,依据β估计值的t 检验是否显著,可作出接受或不能接受H 0假设的判断。

2、解释变量包含一个定量变量和一个分为两种类型定性变量的回归

例如 12i i i i Y D X ααβμ=+++ (8.7)

1:0i Y X D ?=??城镇居民其中:消费支出;:收入;农村居民

模型(8.7)的意义在于描述收入和城乡差别对居民消费支出的影响。(8.7)式由一个定量解释变量X 和一个分为两种类型的虚拟解释变量组成。注意这里一个定性变量具有两种类型,只使用了一个虚拟变量。当(8.7)式中的i u 服从古典假定时,有:

基础类型:()1|,0i i i i E Y X D X αβ==+农村居民消费支出: (8.8)

比较类型:()12|,1i i i i E Y X D X ααβ==++城镇居民消费支出:() (8.9) 其中1α为差异截距系数。

(8.7)式可图示为8.1,表明非城镇居民与城镇居民两种类型收入函数的斜率相同(均为β),而截距水平不同。这说明,城镇居民和非城镇居民在消费支出水平上,存在着规模

为1α的差异,而由收入因素而产生的平均消费支出水平变化却是相同的。

图8.1 城镇农村居民消费支出水平的差异

在0:10=αH 的假设下,对参数1α估计值的t 检验,可以进行消费支出是否存在城乡差异的检验。

3、解释变量包含一个定量变量和一个两种以上类型的定性变量的回归

考虑以下模型:

i i i i i u X D D Y ++++=βααα33221

(8.10)

其中:i Y 为年医疗保健费用支出,i X 为居民的年可支配收入,

210D ?=??高中及高中教育以上其他,310D ?=??大专及大专以上其他 0

X 1 2a

显然,模型(8.9)是描述居民的年医疗保健费用支出与居民可支配收入(定量变量)和受教育程度(定性变量)间的因果关系。这里,定性因素(受教育的程度)划分为三种类型;高中以下、高中、大专及大专以上。注意这里的定性变量有3种类型,依据虚拟变量设置规则引入了m -1=3-1=2个虚拟变量,而且一个定性变量多种类型时,虚拟变量可同时取值为0,但不能同时取值为1,因为同一定性变量的各种类型间“非此即彼”。

当式(8.10)服从古典假定时,有:

基础类型:高中以下教育:1132)0,0,|(X D D X Y E i i βα+=== (8.11) 比较类型:高中教育: i i i X D D X Y E βαα++===)()0,1,|(2132 (8.12)

大专及大专以上:i i i X D D X Y E βαα++===)()1,0,|(3132 (8.13)

这表明,三种不同教育程度居民的医疗保健费用年均支出的起点水平(截距)不同,差异截距系数为2α和3α。对式(8.10)进行回归,检验0:20=αH 和0:10=αH 的t 检验可以发现与比较基准组(高中以下教育水平)相比,另两种类型截距的差异在统计上是否存在显著差异。关于032==αα的联合假设检验,也可由方差分析或F 检验完成。

4、解释变量包含一个定量变量和两个定性变量的回归

以加法形式引入虚拟解释变量的作法,很容易扩展到处理一个以上定性变量的情形。例如依据某地区家庭调查资料所建立的卷烟需求模型:

i i i i i u Y D D Q ++++=βααα33221 (8.14)

其中,i Q 为卷烟需求量,i Y 为居民可支配收入,i D 2和i D 3是虚拟解释变量,

210i D ?=??城镇居民其他 ,310i D ?=??男性女性

一般认为,城镇居民的卷烟消费量高于非城镇居民,同时男性居民的吸烟量大于女性居民。为了分析城乡差别和性别差别对卷烟需求的影响,模型(8.14)以加法形式引入了两个虚拟解释变量。注意,这里有两个定性变量选用了两个虚拟变量去表示,这并不会出现“虚拟变量陷阱”,对比前面一个定性变量有三种类型时也用了两个虚拟变量,二者性质是不同的。而且注意这里的i D 2和i D 3是代表不同定性变量的虚拟变量,可以同时为0,也可同时为1,因为不同定性变量间并没有“非此即彼”的关系。

当式(8.14)满足古典假设时,有:

基础类型:农村女性居民:i i i Y D D Y Q E βα+===132)0,0,|( (8.15) 比较类型:农村男性居民:i i i Y D D Y Q E βαα++===)()1,0,|(3132 (8.16)

城镇女性居民:i i i Y D D Y Q E βαα++===)()0,1,|(2132 (8.17)

城镇男性居民:i i i Y D D Y Q E βααα+++===)()1,1,|(32132 (8.18)

显然,模型(8.14)是以农村女性居民为基础类型,并假设各种类型居民的卷烟需求函

数只是有不同的截距,相对于收入的斜率系数β相同。用t 检验分别检验2?α

和3?α的统计显著性,可验证两个定性变量对截距是否有显著影响。

上述讨论的结果,可以推广到解释变量有多个定量变量和多个定性变量的情形。在推广过程中需要注意引入虚拟变量的个数应遵从前述的设置规则。例如,在考虑季节因素对冷饮销售量影响时,有春、夏、秋、冬四个类型的季节,依据设置规则,可引入m -1=4-1=3个虚拟解释变量。

二、用虚拟变量表示不同斜率的回归——乘法类型

以乘法形式引入虚拟解释变量,是在所设定的计量经济模型中,将虚拟解释变量与其他解释变量相乘作为解释变量,以表示模型中斜率系数的差异。以乘法形式引入虚拟解释变量的主要作用在于:①关于两个回归模型的比较;②因素间的交互影响分析;③提高模型对现实经济现象的描述精度。

1、回归模型的比较——结构变化检验

以加法方式引入虚拟解释变量,属性因素仅影响不同类型模型的平均水平,而不会影响不同类型模型的相对变化。但是在现实经济生活中,属性因素也可能影响模型的斜率系数发生变化。例如,随着可支配收入水平的提高,城乡居民的消费结构将出现较大的差异,这种差异会表现在定性因素对斜率的影响上。又如,研究我国改革开放前后储蓄——收入总量间关系是否发生了变化时,也存在着经济结构变化而导致模型斜率发生变化的问题。这类问题可归结于两个回归模型的比较。例如,在研究改革开放前后储蓄——收入总量关系时,所设定的模型为:

改革开放前:121t t t Y X u λλ=++ t=1950,1951,……,1977

(8.19) 改革开放后:122t t t Y X u γγ=++ t=1978,1979,……,2004 (8.20)

其中:Y 为储蓄总额(亿元),X 为收入总额(亿元),t u 1、t u 2为随机扰动项。如果我

们分别对式(8.19)和式(8.20)在不同的时间区间内回归,则可能得到以下四种结果:

(1)2211,γλγλ==,表明这两个回归模型是相同的,或称为重合回归;

(2)2211,γλγλ==,表明这两个回归模型仅在位置水平上(即截距水平上)存在差异,或称为平行回归;

(3)2211,γλγλ≠=,表明这两个回归模型具有相同的位置水平(或起点相同)而变化速率不等,或称为共点回归;

(4)2211,γλγλ≠≠,表明这两个回归模型完全不相同,或称为不同的回归。

以上四种情形可用图示法描述(见图8.2):

储蓄 收入 收入 2λ 11λγ= 1λ 1γ

2 2 (a )重合回归 (b )平行回归

图8.2储蓄—收入回归模型

现在的问题是,当我们运用样本数据对式(8.14)和式(8.15)进行回归后,如何界定所得结果在统计意义上属于哪一种类型呢?这时可采用以乘法形式引入虚拟变量的方法。例如,对于改革开放前后储蓄——收入模型,可设定为:

t t t t t t u X D X D Y ++++=)(2121ββαα

(8.21) 其中,Y 为储蓄;X 为收入;D 为虚拟变量,???=?)

(10为什么改革开放以后改革开放以前t D 显然在式(8.21)中,以乘法形式引入了虚拟变量所形成的解释变量为t t X D ,以加法形式引入虚拟变量所形成的解释变量是t D 。

事实上,当式(8.21)满足古典假设时,有

改革开放前:t t t t X X D Y E 11},0|{βα+==

(8.22) 改革开放后:t t t t X X D Y E )()(},1|{2121ββαα+++==

(8.23) (8.22)式和(8.23)式分别是改革开放后和改革开放前的平均储蓄函数。与 (8.19) 式及 (8.20) 式相比,有:11αλ=、21112;ααγβλ+==、212ββγ+=。在 (8.21) 式中,2α称为截距差异系数,2β称为斜率差异系数,分别代表改革开放前后储蓄函数截距与斜率所存在的差异。当我们利用1950—2000年间的数据估计式(8.21)时,等价于分别对 (8.19) 式和 (8.20) 式两个储蓄函数进行估计。

假如对 (8.21) 式用OLS 法估计得

t

t t t t X D X D Y 1034.01504.04839.17502.1?-++-= (0.3319) (0.4704) (0.0163) (0.0332)

t=(-5.2733) (3.1545) (9.2270) (-3.1144)

结果表明,截距和斜率差异系数2α、2β在统计意义下均为显著的,说明改革开放前后的储蓄——收入行为确是不相同。即

收入

收入 (d )不同的回归 (c )共点回归

改革开放前 t

t X Y 1504.07502.1?+-= 改革开放后 t t

X Y )1034.01504.0()4839.17502.1(?-++-= t X 0470.02663.0+-=

以乘法形式引入虚拟变量作回归模型的比较和结构变化检验有一些优点:(1)用一个回归替代了多个回归,简化了分析过程;(2)可以方便地对模型结构的差异作各种假设检验;

(3)合并了的回归增加了自由度,提高了参数估计的精确性。但是,也应注意合并后模型的i u 应服从基本假定,特别是所比较的方程的方差应相同,否则会出现异方差。

2、交互效应分析

当分析解释变量对变量的影响时,大多数情形只是分析了解释变量自身变动对被解释变量的影响作用,而没有深入分析解释变量间的相互作用对被解释变量的影响。前面讨论的分析两个定性变量对被解释变量影响的虚拟变量模型中,暗含着一个假定:两个定性变量是分别独立地影响被解释变量的。但是在实际经济活动中,两个定性变量对被解释变量的影响可能存在一定的交互作用,即一个解释变量的边际效应有时可能要依赖于另一个解释变量。为描述这种交互作用,可以把两个虚拟变量的乘积以加法形式引入模型。

考虑下列模型:

i i i i i u X D D Y ++++=βααα33221 (8.24))

其中:i Y 为农副品生产总收益,X 为农副产品生产投入,i D 2为代表油菜籽生产虚拟变量,i D 3为代表养蜂生产虚拟变量:

210i D ?=??发展油菜籽生产其他

; 310D ?=??发展养蜂生产其他 显然(8.22)式描述了是否发展油菜籽生产与是否发展养蜂生产的差异对农副产品总收益的影响。虚拟解释变量i D 2和i D 3是以加法形式引入的,那么暗含着假设:油菜籽生产和养蜂生产是分别独立地影响农副品生产总收益。但是,在发展油菜籽生产时,同时也发展养蜂生产,所取得的农副产品生产总收益,可能会高于不发展养蜂生产的情况。即在是否发展油菜籽生产与养蜂生产的虚拟变量i D 2和i D 3间,很可能存在着一定的交互作用,且这种交互影响对被解释变量农副产品生产收益会有影响。

为了描述交互作用对被解释变量的效应,在(8.24)式中以加法形式引入两个虚拟解释

变量的乘积,即

i i i i i i i u X D D D D Y +++++=βαααα)(32433221

(8.25)

(8.25)式中各变量的含义与(8.24)式相同。 基础类型:为不发展油菜籽生产,也不发展养蜂生产时农副产品生产总收益的平均支出:

i i i X X D D Y E βα+===132),0,0|( (8.26)

对比类型:为同时发展油菜籽生产和养蜂生产时,农副产品生产总收益的平均支出

i i i X X D D Y E βαααα++++===)(),1,1|(432132

(8.27)

这里的截距水平由四项组成,其中: 2α为是否发展油菜籽生产对农副产品生产总收益的截距差异系数;

3α为是否发展养蜂生产对农副产品生产总收益的截距差异系数;

4α同时发展油菜籽生产和养蜂生产时对农副产品生产总收益的交互效应系数。

关于交互效应是否存在,可借助于交互效应虚拟解释变量系数的显著性检验来加以判断。如果t 检验表明交互效应虚拟变量i i D D 32在统计意义上是显著时,说明交互效应对i Y 存在显著影响。

3、分段线性回归

有的社会经济现象的变动,会在解释变量达到某个临界值时发生突变,为了区分不同阶段的截距和斜率可利用虚拟变量进行分段回归。

例如,某公司为了激励公司销售人员,按其销售额的一定比例计提奖励,但是销售额在某一目标水平*X 以下和以上时计提奖励的方法不同。当销售额高于*X 时,计提奖励额与销售额的比例要高于销售额低于*X 时的比例,也就是高于*X 时,奖励额与销售额的线性关系更为陡峭(如图8.3所示)。为了确切地描述奖励额度(Y )与销售额(X )间的关系,需要分两段进行回归。这种分段回归可以用虚拟变量来实现。

Ⅰ Ⅱ Y

图8.3奖励额与销售额的关系

设虚拟变量D 为:

?????<≥=**01X X X X D

则奖励额度(t Y )和销售额(t X )间的关系式可以统一地表示为:

t t t t t u D X X X Y +-++=)(*210ββα

(8.28) 其中,t Y 为奖励额,t X 为销售额,*X 为已知的销售目标临界水平。

利用统计资料估计(8.28)式的参数,就可以得到不同斜率和截距的回归方程:

销售额低于*

X 时:t t t X X D X Y E 10*??),0,|(βα+== (8.29) 销售额不低于*

X :))(??()??(),1,|(*21*10*X X X X D X Y E t t t -+++==βββα (8.30) 整理得 t

t t X X X D X Y E )??()??(),1,|(21*20*βββα++-== (8.31) 显然,1β是图8.3中第Ⅰ段回归直线的斜率,而2

1??ββ+则是第Ⅱ段回归直线的斜率。只要检验2?β的统计显著性,就可以判断在所设定的临界水平*

X 处是否存在着“突变”。 应当注意,在分段回归中,第一、二段回归不仅截距不同,而且斜率也不同。在分为两段回归时,使用了一个虚拟变量,容易推广,分为K 段回归时,可用K —1个虚拟变量。

*第三节 虚拟被解释变量①

在计量经济学模型中,虚拟变量除了可以作为解释变量外,还可以作为被解释变量。当虚拟变量作为被解释变量时,其作用是对某一经济现象或活动进行“是”与“否”的判断或决策。例如,研究是否购买商品住房、是否参加人寿或财产保险、是否能按期偿还贷款、新

①本节内容本科教学中供选择使用。

X 0

*X

产品在市场上是否畅销、对某一改革措施所持的态度等。这些问题的特征是被研究的对象(即被解释变量)在受到多种因素影响时,其取值只有两种状态:“是”与“否”。这在计量经济学中被称为“二元型响应”现象,这种现象常在市场研究或社会问题研究中遇到。如何处理二元型响应被解释变量模型的估计、推断问题,是本节要解决的问题。

一、线性概率模型(LPM )

1、什么是线性概率模型

假设住户是否购买商品房的决定主要依赖于其收入水平。那么考虑下列模型:

t i i u X Y ++=21ββ (8.32)

其中,i X 为住户的收入;Y 为一虚拟变量表示的住户购买商品住房的情况:

10Y ?=??

已购买商品住房未购买商品住房 现在的问题是:我们前面讨论的回归分析主要是研究()12|i i i E Y X X ββ=+的问题,即研究条件均值的轨迹的问题,而在上述模型中,被解释变量是某种属性发生与否的状况,怎样把某种属性发生与否的问题同条件均值的轨迹研究联系起来?当然,在计量经济学中,研究被解释变量某种属性发生与否,通常是研究这种属性发生与否的概率。也就是说,上述问题可表述为:怎样把被解释变量某种属性发生与否的概率问题同条件均值的轨迹研究联系起来?另外,若概率问题与条件均值轨迹能够联系起来的话,那么,我们所讨论的线性回归分析会出现什么问题?

分析 (8.32) 式,其中,t u 服从E(t u )=0,有:

i i i X X Y E 21)|(ββ+= (8.33)

另一方面,i Y 是取值为0和1的随机变量,那么i Y 有下列分布(i p 为i Y =1的概率):

i Y

0 1 概率

1-i p i p

根据数学期望的定义 i i i i p p p Y E =?+-?=1)1(0)( (8.34)

也就是说,)(i Y E 等于i Y 取值为1时的概率,即:

()Pr (1|)i i i i E Y ob Y X p === (8.35)

注意事件Y=1发生是在给定收入X 的条件下发生的,因此()()|i i i E Y E Y X =于是,比较 (8.33) 式和 (8.34) 式,则有:

i i i i p X X Y E =+=21)|(ββ (8.36)

表明购买商品用房的概率是收入的线性函数。像(8.32)式那样,以虚拟变量作为被解释变量的模型的条件期望实际上等于随机变量i Y 取值为1的条件概率。即当住户的收入水平为X 时,其购买商品住房的概率可表示成X 的线性函数,故 (8.32) 式也被称为线性概率模型(LPM )。显然,只要得到 (8.32) 式中1β和2β和估计量后,就可以估计出不同收入水平住户购买商品住房的概率。

由于购买商品住房的概率i p 必须在0和1之间,故在估计式(8.32)式时必须满足约束条件

1)|1(0≤=≤i i X Y E

(8.37)

2、线性概率模型的估计 从形式上看, (8.32) 式与普通的线性计量经济模型相似,是否能够运用OLS 法直接对其进行估计呢?答案是否定的。因为直接采用OLS 法对(8.32)式那样的模型进行估计,将会遇到一些特殊的问题,使得估计结果失去了合理的经济解释,因而需要寻求相应的处理方法。

(1)随机扰动项t u 的非正态性

在线性概率模型中,关于i u 的正态性假设不再成立,因为(8.30)式的随机误差项为:

i i i X Y u 21ββ--=

(8.38) 此时,当i Y =1时

i i X u 211ββ--= 当i Y =0时 i i X u 21ββ--=

显然,这里的i u 不遵从正态分布,而是服从二项分布。

线性概率模型中的随机扰动项i u 不遵从正态分布,对参数的估计并不产生影响,OLS 法本身并不要求随机扰动项i u 具备正态性,此时参数的OLS 估计仍是最佳无偏估计量。但

对参数的假设检验和区间估计要求随机扰动项i u 遵从正态分布。不过,随着样本容量的无限增大,根据中心极限定理,OLS 估计量的概率分布将会趋近于正态分布。因此,大样本条件下线性概率模型的统计推断,也可以按正态性假设条件下OLS 的统计推断方式进行。这就是说,直接运用OLS 法对线性概率模型进行估计,对参数的估计不会产生太大影响。

(2)随机扰动项i u 的异方差性

根据i Y 的概率分布有:i Y =1时,i u =()121i X ββ-+的概率为i p ;i Y =0时,i u =()12i X ββ-+的概率为1-i p ,即

i u

i X 21ββ+- i X 211ββ+- 概率

i p -1 i p

根据方差的定义 2))(()(i i i u E u E u Var -=

)(2i u E =

i i i i p X p X 221221)()1()(ββββ--+---=

)()1()1()(2122121221i i i i X X X X ββββββββ+--+----=

)1)((2121i i X X ββββ----=

)1(i i p p -= (8.39)

这里利用了i p =i X 21ββ+。(8.39)式表示,当i u 满足)(i u E =0和)(j i u u E =0(i ≠j)时,i u 的方差却是i Y 条件期望的函数,即))|(()(i i i X Y E f u Var =,这表明i u 是异方差的。这时利用OLS 法所得的LPM 的估计量不再具有最小方差的特性,且各参数估计量的标准差也不可信。也就是说,LPM 参数的OLS 估计量虽仍为线性无偏估计量,但不是最佳估计量。

为了消除异方差性的影响,可利用第五章中有关修正异方差的方法,例如可用加权最小二乘法(WLS )修正异方差。

根据前面的讨论,已知LPM 中i u 的方差是i Y 条件期望的函数,故选择权重的一种方法是:

虚拟变量案例

虚拟变量(dummy variable) 在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。 由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量,用D表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。 1.截距移动 设有模型, y t = 0 + 1 x t + 2D + u t , 其中y t,x t为定量变量;D为定性变量。当D= 0 或1时,上述模型可表达为, + 1x t + u t , (D = 0) y t = (0 + 2) + 1x t + u t , (D = 1) D =0 D = 1 +2 图8.1 测量截距不同 D= 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若2显著不为零,说明截距不同;若2为零,说明这种分类无显著性差异。 例:中国成年人体重y(kg)与身高x(cm)的回归关系如下: –105 + x D = 1 (男) y = - 100 + x - 5D = – 100 + x D = 0 (女) 注意: ①若定性变量含有m个类别,应引入m-1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummy variable trap)。 ②关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。

③定性变量中取值为0所对应的类别称作基础类别(base category)。 ④对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如: 1 (大学) D =0 (中学) -1 (小学)。 【案例1】中国季节GDP数据的拟合(虚拟变量应用,file:case1及case1-solve) GDP序列图不用虚拟变量的情形若不采用虚拟变量,得回归结果如下, GDP = 1.5427 + 0.0405 T (11.0) (3.5) R2 = 0.3991, DW = 2.6,s.e. = 0.3 定义 1 (1季度) 1 (2季度) 1 (3季度) D1 = D2 = D3 = 0 (2, 3,4季度) 0 (1, 3, 4季度) 0 (1, 2, 4季度) 第4季度为基础类别。 GDP = 2.0922 + 0.0315 T – 0.8013 D1 – 0.5137 D2– 0.5014 D3 (64.2) (15.9) (-24.9) (-16.1) (-15.8) R2 = 0.9863, DW = 1.96,s.e. = 0.05 附数据如下: 年GDP t D1D2D3 1996:11.31561100 1996:21.66002010

第八章 虚拟变量回归 思考题

第八章 虚拟变量回归 思考题 8.1 什么是虚拟变量 ? 它在模型中有什么作用 ? 8.2 虚拟变量为何只选 0 、 1, 选 2 、 3 、 4 行吗 ? 为什么 ? 8.3 对 (8.10) 式的模型 , 如果选择一个虚拟变量 1,01D ?? =??-? 大专及大专以上,高中 ,高中以下 这样的设置方式隐含了什么假定 ? 这一假定合理吗 ? 8.4 引入虚拟解释变量的两种基本方式是什么 ? 它们各适用于什么情况 ? 8.5 四种加法方式引入虚拟变量会产生什么效应? 8.6 引入虚拟被解释变量的背景是什么?含有虚拟被解释变量模型的估计方法有哪些 ? 8.7 设服装消费函数为 12233t i i i i Y D D X u αααβ=++++ 其中, i X =收入水平 ;Y = 年服装消费支出 ; 1,30D ?=? ?大专及大学以上 ,其他 ;1,20D ?=??女性,其他 试写出不同人群组的服装消费函数模型。 8.8 利用月度数据资料 ,为了检验下面的假设,应引入多少个虚拟解释变量 ? 1) 一年里的 12 个月全部表现出季节模式 ; 2) 只有 2 月、 6 月、 8 月、 10 月和 12 月表现出季节模式。 练习题 8.1 1971 年 ,Sen 和 Sztvastava 在研究贫富国之间期望寿命的差异时 , 利用 101 个国家的数据 , 建立了如下回归模型 []? 2.409.39ln 3.36(ln 7)i i i i Y X D X =-+-- (4.37)(0.857)(2.42) R2=0.752 其中 ,X 是以美元计的人均收入 ;Y 是以年计的期望寿命 ; Sen 和 Srimstava 认为人均收入的临界值为 1097 美元 (ln1097=7), 若人均收入超过 1097 美元 , 则被认定为富国 ; 若人均收入低于1097美元 , 被认定为贫穷国。括号内的数值为对应参数估计值的t 值。 1) 解释这些计算结果。 2) 回归方程中引入(ln 7)i i D X =-的原因是什么?如何解释这个回归解释变量? 3) 如何对贫穷国进行回归 ? 又如何对富国进行回归 ? 4)这个回归结果中可得到的一般结论是什么 ?

回归分析方法及其应用中的例子

3.1.2 虚拟变量的应用 例3.1.2.1:为研究美国住房面积的需求,选用3120户家庭为建模样本,回归模型为: 123log log P Y βββ++logQ= 其中:Q ——3120个样本家庭的年住房面积(平方英尺) 横截面数据 P ——家庭所在地的住房单位价格 Y ——家庭收入 经计算:0.247log 0.96log P Y -+logy=4.17 2 0.371R = ()() () 上式中2β=0.247-的价格弹性系数,3β=0.96的收入弹性系数,均符合经济学的常识,即价格上升,住房需求下降,收入上升,住房需求也上升。 但白人家庭与黑人家庭对住房的需求量是不一样的,引进虚拟变量D : 01i D ?=?? 黑人家庭 白人家庭或其他家庭 模型为:112233log log log log D P D P Y D Y βαβαβα+++++logQ= 例3.1.2.2:某省农业生产资料购买力和农民货币收入数据如下:(单位:十亿元) ①根据上述数据建立一元线性回归方程:

? 1.01610.09357y x =+ 20.8821R = 0.2531y S = 67.3266F = ②带虚拟变量的回归模型,因1979年中国农村政策发生重大变化,引入虚拟变量来反映农村政策的变化。 01i D ?=?? 19791979i i <≥年 年 建立回归方程为: ?0.98550.06920.4945y x D =++ ()() () 20.9498R = 0.1751y S = 75.6895F = 虽然上述两个模型都可通过显着性水平检验,但可明显看出带虚拟变量的回归模型其方差解释系数更高,回归的估计误差(y S )更小,说明模型的拟合程度更高,代表性更好。 3.5.4 岭回归的举例说明 企业为用户提供的服务多种多样,那么在这些服务中哪些因素更为重要,各因素之间的重要性差异到底有多大,这些都是满意度研究需要首先解决的问题。国际上比较流行并被实践所验证,比较科学的方法就是利用回归分析确定客户对不同服务因素的需求程度,具体方法如下: 假设某电信运营商的服务界面包括了A1……Am 共M 个界面,那么各界面对总体服务满意度A 的影响可以通过以A 为因变量,以A1……Am 为自变量的回归分析,得出不同界面服务对总体A 的影响系数,从而确定各服务界面对A 的影响大小。 同样,A1服务界面可能会有A11……A1n 共N 个因素的影响,那么利用上述方法也可以计算出A11……A1n 对A1的不同影响系数,由此确定A1界面中的重要因素。 通过两个层次的分析,我们不仅得出各大服务界面对客户总体满意度影响的大小以及不同服务界面上各因素的影响程度,同时也可综合得出某一界面某一因素对总体满意度的影响大小,由此再结合用户满意度评价、与竞争对手的比较等因素来确定每个界面细分因素在以后工作改进中的轻重缓急、重要性差异等,从而起到事半功倍的作用。 例 3.5.4:对某地移动通信公司的服务满意度研究中,利用回归方法分析各服务界面对总体满意度的影响。 a. 直接进入法 显然,这种方法计算的结果中,C 界面不能通过显着性检验,直接利用分析结果是错误

计量经济学实验7虚拟变量模型

实验七虚拟变量 【实验目的】 掌握虚拟变量的设置方法。 【实验内容】 一、试根据表7-1的1998年我国城镇居民人均收入与彩电每百户拥有量的统计资料建立我国城镇居民彩电需求函数; 资料来源:据《中国统计年鉴1999》整理计算得到 二、试建立我国税收预测模型(数据见实验一); 三、试根据表7-2的资料用混合样本数据建立我国城镇居民消费函数。

最低收入户 2397.6 2476.75 0 2523.1 2617.8 1 低收入户 2979.27 3303.17 0 3137.34 3492.27 1 中等偏下户 3503.24 4107.26 0 3694.46 4363.78 1 中等收入户 4179.64 5118.99 0 4432.48 5512.12 1 中等偏上户 4980.88 6370.59 0 5347.09 6904.96 1 高收入户 6003.21 7877.69 0 6443.33 8631.94 1 最高收入户 7593.95 10962.16 8262.42 12083.79 1 资料来源:据《中国统计年鉴》1999-2000整理计算得到 【实验步骤】 一、我国城镇居民彩电需求函数 ⒈相关图分析; 键入命令:SCAT X Y ,则人均收入与彩电拥有量的相关图如7-1所示。 从相关图可以看出,前3个样本点(即低收入家庭)与后5个样本点(中、高收入)的拥有量存在较大差异,因此,为了反映“收入层次”这一定性因素的影响,设置虚拟变量如下: ?? ?=低收入家庭 中、高收入家庭 1D 图7-1 我国城镇居民人均收入与彩电拥有量相关图 ⒉构造虚拟变量; 方式1:使用DATA 命令直接输入;

虚拟变量的分析

虚拟变量(dummy variable ) 在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。 由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量,用D 表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。 1.截距移动 设有模型, y t = β0 + β1 x t + β2D + u t , 其中y t ,x t 为定量变量;D 为定性变量。当D = 0 或1时,上述模型可表达为, y t =?? ?=+++=++1 )(012010D u x D u x t t t t βββββ 020 40 60 20 40 60 X Y 图8.1 测量截距不同 D = 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若β2显著不为零,说明截距不同;若β2为零,说明这种分类无显著性差异。 例:中国成年人体重y (kg )与身高x (cm )的回归关系如下: –105 + x D = 1 (男) y = - 100 + x - 5D = – 100 + x D = 0 (女) 注意: ① 若定性变量含有m 个类别,应引入m -1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummy variable trap )。 ② 关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。 ③ 定性变量中取值为0所对应的类别称作基础类别(base category )。 ④ 对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如: 1 (大学) D = 0 (中学) -1 (小学)。 β0 β0+β2 D = 1 D =0

相关主题
文本预览
相关文档 最新文档