3.1.2 虚拟变量的应用
例3.1.2.1:为研究美国住房面积的需求,选用3120户家庭为建模样本,回归模型为:
123log log P Y βββ++logQ=
其中:Q ——3120个样本家庭的年住房面积(平方英尺) 横截面数据
P ——家庭所在地的住房单位价格 Y ——家庭收入
经计算:0.247log 0.96log P Y -+logy=4.17 2
0.371R =
()() ()
上式中2β=0.247-的价格弹性系数,3β=0.96的收入弹性系数,均符合经济学的常识,即价格上升,住房需求下降,收入上升,住房需求也上升。 但白人家庭与黑人家庭对住房的需求量是不一样的,引进虚拟变量D :
01i D ?=??
黑人家庭
白人家庭或其他家庭
模型为:112233log log log log D P D P Y D Y βαβαβα+++++logQ=
例3.1.2.2:某省农业生产资料购买力和农民货币收入数据如下:(单位:十亿元)
①根据上述数据建立一元线性回归方程:
? 1.01610.09357y
x =+ 20.8821R = 0.2531y S = 67.3266F = ②带虚拟变量的回归模型,因1979年中国农村政策发生重大变化,引入虚拟变量来反映农村政策的变化。
01i D ?=??
19791979i i <≥年
年 建立回归方程为: ?0.98550.06920.4945y
x D =++ ()() ()
20.9498R = 0.1751y S = 75.6895F =
虽然上述两个模型都可通过显著性水平检验,但可明显看出带虚拟变量的回归模型其方差解释系数更高,回归的估计误差(y S )更小,说明模型的拟合程度更高,代表性更好。 3.5.4 岭回归的举例说明
企业为用户提供的服务多种多样,那么在这些服务中哪些因素更为重要,各因素之间的重要性差异到底有多大,这些都是满意度研究需要首先解决的问题。国际上比较流行并被实践所验证,比较科学的方法就是利用回归分析确定客户对不同服务因素的需求程度,具体方法如下:
假设某电信运营商的服务界面包括了A1……Am 共M 个界面,那么各界面对总体服务满意度A 的影响可以通过以A 为因变量,以A1……Am 为自变量的回归分析,得出不同界面服务对总体A 的影响系数,从而确定各服务界面对A 的影响大小。
同样,A1服务界面可能会有A11……A1n 共N 个因素的影响,那么利用上述方法也可以计算出A11……A1n 对A1的不同影响系数,由此确定A1界面中的重要因素。
通过两个层次的分析,我们不仅得出各大服务界面对客户总体满意度影响的大小以及不同服务界面上各因素的影响程度,同时也可综合得出某一界面某一因素对总体满意度的影响大小,由此再结合用户满意度评价、与竞争对手的比较等因素来确定每个界面细分因素在以后工作改进中的轻重缓急、重要性差异等,从而起到事半功倍的作用。
例3.5.4:对某地移动通信公司的服务满意度研究中,利用回归方法分析各服务界面对总体满意度的影响。
a. 直接进入法
显然,这种方法计算的结果中,C 界面不能通过显著性检验,直接利用分析结果是错误
的,见表3.5.4.1:
表3.5.4.1 强制回归的Coefficients
b.逐步回归法
这种方法剔除了一个不能通过统计检验的大的服务界面(C界面),虽然通过了显著性检验,但却遗漏了C界面的信息。
同样,使用强制删除法,C服务界面不能通过显著性检验,向前法和向后法亦剔除了C 界面进入分析。
可以看出,通过以上回归分析我们得到了不同的分析结果,显然这种分析方法存在着较大的偏差,随意选取一种是不负责任的,必须深入研究。
一般来说,满意度分析中涉及到许多因素,而诸多因素间存在着一定的关联,因而在进行回归分析时,各自变量之间的共线性问题导致了直接使用线性回归分析模型时一些因子不能参与分析的现象。一些市场研究咨询公司常采用舍弃一些变量,遗漏部分信息来求得统计
检验通过的方法;有的不顾显著性检验结果而强行使用不合理的分析结果来保证变量不被舍弃,从而虚假地保障了信息不被遗漏。我们认为这是满意度分析错误的两个极端。
处理的正确方法是,利用SPSS软件中的岭回归分析来解决,既保障信息不被遗漏,同时保障分析具有统计意义。SPSS软件界面没有直接进行岭回归的命令,我们可以通过SPSS 提供的程序编辑命令,自行编辑程序加以实现。在SAS软件中可直接进行岭回归分析。
对例3.5.4.1进行岭回归,分析结果和表的结果对比如下。可见两者之间有较大差异(下表数据将已将回归系数之和标准化为100%),F界面对总体满意度的作用被缩小了5%左右,而B界面、D界面的作用各被夸大近5%。
表3.5.4.3 强制回归与岭回归结果的比较
5 回归分析方法应用的举例说明——怎样作回归分析How
本章以一个例子详细说明回归分析方法在实际研究中是如何应用的。
回归分析变量的数据转换
本章举例说明的例子选用39家企业样本数据(见表),带动作用是因变量,其余各变量均为自变量,其中所属产业和员工人数是对该样本企业而言,而接触程度则指该样本企业与本地的龙头企业之间在业务上的接触紧密程度。接触程度、各自变量和因变量均以Likert 五分量表进行度量。
表例子的样本数据
样本编号所属
产业
员工
人数
接触
程度
企业
合作
公共
事务
营销
努力
技术
改进
资源
共享
风险
分担
带动
作用
1皮革2301 2皮革1593 3皮革2082 4皮革1121 5皮革1001 6皮革4951 7皮革333
8 皮革 80 1 9 皮革 100 3 10 皮革 150 3 11 皮革 136 1 12 皮革 61 3 13 皮革 17 3 14 皮革 230 3 15 家电 300 5 16 家电 250 3 17 家电 80 5 18 家电 134 3 19 家电 428 3 20 家电 80 3 21 家电 400 2 22 家电 20 3 23 家电 225 4 24 家电 180 3 25 家电 90 3 26 家电 160 1 27 家电 100 2 28 家电 350 3 29 家电 345 3 30 家电 305 1 31 家电 400 2 32 家电 100 3 33 家电 414 2 34 家电 324 2 35 家电 300 4 36 家电 200 3 37 家电 85 3 38 家电 180 1 39 家电 415 3
5.1.1 企业所属产业虚拟变量的引入
从表中看到,自变量所属产业为名义变量,在进行多元回归分析之前需要将其转化为虚拟变量进行处理。而员工人数在一定程度上能够反映企业的规模,因此也将其处理为虚拟变量。
将皮革产业变量定义为变量D 1,则
?
??=10
1D
属于皮革产业属于家电产业
5.1.2 企业规模虚拟变量的引入
首先按照企业员工人数将企业划分为微型、小型、一般型、中型和大型共5种类型企业,具体划分标准见表:
表 企业规模的划分和变量说明
企业规模
小型 中型 大型 员工数 ≤100 >100且≤300 ≥300 变量名
D 2 D 3 D 4
由此,有:
???=102D
属于小型产业不属于小型产业;?
??=10
3D 属于中型产业不属于中型产业 当以上D 2、D 3均为0时,则表示该企业属于大型企业。 5.1.3 引入虚拟变量后的变量数据
将上述各变量进行转换处理之后,得到本例进行回归分析的各个变量数据,见表:
表 回归分析的变量数据
编
号 皮革行业 小型 中型 接触程度 企业合作 公共事务 营销努力 技术改进 资源共享 风险分担 带动 D 1 D 2 D 3 Tach Coop Publ Mark Tech Reco Risk Effe 1 1 0 1 1 2 1 0 1 3 3 1 0 1 2 4 1 0 1 1 5 1 1 0 1 6 1 0 0 1 7 1 1 0 3 8 1 1 0 1 9 1 1 0 3 10 1 0 1 3 11 1 0 1 1 12 1 1 0 3 13 1 1 0 3 14 1 0 1 3 15 0 0 1 5 16 0 0 1 3 17 0 1 0 5 18 0 0 1 3 19 0 0 0 3 20 0 1 0 3
210002
220103
230014
240013
250103
260011
270102
280003
290003
300001
310002
320103
330002
340002
350014
360013
370103
380011
390003
变量间的相关分析
5.2.1 相关分析在Spss软件中的操作
SPSS的相关分析是借助于Statistics菜单的Correlate选项完成的。调用此过程可对变量进行相关关系的分析,计算有关的统计指标,以判断变量之间相互关系的密切程度。调用该过程命令时允许同时输入两变量或以上变量,但系统输出的是变量间两两相关的相关系数。
激活Statistics菜单选Correlate中的Bivariate...命令项,弹出Bivariate Correlation对话框。在对话框左侧的变量列表中选中本例的所有变量,点击钮使之进入Variables框;再在Correlation Coefficients框中选择相关系数的类型,共有三种:Pearson为通常所指的相关系数(r),Kendell’s tau-b为非参数资料的相关系数,Spearman 为非正态分布资料的Pearson相关系数替代值,本例选用Pearson项;在Test of Significance框中可选相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,本例选双侧检验。
点击Options...钮弹出Bivariate Correlation:Options对话框,可选有关统计项目。本例要求输出个变量的均值与标准差,故选Means and standard deviations项,而后点击Continue钮返回Bivariate Correlation对话框,再点击OK钮即可。
5.2.2 相关分析结果及其解释
首先看表中,各变量的均值及其标准差:
表变量的描述性数据
变量均值标准差样本数
effe.7998339
coop.8825239
publ.8702339
mark.8288539
tech.6230739
reco.8763739
risk.8062439
D1.3590.4859739
D2.3333.4775739
D3.4103.4983139
tach39由于举本例的目的是为了详细解释在SPSS中如何进行回归分析,所以在本文中不详细论述与本主体关系不大的各项分析及其结论。
在表中,详细列出了所有变量之间的两两相关系数:
表变量的相关系数及其显著性
effe coop publ mark tech reco risk D1D2D3tach effe1
coop.377(*)1
publ.385(*).607(**)1
mark.410(**).387(*).382(*)1
tech.438(**).398(*).617(**).3131
reco.709(**).502(**).376(*).174.324(*)1
risk.731(**).257.322(*).210.265.659(**)1
D1(*)1
D2.092.204.017.000.000.017.1511
D3.006.070.063.042.137(**)1
tach.397(*).162.212.064.349(*).187.304(*).1261 * 相关系数在水平下显著(双尾)
** 相关系数在水平下显著(双尾)
从表中看到,因变量effe分别与自变量coop、publ、mark、tech、reco、risk、D1和tach之间的相关系数在水平下是显著的,而与自变量D2和D3之间的相关系数在水平下不显著。
5.2.3 各自变量与因变量之间的散点图(结果略)
激活Graphs菜单选Scatter/Dot中的Simple Scatter项,弹出Simple Scatterplot 话框。从对话框左侧的变量列表中选effe,点击钮使之进入Y Axis框,分别选其余各个变量(包括coop、publ、mark、tech、reco、risk、D1、D2、D3和tach),点击钮使之进入X Axis框,点击OK钮即输出各自变量与因变量之间的散点图。
强制(Enter)的多元线性回归分析
5.3.1 强制(Enter)多元线性回归分析在Spss软件中的操作
激活Statistics菜单选Regression中的Linear...项,弹出Linear Regression对话框。从对话框左侧的变量列表中选effe,点击钮使之进入Dependent框,选其余各个变量(包括coop、publ、mark、tech、reco、risk、D1、D2、D3和tach),点击钮使之进入Indepentdent(s)框;在Method处下拉菜单,共有5个选项:Enter(强制法)、Stepwise (逐步法)、Remove(剔除法)、Backward(向后法)、Forward(向前法)。首先选用Enter 法。
点击Statistics...钮选择是否作变量的描述性统计、回归方程应变量的可信区间估计等分析,在本例中选择Regression confidence下的Estimate、Residuals下的Durbin- Watson,以及Model fit和Collinearity Diagnostics这几个选项,分别进行回归系数的估计、模型的拟合评价和回归三大问题的诊断;点击Plots...钮选择是否作变量分布图,在本例中选择DEPENDENT即因变量作为X轴,ZRESID即标准化残差作为Y轴,观察Y随X 变化的情况,以判断是否存在异方差和自相关问题;点击Save...钮选择对回归分析的有关结果是否作保存,在本例中不做选择;点击Options...钮选择变量入选与剔除的α、β值和缺失值的处理方法,在本例中选择系统默认值。点击OK钮即完成分析。
5.3.2 强制(Enter)多元线性回归分析三大问题的诊断
首先要判断本强制回归中是否存在回归的三大问题。因此,对照第3章的相关内容有:
1、多重共线性诊断
见表和表中,回归方程的R2较高但t值显著的不多,表明自变量之间有存在严重多重共线性的可能。但方差膨胀因子VIF值基本在2左右,而容忍度(Tolerance)也在可接受范围内。在表中也看到,除去第11个层面(Dimension),其余各层面的条件指标(Condition index; CI)在30以内,各个自变量在每个层面上的方差比例基本没有出现都较大的现象。说明自变量之间没有严重的多重共线性问题。
表模型的拟合(b)
Model R R Square Adjusted R Square Std. Error of the
Estimate
Durbin- Watson
1.872(a).761.675.45576
a Predictors: (Constant), tach, D3, mark, reco, D1, tech, coop, D2, risk, publ
b Dependent Variable: effe
表回归系数(a)
Model Unstandardized Standardized t Sig.Collinearity
Coefficients Coefficients Statistics 1B Std. Error Beta Tolerance VIF (Constant).568.490
coop.128.657.425
publ.131.779.422
mark.219.105.227.046.723
tech.157.162.122.973.339.540
reco.327.135.358.023.388
risk.403.135.406.006.461
D1.191.182.633
D2.218.227.130.963.344.466
D3.034.208.021.165.870.508
tach.071.086.096.829.414.644
a Dependent Variable: effe
表变量的多重共线性诊断(a)
a Dependent Variable: effe
2、自相关诊断
从表中看到,值为,而查DW统计量临界值表(张晓蒂,1991)有:样本量为39且变量个数为5时d L为而d U为,则在本例中其范围较之更广,还不能完全判断是否存在自相关,本例中暂且认为不存在自相关问题。
3、异方差诊断
见图,该残差图中的点基本呈随机分布,初步判断该组数据不存在异方差问题。
图标准化残差与因变量之间的散点图
因此,从上述的诊断结果来看,本例的回归分析过程中不存在回归问题的三大问题。
接着检验回归的残差是否服从正态分布,见图。从图中看到,残差基本是如从正态分布的。
图未标准化残差的正态性检验5.3.3 强制(Enter)多元线性回归分析的结果
表方差分析(b)
Model Sum of Squares df Mean Square F Sig.
1Regression10.000(a) Residual28.208
Total38
a Predictors: (Constant), tach, D3, mark, reco, D1, tech, coop, D2, risk, publ
b Dependent Variable: effe
此时,将回归分析的结果总结如下:
表回归分析结果(a)
Model Unstandardized Coefficients Standardized Coefficients t Sig.
B Std. Error Beta
1(Constant
)
.568.490 coop.128.657 publ.131.779 mark.219.105.227.046 tech.157.162.122.973.339 reco.327.135.358.023 risk.403.135.406.006 D1.191.182 D2.218.227.130.963.344 D3.034.208.021.165.870 tach.071.086.096.829.414 R:.872;Adjusted R Squ:.675;F:;Sig.:.000
a Dependent Variable: effe
b Weighted Least Squares Regression - Weighted by reciprocal of e squared
其中需要说明的是,没有设定虚拟变量的类别变量(本例中的家电产业和大型企业)被称为参照类,各个虚拟变量回归系数则表示该类别与参照类上均值的差异。
为了比较回归系数显著的各自变量对因变量的影响程度的大小,本例选用标准化后的系数,则从表中看到:
①本例数据分析得出,自变量mark、reco和risk对因变量effe有显著影响,且均为正向影响。其余各变量对因变量的影响不显著。
②对因变量effe有显著影响的各个自变量中,risk的影响程度最大,其次是reco,最后是mark。
对于回归分析结果的现实解释,由于不是本例关注的重点,这里不详述。
逐步(Stepwise)多元线性回归分析
5.4.1 逐步(Stepwise)多元线性回归分析在Spss软件中的操作
该过程基本与强制多元线性回归的操作步骤一致。只是在在Method处下拉菜单中选择的是Stepwise(逐步法)而不是Enter(强制法),在Statistics...钮中再加上R squared change选项。其余各项均与强制多元线性回归的操作相同。点击OK钮即完成分析。
5.4.2 逐步(Stepwise)多元线性回归分析三大问题的诊断
对例子中的数据采取逐步(Stepwise)的方法进行多元线性回归,分析的具体结果见表到表。本次逐步回归中,共4个自变量进入回归方程:risk、reco、mark和tach。因此,回归的结果看模型4。
表自变量的选择 (a)
a Dependent Variable: effe
表模型的拟合(e)
a Predictors: (Constant), risk
b Predictors: (Constant), risk, reco
c Predictors: (Constant), risk, reco, mark
d Predictors: (Constant), risk, reco, mark, tach
e Dependent Variable: effe
表方差分析(e)
Residual36.252
Total38
3Regression3.000(c) Residual35.217
Total38
4Regression4.000(d) Residual34.198
Total38
a Predictors: (Constant), risk
b Predictors: (Constant), risk, reco
c Predictors: (Constant), risk, reco, mark
d Predictors: (Constant), risk, reco, mark, tach
e Dependent Variable: effe
表回归系数(a)
a Dependent Variable: effe
表未包含变量(e)
D2.109(a).967.340.159.999.999
D3(a).478.998.998
tach.193(a).102.270.908.908 2coop.075(b).625.536.105.739.448 publ.099(b).893.378.149.849.535
mark.254(b).013.406.954.556
tech.207(b).054.319.890.542
D1(b).024.952.541
D2.096(b).936.355.156.998.565
D3(b).613.989.561
tach.199(b).062.310.907.532 3coop(c).753.637.439 publ.009(c).079.938.014.751.535
tech.147(c).161.239.826.542
D1(c).046.924.541
D2.095(c).322.170.998.555
D3(c).470.985.552
tach.199(c).043.339.907.523 4coop(d).561.628.437 publ(d).831.736.523
tech.090(d).860.396.148.744.523
D1(d).151.817.504
D2.065(d).701.489.121.969.520
D3(d).444.985.520
a Predictors in the Model: (Constant), risk
b Predictors in the Model: (Constant), risk, reco
c Predictors in the Model: (Constant), risk, reco, mark
d Predictors in th
e Model: (Constant), risk, reco, mark, tach
e Dependent Variable: effe
表变量的多重共线性诊断(a)
2.115.01.01.0
3.02.94
3.062.06.12.19.25.00
4.024.04.8
5.68.02.02
5.020.89.02.10.71.04
a Dependent Variable: effe
表残差统计量(b,c)
a Dependent Variable: effe
首先要判断本次回归中是否存在回归的三大问题。因此,对照第3章的相关内容有:
1、多重共线性诊断
见表中的模型4,进入回归方程的各个自变量的方差膨胀因子VIF值都小于2,而容忍度(Tolerance)也在可接受范围内。在表中也看到,层面的条件指标(CI)在30以内,说明自变量之间没有严重的多重共线性问题。
2、自相关诊断
从表中看到,值为,而查DW统计量临界值表(张晓蒂,1991)有:样本量为39且变量个数为4时d L为而d U为,落入无法判断的区域,即还不能完全判断是否存在自相关,暂且认为不存在自相关问题。
3、异方差诊断
见图,该残差图中的点基本呈随机分布,初步判断该组数据不存在异方差问题。
因此,从上述的诊断结果来看,本例的回归分析过程中不存在回归问题的三大问题。
图标准化残差与因变量之间的散点图
图未标准化残差的正态性检验
接着检验回归的残差是否服从正态分布,见图。从图中看到,残差基本是如从正态分布的。
5.4.3 逐步(Stepwise)多元线性回归分析的结果
此时,将回归分析的结果总结如下:
表回归分析结果(a)
Model Unstandardized Coefficients Standardized Coefficients t Sig.
B Std. Error Beta
4(Constant
)
.418.400 risk.357.124.360.007 reco.356.110.390.003 mark.245.089.254.009 tach.148.071.199.043 R:.851;Adjusted R Squ:.691;F:;Sig.:.000
a Dependent Variable: effe
b Weighted Least Squares Regression - Weighted by reciprocal of e squared
为了比较回归系数显著的各自变量对因变量的影响程度的大小,本例选用标准化后的系数,则从表中看到:
①本例数据分析得出,自变量risk、reco、mark和tach对因变量effe有显著影响,且均为正向影响。
②对因变量effe有显著影响的各个自变量中,reco的影响程度最大,其次是risk,接着是mark,最后是tach。
对于回归分析结果的现实解释,由于不是本例关注的重点,这里不详述。
利用多元线性回归分析结果进行预测和控制
本例的数据以及变量的含义并不适宜于作预测或者控制,但在不计较数据实际意义的前提下,可以以本例的数据及回归结果来说明如何进行预测和控制分析。
比较表和表,可以看到,对本例采用强制回归则模型的R值为872,调整后的R2为.675,F值为且显著水平为000;对本例采用逐步回归则模型的R值为.851,调整后的R2为.691;F值为且显著水平为.000。
因此,在利用回归分析结果进行预测和控制时,可选择解释力更强的逐步回归结果。此时有:
effe=+.357*risk+.356* reco+.245* mark+.148* tach
对于各自变量的每一个给定值,代入回归模型,就可以求得一个对应的回归预测值,称为模型的点估计值。当然也可以利用模型对预测目标进行区间估计。
5.5.1 利用多元线性回归分析结果进行预测
预测有两种:均值预测(mean prediction)和个值预测(individual prediction)。
5.4.2 利用多元线性回归分析结果进行控制