当前位置：文档之家› 第2章数据分析(梅长林)习题题答案

第2章数据分析(梅长林)习题题答案

第2章习题

一、习题

（1）回归模型

15,2,1,22110 =+++=i x x y i i i i εβββ

调用proc reg

：

]

由此输出得到的回归方程为：

2100920.049600.045261.3X X y ++=∧

由最后一列可以看出，使用化妆品的人数X1和月收入X2对化妆品的销售数量有着显著影响。46521.30=∧

β可以理解为该化妆品作为一种必需品每个月的销售量。当购买该化妆品的人数固定时，月收入没增加一个一个单位，改化妆品的销售数量将增加个单位。同理，当购买该化妆品的人均月收入固定时，购买该化妆品的人数每增加一千人，该化妆品的销售数量将增加个单位。

n SSE

∧2

是2σ的无偏估计，所以2σ的估计值是. （2）调用

由此可到线性回归关系显著性检验：

0至少有一个为0:2,1:1210ββββH H ?==

的统计量/(1)/()SSR p MSR

F SSE n p MSE

=-的观测值47.56790=F ,检验的p 值

0001.0)(000<>==F F p p H

另外9989.053902

53845

2===

SST SSR R ，2R 描述了由自由变量的线性关系函数值所能反映的Y 的总变化量的比例。2R 越大，表明线性关系越明显。这些结果均表明Y 与X1，X2之间的回归关系高度显著。

（3）若置信水平05.0=α，由17881.2)12(975.0=t ，利用参数估计值得

到21,0,βββ的置信区间分别为：

对,0β2942.54516.343065.21781.245216.3±=?±，即)7458.8,8426.1(-）对1β：01318.049600.000605.01781.249600.0±=?±，即)50198.0,48282.0( ）

2β：0021

.000920.00009681.01781.200920.0±=?±，即)00113.0,0071.0(-

(4)首先检验X1对Y 是否有显著性影：

假设其约简模型为：15,2,

1,220 =++=i x y i i i εββ 由观测数据并利用proc reg 过程拟合此模型求得：

88137.484)(=R SSE 13215=-=R f 88357.56)(=F SSE 12315=-=R f

由[()()]()

()/R F F

SSE R SSE F f f F SSE F f --=

求得检验统计量的值为：

.9012/88357.5688357

.5688137.4840=-=

05.0))13,1(()(0000<>==>==F F P F F p p H

由此拒绝原假设，所以x2对Y 有显著影响。 ~

同理检验X2对Y 是否有显著性影：

假设其约简模型为：15,2,

1,110 =++=i x y i i i εββ 由观测数据并利用proc reg 过程拟合此模型求得： 31872)(=R SSE 13215=-=R f

88357.56)(=F SSE 12315=-=R f

由[()()]()

()/R F F

SSE R SSE F f f F SSE F f --=

求得检验统计量的值为：

12/88357.5688357.56318720-=

F 05.0))13,1(()(0000<>==>==F F P F F p p H

由此拒绝原假设，所以x2对Y 有显著影响。

检验X1、x2交叉项对Y 是否有显著性影： |

假设其全模型为：15,2,

1,21322110 =++++=i x x x x y i i i i i i εββββ

检验X1、X2的交互作用是否显著即检验假设0:30=βH 是否能被拒

绝。

由观测数据并利用proc reg 过程拟合此模型求得： 72.56)(=F SSE 11415=-=F f

88357.56)(=R SSE 12315=-=R f

由[()()]()

()/R F F

SSE R SSE F f f F SSE F f --=

求得检验统计量的值为：

0317.011

/72.5672

.5688357.560=-=

05.0138.0)0317.0)11,1(()(000>=>==>==F P F F p p H

由此接受原假设，也即X1*X2对Y 无显著影响，即模型中没有必要引进交叉项。

（5）关于Y 的预测： ·

对于给定的X1，X2的值（220,2500），由回归方程可以得到0y 的预测值：

573.135250000920.022049600.045261.30=?+?+=y

为了得到0y

)(-X X T

。

由

0(1,220,2500)T x =， 4.74030MSE =，求得

y 的置信度为95%的置信区

间为：

0.975(12)135.5726 2.1788 2.2818135.5726 4.9716y t ±=±?=±

即(130.6010,140.5442)

（6）利用proc reg 过程可根据要求输出学生化残差：

：

利用学生化残差，检验模型误差项的正态性假定的合理性：

○1频率检验法：

学生化残差中有10/15=（约）落在（-1,1）内；有13/15=（约）落在（,）内；有15/15=1（约）落在（-2,2）内。由此可见，学生化残差在上述各区间内的频率与N（0,1）分布的相应概率相差均不大，因此模型误差项的正态性假定是合理的。

②正态QQ图

利用proc capability直接作出学生化残差的正态QQ图，如下所示：

通过sas 计算得到),(

q r 再利用proc corr 得到学生化残差与相应标准正态分布的分位数的pearson 相关系数矩阵。可以看出学生化残差与相应标准正态分布的分位数的相关系数为<,所以学生化残差与相应标准正态分布的分位数显著相关。

为了进一步验证模型假设的合理性，利用proc gplot的做出的几个残差图：

、

由这些残差图可知，它们均没有明显的趋势，结合以上分析的结果我们认为相应的线性回归模型以及误差的独立正态分布的假设是合理

的。

二、习题回归模型

15,2,1,22110 =+++=i x x y i i i i εβββ

调用

根据上述回归模型，画出学生化残差正态QQ 图以及Y 的拟合值的残差图如下所示：

从图中可以看出，学生化残差图明显不在同一条直线上，求得学生化残差与相应标准正态分布的分位数的相关系数为<,与1相差较大。另外拟合值的图像也表明Y 与X1和X2不能满足线性关系。

（2）对因变量Y 做Box-Cox 变换，对不同的λ值，利用sas 系统中的

),(λ

λZ SSE ),(λλZ SSE λ 由图可知),(λZ SSE 在31.0=λ时取得最小值，因此Box-Cox 变换中λ取，记变换后的因变量为YY,对拟合后的变量重新做线性回归，得到以下结果：

YY的拟合值都有明显的改观。而且求得学生化残差与相应标准正态分布的分位数的相关系数达到了，并且检验p值小于差分析，认为YY与XX1、XX2之间的线性关系较为合理。

拟合YY与X1、X2的线性回归模型，其方差分析以及参数估计如下所示。

文档之家

第2章 数据分析(梅长林)习题题答案

第2章数据分析(梅长林)习题题答案