当前位置:文档之家› 第八章一元线性回归分析

第八章一元线性回归分析

§3

一元线性回归分析

客观事物总是普遍联系和相互依存的,它们之间的数量联系一般分为两种类型:一类是确定性关系,即函数关系;另一类是不确定的关系,称之为相关关系.前一类关系我们在数学分析中已进行了大量研究.第二类关系在我们的生活实践中也大量存在,如身高与体重、播种面积与总产量、劳动生产率与工资水平等关系.这些变量之间有一些联系,但没有确切到可以严格确定的程度,即前一个量不能惟一确定后一个量的值.又如,城市生活用电量y 与气温X 有很大的关系,在夏天气温很高或冬天气温很低时,由于空调、冰箱等家用电器的使用,用电量就高.相反,在春秋季节气温不高也不低,用电量就相对少.但我们不能由气温X 这一个量准确地决定用电量Y .回归分析就是研究相关关系的一种数学工具,它着重于寻找变量之间近似的函数关系.

8.3.1.回归分析的基本概念

回归分析作为一种统计方法,是利用两个或两个以上变量之间的关系,由一个或几个变量来表示另一个变量.被表示的这个变量往往是我们研究的一个指标变量,常称为因变量或响应变量,记之为Y .与之有关的另一些变量可记为1X ,2X , ,p X ,称为自变量或预报变量.由1X ,2X , ,p X 可以部分地决定Y 的值,但这种决定不很确切,这种关系就是所谓的“相关关系”.我们可以设想Y 的值由两部分组成:一部分是由1X ,2X , ,p X 能够决定的部分,它是12p ( X ,X ,,X )f 的函数,记为12p ( X ,X ,,X )f .而另一部分则是由包括随机因素在内的其他众多未加考虑的因素所产生的影响,这一部分的诸多因素不再区别,所造成的对Y 的影响一起被称为随机误差,记之为ε.于是得到如下模型: Y =12p ( X ,X ,,X )f +ε

这里ε是随机变量,一般要求满足某些假定,如()E ε=0,函数12p ( X ,X ,,X )f 称为理论回归函数,它描述了Y 随自变量12p X ,X ,,X 变化的平均擘况. Y =12p ( X ,X ,,X )f

称为回归方程.这种确定的函数关系可用来近似代替复杂的相关关系.回归分析的任务就在于根据12p X ,X ,,X 和Y 的观察值去估计理论回归函数,并讨论与之有关的种种统计推断问题,如假设检验问题和估计问题.回归分析所用方法在相当大的程度上取决于模型的假定.

(1)若回归函数12p ( X ,X ,,X )f 的数学形式并无特殊假定,称为非参数回归. (2)假定12p ( X ,X ,,X )f 的数学形式已知,只是其中若干个参数未知,需要通过观测

值去估计,称为参数回归.应用上最重要、理论上发展得最完善的是 12

p ( X ,X ,,X )

f 为

线性函数的情形,即

12p ( X ,X ,,X )f =0β+1β1X +…+P p X β, (8.3.1)

称为“线性回归”.若1p =,则称为一元线性回归.

若根据观测值已估计了0β,1β, ,P β,设为0ˆβ,1ˆβ, ,ˆp β,称 Y =0

ˆβ+1ˆβ1X + +ˆp βp X 为经验回归方程.这里“经验”两字表示这个回归方程是由特定的观测值而得到的.

回归分析的应用,简单地可归纳为以下几个方面:

(1)估计回归函数f .如考虑亩产量Y 与播种量1X 和施肥量2X 的相关关系,需求出Y 对1X , 2X 的回归函数12(,)f X X ,当给定播种量1X =1x ,施肥量2X =2x ,则

12(,)f x x 就是平均亩产量的值.

(2)预测.当自变量X =(1X ,2X , ,p

X

)T

在取定的情况下,比如0X =(10x ,

20x ,…,0p x )T

,去预测因变量Y 将取的值0y . Y 的预测值往往就取回归函数在(10x ,

20x , ,0p x )T

处的估计ˆf (10x ,20x ,, 0p x ).

(3)控制.在这类应用中,不妨把自变量解释为输入值,因变量解释为输出值,通过估计出的经验回归方程Y =ˆf (1X ,2X , ,p X )以调节1X ,2X ,…,p X 的值达到把输出值Y 控制在给定的水平0y 的目的.

最后简单介绍一下“回归”这一名称的由来.这个术语是英国生物学家兼统计学家高尔顿(F .Galton)在1886年左右提出来的.他在研究子代的身高与父母的身高的关系时,收集了1078对父母及其成年儿子的身高数据.高尔顿以父母之平均身高X 作为自变量,以成年儿子的身高Y 作为因变量,将(,)X Y 值标在直角坐标系内,发现二者有近乎直线的关系,总的趋势是X 增加时Y 倾向于增加,这与人们的常识是一致的.用他的数据可以计算出儿子身高Y 与父母平均身高X 的经验关系

350.5Y X

=+. (8.3.2) 高尔顿算出1078个X 值的算术平均值为X =68英寸(1英寸=2.54厘米),1078个Y 值的算术平均值为69英寸,子代身高平均增加了1英寸.按常理推想,当父母的平均身高为x 英寸,子代的平均身高也要增加1英寸,即变为1x +英寸,但事实上不然.按(8.3.2)

计算,父母身高平均72英寸(注意比平均身高68英寸要高),子代平均身高为71英寸,而并非73英寸,与父母相比有变矮的倾向.父母身高平均为64英寸(注意比平均身高68英寸要矮),子代平均身高为67英寸,比预计的64+1=65(英寸)要多,与父母相比有增高的趋势.这种现象不是个别的,它反映了一般规律.高尔顿对这个结论的解释是:大自然有一种约束力,

使人类身高的分布在一定时期内相对稳定而不产生两极分化,这就是所谓的回归效应,人的身高因约束力而“回归于中心”.

正是通过这个例子,高尔顿引入了“回归”一词.人们把(8.3.2)所表示的直线称为回归直线.其实两变量间有回归效应的现象并非普遍现象,更多的相关关系不具有这一特征,特别是涉及多个自变量的情况时,回归效应不复存在.因此称谓“线性回归模型”、“经验回归方程”等概念中的“回归”一词并非总有特定意义,只是一种习惯说法而已.

8.3.2.一元线性回归模型

考虑因变量y 和一个自变量x 的一元线性回归,假设回归模型为 y =0β+1i x βε+, ()0E ε=, 20()Var εσ<=<∞ (8.3.3)

其中ε为随机误差,其均值为0,方差为2σ,y 是随机变量,x 是非随机变量(除非特别声明,我们考虑的回归分析中一律把自变量视为非随机的),0β,1β和2σ都是未知参数.0β称为常数项或截距,1β称为回归系数.(8.3.3)式称为理论模型.

现设对模型(8.3.3)中的变量x ,y 进行了n 次独立观察,得到样本值(1x ,1y ), (2x ,

2y ),…,(n x ,n y ),从而

i y =0β十1β1x +i ε (i =1,2,…,n ), (8.3.4)

其中i ε是第i 次观察随机误差ε所取之值,它是不能观察到的.对i ε (i =1,2,…,n)最常用的假定是:

(1)误差项的均值为零,即()i E ε= 0 (i =1,2,…n );

(2)误差项具有等方差,即2

()i Var εσ= (1,2,)i n = (8.3.5)

(3)误差项彼此不相关,即(,)i j C ov εε=0 (;,1,2,,)i j i j n ≠=

通常称假定(8.3.5)为Gauss-Markov 假定.在这三条假定中,(1)表明误差项不包含任何系统的影响因素,视测值i y 在均值()i E y 的上下波动完全是随机的.(2)要求i ε等方差,也即要求在不同次的观测中i y 在其均值附近波动程度的大小是一样的.(3)则等价于要求不同次的观测是不相关的.统计学中把(8.3.4)式及假设(8.3.5)合一起称为一元线性回归模型,它给出了样本观测值(i x ,i y )(i =1,2,…n)的概率性质,并可以对理论模型(8.3.3)进行统计推断.可见,理论模型(8.3.3) 只起了一个背景的作用.

对i ε的进一步假定是

2

(0,

)(1,2,,)

i N i n εσ= (8.3.6) 这是一个比Gauss —Markov 假设更强的假设,指明了误差项所服从的分布.由(8.3.4)式

2

0101(,)i i i i y x N x ββεββσ=+++ (1,2,,)

i n = , 且12,,,n y y y 相互独立.本章只讨论如下的一元线性回归模型

2

01,

(0,)1,2,,)

i i i i i y x N i n ββεεσε=++⎧⎪⎨

=⎪⎩ 且相互独立( (9.3.7)

在多数应用问题中,我们选择x 与y 之间的线性回归形式很难有充分根据,在很大的程度上要依靠数据本身.将独立试验的几个观测值(,)(1,2,,)i i x y i n = 在直角坐标系中描出相应的一点,所得图形称为散点图,如图9—1所示.散点图中的点虽杂乱无章,但当它

们大体呈现出一种直线走向的趋势时,选取线性回归函数是比较合理的.否则的话,我们应选取适当形式的曲线来拟合这些点,用曲线方程反映x ,y 之间的相关关系才更精确些.

图9—1 观测数据的散点图

考虑模型(8.3.7),如果由样本(,)(1,2,,)i i x y i n = 得到参数夕01,ββ的估计01

ˆˆ,ββ,则称方程

01

y x ββ=+ 为y 关于x 的线性回归方程或回归方程,其图形称为回归直线.

对于模型(8.3.7)将从下列各方面逐一研究.

1)未知参数01,,ββσ2

及的估计

(1) 01,ββ的估计——最小二乘法.回归分析的主要任务就是要建立能够近似反映,x y 的相关关系的经验回归函数.

这里“经验”是指回归函数是由当前的样本观测值得出的,也就是根据数据(,)(1,2,,)i i x y i n = 由模型(8.3.7)去估计0β,1β.怎样给出的估计才是合理的呢?我们要定出一个准则,以衡量由此所导致的偏差,希望偏差越小越好.假若以

10

,ββ作为01,ββ的估计时,偏差 1

0()(1,2,,)i i y x i n ββ-+= 的绝对值越小,说明用 1

0i x ββ+代替i

y 时误差越小.考虑到数学处理上的方便,衡量这些偏差大小的一个合理的指标为它们的平方和(通过平方去掉差值正负符号的影响).记

2

01011

(,)(),n

i

i i Q y

x ββββ==

--∑ (8.3.8)

则01(,)Q ββ反映了n 次观察中总的偏差程度,称为残差平方和.若 0β, 1

β使Q( 0

β, 1

β)越小,则模型拟合数据越好,因此只需极小化Q(01,ββ),以所得的01

ˆˆ,ββ作为01,ββ的相应估计.所谓最小二乘法就是按照这一思路,通过使残差平方和达到最小来估计回归系数的一种方法.这一重要方法一般归功于德国大数学家高斯在1799年~1809年间的工作.用最

小二乘法导出的估计有一些良好性质,因而该法在数理统计中有广泛的应用.

对于模型(8.3.7),最小二乘法与我们常用的最大似然估计法所得到的结果是一致的.因为12,,,n y y y 的联合概率密度为

2012

1

1()2n

i i i L y x ββσ

=⎡

=∏

---⎢⎥⎣⎦

20121

1exp ()2n

n

i i i y x ββσ

=⎡⎤

=--

⎥⎝⎣⎦

求使L 达到极大值的01,ββ,只需极小化2011

()n

i i i y x ββ=--∑,这个和不是别的,正是我们

上述的残差平方和01(,)Q ββ.

利用多元函数求极值的方法,分别求01(,)Q ββ关于01,ββ的偏导数,并令它们分别等于零:

0110

0111

2()0,2()0.n

i i i n

i i i i Q

y x Q y x x ββββββ==∂⎧=---=⎪∂⎪⎨∂⎪=---=⎪∂⎩∑∑ 整理得

012

0111

,(),

n n

i i i

i i n nx ny nx X X Y ββββ==+=⎧⎪⎨+=

⎪⎩

∑∑ (8.3.9)

其中x =

1

1

1

1

,n

n

i

i i i X y y n

n

===

∑∑.

方程组(8.3.9)称为正规方程组。由于一般要求i x 不全相同,即试验点的选取不能只集中在一点,则方程(8.3.9)的系数行列式

222

21

1

1

()()0n

n

n

i

i i i i

i n

nx

n X

nx n X X nx

X

====-=-≠∑∑∑

从而正规方程组(8.3.9)的唯一解为

12

1()y )1

2

()1

01(),

()

.

n

i i i n

i i n

i

X X y i n

X X i

i X

X y

X

X y x βββ==--=-=⎧

-⎪∑⎪=⎪⎨-∑⎪

⎪=-⎪⎩∑∑(1 = (8.3.10)

(8.3.10)式中的 0β, 1

β良分别称为0β,1β的最小二乘估计,于是所求的线性回归方程为

01

y x ββ=+ (8.3.11)

若将 0β= 1

y x β-式代入(9.3.11)式,则得线性回归方程 1

()y y x x β=+- (8.3.12) 可见,回归直线总通过点x ,y ).(x ,y )称为样本数据的几何中心.

根据模型(8.3.7)中的假定,很容易推出最小二乘估计 0β和 1

β的一些性质. (i ) 0β, 1

β和 0β+ 1x β的线性无偏估计. 事实上,线性性显然.由01()i i E y x ββ=+,得 1

1

2

1

()()()n

i i i n i i x x y E E x x β==⎧⎫

-⎪⎪⎪⎪=⎨⎬⎪⎪-⎪⎪⎩⎭

∑∑ 21

1

1

()()()n i i n

i i i x x E y x x ==⎡⎤

=

-⎢⎥⎣⎦-∑∑

0121

1

1

()()()n i

i n

i i i x x x x x ββ==⎡⎤

=

-+⎢⎥⎣⎦-∑∑

121

1

1

()()n i i n

i i i x x x x x β==⎡⎤

=

-⎢⎥⎣⎦-∑∑

1;β=

01

1

1

1()()()n

i

i E E y x E y x n

βββ

==-=-∑

01

1

01

1

;n

i

i x x n

ββ

ββ==+-=∑ 010101()()()E x E E x x ββββββ+=+=+. (ii ) 0β, 1β和 01x ββ+的方差分别为 221

021

(),()n

i

i n

i i x Var x x βσ==⎛

⎪ ⎪= ⎪

- ⎪

∑∑

2

1

2

1

(),()

n

i

i Var x

x σ

β==-∑ 2

201211()

().()n

i i x x Var x n x x ββσ=⎛

⎫ ⎪- ⎪+=+ ⎪

- ⎪⎝⎭

∑ 根据12,,n y y y 的正态性和独立性,可得 0β, 1

β及 0β+ 1x β的分布为 22

1

021

,()n

i

i n

i i x

N x x ββσ

==⎛

⎪ ⎪

- ⎪

∑∑

(8.3.13) 21121,,()n

i i N x x σββ=⎛

⎪-

⎪⎝⎭

∑ (8.3.14) 22

0101

211()ˆˆ,()n

i i x x x N x n x x ββββσ=⎧

⎫⎛⎫⎪

⎪ ⎪-⎪⎪

⎪+++⎨⎬ ⎪

⎪⎪- ⎪⎪⎪⎝

⎭⎩

∑ (8.3.15) 这些分布性质在以后的检验和区间估计中有很重要的作用.

另外,由 1β的方差表示式中可以看出:随着21()n

i i X X =-∑的增大, 1

β的方差逐

渐减小.这意味着当i x 的取值可以由我们选定时,在一定程度上应使诸i x 的取值尽量散开些,以提高 1

β的估计精度.数学上还可以进一步证明,在所有的线性无偏估计量,甚至所有的无偏估计量中,1β的最小二乘估计量的方差最小(此结论可由著名的Gauss —Markov 定理得到,我们不作介绍).还有,随着榉本容量的增大, 1

β的方差也会不断减小. (2)参数2σ的估计.设 0β, 1

β是0β,1β的最小二乘估计,可用在i x x =处 0i y β= 1i

x β+作为因变量y 的实际观察值为i y ,二者之差 (1,2,,),i i i e y y i n =-=

称为残差.

2

1

n

e i

i Q e

==

称e Q 为残差平方和.

我们不加证明的指出Q 的性质如下; 2

2

2

()

(2);e

Q i n χ

σ

- (8.3.16)

1(),,e

i i y Q β三者相互独立. (8.3.17) 利用(8.3.16)及2χ分布的性质,有

222e Q E n σ⎛⎫

=- ⎪⎝⎭

从而有

22

2e Q E n σ⎛⎫= ⎪-⎝⎭

若记

2

2

21

1

2

2

n

e

i

i Q S e n n ==

=

--∑.

则2S 是2σ的一个无偏估计.2

S 的正平方根S 又称为回归估计的标准误差.S 越小,表明实际观测值与所拟合的经验回归直线的偏离程度越小,即回归直线具有较强的代表性;反之,则回归直线的代表性较差.

在回归分析中残差具有重要作用.首先,利用残差给出了2

σ的一个估计,需注意,

对于模型(8.3.7),

2

2

e

Q σ

服从自由度为n 一2的2χ分布,其自由度n 一2比样本容量n 少

2,可以这样理解:因为2e Q 中有两个未知参数0β,1β需要估计,用掉了两个自由度.另外,通过对残差进行分析可以考察我们假定的回归模型是否正确,称为回归诊断.它已发展成为回归分析的一个分支.当模型正确时,残差应是误差的一个反映,因误差1ε,2ε, ,n ε是独立同分布的;具有“杂乱无章”的性质,即不应呈现任何规律性,因此残差12,,,n e e e 也应如此.如果残差12,,,n e e e 呈现出某种规律性,则可能是模型中某方面假定与事实不符的征兆,就可以怀疑模型假定有问题.许多统计分析软件都可以作出残差图,残差图的分析是回归诊断的一个重要工具.

例8 在动物学研究中,有时需要找出某种动物的体积与重量的关系,因为重量相对容易测量,而测量体积比较困难.我们可以利用重量预测体积的值.下面是某种动物的18个随机样本的体重x (kg)与体积y 33(10)m -的数据.

解 把,x y 的数据输入,建立SPSS 数据文件,以y 为因变量,x 为自变量,调用线性回归分析过程,经计算得

00.104,β=-, 1

0.988β=. 所以y 与x 的回归方程为 .

y =0.104-+0.998x .

这里回归方程反映了当动物体重为x 时,体积取值酌平均情况x 的系数 1

β=0.998可解释为动物体重每增加1kg 时,动物体积平均增加0.998⨯310-;但是 0

β=0.104-却显然不能解释为动物体重为0时动物的体积,因为.此模型在x =0 附近可能早巳经不成立了.因

此在回归分析模型中系数意义的解释必须特别谨慎.首先自变量之值必须处在一个合理的范围内,另外所作分析必须与实际问题紧密结合,否则就会得出错误结论.

2)模型的检验

在回归分析中,当模型中的未知参数估计出来后,还必须利用抽样理论来检验所得回归方程的可靠性,具体可分为对回归方程拟合程度进行显著性检验和对回归系数进行显著性检验.

在一元线性回归模型中,由于用最小二乘法求回归方程时,并不需要预先假定两个变量y 与x 一定存在线性关系,即使是平面上一些杂乱无章的散点(,)i i x y (1,2,,i n = )也可以用前面的公式给它配一条直线,但这也许毫无意义,所以检验y 与x 之间是否存枉线性关系是很必要的。

(1)回归方程拟合程度评价指标——判定系数2R 。所谓拟合程度,是指样本观测值聚集在回归直线周围的紧密程度.判断回归模型拟合程度优劣的最常用的数 量指标是判定系数

2

R .该指标是建立在对总离差平方和进行分解的单础之上的.

因变量的实际观测值与其样本均值的离差i y y -可以分解为两部分:一部分是因变量的理论回归值与其样本均值的离差 i y y -,它可以看成是离差 i y y -中能够由回归直线解释的部分,称为可解释离差; 另一部分是实际观测值与理论回归值的离差 i i y y -,它是不能由回归直线加以解释的残差.

记:2

1

()n

T i

i S y

y ==

-∑, 2

1

()n

R i i S y y ==

-∑

, 2

1

()n

e i

i i S y

y ==

-∑

由ˆˆ()()i i i i y y y

y y y -=-+-, 并利用1

0n

i i i e x ==∑, 得 1

ˆˆ()()0n

i

i i i y

y y y

=--=∑ 从而有

2

2

2

1

1

1

()()()n

n

n

i

i

i i i i i y

y y y y

y ===-=

-+

-∑∑

∑,

即 T R e S S S =+ (8.3.18)

(8.3.18)式中T S 称为总的离差平方和;R S 是可用回归直线解释的那一部分离差平方和,称为回归平方和;e S 是用回归直线无法解释的离差平方和,称为剩余残差平方和,即残差平方和.

在(8.3.18)式两边同除以T S ,得

1.e R T

T

S S S S =

+

可见,各个样本观测值与样本回归直线靠得越紧,R S 在T S 中所占比例就越大。令

2

1,e R T

T

S S R S S =

=-

称2R 为判定系数.判定系数是对回归模型拟合程度的综合度量,判定系数越大,模型拟合程度越高;判定系数越小,则模型对样本的拟合程度越差.显然o ≤2R ≤1. 2R =1时,说明总离差完全由所估计的经验回归直线来解释;当20R =时,经验回归直线没有解释任何离差,模型中自变量x 与因变y 完全无关,y 的总离差全部归于残差平方和.

为了进一步理解判定系数2R 的统计意义, 考察一元线性回归模型回归平方和

2

2

11

1

()()n

n

R i i i i S y y x x β==⎡⎤=

-=

-⎣⎦

= 11

1

()()n

i i i x x x x ββ=--∑ = 11

()()n

i i i x x y y β=--∑

=12

1

()()()

n i i i n

i

i y y x x x

x ==⎡⎤

--⎢⎥⎣⎦

-∑∑.

于是 2

12

2

2

1

1

()(),()

()

n i i i n

n

i

i

i i y y x x R y

y x

x ===⎡⎤--⎢⎥⎣⎦

=

--∑∑∑

它是因变量y 与自变量x 之间的样本相关系数的平方.因为相关系数是两个量之间线性相关程度的一种度量,因此2R 愈大,就表示回归方程与样本数据拟合得愈好.

(2)回归方程显著性检验——F 检验.在一元回归分析中,整个回归方程是否合用,需要对y 与x 之间的线性关系进行检验.如果y 与x 联系很小或根本没有线性关系,则1β就会很小并接近于零,因此对回归方程进行检验即检验假设

01:0H β=,↔ 11:0H β≠.

本检验可以根据总离差平方和的分解来构造检验统计量,用方差分析的方法进行F 检验.

(8.3.18)式中的三项, T S 是样本观测值总离差,R S 反映了回归值

12,,,n y y y 对其平均值y 的离散程度,e S 反映了观测值(,)(1,2,,)i j x x i n = 与回归直线的偏离程度,反映了扣除因素x 的影响后其他因素包括随机因素在内对y 的影响.可以证明,当0H 成立时,

2

2

(1)R

S χσ

,

2

2

(2)e

S n χσ

- .

且R S 与e S 相互独立,其中2

σ是随机误差.故当0H 成立时,

/1(1,2)/(2)

R e S F F n S n =

-- .

当x 与y 之间真正存在线性相关关系,y 的离差平方和应该主要是由于自变量x 的变化影响所致,回归平方和R S 理应较大,F 值倾向于取较大值.相反,若x 与y 之间没有线性相关关系,x 与y 的真正关系实际上被纳入误差的范畴,则e S 应该较大,从而比值F 较小.因此,对于给定显著性水平α,若(1,2)F F n α>-,则拒绝0H ,认为y 与x 之间存在线性相关关系;否则,不拒绝0H .这种检验称为F 检验法或回归方程的方差分析.

F 检验的过程通常是用方差分析表来进行,如表8.7所示.

(3)回归系数的显著性检验——t 检验.回归分析中的显著性检验包括两个方面:一方面是对整个回归方程的显著性检验,可以用方差分析的思想方法予以解决.它着眼于整个回归方程,特别对于多个自变量的情形看得更清楚,比如因变量y 与自变量12,,p x x x 的回归方程

01212p p

y x x x ββββ=++++ 要考察整个方程是否合用,可用F 检验法进行判别.但整个方程检验合用并不意味着方程包含的各个自变量(1,2,,)i x i p = 分别都对因变量y 有解释作用.因此回归分析中另一个方面的显著性检验就是对回归方程中各回归系数的显著性检验;

0:0i H β=,↔1:0i H β≠ (1,2,,)

i n = 如果检验时0H 被接受,则自变量i x 实际上可以从方程中去掉;否则,可认为自变量i x 确实对因变量y 有解释作用.可见,各回归系数的显著性检验有别于对整个回归方程的显著性检验,它通常采用t 检验法来进行.

在一元线性回归模型中,由于只有一个自变量x ,对1β的t 检验与对整个方程的F 检

验两者是等价的.对于多元线性回归模型中两个检验的不同作用就突显出来了. 考虑模型(8.3.7),若自变量x 与因变量y 之间不存在线性关系,则1β就很小 并接近于零.因此检验y 与x 之间是否具有线性相关关系也是检验假设

01:0H β=,↔11:0H β≠

由(9.3.14)式,并记

1

2

2

21

1

,()n

i i X X βδσ=⎛⎫ ⎪

⎪= ⎪

- ⎪

则 ()1

2

11,.N βββδ 在方差2

σ

已知的情况下,课用前面所学的Z 检验法对上述假设进

行试验。一般情况下2

σ是未知的,要用无偏估计量2

2

2

e

Q S n =

-代替。记

1

2

221

1

,()n

i i S X X βδ=⎛

⎫ ⎪

⎪= ⎪

- ⎪

1

1

11

(2),t t n S ββββ-=

- (8.3.19)

式(8.3.19)中,n 为样本容量,n-2为t-分布的自由度。

当确定显著性水平α后,根据样本观测值可计算出

1

1

1t S βββ=

。当0H 成立时,因

10β=,有

1

1

1(2).

t t n S βββ=

- 从而可确定0H 的拒绝域为

1

1

12

(2)t t n S αβββ=>- (t 双侧检验)

. 如果 1

S β的绝对值大于临界值2

(2)t n α-,

就拒绝原假设,接受备择假设;反之,则接受原假设。在用统计软件进行计算时,在计算机输出结果中往往给出回归系数β1的t 检验的伴随概率,即P 值。当P 值小于给定的显著性水平α时,拒绝原假设0H ,否则接受0H .

若经检验,接受原假设0H ,则说明回归效果不明显,表明自变量X 对因变量y 线性影响程度不大,可能影响y 的因素除x 变量外,还有其他不可忽视的因素,因而选择一元回归根本不适合;或者y 与x 的关系根本不是线性的,需要作曲线回归;或者自变量x 对因变量y 根本无影响。总之,此时模型不适合用来作诸如内插(在自变量数据的范围之内使用回归方程)、外推(在建立回归方程时所用的自变量数据的范围之外去使用回归方程)等形式的统计推断。

3)回归系数的置信区间

由(9.3.19)式可以作β1的区间估计,β1的置信度为1-α的置信区间为

1

12

(2)),t n S αβ

β±-( 其中,

1

2

.2

e Q S S n β=

=-

例9 (续例8)试对例8求得的回归方程及回归系数1β进行显著性检验。若显著时,求

出1β的95%置信度的置信区间。

解 由于一元回归分析中对回归方程的拟合检验与回归系数的显著性检验等价,因此给出F 检验和t 检验两种方法。用SPSS 统计软件的回归方程,计算判定系数20.993.R =,可见此拟合程度较大,模型比较适合。回归方程的方差分析表如下。

由上表知,反映显著性的P 值远远小于0.05,故说明所求回归方程y=0.1040.998x -+还是比较合适的。对1β作显著性检验

011

1

:0,:0.H H ββ=↔

计算 1

48.028,t β= 0.365419P E -值为. 应拒绝原假设0H ,说明相对于误差而言,自变

量x 对因变量y 的线性影响是重要的。求得1β的95%的置信区间为(0.944,1.032)。不包含0值,也能说明1β0≠且取正值,可见随着体重的增加,动物的体积平均值也是逐渐增大的。

由本例可以看出,从各个不同的方面进行统计分析得出的结论是一致的,回归方程

0.1040.998y x =-+较好地反映了y 与x 的线性相关关系。

4)预测与控制

回归分析的一个重要应用是用来进行预测和控制。如果所拟合的经验回归方程经过了检验,并且回归方程有较高的拟合程度,就可以利用其来预测已知x 取值0x 时y 的取值范围(区间预测)或y 的取值(点预测),或者是欲将y 的取值限制在某个范围,确定应当如何控制x 的取值。

(1) 预测问题. 预测分点预测和区间预测。 点预测的简单回归预测的基本公式为

010

0,y x ββ=+ (8.3.20) 其中0x 是给定的自变量x 的某一取值, 0y 是0x 给定时因变量y 的预测值, 0β, 1

β是用前述方法已估计出的回归系数值。当给出的0x 属于样本内的数值时,由(8.3.20)式得出的点预测 0y 称为内插或事后预测;而当给出的0x 在在样本之外时,利用(9.3.20)式计算出的 0y 称为外推或事前预测。实际上,这里y 在0x 处的预测值就取为回归函数 01x ββ+在0x x =处的估计 01

x ββ+。 但是预测问题与估计回归函数问题是有实质区别的,并且由下面计算的预测误差可以

看出,预测的精度要比估计回归函数的精度差。

设0x x =给定时,y 的真值为0y ,则

0y =0100x ββε++。

设ε为预测的残差,即 00

,e y y =-其中 0100y x ββ=+。注意此处的0y 并不是一个

未知的参数,其本身也具有随机性,是一个随机变量,即被预测量是一个随机变量. 由于(xo ,yo)是将要进行的一次独立试验,因此有理由假定0y 是与前述模型(9.3。 7)中诸i

y (i =1,2,…,n)独立同分布,即yo,1,,n y y 相互独立同分布.而是

12,,,n y y y 的线性组合,因此yo 与 0y 独立.于是

2

2200021()1

()()()()n

i i x x Var e Var y Var y n x x σσ=⎡

⎢⎥

-⎢⎥=+=++

⎢⎥

-⎢⎥⎣⎦

∑ 2

2

0001021()11()()()()n

i i x x Var y Var e Var x n x x σββ=⎡

⎢⎥-⎢⎥=++

>=+⎢⎥

-⎢⎥⎣

其中1

1

.n

i

i x x n

==

∑ 由此可见估计0

10x ββ+与预测y 。之区别.

类似于点估计与区间估计的差别,为了能给出预测的精度及说明预测的把握 程度,在应用上,有时因变量的、区间预Q0更为人们所关注.所谓区间预测,就是找

一个区间,使得被预测量的可能取值落在这个区间内的概率达到预先给定的值.

同点预测中对01,,,n y y y 的假定,易知

2

2

00021()1~0,1()n

i i x x y y N n x x σ

=⎛⎫

⎡⎤

⎪⎢⎥

- ⎪⎢⎥-++

⎢⎥- ⎪⎢⎥⎣

⎦⎝

∑ 由于,’是未知的,用其无偏估计2S 来代替,则预测标准误差的估计值

~(2).t n =

-

因而对给定的a ,有

2(2)1.a P t n a ⎧⎫

⎪⎪⎪

⎪⎪

≤-=-⎬⎪

⎪⎪⎪⎭

于是得到置信度为1一a 的y 。的预测区间为 、

02

(2)a y t n ⎛

±- ⎝

这里的区间预测是对一个随机变量而言的,它有别于前面未知参数的区间估计. 的预测区间的长度 为

002

2

2

(2)(2)2(2)a a a d y t n S y t n t n S ⎛⎛

=+----=- ⎝

(9.3.21)

由(9.3.21)式可知: ; ·

(i)对于给定的样本观测值和置信度,用回归方程来预测 0y 时琪精度与x 。有 关.当0x 越靠近x ,预测区间的长度越短,预测的精度越高.

图9-3 预测区间长度与0x 关系

如图9—3所示,l 为由样本点配出的经验回归直线,12,c c 分别是0y 的预测区间 上、下端点随x 。变化时画出的曲线.在x 的附近平行于y 轴的直线被12,c c 截得的线段较短,远离x 所作平行于y 轴的直线被12,c c 截得的线段较长,12,c c 所夹区域呈中

间小两头大的喇叭型.而所截线段的长度正是预测精度的‘常用衡量指标,这就清楚地说明了上述结论.因此在用回归模型进行预测时,x 。的取值不宜离开x 太远,否

则预测精度将会大大降低,使预测失效.更重要的是利用线性回归方程进行预测,

若不在原来的试验范围内进行,随意扩大范围,线性模型本身的假定可能早巳不存 在了,从而这种预测已无任何意义了· 。

(㈠当样本容量很大时,若0x 的附近,只要试验观测点,1,,n X X 不过无论样本容量取多大,

1

2

2

.

2

0.993.

e Q S S n R β=

=

-=

0y 的预测区间长度不小于2

2a

z S ,即区间预测的精度总有一 个界限.究其原因是因为预测问题中包含了一个无法克服的随机误差项.

(2)控制问题.预测问题的逆问题是控制问题,回归方程可以用来解决控制问

题.假定因变量y 与自变量x 之间的线性回归方程, 01

y x ββ=+ 已经求得,现要求y

的取值必须在范围12(,)y y 内,这里2y ,1y 是变量y 的上、下限.问应控制J 在什么范 围内才能以概率1-a 来保证这一要求的实现呢?

我们只考虑n 充分大的简单情况.令 1012

2

2012

2

,a a

a a

y y z s x z s y y z s x z s ββββ=-=+-=+=++

并分别求解出x 来选作x 的上、下限.显然,为了实现控制,区间12(,)y y 的长度21y y - . 必须大于2

2a z S ,即

21y y ->2

2a z S

这一要求是合理的.因为如同预测区间的精度总有一个界限一样,在控制问题中随

机误差项的影响也是不可能消除的.

在此值得提醒的是:回归方程不可逆转使用.在自变量工和因变量)/都是随机 的场合,任取一个作为回归分析的因变量,就存在两个回归方程:y=a+bx,x=c+dy ,这两个方程并不一致,即由 y=a+bx 得:a y x b b

=-

+ 并不一定就是第二个方程

X=c+dy 除非x . y 之间的相关系数2ρ,即x . y 有严格的线性关系时才成立.在 我们的控制问题中,自变量之值能由人选择时,x 作为普通变量,不是随机变量,不 存在作x 对y 的回归问。因此由y 的取值控制x 时用的并不是x 对y 的回归方程. 例10 下表中的夕和工分别是15个居民家庭中的人均食品支出与人均月收入 水平的数值(单位:元).

.203.

(1)假定在商品价格不变的条件下,实际的食品支出与实际的收入水平之间

的关系可以用一元线性回归模型来反映,试求以x 为自变量,x 与y 之间的回归方 程,并求出回归估计标准差.

(2)假定某地居民家庭的人均月收入为200元,利用(1)中的结论,计算置信度 为95%的月食品支出的预测区间.

解 (1)将工和"的数据输入计算机,调用SPSS 软件的线性回归分析过程,计: 算得回归方程为

9.9870.1802y x =+

计算得判定系数R ’;o .886.对回归方程的拟合检验的方差分析表如下:

由于P 值=9224E 一7远远小于0.05,故所求回归方程) y =9.987+0.1802x 较好地

拟合了给定的数据· 。 计算输出回归估计标准差为

1.829S =

= ·

(2)将有关数据代人拟合好的样本回归方程,得 09.870.1802

200

45.91(

y =+

⨯=元) 查t 布表,得 0.025

t (13)=2.1604,因此当人均月收人为200元时,置信度为95%的

月食品支出的预测区间为(40.41,51.57).

§8.3 可化为一元线性回归的非线性回归问题

两个变量之间是否具有线性关系,往往可以借助某些理论或散点图来进行分 析.如果两变量之间不是线性相关关系时,用线性回归模型强行作拟合,则效果会

很差,甚至没有意义.对于某些非线性的回归函数,可以通过适当变量替换转化为

线性回归函数,然后再利用线性回归分析的方法进行估计和检验.

下表9.8列出了几种特殊曲线的线性化变量代换方法.

对于原曲线回归方程经过变量代换线性化以后,原始数据经过变换后作为样 本,即可对变换后的方程作回归分析,进行统计推断.注意最后的变量要还原为原变量,得到的是曲线回归方程.

在实际应用时要注意以下几个问题:

(1)对于较复杂的非线性方程,常常要综合利用上述方法作变换,这些方法并 不是相互孤立的. ·

(2)在作变量代换时,所有新变量中都不允许包含未知的参数,否则就不可能 根据原变量的样本观测值,对关于新变量的线性回归方程进行统计推断.比如y =0

0,k bx k α+未知时所作变换就不可行。

(3)并非所有的非线性回归方程都可以通过变换得到与原方程完全等价的线性回

归方程。

例11 下表是1957年美国旧轿车价格的调查资料。今用x 表示轿车的使用年限,y 表示相应的平局价格,求y 关于x 的回归方程。 bx

y ae =。

两边取对数,令'

'

y a bx =+由原始数据得下表:

由原始数据得下表;

第八章一元线性回归分析

§3 一元线性回归分析 客观事物总是普遍联系和相互依存的,它们之间的数量联系一般分为两种类型:一类是确定性关系,即函数关系;另一类是不确定的关系,称之为相关关系.前一类关系我们在数学分析中已进行了大量研究.第二类关系在我们的生活实践中也大量存在,如身高与体重、播种面积与总产量、劳动生产率与工资水平等关系.这些变量之间有一些联系,但没有确切到可以严格确定的程度,即前一个量不能惟一确定后一个量的值.又如,城市生活用电量y 与气温X 有很大的关系,在夏天气温很高或冬天气温很低时,由于空调、冰箱等家用电器的使用,用电量就高.相反,在春秋季节气温不高也不低,用电量就相对少.但我们不能由气温X 这一个量准确地决定用电量Y .回归分析就是研究相关关系的一种数学工具,它着重于寻找变量之间近似的函数关系. 8.3.1.回归分析的基本概念 回归分析作为一种统计方法,是利用两个或两个以上变量之间的关系,由一个或几个变量来表示另一个变量.被表示的这个变量往往是我们研究的一个指标变量,常称为因变量或响应变量,记之为Y .与之有关的另一些变量可记为1X ,2X , ,p X ,称为自变量或预报变量.由1X ,2X , ,p X 可以部分地决定Y 的值,但这种决定不很确切,这种关系就是所谓的“相关关系”.我们可以设想Y 的值由两部分组成:一部分是由1X ,2X , ,p X 能够决定的部分,它是12p ( X ,X ,,X )f 的函数,记为12p ( X ,X ,,X )f .而另一部分则是由包括随机因素在内的其他众多未加考虑的因素所产生的影响,这一部分的诸多因素不再区别,所造成的对Y 的影响一起被称为随机误差,记之为ε.于是得到如下模型: Y =12p ( X ,X ,,X )f +ε 这里ε是随机变量,一般要求满足某些假定,如()E ε=0,函数12p ( X ,X ,,X )f 称为理论回归函数,它描述了Y 随自变量12p X ,X ,,X 变化的平均擘况. Y =12p ( X ,X ,,X )f 称为回归方程.这种确定的函数关系可用来近似代替复杂的相关关系.回归分析的任务就在于根据12p X ,X ,,X 和Y 的观察值去估计理论回归函数,并讨论与之有关的种种统计推断问题,如假设检验问题和估计问题.回归分析所用方法在相当大的程度上取决于模型的假定. (1)若回归函数12p ( X ,X ,,X )f 的数学形式并无特殊假定,称为非参数回归. (2)假定12p ( X ,X ,,X )f 的数学形式已知,只是其中若干个参数未知,需要通过观测 值去估计,称为参数回归.应用上最重要、理论上发展得最完善的是 12 p ( X ,X ,,X ) f 为

第8章回归分析

第8章回归分析 第8章回归分析8.1线性回归分析的基本原理8.2图表分析与回归函数分析8.3Excel回归分析工具8.4多元回归 分析8.5非线性回归分析本章学习目标u?回归分析的基本思想u?利用Excel图表进行线性回归分析u利用Excel回归 分析工作表函数进行线性回归分析u利用Excel回归分析工具进行一元及多元线性回归分析u?非线性回归分析的基本思路8.1线性回归分析的基本原理8.1.1回归分析的概念8.1.2回归分析的主要内容8.1.1回归分析的概念首先要区分两种 主要类型的变量:一种变量相当于通常函数关系中的自变量,对这样的变量能够赋予一个需要的值(如室内的温度、施肥量)或者能够取到一个可观 测但不能人为控制的值(如室外的温度),这样的变量称为自变量;自变量的变化能引起另一些变量(如水稻亩产量)的变化,这样的变量称为因变 量。由一个或一组非随机变量来估计或预测某一个随机变量的观测值时,所建立的数学模型及所进行的统计分析,称为回归分析。因此,回归分 析是研究随机变量与非随机变量之间的数量关系的一种数学方法。如果所建立的模型是线性的就称为线性回归分析。线性回归分析不仅告诉我们怎样 建立变量间的数学表达式,即经验公式,而且还利用概率统计知识进行分析讨论,判断出所建立的经验公式的有效性,从而可以进行预测或估计。 8.1.2回归分析的主要内容回归分析的内容包括如何确定因变量与自变量之间的回归模型;如何根据样本观测数据,估计并检验回归模型 及未知参数;在众多的自变量中,判断哪些变量对因变量的影响是显著的,哪些变量的影响是不显著的;根据自变量的已知值或给定

值来估计和预测 因变量的值。Excel提供了许多回归分析的方法与工具,它们可用于不同的分析目的。8.2图表分析与回归函数分析8.2.1 利用图表进行分析8.2.2Excel中的回归分析工作表函数8.2.3利用工作表函数进行回归分析8.2.1利用图 表进行分析例8-1某种合成纤维的强度与其拉伸倍数之间存在一定关系,图8-1所示(“线性回归分析”工作表)是实测12个纤维样品 的强度y与相应的拉伸倍数x的数据记录。试求出它们之间的关系。(1)打开“线性回归分析”工作表。(2)在工具栏上选择“图表向导 ”按钮,单击打开图表向导对话框,如图8-2所示,在“图表类型”列表框中选择“XY散点图”,单击“下一步”按钮进入图表向导步骤2。 (3)在图表向导步骤2对话框的“数据区域”中输入“B2:C13”,选择“系列产生在”为“列”,如图8-3所示,单击“下一步”按钮进入步骤3。(4)在图表向导步骤3的对话框中,打开“图例”页面,取消“显示图例”,省略标题,如图8-4所示。(5)单击“完成” 按钮,得到XY散点图如图8-5所示。(6)在散点图中,把鼠标放在任一数据点上,右击,在快捷菜单中选择“添加趋势线”,打开趋势线对 话框。(7)在“添加趋势线”对话框中打开“类型”页面,选择“线性”选项,在“选项”页面中选择“显示公式”和“显示R平方”选项,单 击“确定”按钮,得到趋势回归图,如图8-6所示。8.2.2Excel中的回归分析工作表函数Excel提供的回归分析工作表函 数主要有以下几个:(1)截距函数。(2)斜率函数。(3)测定系数函数。(4)估计标准误差函数。(1)截距函数。其 功能是利用现有的x值与y值计算直线与y轴的截距。截距为穿

一元线性回归_方差分析_显著性分析

一元线性回归分析及方差分析与显著性检验 某位移传感器的位移x 与输出电压y 的一组观测值如下:(单位略) 设x 无误差,求y 对x 的线性关系式,并进行方差分析与显著性检验。 (附:F 0。10(1,4)=4.54,F 0。05(1,4)=7.71,F 0。01(1,4)=21.2) 回归分析是研究变量之间相关关系的一种统计推断法。 一. 一元线性回归的数学模型 在一元线性回归中,有两个变量,其中 x 是可观测、可控制的普通变量,常称它为自变量或控制变量,y 为随机变量,常称其为因变量或响应变量。通过散点图或计算相关系数判定y 与x 之间存在着显著的线性相关关系,即y 与x 之间存在如下关系: (1) 通常认为且假设与x 无关。将观测数据 (i=1,……,n)代入(1)再注意样本为简单随机样本得: (2) 称(1)或(2)(又称为数据结构式)所确定的模型为一元(正态)线性回归模型。 对其进行统计分析称为一元线性回归分析。 模型(2)中 EY=,若记 y=E(Y),则 y=a+bx,就是所谓的一元线性回归方程,其图象就是回归直线,b 为回归系数,a 称为回归常数,有时也通称 a 、b 为回归系数。 设得到的回归方程 bx b y +=0? 残差方程为N t bx b y y y v t t t i ,,2,1,?0 =--=-= 根据最小二乘原理可求得回归系数b 0和b 。 对照第五章最小二乘法的矩阵形式,令 ?????? ? ??=??? ? ??=??? ???? ??=??????? ??=N N N v v v V b b b x x x X y y y Y 2102121?111 则误差方程的矩阵形式为 V b X Y =-? 对照X A L V ?-=,设测得值 t y 的精度相等,则有 Y X X X b T T 1)(?-=

一元线性回归

第二章一元线性回归模型 基本要求: 1、了解相关与回归的概念 2、理解线性回归模型的假定 3、掌握普通最小二乘法 4、理解最小二乘估计量的性质 5、会进行回归模型的检验 第一节一元线性回归模型概述 一、相关与回归的基本概念 (一)变量之间的关系 各种经济变量之间的关系,一般可以分成两类,即完全确定的关系和非确定性的依存关系。 1.确定性关系或函数关系 如果一个变量值能被一个或若干个其他变量值按某一规律唯一的确定,则这类变量之间就具有完全确定的关系。 例如,当每吨水的价格为P元时,居民应缴纳的水费Y(元)与用水量X(吨)之间的关系可表示为Y=PX。 2.非确定性关系 如果变量之间既存在密切的数量关系,又不能由一个(或几个)变量之值精确的求出另一个变量之值,但在大量统计资料的基础上,可以判别这类变量之间的数量变化具有一定的规律性,也称为统计相关关系。 例如消费支出Y与可支配收入X之间有一定的关系,在一定范围内,收入增加,在理论上可以估计出增加的消费支出额。但应看到,可支配收入虽然是影响消费支出的重要因素,却不是唯一的因素。因此,根据可支配收入并不能精确的求出消费支出,也就不能用精确的函数关系表达式来表示这两个变量之间的关系。 计量经济学就是研究变量间的非确定关系的,变量间的统计相关关系可以通过相关分析和回归分析来研究。 (二)相关分析 1、涵义 相关分析是通过对经济现象的依存关系的分析,找出现象间的相互依存的形式和相关程度,以及依存关系的变动规律。 2、类型——从变量间的依存形式看,可分为线性相关和非线性相关。 线性相关反映变量间的依存关系可以近似的表示为一条直线;变量间的依存关系近似的表示为一条曲线则称为非线性相关。

一元线性回归

12.9 一元线性回归 以前我们所研究的函数关系是完全确定的,但在实际问题中,常常会遇到两个变量之间具有密切关系却又不能用一个确定的数学式子表达,这种非确定性的关系称为相关关系。通过大量的试验和观察,用统计的方法找到试验结果的统计规律,这种方法称为回归分析。 一元回归分析是研究两个变量之间的相关关系的方法。如果两个变量之间的关系是线性的,这就是一元线性回归问题。一元线性回归问题主要分以下三个方面: (1)通过对大量试验数据的分析、处理,得到两个变量之间的经验公式即一元线性回归方程。 (2)对经验公式的可信程度进行检验,判断经验公式是否可信。 (3)利用已建立的经验公式,进行预测和控制。 12.9.1 一元线性回归方程 1.散点图与回归直线 在一元线性回归分析里,主要是考察随机变量y 与普通变量x 之间的关系。通过试验,可得到x 、y 的若干对实测数据,将这些数据在坐标系中描绘出来,所得到的图叫做散点图。 例1 在硝酸钠(NaNO 3)的溶解度试验中,测得在不同温度x (℃)下,溶解于100 解 将每对观察值(x i ,y i )在直角坐标系中描出,得散点图如图12.11所示。从图12.11可看出,这些点虽不在一条直线上,但都在一条直线附近。于是,很自然会想到用一条直线来近似地表示x 与y 之间的关系,这条直线的方程就叫做y 对x 的一元线性回归方程。 设这条直线的方程为y ?=a+bx 其中a 、b 叫做回归系数(y ?表示直线上y 的值与实际值y i 不同)。 图12.11 下面是怎样确定a 和b ,使直线总的看来最靠近这几个点。 2.最小二乘法与回归方程 在一次试验中,取得n 对数据(x i ,y i ),其中y i 是随机变量y 对应于x i 的观察值。我 们所要求的直线应该是使所有︱y i -y ?︱之和最小的一条直线,其中i y ?=a+bx i 。由于绝对值在处理上比较麻烦,所以用平方和来代替,即要求a 、b 的值使Q= 21 )?(i n i i y y -∑=最小。

一元线性回归

一元线性回归模型及其在经济生活中的应用 中文摘要:本文回顾了描述变量相关关系和回归分析方面的基本知识,系统阐述了一元线性回归模型的基本原理,并将其应用于濮阳市国内生产总值预测中,取得了较好的效果。 英文摘要:This paper reviews the relationship between variables and describe the basic knowledge of regression analysis, the system describes a linear regression model of the basic principles, and applied to forecast gross domestic product, Puyang City, and achieved good effect. 引言: 随着科技的迅速发展,数学的应用不仅在它的传统领域——经济建设、工程技术等方面发挥着越来越重要的作用,而且不断向一些新的领域渗透,形成了许多交叉科学,如计量经济学、人口控制论、生物数学等。数学模型成为人们认识和研究这些学科的一种重要的工具,如何利用所学知识,建立与实际生活背景更贴切的数学模型来解决我们经济生活中存在的问题是摆在人们面前的重要课题!本文回顾了描述变量相关关系和回归分析方面的基本知识,系统阐述了一元线性回归模型的基本原理,并将其应用于实际生活中。 相关关系基本知识回顾: 在生产实践和科学实验中,经常会遇到一些相互关联、相互制约

的变量,它们之间客观上存在着一定的关系,为了揭示其内在联系,往往需要确定这些变量的关系程度。变量之间的关系大致可分为两类,一类是确定性的关系,变量之间按照确定的函数关系发生关联,也称函数关系,如物理学中速度与加速度之间的关系;另一类是不确定性的关系,这种关系无法用一个数学公式来精确描述。当一个变量(称因变量或可控变量)的取值确定后,若另一个变量(称因变量或依变量)的取值虽无确定值,但以一确定的条件概率分布与之对应,这种变量间的不确定性关系称为相关关系,如人的血压与年龄,身高与体重之间的关系,存在相关关系的变量称为相关变量。 统计学中研究相关关系的理论模型有相关模型和回归模型两种;相关模型指的是变量间具有平行变化关系,相应的统计分析方法称为相关分析,研究的是多个变量在数量关系上的密切程度和性质;回归模型指的是变量间具有因果变化关系,相关的统计分析方法称为回归分析,研究的是一个随机变量与一个或多个可控变量之间的变化关系。相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。相关分析需要依靠回归分析来表现变量之间数量相关的具体形式,而回归分析则需要依靠相关分析来表现变量之间数量变化的相关程度;相关分析研究变量之间相关的方向和程度,不能推断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况;回归分析可以推断变量之间相互关系的具体形式,能够从一个变量的变化来推测另一个变量的变化情况。 回归分析基本知识回顾:

第八章直线相关与回归分析

第十章一元回归与相关分析 概述:许多问题需要研究多个变量之间的关系,例如生物的生长发育速度就与温度,营养,湿度等许多因素有关。 相关关系:两变量X,Y均为随机变量,任一变量的每一可能值都有另一变量的一个确定分布与之对应。 回归关系:X是非随机变量(如施肥)或随机变量(如穗长),Y是随机变量,对X的每一确定值x i都有Y的一个确定分布与之对应。 区别:1.相关中的两个变量地位对称,互为因果;回归中X是自变量,Y是因变量。 两种意义不同,分析的数学概念与推导过程不同,但如果使用共同标准即使y的残差平方和最小(最小二乘法),可得到相同的参数估计式。因此主要讨论X为非随机变量(不包含有随机误差)的情况,所得到的参数估计式也可用于X为随机变量的情况。 2.分析目的不同。回归分析是建立X与Y之间的数学关系式,用于预测;而相关分析研究X与Y两个随机变量之间的共同变化规律,例如当X增大时Y如何变化,以及这种共变关系的强弱。 分类: 从两个变量间相关(或回归)的程度分三种: (1)完全相关。一个变量的值确定后,另一个变量的值可通过公式求出(函数关系);生物学研究中不太多见。 (2)不相关。变量之间完全没有任何关系。一个变量的值不能提供另一个变量的任何信息。(3)统计相关(不完全相关)。介于上述两情况之间。知道一个变量的值通过某种公式就可以提供另一个变量的均值的信息。一个变量的取值不完全决定另一个变量的取值,但可或多或少地决定它的分布。科研中最常遇到。 研究“一因一果”,即一个自变量与一个依变量的回归分析称为一元回归分析; 研究“多因一果”,即多个自变量与一个依变量的回归分析称为多元回归分析。 一元回归分析又分为直线回归分析与曲线回归分析两种;多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。 对两个变量间的直线关系进行相关分析称为直线相关分析; 研究一个变量与多个变量间的线性相关称为复相关分析;研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析。 注意:1.相关与回归只是一种工具,不是不相干的数据拼凑在一起。 2.除X、Y等需研究的因素外,其他的要严格控制一致。(身高与胸围的关系要控 制体重) 3.对子一般在5对以上 4.需限制自变量范围,结果不能随意外延。 第一节一元线性回归 (一)直线回归方程的建立 对于两个相关变量,一个变量用x表示,另一个变量用y表示,如果通过试验或调查获得两个变量的n对观测值: (x1,y1),(x2,y2),……,(x n,y n)

方差分析及回归分析

第九章 回归分析 教学要求 1.一元线性回归及线性相关显著性的检验法,利用线性回归方程进行预测。 2.可线性化的非线性回归问题及简单的多元线性回归。 ⏹本章重点:理解线性模型,回归模型的概念,掌握线性模型中参数估计的最小二乘法估计法。 ⏹教学手段:讲练结合 ⏹课时分配:6课时 §9.1 一元线性回归 回归分析是研究变量之间相关关系的一种统计推断法。 例如,人的血压y 与年龄x 有关,这里x 是一个普通变量,y 是随机变量。Y 与x 之间的相依关系f(x)受随机误差ε的干扰使之不能完全确定,故可设有: ε+=)(x f y (9.1) 式中f(x)称作回归函数,ε为随机误差或随机干扰,它是一个分布与x 无关的随机变量,我们常假定它是均值为0的正态变量。为估计未知的回归函数f(x),我们通过n 次独立观测,得x 与y 的n 对实测数据(x i ,y i )i=1,……,n ,对f(x)作估计。 实际中常遇到的是多个自变量的情形。 例如 在考察某化学反应时,发现反应速度y 与催化剂用量x 1,反应温度x 2,所加压力x 3等等多种因素有关。这里x 1,x 2,……都是可控制的普通变量,y 是随机变量,y 与诸x i 间的依存关系受随机干扰和随机误差的影响,使之不能完全确定,故可假设有: ε+=),,,(21k x x x f y (9.2) 这里ε是不可观察的随机误差,它是分布与x 1,……,x k 无关的随机变量,一般设其均值为0,这里的多元函数f(x 1,……,x k )称为回归函数,为了估计未知的回归函数,同样可作n 次独立观察,基于观测值去估计f(x 1,……,x k )。 以下的讨论中我们总称自变量x 1,x 2,……,x k 为控制变量,y 为响应变量,不难想象,如对回归函数f(x 1,……,x k )的形式不作任何假设,问题过于一般,将难以处理,所以本章将主要讨论y 和控制变量x 1,x 2,……,x k 呈现线性相关关系的情形,即假定 f(x 1,……,x k )=b 0+b 1x 1+……+b k x k 。 并称由它确定的模型 (9.1) (k=1)及(9.2)为线性回归模型,对于线性回归模型,估计回归函数f(x 1,……,x k )就转化为估计系数b 0、b i (i=1,……,k) 。 当线性回归模型只有一个控制变量时,称为一元线性回归模型,有多个控制变量时称为多元线性回归模型,本着由浅入深的原则,我们重点讨论一元的,在此基础上简单介绍多元的。 §9.1.1 一元线性回归 一、一元线性回归的数学模型 前面我们曾提到,在一元线性回归中,有两个变量,其中x 是可观测、可控制的普通变量,常称它为自变量或控制变量,y 为随机变量,常称其为因变量或响应变量。通过散点图或计算相关系数判定y 与x 之间存在着显著的线性相关关系,即y 与x 之间存在如下关系:

8-2-1一元线性回归模型(教案) 高中数学人教A版(2019)选择性必修第三册

第八章成对数据的统计分析 8.2 一元线性回归模型及其应用 8.2.1一元线性回归模型 教学设计 一、教学目标 1.结合具体实例,了解一元线性回归模型的含义. 2.了解元线性回归模型参数的统计意义. 3.结合具体实例,了解一元线性回归模型随机误差产生的原因. 二、教学重难点 1、教学重点 一元线性回归模型的含义. 2、教学难点 一元线性回归模型的含义. 三、教学过程 (一)新课导入 通过前面的学习我们已经了解到,根据成对样本数据的散点图和样本相关系数,可以判断两个变量是否存在相关关系、是正相关还是负相关,以及线性相关程度的强弱等. 进一步地,如果能像建立函数模型刻画两个变量之间的确定性关系那样,通过建立适当的统计模型刻画两个随机变量的相关关系,那么我们就可以利用这个模型研究两个变量之间的随机关系,并通过模型进行预测. 接下来我们就来研究当两个变量线性相关时,如何利用成对样本数据建立统计模型,并利用模型进行预测的问题. (二)探索新知 探究一线性相关 生活经验告诉我们,儿子的身高与父亲的身高不仅线性相关,而且还是正相关,即父亲的身高较高时,儿子的身高通常也较高. 为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数据如下表.

/cm 儿子身高 /cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182 如图,以横轴表示父亲身高、纵轴表示儿子身高建立直角坐标系,再将表中的成对样本数据表示为散点图. 可以发现,散点大致分布在一条从左下角到右上角的直线附近,表明儿子身高和父亲身高线性相关. 利用统计软件,求得样本相关系数为0.886r ≈,表明儿子身高和父亲身高正线性相关,且相关程度较高. 思考:根据表中的数据,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗? 探究二 一元线性回归模型 在上表的数据中,存在父亲身高相同,而儿子身高不同的情况. 例如,第6个和第8个观测的父亲身高均为172cm ,而对应的儿子身高分别为176cm 和174cm ;同样,第3,4两个观测中,儿子身高都是170cm ,而父亲身高分别为173cm 和169cm. 可见儿子身高和父亲身高之间不是函数关系,也就不能用函数模型刻画. 散点图中的散点大致分布在一条直线附近,表明儿子身高和父亲身高这两个变量之间有较强的线性相关关系,因此我们可以用一次函数来刻画父亲身高对儿子身高的影响而把影响儿子身高的其他因素,如母亲身高、生活环境、饮食习惯等作为随机误差,得到刻画两个变量之间关系的线性回归模型. 其中,随机误差是一个随机变量. 用x 表示父亲身高,Y 表示儿子身高,e 表示随机误差. 假定随机误差e 的均值为0,方差为与父亲身高无关的定值2σ,则它们之间的关系可以表示为2()0,()Y bx a e E e D e σ =++⎧⎨==⎩.(1)

一元回归分析

一元回归分析 一元回归分析是统计学中一个重要的研究方法,是探讨一个或多个特征对一个变量的影响程度的有效工具。即对一个变量(称为因变量)的变化,由另一变量(称为自变量)决定的这种关系强度的大小,分析方法就是一元回归分析。回归的最基本形式是一元线性回归,也就是说,自变量和因变量之间的关系是一条直线。 一元回归分析中的最重要的因素是多元线性回归模型,也被称为最小二乘法。其核心思想是寻找一条能够最好地拟合给定数据的直线,以评估每一条直线的拟合错误率为目标函数,通过最小二乘法求解最优化模型,来获得其参数估计值。 最后,一元回归分析也有诊断检验来测试模型的有效性。诊断检验包括残差检验、正态性检验、相关性检验和自相关性检验等,这些检验可以帮助检查模型是否满足预先设定的假设,因此可以确定模型的可靠性。 从上面可以看出,一元回归分析是一种重要的统计学研究方法,它不仅可以用来研究一个或多个特征对因变量的影响程度,而且还可以通过诊断检验来测试模型的有效性。因此,它应用广泛,可以为不同领域的研究者提供有价值的结果,如社会、医学、经济和心理等。 实际的应用中,除了研究因变量的影响,还可以使用回归分析来预测未来的值,同时可以采用回归模型来识别与所研究的变量关联的模式和关系。此外,一般会使用协方差分析识别两个变量之间的关系,这可以使用线性回归模型来完成,即计算变量之间的协方差和相关系

数来评估两个变量之间的强弱程度。 总之,一元回归分析是一种有效的统计分析工具,其主要用途是研究一个或多个特征对一个变量的影响程度,进而识别出两个变量之间的关系,并利用诊断检验来测试模型的有效性,它的应用非常广泛,可用于社会、医学、经济和心理等许多领域。

一元线性回归的基本步骤

一元线性回归的基本步骤一元线性回归分析的基本步骤如下: • 1、散点图判断变量关系(简单线性); 2、求相关系数及线性验证; 3、求回归系数,建立回归方程; 4、回归方程检验; 5、参数的区间估计; 6、预测; • • • 请点击输入图片描述• 一、什么是回归分析法

“回归分析”是解析“注目变量”和“因于变量”并明确两者关系的统计方法。此时,我们把因子变量称为“说明变量”,把注目变量称为“目标变量址(被说明变量)”。清楚了回归分析的目的后,下面我们以回归分析预测法的步骤来说明什么是回归分析法: 回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。 只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。 进行相关分析,一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关的程度。 二、回归分析的目的 回归分析的目的大致可分为两种: 第一,“预测”。预测目标变量,求解目标变量y和说明变量(x1,x2,…)的方程。 y=a0+b1x1+b2x2+…+bkxk+误差(方程A) 把方程A叫做(多元)回归方程或者(多元)回归模型。a0是y截距,b1,b2,…,bk是回归系数。当k=l时,只有1个说明变量,叫做一元回归方程。根据最小平方法求解最小误差平方和,非求出y截距和回归系数。若求解回归方程.分别代入x1,x2,…xk的数值,预测y的值。 第二,“因子分析”。因子分析是根据回归分析结果,得出各个自变量对目标变量产生的影响,因此,需要求出各个自变量的影响程度。 希望初学者在阅读接下来的文章之前,首先学习一元回归分析、相关分析、多元回归分析、数量化理论I等知识。 根据最小平方法,使用Excel求解y=a+bx中的a和b。

一元线性回归分析及其应用

一元线性回归分析及其应用 一元线性回归分析是一种常用的统计学方法,用于探讨两个变量之间的线性关系。在实际应用中,一元线性回归分析广泛用于经济学、社会科学、生物医学等领域,以揭示因变量与自变量之间的因果关系。本文将详细介绍一元线性回归分析的方法及应用。 一元线性回归分析源于英国统计学家弗朗西斯·高尔顿的研究。他在19世纪末对英国公民的身高和臂展进行了研究,发现两者之间存在线性关系。在此背景下,一元线性回归分析逐渐发展成为一种用于研究两个变量之间关系的方法。 在进行一元线性回归分析时,我们需要首先构建一个线性回归模型。假设因变量为y,自变量为x,则线性回归模型可表示为y = a + bx,其中a为截距,b为斜率。 为了使得线性回归模型能够更好地拟合数据,我们需要选择合适的回归系数。最小二乘法是一种常用的方法,它通过最小化预测值与实际值之间的平方误差,来求解回归系数。 构建完线性回归模型后,我们需要对模型进行检验,以确保其有效性。常用的检验方法包括R方检验、t检验和F检验。

一元线性回归分析在各个领域都有广泛的应用。在经济学中,研究者常用一元线性回归分析来研究某个经济指标与另一个或多个因素之 间的关系。例如,研究国内生产总值(GDP)与失业率之间的关系,以分析经济政策对失业率的影响。在社会科学中,一元线性回归分析常用于研究某个社会现象与某个或多个自变量之间的关系,如研究教育程度对收入的影响。在生物医学领域,一元线性回归分析可用于研究某个生物指标与某个或多个自变量之间的关系,例如研究血压与年龄之间的关系。 在这些应用场景中,一元线性回归分析具有以下优势:它能够揭示因变量与自变量之间的线性关系,从而有助于我们理解现象之间的因果关系。相比其他复杂的数据分析方法,一元线性回归分析较为简单,易于理解和实施。通过选择合适的自变量和建立合理的回归模型,我们可以对未来进行预测,并为政策制定提供科学依据。 一元线性回归分析是一种重要的统计学方法,用于研究两个变量之间的线性关系。在实际应用中,它广泛用于经济学、社会科学、生物医学等领域。通过构建合适的线性回归模型,并选择合适的回归系数,我们可以更好地理解现象之间的因果关系。对回归模型的检验也保证了其有效性。在未来的研究中,可以进一步探讨一元线性回归分析在

一元线性回归模型案例分析

一元线性回归模型案例分析 一、研究的目的要求 居民消费在社会经济的持续发展中有着重要的作用。居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。改革开放以来随着中国经济的快速发展,人民生活水平不断提高,居民的消费水平也不断增长。但是在看到这个整体趋势的同时,还应看到全国各地区经济发展速度不同,居民消费水平也有明显差异。例如,2002年全国城市居民家庭平均每人每年消费支出为6029.88元, 最低的黑龙江省仅为人均4462.08元,最高的上海市达人均10464元,上海是黑龙江的2.35倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,居民的收入水平、就业状况、零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我们研究的对象是各地区居民消费的差异。居民消费可分为城市居民消费和农村居民消费,由于各地区的城市与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城市居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。所以模型的被解释变量Y 选定为“城市居民每人每年的平均消费支出”。 因为研究的目的是各地区城市居民消费的差异,并不是城市居民消费在不同时间的变动,所以应选择同一时期各地区城市居民的消费支出来建立模型。因此建立的是2002年截面数据模型。 影响各地区城市居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。为了与“城市居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 从2002年《中国统计年鉴》中得到表2.5的数据: 表2.52002年中国各地区城市居民人均年消费支出和可支配收入

第8章一元线性回归习题答案

第8章一元线性回归 教材习题答案 8.1从某一行业中随机抽取12家企业,所得产量与生产费用的数据如下: 企业编号产量(台)生产费用(万元)企业编号产量(台)生产费用(万元) 140130784165 2421508100170 3501559116167 45514010125180 r 56515011130175 67815412140185 (1)绘制产量与生产费用的散点图,判断二者之间的关系形态。 a=0.05),(2)计算产量与生产费用之间的线性相关系数,并对相关系数的显著性进行检验 并说明二者之间的关系强度。 详细答案: (1)散点图如下:140120- 产 1QO—H60 60-40— 130140150 160170100 190卡产 黄用 产量与生产费用之间为正的线性相关关系

(2)r=0920232。检验统计量f=14.4222,P-1.722E-08

第八章 §8.2 一元线性回归模型及其应用

§8.2 一元线性回归模型及其应用 学习目标 1.结合实例,了解一元线性回归模型的含义,了解模型参数的统计意义.2.了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法.3.针对实际问题,会用一元线性回归模型进行预测. 知识点一 一元线性回归模型 称⎩ ⎪⎨⎪⎧ Y =bx +a +e ,E (e )=0,D (e )=σ2为Y 关于x 的一元线性回归模型.其中Y 称为因变量或响应变量,x 称为自变量或解释变量,a 称为截距参数,b 称为斜率参数;e 是Y 与bx +a 之间的随机误差,如果e =0,那么Y 与x 之间的关系就可以用一元线性函数模型来描述. 知识点二 最小二乘法 将y ^ =b ^ x +a ^ 称为Y 关于x 的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的b ^ ,a ^ 叫做b ,a 的最小二 乘估计,其中b ^ = ∑i =1 n (x i -x )(y i -y ) ∑i =1 n (x i -x )2 ,a ^=y -b ^ x 思考1 经验回归方程一定过成对样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的某一点吗? 答案 不一定. 思考2 点(x ,y )在经验回归直线上吗? 答案 在. 知识点三 残差与残差分析 1.残差 对于响应变量Y ,通过观测得到的数据称为观测值,通过经验回归方程得到的y ^ 称为预测值,观测值减去预测值称为残差. 2.残差分析 残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析. 知识点四 对模型刻画数据效果的分析 1.残差图法

应用回归分析_一元回归线性分析

一元线性回归分析 2.1 一元线性回归有哪些基本假定? 答: 假设1、解释变量X 是确定性变量,Y 是随机变量; 假设2、随机误差项ε具有零均值、同方差和不序列相关性: E(εi )=0 i=1,2, …,n Var (εi )=σ2 i=1,2, …,n Cov(εi, εj )=0 i≠j i,j= 1,2, …,n 假设3、随机误差项ε与解释变量X 之间不相关: Cov(X i , εi )=0 i=1,2, …,n 假设4、ε服从零均值、同方差、零协方差的正态分布 εi ~N(0, σ2 ) i=1,2, …,n 2.2 考虑过原点的线性回归模型 Y i =β1X i +εi i=1,2, …,n 误差εi (i=1,2, …,n )仍满足基本假定。求β1的最小二乘估计 解: 得: 2.3 证明(2.27式),∑e i =0 ,∑e i X i =0 。 证明: 其中: 即: ∑e i =0 ,∑e i X i =0 2.4回归方程E (Y )=β0+β1X 的参数β0,β1的最小二乘估计与最大似然估计在什 ∑∑+-=-=n i i i n i X Y Y Y Q 1 21021 ))ˆˆ(()ˆ(ββ211 1 2 )ˆ()ˆ(i n i i n i i i e X Y Y Y Q β∑∑==-=-= 01ˆˆˆˆi i i i i Y X e Y Y ββ=+=-0 1 00ˆˆQ Q β β ∂∂==∂∂

么条件下等价?给出证明。 答:由于εi ~N(0, σ2 ) i=1,2, …,n 所以Y i =β0 + β1X i + εi ~N (β0+β1X i , σ2 ) 最大似然函数: 使得Ln (L )最大的0 ˆβ,1ˆβ就是β0,β1的最大似然估计值。 同时发现使得Ln (L )最大就是使得下式最小, 上式恰好就是最小二乘估计的目标函数相同。值得注意的是:最大似然估计是在εi ~N (0, σ2 )的假设下求得,最小二乘估计则不要求分布假设。 所以在εi ~N(0, σ2 ) 的条件下, 参数β0,β1的最小二乘估计与最大似然估计等价。 2.5 证明0 ˆβ是β0的无偏估计。 证明:)1[)ˆ()ˆ(1 110∑∑==--=-=n i i xx i n i i Y L X X X Y n E X Y E E ββ )] )(1 ([])1([1011i i xx i n i i xx i n i X L X X X n E Y L X X X n E εββ++--=--=∑∑== 1010)()1 (])1([βεβεβ=--+=--+=∑∑==i xx i n i i xx i n i E L X X X n L X X X n E 2.6 证明 证明: )] ()1([])1([)ˆ(102110i i xx i n i i xx i n i X Var L X X X n Y L X X X n Var Var εβββ++--=--=∑∑== ∑∑+-=-=n i i i n i X Y Y Y Q 1 21021 ))ˆˆ(()ˆ(ββ() ) 1()1()ˆ(2 2 2 1 22 xx n i i L X n X X X n Var +=-+=∑=σσβ

一元线性回归

第六讲 一元线性回归 在客观世界中, 普遍存在着变量之间的关系.数学的一个重要作用就是从数量上来揭示、表达和分析这些关系。而变量之间关系, 一般可分为确定的和非确定的两类. 确定性关系可用函数关系表示, 而非确定性关系则不然. 例如, 人的身高和体重的关系、人的血压和年龄的关系、某产品的广告投入与销售额间的关系等, 它们之间是有关联的,但是它们之间的关系又不能用普通函数来表示。我们称这类非确定性关系为相关关系。具有相关关系的变量虽然不具有确定的函数关系,但是可以借助函数关系来表示它们之间的统计规律,这种近似地表示它们之间的相关关系的函数被称为回归函数。回归分析是研究两个或两个以上变量相关关系的一种重要的统计方法。 在实际中最简单的情形是由两个变量组成的关系。考虑用下列模型表示)(x f Y =. 但是,由于两个变量之间不存在确定的函数关系,因此必须把随机波动考虑进去,故引入模型如下 ε+=)(x f Y 其中Y 是随机变量,x 是普通变量,ε是随机变量(称为随机误差)。 回归分析就是根据已得的试验结果以及以往的经验来建立统计模型,并研究变量间的相关关系,建立起变量之间关系的近似表达式,即经验公式,并由此对相应的变量进行预测和控制等。 本节主要介绍一元线性回归模型估计、检验以及相应的预测和控制等问题。 一、引例 为了研究某一化学反应过程中温度x 对产品得率Y 的影响. 测得数据如下: 89 857874706661545145%/190 180170160150140130120110100/i i y C x 温度温度 试研究这些数据所蕴藏的规律性. 二、一元线性回归模型 一般地,当随机变量Y 与普通变量x 之间有线性关系时, 可设 εββ++=x Y 10, (1) ),,0(~2σεN 其中10,ββ为待定系数。 设),(,),,(),,(2211n n Y x Y x Y x 是取自总体),(Y x 的一组样本,而),(,),,(),,(2211n n y x y x y x 是该样本的观察值,在样本和它的观察值中的n x x x ,,,21 是取定的不完全相同的数值,而样本中的n Y Y Y ,,,21 在试验前为随机变量,在试验或观测后是具体的数值,一次抽样的结果可以取得n 对数据),(,),,(),,(2211n n y x y x y x ,则有 i i i x y εββ++=10, n i ,,2,1 = (2) 其中n εεε,,,21 相互独立。在线性模型中,由假设知

线性回归分析法

一元线性回归分析和多元线性回归分析 一元线性回归分析 1.简单介绍 当只有一个自变量时,称为一元回归分析(研究因变量y 和自变量x 之间的相关关系);当自变量有两个或多个时,则称为多元回归分析(研究因变量y 和自变量1x ,2x ,…,n x 之间的相关关系)。如果回归分析所得到的回归方程关于未知参数是线性的,则称为线性回归分析;否则,称为非线性回归分析。在实际预测中,某些非线性关系也可以通过一定形式的变换转化为线性关系,所以,线性回归分析法成为最基本的、应用最广的方法。这里讨论线性回归分析法。 2.回归分析法的基本步骤 回归分析法的基本步骤如下: (1) 搜集数据。 根据研究课题的要求,系统搜集研究对象有关特征量的大量历史数据。由于回归分析是建立在大量的数据基础之上的定量分析方法,历史数据的数量及其准确性都直接影响到回归分析的结果。 (2) 设定回归方程。 以大量的历史数据为基础,分析其间的关系,根据自变量与因变量之间所表现出来的规律,选择适当的数学模型,设定回归方程。设定回归方程是回归分析法的关键,选择最优模型进行回归方程的设定是运用回归分析法进行预测的基础。 (3) 确定回归系数。 将已知数据代入设定的回归方程,并用最小二乘法原则计算出回归系数,确

定回归方程。这一步的工作量较大。 (4) 进行相关性检验。 相关性检验是指对已确定的回归方程能够代表自变量与因变量之间相关关系的可靠性进行检验。一般有R 检验、t 检验和F 检验三种方法。 (5) 进行预测,并确定置信区间。 通过相关性检验后,我们就可以利用已确定的回归方程进行预测。因为回归方程本质上是对实际数据的一种近似描述,所以在进行单点预测的同时,我们也需要给出该单点预测值的置信区间,使预测结果更加完善。 3. 一元线性回归分析的数学模型 用一元线性回归方程来描述i x 和i y 之间的关系,即 i i i x a a y ∆++=10 (i =1,2,…,n )(2-1) 式中,i x 和i y 分别是自变量x 和因变量y 的第i 观测值,0a 和1a 是回归系数,n 是观测点的个数,i ∆为对应于y 的第i 观测值i y 的随机误差。假设随机误差i ∆满足如下条件:①服从正态分布;②i ∆的均值为零,即()0=∆i E ;③i ∆的方差等于2σ;④各个i ∆间相互独立,即对于任何两个随机误差i ∆和j ∆,其协方差等于零,即, ()()j i j i ≠=∆∆0,cov 。 基于上述假定,随机变量的数学期望和方差分别是 ()()i i x E a a y E 10+= (2-2) ()I 2 σ =∆∑ 如果不考虑式中的误差项,我们就得到简化的式子

相关主题
文本预览
相关文档 最新文档