当前位置:文档之家› sas Unit42Stat非平稳序列的随机分析

sas Unit42Stat非平稳序列的随机分析

sas Unit42Stat非平稳序列的随机分析
sas Unit42Stat非平稳序列的随机分析

第四十二课 非平稳序列的随机分析

上世纪七十年代,G . P. Box 和G . M. Jenkins 发表了专著《时间序列分析:预测和控制》,对平稳时间序列数据,提出了自回归滑动平均模型ARIMA ,以及一整套的建模、估计、检验和控制方法。使时间序列分析广泛地运用成为可能。为了纪念Box 和Jenkins 对时间序列发展的特殊贡献,现在人们也常把ARIMA 模型称为Box-Jenkins 模型。

当我们拟合一个时间序列时,先通过差分法或适当的变换使非平稳序列的化成为平稳序列,我们再要考虑的是参数化和记忆特征的有效性,用这种参数方法拟合序列为某种特定的结构,只用很少量的参数,使参数的有效估计成为可能。相对于一个序列的过去值可用传统的Box 和Jenkins 方法建模。

实际上,Box-Jenkins 模型主要是运用于单变量、同方差场合的线性模型。随着对时间序列应用的深入研究,发现还存在着许多局限性。所以近20年来,统计学家纷纷转向多变量、异方差和非线性场合的时间序列分析方法的研究,并取得突破性的进展,其中Engle 和Granger 一起获得2003年诺贝尔经济学奖。在异方差场合,Robert F.Engle 在1982年提出了自回归条件异方差ARCH 模型,以及在ARCH 模型上衍生出的一系列拓展模型。在多变量场合,七十年代末,G. E. P. Box 教授和刁锦寰教授在处理洛山矶的环境数据时,提出了干预分析和异常值检验方法。1987年,C.Granger 提出了协整(co-integration )理论,在多变量时间序列建模过程中“变量是平稳的”不再是必须条件了,而只要求它们的某种组合是平稳的。非线性时间序列分析也有重大发展,汤家豪教授等在1980年左右提出了利用分段线性化构造门限自回归模型。

一、 ARIMA 模型

随着对时间序列分析方法的深入研究,人们发现非平稳序列的确定性因素分解方法(如季节模型、趋势模型、移动平均、指数平滑等)存在一些问题,它只能提取显著的确定性信息,对随机性信息浪费严重,同时也无法对确定性因素之间的关系进行分析。而非平稳序列随机分析的发展就是为了弥补确定性因素分解方法的不足。对于时间序列数据分析无论是采用确定性时序分析方法还是随机时序分析方法,分析的第一步都是要通过有效手段提取序列中所蕴藏的确定性信息。Box 和Jenkins 特别强调差分方法的使用,他们使用大量的案例分析证明差分方法是一种非常简便有效的确定性信息的提取方法。而Gramer 分解定理则在理论上保证了适当阶数的差分一定可以充分提取确定性信息。

1. ARIMA 模型的结构

许多实际的序列,特别是从经济和商业领域产生的时间序列是非平稳的,由于观察个数所限,我们建立有限阶数模型,描述时间序列过程。我们引进一种混和自回归和滑动平均(Autoregressive-integrated-moving average)ARIMA 模型,简记为),,(q d p ARIMA 。这种模型包括很广的一类有限参数的线性时间序列模型,非常有用地描述各种时间序列。ARIMA 模型的形式如下:

t t d B x B ε)()(Θ=?Φ

(42.1) 式中:

d d B )1(-=?

为d 阶差分。

p p B B B B φφφ----=Φ 2211)(

为平稳可逆),(q p ARMA 模型的自回归系数多项式。 q q B B B B θθθ----=Θ 2211)(

为平稳可逆),(q p ARMA 模型的移动平滑系数多项式。 ),0(~2εσεWN t

为零均值的白噪声序列。式(8.3.1)可以简记为: t t d B B x ε)()(ΦΘ=? (42.2)

由式(42.2)显而易见,ARIMA 模型的实质就是差分运算与ARMA 模型的组合。这一关系表明,任何非平稳序列只要通过适当阶数的差分实现差分后平稳,就可以对差分后序列进行ARMA 模型的拟合了。d 阶差分后的序列可以表示为:

∑=--=?d i i t i d d t d

x C x 1)1( (42.3) 式中,)!

(!!i d i d C i d -=,即d 阶差分后序列等于原来序列的若干序列值的某种加权和。特别当),,(q d p ARIMA 模型中的参数p 、d 、q 取一些特殊值时,可以转换成一些常见模型,例如,当0=d 时,就是),(q p ARMA 模型;当0=p 时,为),(q d IMA 模型;当0=q 时,为),(d p ARI 模型;当0,1===q p d 时,)0,1,0(ARIMA 模型为t t t x x ε+=-1,被称为随机游走模型,或称醉汉模型,是有效市场理论的核心,常应用于投机价格走势的模拟。

2. ARIMA 模型的建模步骤

Box 和Jenkins 描述了建立ARIMA 模型的三个阶段:识别阶段、估计阶段和预测阶段。见图42-1所示。

1) 识别阶段

使用identify 语句来指定响应变量序列并且识别候选ARIMA 模型。identify 语句读入后面语句中用到的时间序列,一般先对序列进行非线性、差分和平稳性检验,可能对序列进行差分,然后计算自相关系数ACF 、逆自相关系数IACF 、偏自相关系数PACF 和互相关系数。此阶段的输出通常会建议一个或多个可拟合的ARIMA 模型。如果模型确定,还可以检验样本自相关系数SACF 和样本偏自相关系数SPACF ,以分出模型的类型。

2) 估计阶段

使用estimate 语句来指定ARIMA 模型去拟合在前面identify 语句中指定的响应变量,并且估计该模型的参数。estimate 语句也生成诊断统计量从而帮助判断该模型的适用性。关于参

R可帮助比较数估计值的显著性检验可以指出模型里的一些项是否不需要。拟合优度统计量2

该模型和其他模型的优劣。关于白噪声残差检验可指明残差序列是否包含可被其他更复杂模型采用的额外信息。如果诊断检验表明模型不适用,则可尝试另一个模型然后重复估计和诊断。

3)预测阶段

使用forecast语句来预测时间序列的未来值,并对这些来自前面estimate语句生成的ARIMA模型的预测值产生置信区间。

图42-1 Box-Jenkins法建模过程示意图

二、ARIMA过程

SAS/ETS软件中的ARIMA过程是集一元时间序列模型判定、参数估计和预测为一体的多功能综合工具。它是采用Box-Jenkins方法建立ARIMA模型。当ARIMA模型包括其他时间序列作为输入变量时,该模型有时也被称为ARIMAX模型。ARIMA模型还支持干预或中断时间序列模型;误差的多元回归分析;任意复杂程度的有理转移函数模型。ARIMA模型有三个参数(p,d,q),这里p指模型的自回归部分的阶数,d指序列差分的次数,q指模型平均移动部分的次数。该过程通常分三个阶段进行:首先识别序列,然后估计和诊断检验模型,最后进行预测。

ARIMA过程一般由下列语句控制:

proc arima data=时间序列数据集 out=输出预测值数据集;

where 条件表达式;

identify var=变量(…) <选项列表> ;

estimate <选项列表>;

forecast <选项列表>;

run ;

where语句的作用是指定用于分析的时间间隔,通常条件表达式是有关日期的条件表达式,例如:‘31dec98’d

1. identify语句中的<选项列表>

指定了构造模型的时间序列变量,可以将identify语句缩写为i。identify语句主要完成时间序列的差分计算,样本ACF、IACF和PACF函数的计算、卡方检验统计量和白噪声自相关检验的p值的计算。它的主要选项有:

●var=变量(d1,d2,…,d k)——指明含有要分析的时间序列的变量名,按括号内列出的差分周期列表来计算时间序列的滞后差分。是必选项。例如:var=X(1)为对滞后1项的序列差分,即X t-X t-1。var=X(2)为对滞后2项的序列差分,即X t-X t-2。var=X(1,1)为X进行二阶差分,即(X t-X t-1)-(X t-1-X t-2)。

●nlag=数字——指明计算自相关的滞后数,其值应大于p+d+q,小于观测数,默认值为24。

●noprint——不输出结果。

●crosscorr=(干预变量(d1))——列出有var=指定的响应序列的交叉相关变量。干预变量在交叉相关变量中。交叉相关变量的差分由圆括号内的差分滞后确定。

2. estimate语句中的<选项列表>

该语句对已执行的identify语句中的响应变量规定一个模型,可以缩写为e。定义模型的主要选项有:

●p=(p1,p2,…)…(p1,p2,…)——定义一个在p中指定的滞后处具有自回归参数的模型,p的默认值为0。

●q=(q1,q2,…)…(q1,q2,…)——定义一个在q中指定的滞后处具有滑动平均参数的模型,q的默认值为0。如果p=和q=都没有指定,则拟合随机模型。

●noconstant——在模型中舍弃常数项μ。

●noint——在该模型中不拟合截距参数。

●method=ml/uls/cls——指定估计时使用的方法。ml为极大似然估计方法,uls为无条件最小二乘法,cls为有条件最小二乘法。默认值为cls。

●outest=数据集名——将参数估计值输出到指定的数据集。

●outmode=数据集名——将模型和参数估计值输出到指定的数据集。

●outstat=数据集名——将模型诊断统计量输出到指定的数据集。

●plot——可以绘制残差自回归函数等。

3. forecast语句中的<选项列表>

该语句利用estimate语句所产生的参数估计生成时间序列的预测值。可以缩写为f。主要选项有:

●alpha=α——设置预测置信限的大小。上下置信限的置信水平为1-α。α的默认值为5%。

●lead=n——指定要计算的多步向前预测值的次数。默认值为24。

●back=n——指定在数据末尾前n个观测值开始进行分步预测。默认值为0。

●interval=时间间隔——指定观测之间的时间间隔。常用的时间间隔为year(年)、

qtr(季)、month(月)、week(周)、weekday(工作日)、day(天)、hour(小时)、minute (分)和second(秒)。

●id=变量名——指明输入数据集中一个变量,用于识别与观测有关的时间周期。

●noprint——取消打印输出。

●out=数据集名——将预测值和其他值输出到一个指定的数据集中。data步中的rename选项可用来重新命名预测值和上下置信限的变量名。

三、实例分析

例42.1 建立国际航线旅客月度人数的ARIMA模型。我们已有一组1949年至1961年国际航线旅客月度人数的144条记录。使用ARIMA过程进行建模和预测。其数据列于表42.1所示。

表42.1 1949年至1961年国际航线旅客月度人数YEAR 1 2 3 4 5 6 7 8 9 10 11 12

1949 112 118 132 129 121 135 148 148 136 119 104 118

1950 115 126 141 135 125 149 170 170 158 133 114 140

1951 145 150 178 163 172 178 199 199 184 162 146 166

1952 171 180 193 181 183 218 230 242 209 191 172 194

1953 196 196 236 235 229 243 264 272 237 211 180 201

1954 204 188 235 227 234 264 302 293 259 229 203 229

1955 242 233 267 269 270 315 364 347 312 274 237 278

1956 284 277 317 313 318 374 413 405 355 306 271 306

1957 315 301 356 348 355 422 465 467 404 347 305 336

1958 340 318 362 348 363 435 491 505 404 359 310 337

1959 360 342 406 396 420 472 548 559 463 407 362 405

1960 417 391 419 461 472 535 622 606 408 461 390 432

1. 建立数据集和绘制原始时间序列图

首先,输入要分析的时间序列的数据,建立SAS数据集。为了识别时间序列的数据是否平稳和是否明显有季节性,通常先制作时间序列图来观察分析,程序如下:

goptions reset=global gunit=pct cback=white border

htitle=6 htext=3 ftext=swissb colors=(black);

data arimad01;

date=intnx('month','31dec1948'd,_n_);

input x @@;

cards;

112 118 132 129 121 135 148 148 136 119 104 118

115 126 141 135 125 149 170 170 158 133 114 140

………

417 391 419 461 472 535 622 606 408 461 390 432

;

proc print data=arimad01 ;

proc gplot data=arimad01 ;

plot x*date /vaxis=axis1 haxis=axis2 href='31dec1949'd to '1jan61'd by year;

symbol1 i=join v=c h=2.5 l=1 font=swissb;

axis1 label=('Passenger') order=(100 to 650 by 50);

axis2 label=('Month') order=('1jan49'd to '1jan61'd by year);

format date monyy. ;

title1 'Time Serial Chart';

run;

2. 对平稳性和季节性的识别

对平稳性和季节性的识别通常有直接估计和利用proc arima中identify语句两种方法,或两者结合起来一起判断。

●直接估计平稳性。直接估计就是通过直接观察时间序列折线图来检验序列是否平

稳。如果时间序列有某种趋势或呈现出增加或减少范围的扩散现象,则序列是不平

稳的。

●利用proc arima估计平稳性。如果序列的折线图并不明显地呈现上述现象,而我们

又无法直接判断序列究竟平稳与否,通常可以利用proc arima过程的identify语句

来检测序列是否平稳。

程序如下:

proc arima data=arimad01;

identify var=x;

run;

提交运行程序后,部分结果见表42-2所示。

表42.2 原始序列x的自相关图

ARIMA Procedure

Name of variable = X.

Mean of working series = 279.6042

Standard deviation = 118.5103

Number of observations = 144

Autocorrelations

Lag Covariance Correlation -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1 Std

0 14044.684 1.00000 | |********************| 0

1 13197.393 0.93967 | . |******************* | 0.083333

2 12200.06

3 0.86866 | . |***************** | 0.138593

3 11246.527 0.80077 | . |**************** | 0.172303

4 10623.172 0.75638 | . |*************** | 0.196454

5 10074.684 0.71733 | . |************** | 0.215732

6 9645.03

7 0.68674 | . |************** | 0.231705

7 9394.781 0.66892 | . |************* | 0.245433

8 9272.192 0.66019 | . |************* | 0.257782

9 9499.554 0.67638 | . |************** | 0.269268

10 9983.600 0.71085 | . |************** | 0.280819

11 10531.777 0.74988 | . |*************** | 0.293049

12 10738.185 0.76457 | . |*************** | 0.306084

13 9989.496 0.71127 | . |************** | 0.319071

14 9049.658 0.64435 | . |************* | 0.329898

15 8238.988 0.58663 | . |************ . | 0.338525

16 7589.355 0.54037 | . |*********** . | 0.345512

17 7059.360 0.50264 | . |********** . | 0.351332

18 6608.510 0.47053 | . |********* . | 0.356291

观察在表42.2中程序输出的有关时间序列变量x的自相关系数ACF和ACF图,发现自相关系数长期位于零轴正的一边,这是具有单调递增趋势序列的典型特征,同时自相关图呈现出明显的正弦波动规律,这是具有周期变化规律的非平稳序列的典型特征。自相关图显示出来的这两个性质和该序列时序图显示出的带长期递增趋势的周期性质是非常吻合的。一般来说,如果ACF缓慢地向零趋近,而几个时滞的ACF却相当大,那么序列也许不平稳。对于不同的时间序列类型,它们相应ACF的特性有:

●若时间序列是随机无趋势的,所有时滞的自相关系数都等于0。

●若时间序列是上升或下降趋势的,那么对于短时滞来说,自相关系数大且为正,而

且随着时滞lag的增加而缓慢地下降。ACF本身似乎随着时滞长度的增加而呈下降

趋势。

●若时间序列无趋势但具有季节性,那么对于按月(L=12)采集的数据来说,时滞12,

24,…的自相关系数达到最大(即nL处),而随着时滞长度增加时,变得较小。

●若时间序列有趋势且具有季节性,那么自相关系数特性类同于有趋势序列,但是它

们是摆动的,对于按月的数据,在时滞12,24…等处具有峰态。

●若时间序列是平稳的,它具有正自相关的误差项,那么低阶的自相关系数较大,但

是随着时滞长度的增加而迅速地衰减。

另外,在ACF图中,通过自相关系数值的图示是否在零点附近的两条对称的虚线之内,完成不同时滞的总体自相关系数为0的检验。

3. 变换不平稳序列为平稳序列

如果断定一个时间序列是不平稳的,通常可以作一些简单的变换或修正,使其减少趋势或平稳化。然后对变换后的新序列建模预测,可以避免将数据拟合成更复杂的模型。最常用的变换方法有:

●如果时间序列呈线性趋势,均值不是常数,利用一阶差分将产生一个平稳序列。

●如果时间序列呈二次趋势,均值不是常数,利用二阶差分将产生一个平稳序列。

●如果时间序列呈现出随时间的上升或下降而偏差,方差不是常数,通常可利用取

自然对数转化为平稳序列。

●如果时间序列呈现指数趋势,均值和方差都不是常数,通常也可利用取自然对数

转化为平稳序列。

●如果时间序列呈现“相对环”趋势,通常将数据除以同时发生的时间序列的相应

值转化为平稳序列。

1)取对数消除振幅变大趋势

从原始时间序列的折线图中观察发现,该序列是一个具有季节性变化同时有增大的趋势,而且季节变化的振幅越来越大,再观察ACF图和自相关系数也得到相同的结论。因此我们可以对这批数据取对数来先消除增幅越来越大的现象。另外,数据呈现每隔12个时间单位为一个周期的季节性。为了便于比较,我们将原始时间序列和消除增幅后的时间序列按12个时间单位的间隔绘制在一张图表上。程序如下:

data arimad02;

set arimad01 ;

xlog=log(x);

proc print data=arimad02;

run;

proc gplot data=arimad02 ;

plot xlog*date / vaxis=axis1 haxis=axis2

href='31dec1949'd to '1jan61'd by year;

plot2 x*date /vaxis=axis3 vref=100;

symbol1 i=join v=c h=3 l=1 r=1 font=swissb c=green;

symbol2 i=join v=c h=3 l=1 r=1 font=swissb c=blue;

axis1 label=('Log') order=(4.5 to 6.5 by 0.2) offset=(0,45);

axis2 label=('12 Month') order=('1jan49'd to '1jan61'd by year);

axis3 label=('Passenger') order=(100 to 650 by 50) offset=(23,0);

format date monyy. ;

title1 'Time Serial Log Chart';

run;

提交运行程序后,结果见图42-2所示。

图42-2 对原始数据序列取对数以消除变大的季节震幅

2)取两次差分消除季节增长趋势

从图42-2中可见,对原始时间序列取对数变换后的新序列,明显呈现季节性的增长的趋势,仔细分析每12个单位的周期还有增长趋势。所以需要对这个新序列数据再进行滞后一次和滞后12次共两次差分最终转换为平稳序列。同样为了便于比较,我们仍然在一张图上绘制转换前的时间序列和转换后的最终的平稳时间序列。程序如下:

data arimad03;

set arimad02;

dif12=dif1(xlog)-(lag1(xlog)-lag12(xlog));

run;

proc print data=arimad03;

run;

proc gplot data=arimad03 ;

plot xlog*date /vaxis=axis1 haxis=axis2

href='31dec1949'd to '1jan61'd by year;

plot2 dif12*date /vaxis=axis3 vref=-1;

symbol1 i=join v=c h=3 l=1 r=1 font=swissb c=green;

symbol2 i=join v=c h=3 l=1 r=1 font=swissb c=blue;

axis1 label=('Log') order=(4.5 to 6.5 by 0.2) offset=(0,45);

axis2 label=('12 Month') order=('1jan49'd to '1jan61'd by year);

axis3 label=('Dif1-12') order=(-1 to 1 by 0.2) offset=(23,0);

format date monyy. ;

title1 'Time Serial Dif Chart';

run;

提交运行程序后,结果见图42-3所示。

图42-3 对时间序列取两次差分以消除季节增长趋势

4. 检验待选的时间序列模型的自相关函数

对需要转换为平稳时间序列的数据,如果最终是要用差分的方法来转换,通常可直接调用PROC ARIMA过程的identify语句来实现对指定变量xlog所选差分的时滞数(如1和12)的检验。程序如下:

proc arima data=arimad02;

identify var=xlog(1,12) nlag=15;

run;

提交运行程序后,结果见表42.3所示。

表42.3 自相关图、逆自相关图、偏自相关图和白噪声检验

ARIMA Procedure

Name of variable = XLOG.

Period(s) of Differencing = 1,12.

Mean of working series = 0.000291

Standard deviation = 0.053721

Number of observations = 131

NOTE: The first 13 observations were eliminated by differencing.

Autocorrelations

Lag Covariance Correlation -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1 Std

0 0.0028860 1.00000 | |********************| 0

1 -0.0011185 -0.38757 | ********| . | 0.087370

2 0.00020709 0.07176 | . |* . | 0.099634

3 -0.0004165 -0.14433 | .***| . | 0.100027

4 0.00011789 0.0408

5 | . |* . | 0.101605

5 -0.0001445 -0.05007 | . *| . | 0.101730

6 0.00043716 0.15148 | . |***. | 0.101918

7 -0.0002654 -0.09195 | . **| . | 0.103622

8 0.00003813 0.01321 | . | . | 0.104243

9 0.00025821 0.08947 | . |** . | 0.104256

10 -0.0001607 -0.05568 | . *| . | 0.104840

11 0.00020192 0.06996 | . |* . | 0.105066

12 -0.0008827 -0.30586 | ******| . | 0.105421

13 0.00038814 0.13449 | . |***. | 0.111990

14 -0.0001811 -0.06277 | . *| . | 0.113216

15 0.00046665 0.16169 | . |*** . | 0.113482

"." marks two standard errors

Inverse Autocorrelations

Lag Correlation -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1

1 0.49734 | . |********** |

2 0.24509 | . |***** |

3 0.1203

4 | . |**. |

4 0.01281 | . | . |

5 -0.07811 | .**| . |

6 -0.18241 | ****| . |

7 -0.06011 | . *| . |

8 -0.02858 | . *| . |

9 0.01630 | . | . |

10 0.11246 | . |**. |

11 0.20646 | . |**** |

12 0.30796 | . |****** |

13 0.14338 | . |*** |

14 0.06623 | . |* . |

从表42.3的ACF图中,我们认为自相关系数在延迟1阶后都落入2倍标准差内,然后在

延迟12阶处突然有一个较大的自相关系数,紧接着又落入2倍标准差内,很象在1,12处截尾;又根据PACF 图中,偏自相关系数很象在1,12处拖尾,在3和9处有超过2倍标准差,因此可选择MA 的阶数为1,12。从IACF 及PACF 图中我们可选择AR 的阶数为1,12。输出表的最后部分为自相关系数的白噪声检验,明显看出延迟6期和12期的LB Q 统计量分别为27.44和44.65,05.0000.0<=p ,拒绝序列为白噪声的原假设,即拒绝延迟期数小于等于6和12的序列值之间相互独立,说明经过滞后1次和滞后12次共两次差分转换后序列是平稳非白噪声序列,还蕴藏着相关信息需要提取出来,因此该序列有一个ARIMA 模型。

5. 估计备选时间序列模型的参数

在辩识时间序列模型ARIMA 的p 和q 完毕后,就要进行估计参数。常用的有极大似然估计、最小二乘估计等方法。下面给出的是不带均值项、默认为最小二乘估计的程序: proc arima data=arimad03;

identify var=xlog(1,12) nlag=15;

estimate q=(1)(12) p=(1)(12) noconstant ; run;

提交运行程序后,结果见表42.4所示。

表42.4 estimate q =(1)(12) p =(1)(12)语句计算的参数估计

输出表42.4中,首先给出了用最小二乘估计计算的该参数的估计值、标准误差和t 率,ARIMA Procedure

Conditional Least Squares Estimation

Approx.

Parameter Estimate Std Error T Ratio Lag

MA1,1 0.55123 0.14697 3.75 1

MA2,1 0.42423 0.19218 2.21 12

AR1,1 0.06398 0.17671 0.36 1

AR2,1 -0.15038 0.20519 -0.73 12

Variance Estimate = 0.00200509

Std Error Estimate = 0.04477818

AIC = -438.08143*

SBC = -426.58065*

Number of Residuals= 131

* Does not include log determinant.

Correlations of the Estimates

Parameter MA1,1 MA2,1 AR1,1 AR2,1

MA1,1 1.000 0.066 0.862 0.065

MA2,1 0.066 1.000 0.127 0.849

AR1,1 0.862 0.127 1.000 0.112

AR2,1 0.065 0.849 0.112 1.000

Autocorrelation Check of Residuals

To Chi Autocorrelations

Lag Square DF Prob

还标明该参数在模型中滞后数。对参数进行估计的目的无非就是为了诊断检验模型,通过诊断检验可以证实所选模型的合理、或者推翻拒绝此模型,以寻求更合适的模型。如果拟合的模型是可行的,那么,应该所有参数估计具有显著的t 值,残差近似地为正态,残差序列具有随机无趋势序列的ACF 与PACF ,且不含有过度的p 、d 和q 。t 统计量是检验该项系数是否为0的统计量观察值。由于参数估计表中所报告的t 统计量是近似的,其精确性依赖于模型的有效性和观察序列的长度等因素,所以SAS 报告只给出了t 值,而不显示对应的概率以免引起误导。拟合的12)1,1,1()1,1,1(?ARIMA 模型的具体形式为:

t t B B B B Z B B ε)15038.01)(063982.01()42423.01)(55123.01()1)(1(121212+---=-- (42.4)

由于表中的AR1,1及AR2,1的t 率分别为0.36和-0.73,由于t 率太小,所以该项系数为0的假设检验并不显著,故可以丢弃这两项。我们丢弃这两项后再重新进行估计,最后将模型和参数估计值输出到一个指定的数据集xmode 中,程序如下: proc arima data=arimad03;

identify var=xlog(1,12) nlag=15;

estimate q=(1)(12) noconstant outmodel=xmode; run;

提交运行程序后,结果见表42.5所示。

表42.5 estimate q =(1)(12)语句计算的参数估计

从重新估计的输出报表中可看出,参数估计的t 率较大(6.58和5.54),我们认为可以保留。拟合优度统计量表中给出了残差序列的方差(0.00198551)和标准误差(0.0445591),以及按AIC 和SBC 标准计算的统计量(-441.3195和-435.56911),这两个值较小,表明对模型拟合得较好,另外从-441.3195<-438.08143,-435.56911<-426.58065可看出本次拟合的ARIMA Procedure

Conditional Least Squares Estimation

Approx.

Parameter Estimate Std Error T Ratio Lag

MA1,1 0.50275 0.07635 6.58 1

MA2,1 0.52993 0.09564 5.54 12

Variance Estimate = 0.00198551

Std Error Estimate = 0.0445591

AIC = -441.3195*

SBC = -435.56911*

Number of Residuals= 131

* Does not include log determinant.

Correlations of the Estimates

Parameter MA1,1 MA2,1

MA1,1 1.000 -0.064

MA2,1 -0.064 1.000

Autocorrelation Check of Residuals

To Chi Autocorrelations

Lag Square DF Prob

12)1,1,0()1,1,0(?ARIMA 模型比上次拟合的12)1,1,1()1,1,1(?ARIMA 模型要好。估计值之间的相关系数为-0.064,这是一个较小的相关系数,如果这个相关系数较大时,就需要考虑是否删除其中一个参数。对模型拟合后残差为白噪声原假设进行检验,延迟6期和12期的LB Q 统计量分别为5.60和6.54,相应05.0231.0>=p ,05.0768.0>=p ,所以不能拒绝拟合模型的残差为白噪声,说明这个拟合模型,延迟数小于等于6期和12期的所有残差自相关系数为零,即残差中蕴涵信息已经完全被提取出来了。最后将表中移动平均MA 的两个因子(1-0.50275B )和(1-0.52993B 12)代入12)1,1,0()1,1,0(?ARIMA 模型的估计形式,确定的具体模型形式为:

t t B B Z B B ε)52993.01)(50275.01()1)(1(1212--=--

(42.5)

其中)log(t t x Z =,B 为后移算子,t ε为随机干扰。 6. 利用确定的模型进行预测

模型确定后,我们通常要利用拟合好的模型进行预测。假定我们要预测今后一年国际航线各个月度的旅客人数,要使用forecast 语句,同时将预测的结果输出到一个指定的数据集forxlog 中。完整的程序如下: proc arima data=arimad03;

identify var=xlog(1,12) nlag=15;

estimate q=(1)(12) noconstant outmodel=xmode;

forecast lead=12 interval=month id=date out=forxlog;

run;

proc print data=forxlog; run;

提交运行程序后,部分结果见表42.6所示。

表42.6 forecast 语句预测的12期结果

最后我们需要将xlog 预测值转换为原来的X 值,并绘制带上下95%置信度线的原始数据

OBS DATE XLOG FORECAST STD L95 U95 RESIDUAL

140 213 6.40688 6.43874 0.044559 6.35141 6.52607 -0.03186

141 244 6.01127 6.24129 0.044559 6.15396 6.32863 -0.23003

142 274 6.13340 5.99662 0.044559 5.90928 6.08395 0.13678

143 305 5.96615 5.93671 0.044559 5.84938 6.02405 0.02943

144 335 6.06843 6.05720 0.044559 5.96987 6.14453 0.01123

145 366 . 6.09873 0.044559 6.01139 6.18606 .

146 397 . 6.04148 0.049764 5.94395 6.13902 .

147 425 . 6.15726 0.054474 6.05049 6.26403 .

148 456 . 6.18807 0.058808 6.07281 6.30333 .

149 486 . 6.22160 0.062843 6.09843 6.34477 .

150 517 . 6.35699 0.066635 6.22638 6.48759 .

151 547 . 6.49668 0.070222 6.35904 6.63431 .

线和预测数据线的时间序列图。程序如下:

data arimad04;

set forxlog;

x=exp(xlog);

forecast=exp(forecast);

l95=exp(l95);

u95=exp(u95);

proc print data=arimad04;

run;

proc gplot data=arimad04;

where date>='1jan57'd;

plot x*date forecast*date l95*date u95*date /overlay vaxis=axis1 haxis=axis2

href='31dec60'd ;

symbol1 i=join v=C h=2.5 l=1 font=swissb c=red;

symbol2 i=join v=F h=3 l=1 font=swissb c=blue;

symbol3 i=join l=1 font=swissb c=green;

symbol4 i=join l=1 font=swissb c=green;

axis1 label=('Passenger') order=(250 to 800 by 50);

axis2 label=('Month') order=('1jan57'd to '1jan62'd by year);

format date monyy. ;

title1 'Forecast Chart';

title2 'C--x';

title3 'F--forecast';

title4 'None--u95 and l95';

run;

提交运行程序后,结果见图42-4所示。

图42-4 用ARIMA模型预测今后12期的结果

实验5:随机时间序列预测(1)

实验5:随机时间序列预测 5.1实验目的 1、 了解ARMA 预测模型的基本概念,基本原理及建模过程; 2、 掌握平稳时间序列的检验方法,白噪声序列是检验方法,模型检验的方法; 3、 掌握ARMA 模型的具体类型、扩展类型ARIMA 、模型算法、模型检验、模型优化及模型预测; 4、 掌握利用Eviews 软件实现ARMA 模型的整个建模及各种检验流程,掌握运用Eviews 软件和推 导相结合的AR 模型、MA 模型、ARMA 模型、ARIMA 模型的点预测和区间预测。 5.2实验原理 Box-Jenkins 提出的ARMA 模型是从时间序列自相关的角度揭示时间序列的发展规律,它的思想源于事件的发展具有一定的惯性,而这种惯性用统计语言描述就是序列值之间存在一定的相关关系,而且这种相关关系具有一定的统计规律,我们所要做的就是通过分析相关关系找出这种规律,并用适当的模型来拟合这种规律,进而利用这种拟合模型来预测将来的走势。 5.2.1 样本自相关函数 如果样本观察值为12,,,n y y y ,我们可以给出延迟k 阶的自相关函数估计值,即样本自相关函 数: 1 2 1 ()() ?()n k t t k t k n t t y y y y y y ρ -+==--=-∑∑ 其中,1 n t t y y n ==∑ 。 自相关函数说明了样本数据不同时期之间的相关程度。其取值范围在-1到+1之间,?k ρ越接近1,说明时间序列的自相关程度越高。反之如果?k ρ越接近于0,则说明时间序列的自相关程度越低。 5.2.2、样本偏自相关函数 在时间序列中,偏自相关函数是给定了121,,,t t t k y y y ---+的条件下,t y 与滞后期k 时间序列的 条件相关。它用来度量当其他滞后1,2,3,,1k -期时间序列的作用已知的条件下,单纯的t y 与t k y -的 相关程度。设样本观察值为12,,,n y y y ,可以给出样本偏自相关函数: 其中: 5.2.3平稳时间序列概念 设时间序列{}t y 取自某一随机过程,如果此随机过程的随机特征不随时间变化,则我们称过程 ,1,1,???k j k j kk k k j φφφφ---=-

非平稳时间序列分析

非平稳时间序列分析 1、首先画出时序图如下: 从时序图中看出有明显的递增趋势,而该序列是一直递增,不随季节波动,所以认为该序列不存在季节特征。故对原序列做一阶差分,画出一阶差分后的时序图如下:

从中可以看到一阶差分后序列仍然带有明显的增长趋势,再做二阶差分: 做完二阶差分可以看到,数据的趋势已经消除,接下来对二阶差分后的序列进行

检验: Autocorrelations Lag Covariance Correlation -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1 Std Error 0 577.333 1.00000 | |********************| 0 1 -209.345 -.36261 | *******| . | 0.071247 2 -52.915660 -.09166 | .**| . | 0.080069 3 9.139195 0.01583 | . | . | 0.080600 4 15.375892 0.02663 | . |* . | 0.080615 5 -59.441547 -.1029 6 | .**| . | 0.080660 6 -23.834489 -.04128 | . *| . | 0.081324 7 100.285 0.17370 | . |*** | 0.081431 8 -146.329 -.25346 | *****| . | 0.083290 9 52.228658 0.09047 | . |**. | 0.087118 10 21.008575 0.03639 | . |* . | 0.087593 11 134.018 0.23213 | . |***** | 0.087670 12 -181.531 -.31443 | ******| . | 0.090736 13 23.268470 0.04030 | . |* . | 0.096108 14 71.112195 0.12317 | . |** . | 0.096194 15 -105.621 -.18295 | ****| . | 0.096991 16 37.591996 0.06511 | . |* . | 0.098727 17 23.031506 0.03989 | . |* . | 0.098945 18 45.654745 0.07908 | . |** . | 0.099027 19 -101.320 -.17550 | ****| . | 0.099347 20 127.607 0.22103 | . |**** | 0.100908 21 -61.519663 -.10656 | . **| . | 0.103337 22 35.825317 0.06205 | . |* . | 0.103893 23 -93.627333 -.16217 | .***| . | 0.104081 24 55.451208 0.09605 | . |** . | 从其自相关图中可以看出二阶差分后的序列自相关系数很快衰减为零,且都在两倍标准差范围之内,所以认为平稳,白噪声检验结果: Autocorrelation Check for White Noise To Chi- Pr > Lag Square DF ChiSq --------------------Autocorrelations-------------------- 6 30.70 6 <.0001 -0.363 -0.092 0.016 0.02 7 -0.103 -0.041 12 84.54 12 <.0001 0.174 -0.253 0.090 0.036 0.232 -0.314 18 97.98 18 <.0001 0.040 0.123 -0.183 0.065 0.040 0.079 24 126.99 24 <.0001 -0.175 0.221 -0.107 0.062 -0.162 0.096

时间序列分析_最经典的

【时间简“识”】 说明:本文摘自于经管之家(原人大经济论坛) 作者:胖胖小龟宝。原版请到经管之家(原人大经济论坛) 查看。 1.带你看看时间序列的简史 现在前面的话—— 时间序列作为一门统计学,经济学相结合的学科,在我们论坛,特别是五区计量经济学中是热门讨论话题。本月楼主推出新的系列专题——时间简“识”,旨在对时间序列方面进行知识扫盲(扫盲,仅仅扫盲而已……),同时也想借此吸引一些专业人士能够协助讨论和帮助大家解疑答惑。 在统计学的必修课里,时间序列估计是遭吐槽的重点科目了,其理论性强,虽然应用领域十分广泛,但往往在实际操作中会遇到很多“令人发指”的问题。所以本帖就从基础开始,为大家絮叨絮叨那些关于“时间”的故事!

Long long ago,有多long?估计大概7000年前吧,古埃及人把尼罗河涨落的情况逐天记录下来,这一记录也就被我们称作所谓的时间序列。记录这个河流涨落有什么意义?当时的人们并不是随手一记,而是对这个时间序列进行了长期的观察。结果,他们发现尼罗河的涨落非常有规律。掌握了尼罗河泛滥的规律,这帮助了古埃及对农耕和居所有了规划,使农业迅速发展,从而创建了埃及灿烂的史前文明。 好~~从上面那个故事我们看到了 1、时间序列的定义——按照时间的顺序把随机事件变化发展的过程记录下来就构成了一个时间序列。 2、时间序列分析的定义——对时间序列进行观察、研究,找寻它变化发展的规律,预测它将来的走势就是时间序列分析。 既然有了序列,那怎么拿来分析呢? 时间序列分析方法分为描述性时序分析和统计时序分析。 1、描述性时序分析——通过直观的数据比较或绘图观测,寻找序列中蕴含的发展规律,这种分析方法就称为描述性时序分析 ?描述性时序分析方法具有操作简单、直观有效的特点,它通常是人们进行统计时序分析的第一步。

SAS学习系列37. 时间序列分析Ⅰ—平稳性及纯随机性检验

37. 时间序列分析Ⅰ—平稳性及纯随机性检验 (一)基本概念 一、什么是时间序列? 为了研究某一事件的规律,依据时间发生的顺序将事件在多个时刻的数值记录下来,就构成了一个时间序列。对时间序列进行观察、研究,找寻它变化发展的规律,预测它将来的发展趋势就是时间序列分析。 例如,国家或地区的年度财政收入,股票市场的每日波动,气象变化,工厂按小时观测的产量等等。 注:随温度、高度等变化而变化的离散序列,也可以看作时间序列。 二、时间序列的特点 (1)顺序性; (2)随机性; (3)前后时刻(不一定相邻)的依存性; (4)整体呈趋势性和周期性。 三、时间序列的分类 按研究对象的数目:一元时间序列、多元时间序列; 按序列统计特性:平稳时间序列、非平稳时间序列; 按分布规律:高斯时间序列、非高斯时间序列。 四、研究方法

1. 平稳时间序列分析; 2. 非平稳时间序列分析(确定性分析、随机性分析)。 五、其它 任何时间序列经过合理的函数变换后都可以被认为是由下列三部分叠加而成: (1)趋势项部分; (2)周期项部分; (3)随机项部分(随机信号、随机噪声) 图1. 四种趋势:线性、二次、指数增长、S型 例如,手机销售的月记录按年增长(趋势项);按季节周期波动(周期项);随机信号和随机噪声。 时间序列分析的主要任务就是:上面三部分分解出来,是研究平稳随机过程的变化规律,建立特定的ARIMA 模型(要求大体平稳、可能含有周期但不能有规则性的线性指数等类型趋势项)。

六、方法性工具 1. 差分运算 (1)k 步差分 间隔k 期的观察值之差:Δk =x t -x t -k (2)p 阶差分 Δx t =x t -x t -1称为一阶差分; 1 1 10 (1)p p p p i i t t t p t p i i x x x C x ---+-=?=? -? =-∑称为p 阶差分; SAS 函数实现:diff n (x ) 2. 延迟算子 延迟算子作用于时间序列,时间刻度减小1个单位(序列左移一位): B x t =x t -1, ……, B p x t =x t -p . SAS 函数实现:lag n (x ) 用延迟算子表示k 步差分和p 阶差分为: Δk =x t -x t -k =(1-B k ) x t 0()(1)p p p p i t p t i i x I B C x -=?=-=-∑ (二)平稳时间序列 一、概念 平稳时间序列按限制条件的严格程度,分为 严平稳时间序列:序列所有的统计性质都不会随着时间的推移而发生变化;

时间序列分析第三章平稳时间序列分析

应用时间序列分析实验报告 实验名称第三章平稳时间序列分析 一、上机练习 data example3_1; input x; time=_n_; cards; 0.30 -0.45 0.036 0.00 0.17 0.45 2.15 4.42 3.48 2.99 1.74 2.40 0.11 0.96 0.21 -0.10 -1.27 -1.45 -1.19 -1.47 -1.34 -1.02 -0.27 0.14 -0.07 0.10 -0.15 -0.36 -0.50 -1.93 -1.49 -2.35 -2.28 -0.39 -0.52 -2.24 -3.46 -3.97 -4.60 -3.09 -2.19 -1.21 0.78 0.88 2.07 1.44 1.50 0.29 -0.36 -0.97 -0.30 -0.28 0.80 0.91 1.95 1.77 1.80 0.56 -0.11 0.10 -0.56 -1.34 - 2.47 0.07 -0.69 -1.96 0.04 1.59 0.20 0.39 1.06 -0.39 -0.16 2.07 1.35 1.46 1.50 0.94 -0.08 -0.66 -0.21 -0.77 -0.52 0.05 ; procgplot data=example3_1; plot x*time=1; symbolc=red i=join v=star; run; 建立该数据集,绘制该序列时序图得: 根据所得图像,对序列进行平稳性检验。时序图就是一个平面二维坐标图,通常横轴表示时间,纵

轴表示序列取值。时序图可以直观地帮助我们掌握时间序列的一些基本分布特征。 根据平稳时间序列均值、方差为常数的性质,平稳序列的时序图应该显示出该序列始终在一个常数值附近随机波动,而且波动的X围有界的特点。如果观察序列的时序图,显示出该序列有明显的趋势性或周期性,那它通常不是平稳序列。从图上可以看出,数值围绕在0附近随机波动,没有明显或周期,其本可以视为平稳序列,时序图显示该序列波动平稳。 procarima data=example3_1; identifyvar=x nlag=8; run; 图一 图二样本自相关图 图三样本逆自相关图

平稳时间序列预测法

7 平稳时间序列预测法 7.1 概述 7.2 时间序列的自相关分析 7.3 单位根检验和协整检验 7.4 ARMA模型的建模 回总目录 7.1 概述 时间序列取自某一个随机过程,则称: 一、平稳时间序列 过程是平稳的――随机过程的随机特征不随时间变化而变化过程是非平稳的――随机过程的随机特征随时间变化而变化回总目录 回本章目录 宽平稳时间序列的定义: 设时间序列 ,对于任意的t,k和m,满足: 则称宽平稳。 回总目录

回本章目录 Box-Jenkins方法是一种理论较为完善的统计预测方法。 他们的工作为实际工作者提供了对时间序列进行分析、预测,以及对ARMA模型识别、估计和诊断的系统方 法。使ARMA模型的建立有了一套完整、正规、结构 化的建模方法,并且具有统计上的完善性和牢固的理 论基础。 ARMA模型是描述平稳随机序列的最常用的一种模型; 回总目录 回本章目录 ARMA模型三种基本形式: 自回归模型(AR:Auto-regressive); 移动平均模型(MA:Moving-Average); 混合模型(ARMA:Auto-regressive Moving-Average)。回总目录 回本章目录 如果时间序列满足 其中是独立同分布的随机变量序列,且满足:

则称时间序列服从p阶自回归模型。 二、自回归模型 回总目录 回本章目录 自回归模型的平稳条件: 滞后算子多项式 的根均在单位圆外,即 的根大于1。 回总目录 回本章目录 如果时间序列满足 则称时间序列服从q阶移动平均模型。或者记为。 平稳条件:任何条件下都平稳。

三、移动平均模型MA(q) 回总目录 回本章目录 四、ARMA(p,q)模型 如果时间序列 满足: 则称时间序列服从(p,q)阶自回归移动平均模型。 或者记为: 回总目录 回本章目录 q=0,模型即为AR(p); p=0,模型即为MA(q)。 ARMA(p,q)模型特殊情况: 回总目录 回本章目录 例题分析 设 ,其中A与B 为两个独立的零均值随机变量,方差为1;

第六章 非平稳时间序列分析

第六章非平稳时间序列分析前几章讨论的都是平稳时间序列,然而在实际应用中,特别是在经济和商业中出现的时间序列大多是非平稳的,如非常数均值的时间序列,非常数方差的时间序列,或者二者皆有。第一节非平稳性的检验该方法即是利用时间序列资料图,观察趋势性或周期性。如果序列存在着明显的趋势或周期变化,则表明该序列可能是非平稳时间序列。这种方法直观简单,但主观性较强。一个零均值平稳时间序列的自相关和偏自相关函数,要么拖尾,要么截尾。如果零值化的时序既不拖尾,也不截尾,而是呈现出缓慢衰减或者周期性衰减,则认为可能存在趋势或周期性,应视为非平稳。该方法是首先对序列拟合一个恰当的模型,再针对该模型计算其对应特征方程的特征根。如果它的所有特征根均在单位圆之外,则该序列平稳;否则非平稳。该方法可以检验序列是否存在单调趋势。原理:将序列分成几段,计算每一段的均值或方差,组成新的序列。若原序列无明显趋势变化则均值(或方差)序列的逆序总数不应过大或过小,过大说明原序列有上升的趋势,过小说明序列有下降趋势。原理:在原序列与趋势变化的原假设下,原序列的每个值与序列均值对比后的符号序列的游程不应过小或过多。过小或过多均表示原序列存在某种趋势。1、DF 统计量的分布特征给出三个自回归模型前面所述的单变量模型只含有一阶的滞后,当模型中含有更高阶滞后项时,有类似的分析结论。此时对β是否等于1的检验称为ADF 检验。(2)根据不同的模型选用DF 或ADF 统计量,每个统计量均有三种情况选择:含截距项、含截距项和趋势项以及不含截距项和趋势项。(3)DF (ADF )

检验采用的是最小二乘估计。(4)DF (ADF )检验是左侧单边检验。当DF (ADF )<临界值时,拒绝H0 ,即序列为平稳的;当DF (ADF )>临界值时接受H0 ,即序列为非平稳的。第二节平稳化方法本节介绍三种常用的平稳化方法:差分、季节差分以及对数变换与差分结合运用。普通差分第三节齐次非平稳序列模型齐次非平稳第四节非平稳时间序列的组合模型组合模型建模步骤* 数据图检验法自相关、偏自相关函数检验法特征根检验法系统的平稳性即可以用特征根表示,也可以用模型的自回归参数表示。要检验一个系统的平稳性,可以先拟合适应的模型,然后再根据求出的自回归参数来检验。参数检验法逆序检验法逆序列检验步骤:首先,将原序列分成M段,求出每一段的均值或方差。第二步,计算均值序列或方差序列的逆序总数。第三步,计算统计量进行检验在原假设条件下,A具有以下期望与方差其中,M为数据个数。统计量渐近服从N(0,1) 。游程检验法游程检验步骤:首先,将原序列每个值与其均值对比,得到记号序列。第二步,设序列长度为N,。在序列没有趋势的原假设条件下,游程总数r服从r 分布。当大于15 时统计量单位根检验其中是平移项(截距项),是趋势项。设显然对于以上三个模型,当时,时,是平稳的,当是非平稳的。若,统计量渐进服从标准正态分布。若,统计量若的分布将会有很大不同定义,当统计量DF 收敛于维纳过程的函数。时,此极限分布不能用解析的方法求解,通常要用模拟和数值计算方法进行研究。对于三个模型β是否等于1的检验称为DF 检验。2、单位根检验过程:(1)一般地二阶差分一阶差分例:对温度序列作一阶差分。

SAS分析非平稳时间序列

运用SAS对谷物产量进行分析 一、摘要 利用SAS软件(程序见附录)判断谷物产量数据为平稳序列且为非白噪声序列,然后先后通过模型的识别、参数的估计、模型的优化、残差白噪声检验,确定AR(1)模型拟合时间序列显著有效。由于时间序列之间的相关关系,且历史数据对未来数据有一定的影响,对未来5期的谷物生产量进行预测。 二、理论准备 首先判断序列的随机性和平稳性。通过随机性检验,判断该序列是否为白噪声序列,如果是白噪声序列,就认为该随机事件没有包含任何值得提取的有用信息,我们就应该终止分析。通过平稳性检验,序列可以分为平稳序列和非平稳序列。如果序列平稳,通过相关计算进行模型拟合,并利用过去行为对将来行为进行预测,达到预测效果。如果序列为非平稳,再确定模型为非平稳序列中四大类模型中的哪种种模型或者几种模型对序列的综合影响,通过把序列转化为平稳序列,再进一步分析。 三、数据选取 本实验采用某地区连续74年的谷物产量(单位:千吨),如下所示: 0.97 0.45 1.61 1.26 1.37 1.43 1.32 1.23 0.84 0.89 1.18 1.33 1.21 0.98 0.91 0.61 1.23 0.97 1.10 0.74 0.80 0.81 0.80 0.60 0.59 0.63 0.87 0.36 0.81 0.91 0.77 0.96 0.93 0.95 0.65 0.98 0.70 0.86 1.32 0.88 0.68 0.78 1.25 0.79 1.19 0.69 0.92 0.86 0.86 0.85 0.90 0.54 0.32 1.40 1.14 0.69 0.91 0.68 0.57 0.94 0.35 0.39 0.45 0.99 0.84 0.62 0.85 0.73 0.66 0.76 0.63 0.32 0.17 0.46 四、数据进行平稳性与纯随机性的检验与判别 (一)序列的纯随机性检验 图1序列延迟6阶LB检验结果 序列纯随机性检验结果显示延迟6阶LB检验统计量的P值小于1%的显著性水平0.0001,说明序列之间蕴含着很强的相关信息,即该序列是非随机性序列,为非白噪声。

时间序列分析word版

第2章 时间序列的预处理 拿到一个观察值序列之后,首先要对它的平稳性和纯随机性进行检验,这两个重要的检验称为序列的预处理。根据检验的结果可以将序列分为不同的类型,对不同类型的序列我们会采用不同的分析方法。 2.1 平稳性检验 2.1.1 特征统计量 平稳性是某些时间序列具有的一种统计特征。要描述清楚这个特征,我们必须借助如下统计工具。 一、概率分布 数理统计的基础知识告诉我们分布函数或密度函数能够完整地描述一个随 机变量的统计特征。同样,一个随机 变量族的统计特性也完全由它们的联 合分布函数或联合密度函数决定。 对于时间序列{t X ,t ∈T },这样来定义它的概率分布: 任取正整数m ,任取m t t t ,, ,?21∈T ,则m 维随机向量(m t t t X X X ,,,?21)’的联合概率分布记为),,,(m t t t x x x F m ??21,,,21,由这些有限维分布函数构成的全体。 {),,,(m t t t x x x F m ??21,,,21,?m ∈正整数,?m t t t ,,,?21∈T } 就称为序列{t X }的概率分布族。 概率分布族是极其重要的统计特征描述工具,因为序列的所有统计性质理论上都可以通过 概率分布推测出来,但是概率分布族的重要 性也就停留在这样的理论意义上。在实际应 用中,要得到序列的联合概率分布几乎是不 可能的,而且联合概率分布通常涉及非常复 杂的数学运算,这些原因使我们很少直接使 用联合概率分布进行时间序列分析。 二、特征统计量 一个更简单、更实用的描述时间序列统计特征的方法是研究该序列的低阶矩,特别是均值、方差、自协方差和自相关系数,它们也被称为特征统计量。 尽管这些特征统计量不能描述随机序列全部的统计性质,但由于它们概率意义明显,易于计算,而且往往能代表随机 序列的主要概率特征,所以我们对时间序列进行分析,主要就是通过分析这些统计量的统计特性,推断出随机序列的性质。 1.均值 对时间序列{t X ,t ∈T }而言,任意时刻的序列值t X 都是一个随机变量,都有它自己的概率分布,不妨记为)(x F t 。只要满足条件 ∞

随机时间序列分析

7 随机时间序列分析一. 随机时间序列随机过程与随机序列时间序列的性质(1) 随机过程与随机序列随机序列的现实对于一个随机序列,一般只能通过记录或统计得到一个它的样本序列x1,x2,??????, xn,称它为随机序列{ xt }的一个现实随机序列的现实是一族非随机的普通数列(2) 时间序列的统计性质(特征量) 均值函数:某个时刻t 的性质时间序列的统计性质自协方差函数:两个时刻t 和s 的统计性质时间序列的统计性质自相关函数二. 平稳时间序列模型所谓平稳时间序列是指时间序列{ xt, t=0,±1,±2,?????? } 对任意整数t,,且满足以下条件:对任意t,均值恒为常数对任意整数t 和k,r t,t+k 只和k 有关随机序列的特征量随时间而变化,称为非平稳序列平稳序列的特性方差自相关函数:自相关函数的估计平稳序列的判断一类特殊的平稳序列――白噪声序列随机序列{ xt }对任何xt 和xt 都不相关,且均值为零,方差为有限常数正态白噪声序列:白噪声序列,且服从正态分布2. 随机时间序列模型自回归模型(AR)移动平均模型(MA)自回归―移动平均模型(ARMA)(1) 自回归模型及其性质定义平稳条件自相关函数偏自相关函数滞后算子形式①自回归模型的定义描述序列{ xt }某一时刻t 和前p 个时刻序列值之间的相互关系随机序列{ εt }是白噪声且和前时刻序列xk (k

第三章平稳时间序列分析

t P p t t t t t x B x x B x Bx x ===---M 221第3章 平稳时间序列分析 一个序列经过预处理被识别为平稳非白噪声序列,那就说明该序列是一个蕴含着相关信息的平稳序列。 3.1 方法性工具 3.1.1 差分运算 一、p 阶差分 记 t x ?为t x 的1阶差分:1--=?t t t x x x 记t x 2 ?为t x 的2阶差分:21122---+-=?-?=?t t t t t t x x x x x x 以此类推:记 t p x ?为t x 的p 阶差分:111---?-?=?t p t p t p x x x 二、k 步差分 记t k x ?为t x 的k 步差分:k t t t k x x x --=? 3.1.2 延迟算子 一、定义 延迟算子相当与一个时间指针,当前序列值乘以一个延迟算子,就相当于把当前序列值的时间向过去拨了一个时刻。记B 为延迟算子,有 延迟算子的性质: 1. 10 =B 2.若c 为任一常数,有1 )()(-?=?=?t t t x c x B c x c B 3.对任意俩个序列{t x }和{t y },有11)(--±=±t t t t y x y x B 4. n t t n x x B -= 5.)!(!!,)1()1(0 i n i n C B C B i n i i n n i i n -= -=-∑=其中 二、用延迟算子表示差分运算 1、p 阶差分 t p t p x B x )1(-=? 2、k 步差分 t k k t t t k x B x x x )1(-=-=?- 3.2 ARMA 模型的性质 3.2.1 AR 模型 定义 具有如下结构的模型称为p 阶自回归模型,简记为AR(p): t s Ex t s E Var E x x x x t s t s t t p t p t p t t t πΛ?=≠===≠+++++=---,0,0)(,)(,0)(,0222110εεεσεεφεφφφφε (3.4) AR(p)模型有三个限制条件: 条件一: ≠p φ。这个限制条件保证了模型的最高阶数为p 。 条件二: t s E Var E t s t t ≠===,0)(,)(,0)(2εεσεεε。这个限制条件实际上是要求随机干扰序列 }{t ε为 零均值白噪声序列。 条件三:t s Ex t s π?=,0ε。这个限制条件说明当期的随机干扰与过去的序列值无关。 通常把AR(p)模型简记为: t p t p t t t x x x x εφφφφ+++++=---Λ22110 (3.5)

时间序列分析随机模拟

一、随机模拟实验 1.实验题目 ?)和(,是否适用于很大)2(AR 1AR ),1()( Y 2.实验目的和意义 (1)实验目的:检验公式是否适用于AR(1)和AR (2)的预测估计。 (2)实验意义:若题目成立,则对于所有的AR (1)和AR (2)模型,其预测会趋向于一条水平之直线, 3.简述实验方法和步骤 (1)首先模拟一个AR (1)序列,生成K 个数列,将n 个数搁置起来,预测搁置的n 个值, 参数估计,是否符合模型。最后在估计的序列均值上画一条水平线。 (2)首先模拟一个AR (2)序列,生成K 个数列,将n 个数搁置起来,预测搁置的n 个值, 参数估计,是否符合模型。最后在估计的序列均值上画一条水平线。 4.具体实施过程 (1)AR (1)过程 首先模拟一个过程的,)1(1008.0AR 。模拟48个值,将最后八个值搁置起来,与预测值比较。 (a )验证 和 的极大似然估计: 图表4.1极大似然估计

从图表4.1可以看出,该模型符合AR (1)模型,所以我们继续下一步。 (b )预测接下来的8个值,并画出带这8个预测值的序列,在估计的序列均值上画一条水平线。画出预测及其95%预测极限。 图表4.2预测及估计均值水平线 从图4.2中可以看出,预测值落在预测区间内,并且趋向于一条水平直线。此时仅仅是 很小的时候趋势已经很明显了,所以当 越大,)( Y 越趋向于一个均值 。 (2)AR (2)过程 首先模拟一个过程的,,)2(10075.0-5.121AR 。模拟52个值,将最后12个值搁置起来,与预测值比较。 (a )验证 和 的极大似然估计: 图表4.3极大似然估计 从图表4.3可以看出,该模型符合AR (2)模型,所以我们继续下一步。 (b )预测接下来的12个值,并画出带这12个预测值的序列,在估计的序列均值上画一条

非平稳时间序列

第七章非平稳时间序列 时间序列数据被广泛地运用于计量经济研究。经典时间序列分析和回归分析有许多假定前提,如序列的平稳性、正态性等,,如果直接将经济变量的时间序列数据用于建模分析,实际上隐含了这些假定。在这些假定成立的条件下,进行的t检验、F检验与2 等检验才具有较高的可靠度。但是,越来越多的经验证据表明,经济分析中所涉及的大多数时间序列是非平稳的。那末,如果直接将非平稳时间序列当作平稳时间序列来进行分析,会造成什么不良后果?如何判断一个时间序列是否为平稳序列?当我们在计量经济分析中涉及到非平稳时间序列时,应作如何处理呢?这就是本章要讨论的基本内容。 第一节伪回归问题 经典计量经济学建模过程中,通常假定经济时间序列是平稳的,而且主要以某种经济理论或对某种经济行为的认识来确立计量经济模型的理论关系形式,借此形式进行数据收集、参数估计以及模型检验,这是20世纪70年代以前计量经济学的主导方法。然而,这种方法所构建的计量经济模型在20世纪70年代出现石油危机后引起的经济动荡面前却失灵了。这里的失灵不是指这些模型没能预见石油危机的出现,而是指这些模型无法预计石油危机的振荡对许多基本经济变量的动态影响。因此引起了计量经济学界对经典计量经济学方法论的反思,并将研究的注意力转向宏观经济变量非平稳性对建模的影响。人们发现,由于经济分析中所涉及的经济变量数据基本上是时间序列数据,而大多数经济时间序列是非平稳的,如果直接将非平稳时间序列当作平稳时间序列进行回归分析,则可能会带来不良后果,如伪回归问题。 所谓“伪回归”,是指变量间本来不存在有意义的关系,但回归结果却得出存在有意义关系的错误结论。经济学家早就发现经济变量之间可能会存在伪回归现象,但在什么条件下会产生伪回归现象,长期以来无统一认识。直到20世纪70年代,Grange、Newbold研究发现,造成“伪回归”的根本原因在于时间序列变量的非平稳性。他们用Monte Carlo模拟方法研究表明,如果用传统回归分

第八章、非平稳时间序列分析

第八章、非平稳时间序列分析 很多时间序列表现出非平稳的特性:随机变量的数学期望和方差随时间的变化而变化。宏观经济数据形成的时间序列中有很多是非平稳时间序列。非平稳时间序列与平稳时间序列具有截然不同的特征,研究的方法也很不一样。因此,在对时间序列建立模型时,必须首先进行平稳性检验,对于平稳时间序列,可采用第七章的方法进行分析,对于非平稳时间序列,可以将采用差分方法得到平稳时间序列,然后采用平稳时间序列方法对差分数据进行研究,对于多个非平稳时间序列则可以采用协整方法对其关系进行研究。 8.1 随机游动和单位根 8.1.1随机游动和单位根 如果时间序列t y 满足模型 t t t y y ε+=-1 (8.1) 其中t ε为独立同分布的白噪声序列, ,2,1,)(2==t Var t σε,则称t y 为标准随机游动 (standard random walk )。随机游动表明,时间序列在t 处的值等于1-t 时的值加上一个新息。如果将t y 看作一个质点在直线上的位置,当前位置为1-t y ,则下一个时刻质点将向那个方向运动、运动多少(t ε)是完全随机的,既与当前所处的位置无关(t ε与1-t y 不相关),也与以前的运动历史无关(t ε与 ,,32--t t y y 不相关),由质点的运动历史和当前位置不能得出下一步运动方向的任何信息。这便是 “随机游动”的由来。 随机游动时间序列是典型的非平稳时间序列。将(8.1)进行递归,可以得出 010 211y y y y t s s t t t t t t t +==++=+=∑-=----εεεε (8.2) 。如果初始值0y 已知,则可以计算出t y 的方差为2)(σt y Var t =。由此看出随机游动在不同 时点的方差与时间t 成正比,不是常数,因此随机游动是非平稳时间序列。下图给出了随12机游动时间序列图: 图8.1 随机游动时间序列图 将随机游动(8.1)用滞后算子表示为 t t y L ε=-)1( (8.3) ,滞后多项式为L L -=Φ1)(。显然1=L 是滞后多项式的根,因此随机游动是一个单位根过程(unit root process )。随机游动是最简单的单位根过程。 随机游动的概念可以进行推广。如果时间序列t y 满足 t t t y c y ε++=-1 (8.4)

平稳时间序列分析

t P p t t t t t x B x x B x Bx x ===---M 221第3章 平稳时间序列分析 一个序列经过预处理被识别为平稳非白噪声序列,那就说明该序列是一个蕴含着相关信息的平稳序列。 方法性工具 差分运算 一、p 阶差分 记t x ?为t x 的1阶差分:1--=?t t t x x x 记t x 2 ? 为t x 的2阶差分:21122---+-=?-?=?t t t t t t x x x x x x 以此类推:记t p x ?为t x 的p 阶差分:111---?-?=?t p t p t p x x x 二、k 步差分 记t k x ?为t x 的k 步差分:k t t t k x x x --=? 延迟算子 一、定义 延迟算子相当与一个时间指针,当前序列值乘以一个延迟算子,就相当于把当前序列值的时间向过去拨了一个时刻。记B 为延迟算子,有 延迟算子的性质: 1.10 =B 2.若c 为任一常数,有1)()(-?=?=?t t t x c x B c x c B 3.对任意俩个序列{t x }和{t y },有11)(--±=±t t t t y x y x B 4.n t t n x x B -= 5.)! (!! ,)1()1(0 i n i n C B C B i n i i n n i i n -= -=-∑=其中 二、用延迟算子表示差分运算 1、p 阶差分 2、k 步差分 ARMA 模型的性质 AR 模型 定义 具有如下结构的模型称为p 阶自回归模型,简记为AR(p): t s Ex t s E Var E x x x x t s t s t t p t p t p t t t πΛ?=≠===≠+++++=---,0,0)(,)(,0)(,0222110εεεσεεφεφφφφε AR(p)模型有三个限制条件: 条件一:0≠p φ。这个限制条件保证了模型的最高阶数为p 。

时间序列分析实验平稳性

时间序列数据平稳性检验实验指导 一、实验目的: 理解经济时间序列存在的不平稳性,掌握对时间序列平稳性检验的步骤和各种方法,认识利用不平稳的序列进行建模所造成的影响。 二、基本概念: 如果一个随机过程的均值和方差在时间过程上都是常数,并且在任何两时期的协方差值仅依赖于该两个时期间的间隔,而不依赖于计算这个协方差的实际时间,就称它是宽平稳的。 时序图 ADF检验 PP检验 三、实验内容及要求: 1、实验内容: 用Eviews5.1来分析1964年到1999年中国纱产量的时间序列,主要内容: (1)、通过时序图看时间序列的平稳性,这个方法很直观,但比较粗糙; (2)、通过计算序列的自相关和偏自相关系数,根据平稳时间序列的性质观察其平稳性;(3)、进行纯随机性检验; (4)、平稳性的ADF检验; (5)、平稳性的pp检验。 2、实验要求: (1)理解不平稳的含义和影响; (2)熟悉对序列平稳化处理的各种方法; (2)对相应过程会熟练软件操作,对软件分析结果进行分析。 四、实验指导 (1)、绘制时间序列图 时序图可以大致看出序列的平稳性,平稳序列的时序图应该显示出序列始终围绕一个常数值波动,且波动的范围不大。如果观察序列的时序图显示出该序列有明显的趋势或周期,那它通常不是平稳序列,现以1964-1999年中国纱年产量序列(单位:万吨)来说明。 在EVIEWS中建立工作文件,在“Workfile structure type”栏中选择“Dated-regular frequency”,在右边的“Date specification”中输入起始年1964,终止年1999,点击ok则建立了工作文件。找到中国纱年产量序列的excel文件并导入命名该序列为sha,见图1-2。 图1-1 建立工作文件

对于非平稳时间序列yt,假定经过d次差分之后可表达为一个自回归

时间序列模型 时间序列分析方法由Box-Jenkins (1976) 年提出。它适用于各种领域的时间序列分析。 时间序列模型不同于经济计量模型的两个特点是: ⑴这种建模方法不以经济理论为依据,而是依据变量自身的变化规律,利用外推机制描述时间序列的变化。 ⑵明确考虑时间序列的非平稳性。如果时间序列非平稳,建立模型之前应先通过差分把它变换成平稳的时间序列,再考虑建模问题。 时间序列模型的应用: (1)研究时间序列本身的变化规律(建立何种结构模型,有无确定性趋势,有无单位根,有无季节性成分,估计参数)。 (2)在回归模型中的应用(预测回归模型中解释变量的值)。 (3)时间序列模型是非经典计量经济学的基础之一(不懂时间序列模型学不好非经典计量经济学)。 分节如下: 1.随机过程、时间序列定义 2.时间序列模型的分类 3.自相关函数与偏自相关函数 4.建模步骤(识别、参数估计、诊断检验、案例分析) 5.回归与时间序列组合模型 6.季节时间序列模型(案例分析) 2.1随机过程、时间序列 为什么在研究时间序列之前先要介绍随机过程?就是要把时间序列的研究提高到理论高度来认识。时间序列不是无源之水。它是由相应随机过程产生的。只有从随机过程的高度认识了它的一般规律。对时间序列的研究才会有指导意义。对时间序列的认识才会更深刻。 自然界中事物变化的过程可以分成两类。一类是确定型过程,一类是非确定型过程。 确定型过程即可以用关于时间t的函数描述的过程。例如,真空中的自由落体运动过程,电容器通过电阻的放电过程,行星的运动过程等。 非确定型过程即不能用一个(或几个)关于时间t的确定性函数描述的过程。换句话说,对同一事物的变化过程独立、重复地进行多次观测而得到的结果是不相同的。例如,对河流水位的测量。其中每一时刻的水位值都是一个随机变量。如果以一年的水位纪录作为实验结果,便得到一个水位关于时间的函数x t。这个水位函数是预先不可确知的。只有通过测量才能得到。而在每年中同一时刻的水位纪录是不相同的。 随机过程:由随机变量组成的一个有序序列称为随机过程,记为{x (s, t) , s∈S , t∈T }。其中S表示样本空间,T表示序数集。对于每一个t, t∈T, x(·, t ) 是样本空间S中的一个随机变量。对于每一个s, s∈S , x (s, ·) 是随机过程在序数集T中的一次实现。 t t

时间序列平稳性分析(课件)

时间序列平稳性分析(课件) 时间序列平稳性分析 文章结构 ?时间序列的概念 ?平稳性检验 ?纯随机性检验 ?spss的具体操作 1.1时间序列分析的概念?时间序列是一个按时间的次序排列起来的随机数据集合。而时间序列分析是概率论与数理统计学科的一个重要分支,它以概率统计学为理论基础来分析随机数据序列(或称为动态数据序列)并对其建立相应的数学模型,即对模型定阶,进行参数估计,进一步将用于预测。 在对时间序列进行分析的时候我们的前提任务是如何进行的呢? 2.1平稳性检验 ? ? ? ? ?特征统计量平稳时间序列的定义平稳时间序列的统计性质平稳时间序列的意义平稳性检验 概率分布 ?概率分布的意义 随机变量族的统计性质完全由它们的联合分布函数或联合密度函数决定 ?时间序列概率分布族的定义 { }Ft1,t2,...,tm(x1,x2,...,xm) m(1,2,...,m),t1,2,...,T ?实际应用局限性

概率分布 ?概率分布的意义 随机变量族的统计性质完全由它们的联合分布函数或联合密度函数决定?时间序列概率分布族的定义 { }Ft1,t2,...,tm(x1,x2,...,xm) m(1,2,...,m),t1,2,...,T ?实际应用局限性 特征统计量 ?均值 t EXt ?方差 Var(Xt)E(Xt t) xdFt(x) 2 (x t)dFt(x) ?协方差?自相关系数 (t,s)E(Xt t)(XS) S (t,s)

(t,s) DXt DXs 平稳时间序列的定义 ?严平稳 严平稳是一种条件比较苛刻的平稳性定义,它认为只有当序列所有的统计性质都不会随时间的推移而发生变化时,该序列才能被认为平稳?宽平稳 宽平稳是使用序列的特征统计量来定义的一种平稳性。它认为序列的统计性质主要由它的低阶矩决定,所以只要保证序列低阶矩平稳(二阶),就能保证序列的主要性质近似稳定。 ?满足如下条件的序列称为严平稳序列 正整数m,t1,t1,...,tm T,正整数t,有 Ft1,t2,...,tm(x1,x2,...,xm)Ft1t,t2t,..., ?满足如下条件的序列称为宽平稳序列 1)EXt,t T 2)EXt,为常数,t T 2 tm t (x1,x2,...,x 3)(t,s)(k,k s t),t,s,k且k s t T ?常数性质 ?自协方差函数和自相关函数只依赖于时间的平移长度而与时间的起止点无关1)延迟k自协方差函数 (k)(t,t k),k为整数 2)延迟k自相关系数 k

(优质)(时间管理)第三章平稳时间序列分析

(时间管理)第三章平稳时 间序列分析

t P p t t t t t x B x x B x Bx x ===--- 221第3章 平稳时间序列分析 一个序列经过预处理被识别为平稳非白噪声序列,那就说明该序列是一个蕴含着相关信息的平稳序列。 3.1方法性工具 3.1.1差分运算 一、p 阶差分 记为的1阶差分: 记为的2阶差分: 以此类推:记为的p 阶差分: 二、k 步差分 记为的k 步差分: 3.1.2延迟算子 一、定义 延迟算子相当与一个时间指针,当前序列值乘以一个延迟算子,就相当于把当前序列值的时间向过去拨了一个时刻。记B 为延迟算子,有 延迟算子的性质: 1. 2.若c 为任一常数,有 3.对任意俩个序列 {}和{},有 4. 5. 二、用延迟算子表示差分运算

1、p阶差分 2、k步差分 3.2ARMA模型的性质 3.2.1AR模型 定义具有如下结构的模型称为p阶自回归模型,简记为AR(p): (3.4) AR(p)模型有三个限制条件: 条件一:。这个限制条件保证了模型的最高阶数为p。 条件二:。这个限制条件实际上是要求随机干扰序列为零均值白噪声序列。 条件三:。这个限制条件说明当期的随机干扰与过去的序列值无关。 通常把AR(p)模型简记为: (3.5) 当时,自回归模型式(3.4)又称为中心化AR(p)模型。非中心化AR(p)序列可以通过下面变化中心化AR(p)系列。 令 则{}为{}的中心化序列。 AR(p)模型又可以记为: ,其中称为p阶自回归系数多项式 二、AR模型平稳性判断 P45【例3.1】考察如下四个AR模型的平稳性: 拟合这四个序列的序列值,并会绘制时序图,发现(1)(3)模型平稳,(2)(4)模型非平稳 1、特征根判别

相关主题
文本预览
相关文档 最新文档