统计学专业学年论文运用SAS对中国历年运动员获世界冠军数进行建模并作预报.docx

上传人:b****5 文档编号:11633227 上传时间:2023-03-29 格式:DOCX 页数:12 大小:74.88KB
下载 相关 举报
统计学专业学年论文运用SAS对中国历年运动员获世界冠军数进行建模并作预报.docx_第1页
第1页 / 共12页
统计学专业学年论文运用SAS对中国历年运动员获世界冠军数进行建模并作预报.docx_第2页
第2页 / 共12页
统计学专业学年论文运用SAS对中国历年运动员获世界冠军数进行建模并作预报.docx_第3页
第3页 / 共12页
统计学专业学年论文运用SAS对中国历年运动员获世界冠军数进行建模并作预报.docx_第4页
第4页 / 共12页
统计学专业学年论文运用SAS对中国历年运动员获世界冠军数进行建模并作预报.docx_第5页
第5页 / 共12页
点击查看更多>>
下载资源
资源描述

统计学专业学年论文运用SAS对中国历年运动员获世界冠军数进行建模并作预报.docx

《统计学专业学年论文运用SAS对中国历年运动员获世界冠军数进行建模并作预报.docx》由会员分享,可在线阅读,更多相关《统计学专业学年论文运用SAS对中国历年运动员获世界冠军数进行建模并作预报.docx(12页珍藏版)》请在冰豆网上搜索。

统计学专业学年论文运用SAS对中国历年运动员获世界冠军数进行建模并作预报.docx

统计学专业学年论文运用SAS对中国历年运动员获世界冠军数进行建模并作预报

2011-2012学年

09级统计学专业学年论文

 

题目运用SAS对中国历年运动员获世界冠军数进行建模并作预报.

学生姓名

学号

成  绩

评语:

 

指导教师

日期

运用SAS对历年中国运动员获世界冠军数进行建模并作预测

摘要:

本文通过选取1978年-2009年中国历年运动员获得金牌数,运用SAS统计软件进行处理分析,选取显著的系数,建立模型,对年我国2010以后运动员金牌数做出预测。

关键字SASAR模型参数估计平稳时间序列

 

1、引言

在自然现象和经济现象中,人们为了对某些事物或系统的运行规律探索其究竟,需要观测所要研究的某种现象,从而得到一定顺序的数据资料。

通过分析这些数据资料,对事物或系统的未来发展进行预测或控制方法,称为时间系列分析。

从统计学的内容来看,研究数据的统计方法就是时间序列分析。

就此足以看到时间序列分析的重要性及其应用的广泛性。

时间序列的统计解释是某项统计指标按时间顺序记录的指标值数列时间序列的统计意义是某一系统程序运行过程中的不用时间点的响应,是系统行为量化数据的有序客观记录,反映了系统的结构特征和运行规律。

随机时间序列分析就是利用数学的方法描述时间序列的构成因素,具体地说就是对影响时间序列的长期趋势、季节变动、循环波动进行预订和估计;进一步的,将它们从时间序列中分离后,对剩余的一项时间序列的随机波动进行分析和建模;从而实现对时间序列变化规律的认识,预测或控制未来行为。

2、SAS介绍

StatisticslAnalysisiSystem简称SAS,可以用来分析数据和编写报告。

它是美国SAS研究所的产品,在国际上被誉为标准通用软件,在我国深受医学、农林、财经、社会科学、行政管理等众多领域的专业工作者的好评。

SAS采用积木式模型结构,其中的SAS/STAT模块是目前功能最强的多元统计分析程序集,可以作回归分析、聚类分析、判别分析、主成分分析、因子分析、典型相关分析、各种实验设计的方差分析、协方差分析以及时间序列分析。

3、平稳时间序列的基本概念

时间序列的统计特征函数,时间序列{Xt,t∈Z}是按时间次序排列的随机变量序列。

对时间序列的研究通常情况下是通过统计特征函数进行的。

1)均值函数如果对任意t∈Z,EXt存在,则称函数

Mx(t)=EXt,t∈Z

为时间序列{Xt,t∈Z}的均值。

如果对任意t∈Z,EXt存在,则称{Xt,t∈Z}为二阶矩时间序列有:

2)自协方差函数Cx(s,t)=E[(Xs-Mx(s))(Xt-Mx(t))],s,t∈Z.

3)方差函数Dx(t)=E[Xt-Mx(t)]2,t∈Z.

4)自相关函数Rx(s,t)=E(XsXt),s,t∈Z.

二阶矩时间序列的协方差和相关函数一定存在,且有下列关系:

Cx(s,t)=Rx(s,t)-Mx(s)Mx(t),

特别的,当Xt的均值函数值Mx(t)=0时,Cx(s,t)=Rx(s,t).

均值函数Mx(t)是时间序列{Xt,t∈Z}在时刻t的平均值,称为集平均。

发差函数Dx(t)是时间序列在t时刻均值函数Mx(t)的偏离程度。

自协方差函数Cx(s,t)和自相关函数Rx(s,t)则反映时间序列在时刻s和t的线性相关程度。

下面介绍时间序列分析的重点对象—平稳时间序列的概念。

平稳时间序列如果一个时间序列{Xt,t∈Z}具有如下特征则称其为平稳时间序列:

1)在任意时刻t∈Z,Xt存在有限的方差,即Xt是一个二阶矩形时间序列;

2)在任意时刻t∈Z,Xt的均值函数Mx(t)=μ为与t无关的常数;

3)在任意时刻s,t∈Z,Xt的自协方差函数Cx(s,t)=γt-s是时间差t-s的函数,及对任意s,t∈Z和k∈Z,Cx(s,t)=Cx(s+k,t+k)=γt-s。

很明显,平稳时间序列的统计特征主要是由其协方差函数刻画的,时间序列分析理论的一个重要特点就是利用自协方差函数研究平稳时间序列的统计性质。

4、平稳性检验

平稳时间序列因为有很好的统计特征,所以便于研究。

我们先检验所观测的样本是否具有平稳性,然后根据其平稳性来建立相适应的模型。

平稳性检验中的以下二种方法

1)数据检验法数据图检验是在t-Xt平面直角坐标系中将研究的试驾序列绘成连线图,观察其是否具有趋势性或周期性,若无明显的趋势性或周期性,其波动幅度也不大,就认为序列是平稳的。

2)自相关函数检验法一个零均值平稳序列的自相关函数要么是结尾的,要么是拖尾的。

因此,如果一个时间序列零均值化以后的自相关函数出现了缓慢衰减或周期性的衰减的情况,则说明序列可能存在某种趋势或周期性。

5、白噪声序列

如果序列彼此之间没有任何相依性,那就意味着该序列是一个没有记忆的序列,过去的行为对将来的发展没有丝毫影响,这种序列称为纯随机序列,也称为白噪声序列。

白噪声序列需要满足如下性质:

任取t∈t,有EXt=μ;

任取t,s∈T,有

 

表一历年中国运动员获金牌数

年份

1978

1979

1980

1981

1982

1983

1984

1985

金牌数

4

12

3

25

13

39

37

46

年份

1986

1987

1988

1989

1990

1991

1992

1993

金牌数

26

69

54

82

54

93

89

103

年份

1994

1995

1996

1997

1998

1999

2000

2001

金牌数

79

102

75

92

83

92

110

90

年份

2002

2003

2004

2005

2006

2007

2008

2009

金牌数

110

84

101

106

141

123

120

142

6.SAS分析及模型建立

根据上表,运用如下SAS程序得到时序图。

输入:

dataexample2;inputx@@;

t=intnx('year','01jan1978'd,_n_-1);formattyear4.;

cards;

0.0761180.0882740.1200920.2088650.2508150.1396630.1735640.2474750.1295970.0986030.1667950.2360720.3123810.364070.2613350.1707890.1095360.0687490.0624960.1063540.1052320.0973730.1287270.1771090.1567390.1696630.2288150.1814640.0855210.176881

;

procgplot;plotx*t;symboli=jionv=dot;run;

图一

从上图可以看出存在奇异点。

再输入程序:

dataexample2;inputx@@;

t=intnx('year','01jan1980'd,_n_-1);formattyear4.;

cards;

0.0761180.0882740.1200920.2088650.2508150.1396630.1735640.2474750.1295970.0986030.1667950.2360720.3123810.364070.2613350.1707890.1095360.0687490.0624960.1063540.1052320.0973730.1287270.1771090.1567390.1696630.2288150.1814640.0855210.176881

;

procgplot;plotx*t;symboli=jionv=dot;

procmeans;varx;run;

得到

N均值标准差最小值最大值

------------------------------------------------------------------

300.16330560.07443810.06249600.3640700

------------------------------------------------------------------

因为均值为0.1633056,标准差为0.0744381.根据置信区间公式(均值—2*标准差,均值+2*标准差)得到置信区间(0.014429,0.312182)。

显然,0.312381,0.36407(0.014429,0.312182),所以,0.312381,0.36407为奇异值。

将其修正2*0.236072—0.1633056=0.3088384.

将修正后的数据再进行时序分析。

由SAS输入:

dataexample2;inputx@@;

t=intnx('year','01jan1978'd,_n_-1);formattyear4.;

cards;

0.0761180.0882740.1200920.2088650.2508150.1396630.1735640.2474750.1295970.0986030.1667950.2360720.30883840.30883840.261335

0.1707890.1095360.0687490.0624960.1063540.1052320.0973730.1287270.1771090.1567390.1696630.2288150.1814640.0855210.176881

;

procarima;identifyvar=xnlag=12minicp=(0:

5)q=(0:

5);run;

得到图2

图2

Autocorrelations

LagCovarianceCorrelation-198765432101234567891StdError

00.00468021.00000||********************|0

10.00281400.60127|.|************|0.182574

20.000708000.15128|.|***.|0.239656

3-0.0001373-.02933|.*|.|0.242818

4-0.0010769-.23011|.*****|.|0.242936

5-0.0015647-.33432|.*******|.|0.250096

6-0.0012545-.26804|.*****|.|0.264573

7-0.0006004-.12828|.***|.|0.273475

8-0.0000138-.00295|.|.|0.275474

90.000070750.01512|.|.|0.275475

10-0.0001650-.03526|.*|.|0.275503

11-0.0005373-.11480|.**|.|0.275653

12-0.0006276-.13409|.***|.|0.277242

"."markstwostandarderrors

PartialAutocorrelations

LagCorrelation-198765432101234567891

10.60127|.|************|

2-0.32929|*******|.|

30.08389|.|**.|

4-0.34735|*******|.|

5-0.00058|.|.|

6-0.08261|.**|.|

70.06692|.|*.|

8-0.02765|.*|.|

9-0.11784|.**|.|

10-0.10132|.**|.|

11-0.16195|.***|.|

120.02434|.|.|

修正后的自相关函数和偏自相关函数

对数据进行平稳性检验由SAS输入:

dataexample2;inputx@@;

t=intnx('year','01jan1978'd,_n_-1);formattyear4.;

cards;

0.0761180.0882740.1200920.2088650.2508150.1396630.1735640.2474750.1295970.0986030.1667950.2360720.30883840.30883840.261335

0.1707890.1095360.0687490.0624960.1063540.1052320.0973730.1287270.1771090.1567390.1696630.2288150.1814640.0855210.176881

;

procgplot;symboli=jointv=none;plotx*t;run;

得到图3

图3

由以上图形可以看出金牌数修正后的数据是平稳的。

根据图4可以考虑建立AR(5)模型。

图4

MinimumInformationCriterion

LagsMA0MA1MA2MA3MA4MA5

AR0-5.63808-6.33592-6.22679-6.19669-6.38506-7.12205

AR1-6.27622-6.33676-6.43043-6.41702-6.68033-7.24621

AR2-6.49859-6.38843-6.38887-6.38811-6.58229-7.24494

AR3-6.42686-6.32627-6.46201-6.3864-6.55773-7.29697

AR4-7.31525-7.22557-7.14565-7.21716-7.58271-7.50121

AR5-7.23622-7.12611-7.03709-7.14579-7.5927-7.76424

Errorseriesmodel:

AR(9)

MinimumTableValue:

BIC(5,5)=-7.76424

由SAS输入:

dataexample2;inputx@@;

t=intnx('year','01jan1978'd,_n_-1);formattyear4.;

cards;

0.0761180.0882740.1200920.2088650.2508150.1396630.1735640.2474750.1295970.0986030.1667950.2360720.30883840.30883840.261335

0.1707890.1095360.0687490.0624960.1063540.1052320.0973730.1287270.1771090.1567390.1696630.2288150.1814640.0855210.176881

;

procarima;identifyvar=xnlag=12minicp=(0:

5)q=(0:

5);estimatep=5;run;

运行后得到图5

图5

ConditionalLeastSquaresEstimation

StandardApprox

ParameterEstimateErrortValuePr>|t|Lag

MU0.153110.016739.15<.00010

AR1,11.016410.215974.71<.00011

AR1,2-0.817210.29979-2.730.01182

AR1,30.710110.329002.160.04113

AR1,4-0.579310.31352-1.850.07704

AR1,50.110990.229420.480.63295

参数估计及检验

由上图,我们可以看到-0.81721<0.05,-0.5792131<0.05,这些系数都不显著,我们将其去除,建立最精干的模型。

将上述程序中estimatep=5改为estimatep=(2,3,4);

再次运行程序得到如下图6

图6

ConditionalLeastSquaresEstimation

StandardApprox

ParameterEstimateErrortValuePr>|t|Lag

MU0.160580.0120413.34<.00010

AR1,10.184290.271620.680.50352

AR1,20.059130.351480.170.86773

AR1,3-0.325280.27746-1.170.25174

疏系数估计及检验

 

由图6可以看出,所有的系数估计都通过了检验。

我们建立模型如下:

Xt=0.16058+0.18429X(t-2)+0.05913X(t-3)-0.32528X(t-4)+εt

最后的AR(5)模型的残差分析图如图7所示。

图7

AutocorrelationCheckofResiduals

ToChi-Pr>

LagSquareDFChiSq--------------------Autocorrelations--------------------

610.2330.01670.470-0.0490.0160.037-0.156-0.215

1213.5790.1384-0.116-0.011-0.029-0.127-0.168-0.101

1815.91150.3879-0.098-0.128-0.0150.013-0.097-0.035

2420.86210.46780.1590.097-0.0350.0690.080-0.040

AP(5)模型的残差白噪声检验

图7表明AR(5)模型拟合得非常好,我们利用此模型做预报。

接着输入:

dataexample2;inputx@@;

t=intnx('year','01jan1980'd,_n_-1);formattyear4.;

cards;

0.0761180.0882740.1200920.2088650.2508150.1396630.1735640.2474750.1295970.0986030.1667950.2360720.30883840.30883840.261335

0.1707890.1095360.0687490.0624960.1063540.1052320.0973730.1287270.1771090.1567390.1696630.2288150.1814640.0855210.176881

;

procarima;identifyvar=xnlag=12minicp=(0:

5)q=(0:

5);estimatep=(2,3,4);

forecastlead=5id=tout=results;

procgplotdata=results;

plotx*t=1forecast*t=2l95*t=3u95*t=3/overlay;

symbol1c=bluei=nonev=star;

symbol2c=redi=joinv=nonel=1w=1;

symbol3c=greeni=jionv=nonel=2w=2;run;

得到图8

 

图8

Forecastsforvariablex

ObsForecastStdError95%ConfidenceLimits

100.12580.0697-0.0108147.8241

110.15230.06970.0158172.4855

120.17950.07090.0407169.1701

130.15170.07100.0126187.3607

140.17490.07380.0302186.5737

由图9可以看出,原始数据绝大部分都在预测值内,且近期的数据离预报曲线越近,表明模型建立的比较合理,预报效果比较精准。

图9

预报区域图

结论:

由上表可以看出,2010年金牌数保持在15%上下浮动,并且2010金牌数为147,实际我108,相差不大。

 

参考文献

[1]GeorgeE.P.Box,GwilyM.Jenikins,GregoeyC.Reinsel著;顾岚译。

时间序列分析预测与控制(第三版)。

北京:

中国统计出版社,1997.

[2]王振龙。

时间序列分析。

北京:

中国统计出版社,1999。

[3]王燕。

应用时间序列。

北京:

中国人名出版社,2005.

[4]阮桂海等著。

SAS统计分析大全。

北京:

清华大学,2003.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科 > 法律资料

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1