关于入境旅游人数的时间序列分析.docx
《关于入境旅游人数的时间序列分析.docx》由会员分享,可在线阅读,更多相关《关于入境旅游人数的时间序列分析.docx(24页珍藏版)》请在冰豆网上搜索。
关于入境旅游人数的时间序列分析
关于入境旅游人数的时间序列分析
专业:
统计学XX:
佟虹生指导教师:
汪小英
摘要
群众旅游时代的到来,使旅游日益成为现代人类社会主要的生活方式和社会经济活动,旅游业以其强劲的势头成为全球经济产业中最具活力的“XX产业〞。
随着社会生产力不断开展,劳动生产率不断提高,以及人们生活水平的迅速提高和带薪假期的增加,旅游业将持续高速度开展,成为世界最重要的经济部门之一。
中国同样如此,有数据统计2021年全国旅游及相关产业增加值占国内生产总值的比重为4.33%。
众所周知旅游业是一个存在显著季节效应的行业,如果能对旅游业的客流量作出准确的预测,将会有利于商家更好的把握商机。
本文选取入境旅游的客流量作为时间序列,将简单地分析该序列的季节效应,并对序列拟合ARIMA模型,并作出简单的预测。
关键词:
入境旅游;季节效应;时间序列;ARMIA;预测
一、引言
旅游是在人的根本生活需求得到适度满足后的一种新的消费行为,一种带有浓厚文化内涵的群体活动。
人们离开常住地到异国他乡访问的旅行和暂时停留所引起的各种现象和关系的总和。
我国拥有丰富的旅游资源,疆域辽阔,既有风景秀丽的江南水乡,也有粗暴豪迈的西北风情;我国拥有悠久的历史文化,目前已经公布了99个国家级历史文化古城,长城、故宫、颐和园等已经被列入世界文化遗产名录;我国还是一个拥有多个民族的国家,各个民族的习俗和风情很容易使人产生很强烈的向往之情。
所有这些,都为我国旅游业的开展奠定了一个良好的根底,使得我国吸引了大量的入境游客。
入境旅游是指他国居民前来我国的旅游活动,或者是指他国居民进入本国国境以内的旅游活动,入境旅游属于国际旅游。
目前入境旅游已成为构成我国旅游业的重要组成局部。
时间序列分析(Timeseriesanalysis)是一种动态数据处理的统计方法。
该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。
因此本文将通过时间序列分析的方法来研究分析中国的入境旅游人数。
二、研究方法
差分运算具有强大确实定性信息提取能力,许多非平稳序列差分后会显示出平稳序列的性质,这是我们成这个非平稳序列为差分平稳序列。
对差分平稳序列可以使用ARIMA模型进展拟合。
具有如下构造的模型称为求和自回归移动平均〔autoregressiveintegratedmovingaverage〕,简记为ARIMA(p,d,q)模型:
式中,
;,为平稳可逆ARMA〔p,q〕模型的自回归系数多项式;,为可逆ARMA〔p,q〕模型的移动平滑系数多项式。
ARIMA〔p,d,q〕模型是指d阶差分后自相关最高阶数为p,移动平均最高阶数为q的模型,通常它包含了个独立的未知系数:
。
如果该模型中有局部自相关系数
或局部移动平滑系数
为零,即原ARIMA〔p,d,q〕模型中有局部系数省缺了,那么该模型称为疏系数模型。
疏系数模型一般形式为
式中,
为非零自相关系数的阶数,
为非零移动平滑系数的阶数。
在实际操作中,疏系数模型时有应用。
ARIMA模型可以对具有季节效应的序列建模。
根据季节效应提取的难易程度,可以分为简单季节模型和乘积季节模型。
简单季节模型是指序列中的季节效应和其他效应之间是加法关系,即
式中,
代表序列的长期趋势波动;
代表序列的季节性〔周期性〕变化;
代表随机波动。
这时,各种效应信息的提取都非常容易。
通常简单的周期步长差分即可将序列中的季节信息提取充分,简单的低阶差分即可将趋势信息提取充分,提取完季节信息和趋势信息之后的序列就是一个平稳序列,可以用ARMA模型拟合。
所以简单季节模型实际上就是通过趋势差分、季节差分将序列转换为平稳序列,再对其进展拟合。
它的模型构造通常如下:
式中,
(1)D为周期步长,d为提取趋势信息所用的差分阶数。
(2)
为白噪声序列,且
。
(3),为q阶移动平均系数多项式。
(4),为p阶自回归系数多项式。
但更为常见的情况是,序列的季节效应、长期趋势和随机波动之间有着复杂德尔交互影响关系,简单的ARIMA模型并缺乏以提取其中的相关关系,这时通常需要采用乘积季节模型。
乘积模型的构造原理如下:
当序列具有短期相关性时,通常可以使用低阶ARMA〔p,q〕模型提取。
当序列具有季节效应,季节效应本身还具有相关性时,季节相关性可以使用以周期为步长单位的ARMA〔P,Q〕模型提取。
由于短期相关性和季节效应之间具有乘积关系,所以拟合模型实质为ARMA〔p,q〕和ARMA〔P,Q〕的乘积。
综合前面的d阶趋势差分和D阶以周期S为步长的季节差分运算,对原观察值序列拟合的乘积模型完整的构造如下:
式中,
该乘积模型简记为
。
三、对中国入境旅游人数的实证研究
本文实证研究所选取的数据是中国入境旅游人数,数据频率为月度,客流量单位为万人,时间跨度从2001年1月至2021年12月,共计180个数据,来源于中经网统计数据库。
3.1原序列以及差分序列的相关检验
原序列的平稳检验
首先画出原始序列的的时序图,进展观察,并结合单位根检验判断它的平稳性,图3.1为原始序列的时序图,表3.1为原始序列的3阶单位根检验结果。
表3.1原始序列3阶单位根检验结果
增广Dickey-Fuller单位根检验
类型
滞后
Rho
PrTau
PrF
Pr > F
零均值
0
-0.1237
0.6538
-0.12
0.6421
1
0.1717
0.7223
0.22
0.7505
2
0.3017
0.7548
0.63
0.8520
3
0.3173
0.7587
0.78
0.8810
单均值
0
-28.4429
0.0013
-4.02
0.0017
8.17
0.0010
1
-19.9134
0.0102
-3.44
0.0109
6.17
0.0088
2
-8.6838
0.1794
-2.31
0.1684
3.13
0.2727
3
-6.7822
0.2846
-2.08
0.2537
2.73
0.3758
趋势
0
-63.3460
0.0005
-6.19
<.0001
19.16
0.0010
1
-49.0645
0.0005
-5.06
0.0003
12.96
0.0010
2
-21.0121
0.0498
-3.20
0.0874
5.26
0.1262
3
-16.1923
0.1367
-2.77
0.2117
3.98
0.3823
从时序图中可以观察到这是一个典型的有着上升趋势的非平稳序列,同时单位根检验也印证了我们的判断,从2阶开场p值大于0.05说明原始序列非平稳。
同时从时序图中,我们还可以观察到原始序列在上升趋势的同时,还具备明显的周期性,周期长度为12,与常识的认知相符合。
所以接下来要考虑对原始序列进展1阶12步差分处理,1阶差分去除原始序列的趋势,1阶差分后的序列进展12步差分提取差分后序列的季节信息即周期性。
差分序列的相关检验
我们对1阶12步差分以后的序列进展平稳性和白噪声检验,图3.2为差分后序列的时序图,表3.2为差分后序列的3阶单位根检验结果,表3.3为差分后序列的白噪声检验结果。
表3.2差分后序列的3阶单位根检验结果
增广Dickey-Fuller单位根检验
类型
滞后
Rho
PrTau
PrF
Pr > F
零均值
0
-212.748
0.0001
-17.23
<.0001
1
-209.293
0.0001
-10.18
<.0001
2
-337.999
0.0001
-9.06
<.0001
3
-697.217
0.0001
-8.03
<.0001
单均值
0
-212.743
0.0001
-17.18
<.0001
147.63
0.0010
1
-209.295
0.0001
-10.15
<.0001
51.51
0.0010
2
-338.006
0.0001
-9.03
<.0001
40.78
0.0010
3
-697.566
0.0001
-8.01
<.0001
32.07
0.0010
趋势
0
-212.752
0.0001
-17.13
<.0001
146.76
0.0010
1
-209.397
0.0001
-10.12
<.0001
51.22
0.0010
2
-338.152
0.0001
-9.00
<.0001
40.53
0.0010
3
-700.571
0.0001
-7.99
<.0001
31.89
0.0010
表3.3差分后序列的白噪声检验结果
白噪声的自相关检查
至滞后
卡方
自由度
Pr>卡方
自相关
6
20.15
6
0.0026
-0.281
0.085
-0.155
0.001
-0.073
0.053
12
67.60
12
<.0001
-0.038
0.022
0.053
-0.017
0.155
-0.481
18
92.44
18
<.0001
0.193
-0.191
0.177
-0.066
0.117
-0.104
24
98.50
24
<.0001
0.083
-0.041
0.047
-0.115
0.079
-0.032
从1阶12步差分后的序列时序图中不难看出,已经充分地提取了原始序列的趋势,同时差分后的序列也没有明显的周期性,当然差分后序列的3阶单位根检验也印证了我们的判断。
再观察差分后序列的白噪声检验结果,发现无论是6阶、12阶、18阶或是24阶,p值都小于0.05,说明差分后的序列为一个非白噪声序列,所以综上,我们可以判断原始序列经过1阶12步差分以后得到一个非白噪声的平稳序列,有分析的价值,考虑到季节效应,可以尝试对差分以后的序列拟合ARIMA模型。
3.2拟合ARIMA模型
考虑简单季节模型
观察1阶12步差分后序列的自相关系数和偏自相关系数图,图3.3为差分后序列的自相关系数,图3.4为差分后序列的偏自相关系数。
自相关图显示延迟12阶自相关系数显著大于2倍标准差范围,这说明差分后序列中仍然蕴含着非常显著的季节效应。
延迟1阶、2阶的自相关系数也大于2倍标准差,这说明差分后的序列还具有短期相关性。
观察偏自相关图,得到结论根本一致。
根据自相关系数和偏自相关系数的性质,可以尝试拟合疏系数模型AR〔1,12〕、MA〔1,2,12〕、ARMA〔〔1,12〕,〔1,2,12〕〕,表3.4、表3.5、表3.6分别为3种模型的残差白噪声检验结果。
表3.4AR〔1,12〕的残差白噪声检验结果
残差的自相关检查
至滞后
卡方
自由度
Pr>卡方
自相关
6
5.34
4
0.0017
-0.016
-0.078
-0.120
-0.072
-0.064
0.031
12
12.94
10
0.0753
-0.055
0.008
0.040
-0.018
0.111
-0.157
表3.5MA〔1,2,12〕的残差白噪声检验结果
残差的自相关检查
至滞后
卡方
自由度
Pr>卡方
自相关
6
6.24
3
0.0013
-0.067
0.020
-0.136
-0.058
-0.076
0.060
12
11.38
9
0.0802
-0.044
-0.011
-0.009
-0.096
0.041
-0.124
表3.6ARMA〔〔1,12〕,〔1,2,12〕〕的残差白噪声检验结果
残差的自相关检查
至滞后
卡方
自由度
Pr>卡方
自相关
6
10.38
1
0.0013
-0.136
0.081
-0.156
-0.036
-0.081
0.057
12
28.54
7
0.0002
-0.039
0.005
0.025
-0.085
0.072
-0.292
从以上模型残差的检验结果可以看出,三种模型的残差在滞后6阶的白噪声检验中p值都小于0.05,都不能通过,说明残差在短期还有信息没有提取完全,所以模型拟合效果均不理想。
考虑到该序列既具有短期相关性又具有季节效应,而且短期相关性和季节效应使用加法模型无法充分、有效提取,可以认为该序列的季节效应和短期相关性之间具有复杂的关联性。
这时,假定短期相关性和季节效应之间具有乘积关系,尝试使用乘积模型来拟合序列的开展。
考虑乘积季节模型
还是观察1阶12步差分之后序列的自相关系数和偏自相关系数图,两者显示12阶以内的自相关系数和偏自相关系数均不截尾,所以尝试使用ARMA〔1,1〕模型提取差分后序列的短期自相关信息。
在考虑季节自相关特征,这时考察延迟12阶、24阶等以周期长度为单位的自相关系数和偏自相关系数的特征,自相关系数图〔图3.3〕显示延迟12阶自相关系数显著非零,但是延迟24阶自相关系数落入2倍标准差范围。
而偏自相关系数图〔图3.4〕显示延迟12阶和延迟24阶的偏自相关系数都显著非零。
所以可以认为季节自相关特征是自相关系数截尾,偏自相关系数拖尾,这时以12步为周期的ARMA〔0,1〕12模型提取差分后序列的季节自相关信息。
综合前面的差分信息,要拟合的乘积模型为ARIMA〔1,1,1〕
〔0,1,1〕12
表3.7为该模型条件最小二乘下的参数估计。
表3.8参数估计
条件最小二乘估计
参数
估计
标准误差
t 值
近似Pr>|t|
滞后
MU
-0.19927
0.30542
-0.65
0.5150
0
MA1,1
0.84881
0.07839
10.83
<.0001
1
MA2,1
0.80888
0.05088
15.90
<.0001
12
AR1,1
0.57604
0.12083
4.77
<.0001
1
可以看到,该模型除去常数项不显著外,其余系数都显著非零,所以重新拟合不含常数项的该模型,并观察残差序列的白噪声检验。
表3.8为不含常数项的参数估计,表3.9为不含常数项下的残差序列白噪声检验结果。
表3.8不含常数项的参数估计
条件最小二乘估计
参数
估计
标准误差
t 值
近似Pr>|t|
滞后
MA1,1
0.83316
0.08461
9.85
<.0001
1
MA2,1
0.80609
0.05095
15.82
<.0001
12
AR1,1
0.56010
0.12669
4.42
<.0001
1
表3.9不含常数项的残差白噪声检验结果
残差的自相关检查
至滞后
卡方
自由度
Pr>卡方
自相关
6
2.22
3
0.5278
-0.014
0.034
-0.014
-0.014
-0.028
0.101
12
4.35
9
0.8870
-0.042
-0.007
0.026
-0.073
0.063
0.009
18
13.76
15
0.5439
0.027
-0.180
0.081
-0.090
0.053
0.009
从表3.8可以看出不含常数项的模型中所有系数均显著,表3.9那么说明不含常数项的模型残差序列均不拒绝为白噪声序列,所以模型拟合成功,得到最终的模型的口径为:
将序列拟合值和序列观察值联合作图。
图3.5为拟合值和观察值联合图。
图中分别作出模型拟合值以及模型拟合在95%置信水平下的置信上下限,均以折现连接,图中星星标记未连接的即为实际观测值,可以直观地看出该季节乘积模型对原序列拟合效果良好。
3.3预测
利用该模型对2021年的入境旅游人数进展预测,并绘制预测序列的时序图。
表3.10为2021年每个月度入境旅游人数的预测值〔单位:
万人〕。
表3.102021年每个月度入境旅游人数预测〔单位:
万人〕
以下变量的预测:
x
date
预测
95%置信限
date
预测
95%置信限
2021年1月
1112.679
1030.0292
1195.3287
2021年7月
1141.4522
1007.6716
1275.2327
2021年2月
986.6735
884.4935
1088.8535
2021年8月
1163.4328
1025.8239
1301.0417
2021年3月
1159.3093
1046.6533
1271.9652
2021年9月
1131.0711
989.826
1272.3163
2021年4月
1191.4926
1071.8249
1311.1603
2021年10月
1188.1258
1043.3837
1332.868
2021年5月
1124.4214
999.3415
1249.5012
2021年11月
1140.8166
992.6861
1288.9472
2021年6月
1099.2116
969.5473
1228.8759
2021年12月
1181.1752
1029.7462
1332.6041
从表中不难看出关于2021年中国的入境旅游预测,2月是一个淡季,4月、10月、12月将是旺季,而且整体来看2021年下半年的形式将好于上半年。
四、结论
本文最终选择的基于季节乘积模型的ARIMA(1,1,1)
(0,1,1)12可以较好的拟合中国入境旅游人数,所以商家可以使用该模型对未来中国的入境旅游人数进展预测,把握住商机选择在旺季进展相关的投资,以牟取利润。
相关管理部门也可以依据预测值进展管理制度的规划和制定。
参考文献
[2]王燕.应用时间序列分析[M].3rd,:
中国人民大学,2021.150-202.
[3]贾俊平.统计学[M].5th,:
中国人民大学,2021.71-121.
[4]朱世武.SAS编程技术教程[M].2nd,:
清华大学,2021.83-392.
[5]朱世武.金融计算与建模[M].:
清华大学,2007.15-64.
附录
原始数据:
date
number
date
numebr
date
number
2001年1月
717.15
2003年7月
776.94
2006年1月
998.85
2001年2月
611.41
2003年8月
884.4
2006年2月
871.44
2001年3月
753.26
2003年9月
807.58
2006年3月
1002.98
2001年4月
779.7
2003年10月
854.99
2006年4月
1097.09
2001年5月
707.87
2003年11月
828.42
2006年5月
1002.39
2001年6月
711.78
2003年12月
876.68
2006年6月
1000.45
2001年7月
745.38
2004年1月
808.73
2006年7月
1090.4
2001年8月
809.14
2004年2月
753.3
2006年8月
1114.77
2001年9月
741.32
2004年3月
855.16
2006年9月
1043.77
2001年10月
757.73
2004年4月
954.71
2006年10月
1138.31
2001年11月
749.71
2004年5月
877.47
2006年11月
1042.09
2001年12月
815.09
2004年6月
893.39
2006年12月
1092.51
2002年1月
740.7
2004年7月
959.03
2007年1月
1022.98
2002年2月
711.04
2004年8月
971.56
2007年2月
933.09
2002年3月
839.54
2004年9月
917.45
2007年3月
1089.8
2002年4月
807.77
2004年10月
988.18
2007年4月
1151.68
2002年5月
787.92
2004年11月
935.21
2007年5月
1072.55
2002年6月
795.77
2004年12月
989.63
2007年6月
1066.68
2002年7月
849.37
2005年1月
938.06
2007年7月
1149.14
2002年8月
890.68
2005年2月
855.85
2007年8月
1156.82
2002年9月
865.12
2005年3月
1027.77
2007年9月
1123.13
2002年10月
869.57
2005年4月
1024.76
2007年10月
1160.14
2002年11月
841.91
2005年5月
995.14
2007年11月
1109.1
2002年12月
866.12
2005年6月
989.42
2007年12月
1152.22
2003年1月
848.43
2005年7月
1076.11
2021年1月
1080.95
2003年2月
737.6
2005年8月
1067.41
2021年2月
990.77
2003年3月
785.14
2005年9月
988.77
2021年3月
1188.44
2003年4月
564.92
2005年10月
1054.79
2021年4月
1126.51
2003年5月
543.6
2005年11月
990.78
2021年5月
1087.5
2003年6月
652.6
2005年12月
1018.31
2021年6月
1017.21
date
number
date
number
date
number
2021年7月
1105.72
2021年1月
1082.77
2021年7月
1061.56
2021年8月
1076.24
2021年2月
961.05
2021年8月
1080.65
20