1、基于探索性数据分析的全国过夜游客研究大学论文探索性数据分析课程论文 论文题目: 基于探索性数据分析的全国过夜游客研究 学生姓名: 学生学号: 所在学院: 年级专业: 任课教师: 完成日期: 年 月 日 基于探索性数据分析的全国过夜游客研究()【内容摘要】基于2013年全国31个省、直辖市、自治区住宿业年末从业人数和入境过夜游客截面数据进行探索性数据分析,通过茎叶图、五数总括图、箱线图了解数据进而改进数据并建立普通回归模型,结果表明年末从业人数是影响入境过夜游客的因素。【关 键 词】探索性数据分析,入境游客,住宿业,从业人员我国旅游资源丰富,旅游业在全国国民经济中占据重要的地位,是我国主要支柱产
2、业之一。随着社会的发展,我国经济、文化和生态建设都取得了长足的进步,旅游业的发展也相当繁荣。旅游业的可持续性发展对其他领域的可持续发展具有一定的促进作用,而整个社会的可持续发展又为旅游业创造了良好的条件。其中,旅游业对餐饮、住宿的助推作用越来越明显。住宿业在满足游客消费需求的同时,已成为一个地区或城市经济社会发展水平、对外总体形象的重要标志。近年来我国住宿业规模迅速扩大,住宿从业人员不断增多,整体素质不断提升,市场影响力不断增强,构成了我国旅游竞争力重要方面,为促进我国服务业繁荣发展和旅游服务水平整体提升做出了积极贡献。旅游业的发展离不开住宿业的发展和支持,住宿业给游客提供休息和服务,并留下良
3、好印象,优质的住宿服务有助于提升我国旅游业在国际中的形象。对我国的各个省、市、自治区来说,相互之间也存在竞争,如各地通过深度开发具有本地特色的旅游产品来吸引游客。研究我国入境过夜游客和住宿业从业人员的关系,是因为各地除了开发本地特色、提高旅游服务水平吸引游客以外,还能通过建设高水平的酒店来吸引游客。一个地方过夜游客人数的增加,除了给住宿业带来更多收入以外,还意味着当地潜在的其他旅游相关行业收入的增加。研究旅游业与住宿业的关系,有助于解释不同地区旅游人数和旅游收入的变化,从而更好的为发展旅游业服务。一、初步认识数据展现所收集的原始数据,并对所收集的数据进行大致的了解,以便于后续的探索性分析。(1
4、)原始数据由中国统计年鉴2013年数据整理可得表1所示我国各省、市、自治区入境过夜游客人数和住宿业年末从业人数数据如下。表1 2013年我国各省、市、自治区入境过夜游客人数和住宿业年末从业人数序号地区入境过夜游客(万人)住宿业年末从业人数(人)1北 京450.131508082天 津75.86252023河 北84.27644754山 西53.84464775内蒙古161.61320626辽 宁256.04567197吉 林124.3202618黑龙江152.86220729上 海614.098140210江 苏288.0311848311浙 江337.5714570812安 徽271.955
5、112713福 建294.028746914江 西123.894111415山 东285.9811707916河 南127.389648517湖 北267.967061918湖 南230.669277519广 东3397.929671920广 西281.745100521海 南75.645664322重 庆115.174087723四 川209.568879924贵 州62.43258025云 南287.886251726西 藏22.32508027陕 西253.477486628甘 肃9.782474729青 海4.65717230宁 夏2.54829931新 疆68.8824544 来源:
6、中国统计年鉴(2013)(2)描述性统计 根据原始数据,运用SPSS描述统计可以得出如下2所示描述统计量。表2 描述统计量描述统计量N极小值极大值均值标准差方差住宿业年末从业人数31508029671967554.3557495.5863305742459.303入境过夜游客数量312.543397.90290.0765593.22745351918.812有效的 N (列表状态)31 由表2描述统计量可以看出,全31个数据皆为有效数据,不村在缺失值。两个变量极小值与极大值之间存在极大差距,而且均值与方差相比于数据的极小值存在极大差距,说明原始数据的离散程度较大,且有可能存在异常值。由于数据可
7、能存在各种缺陷,没有可以直接使用的模型,因此运用探索性数据分析的方法对数据进行处理。二、探索性分析(一)入境过夜游客数量1. 茎叶图 如图1所示,可以看出31个地区的入境过夜游客人数的分布相对集中,三分之一的地区平均入境过夜游客在250万和290万之间。有三个异常值远远大于平均值,剩余的三分之二在以50万到80万为峰值的正态分布中。从整体来看,这个批并不对称,但有相对集中的趋势。还需要对这个批进行其他方式的表述。 Frequency Stem & Leaf 4.00 0 . 0002 6.00 0 . 566778 4.00 1 . 1222 2.00 1 . 56 2.00 2 . 03 9
8、.00 2 . 556788889 1.00 3 . 3 .00 3 . .00 4 . 1.00 4 . 5 2.00 Extremes (=614) Stem width: 100.00 Each leaf: 1 case(s)图1 入境过夜游客数量的茎叶图2.五数总括图下图2为入境过夜游客数量的无数总括图,由图形可以看出:相比较于均值290,中位数161更倾向于左偏,因此可以得知有离群的极大值点。而四分展布由75.64到285.98,可知存在大量离群值,为了更直观的表现五数总括的特点,做箱线图。#31游客数量M16161.61F875.64285.9812.543397.9图2 入境过夜
9、游客数量的五数总括图 3.箱线图 如图三所示,数据存在明显的左偏趋势,序号为9尤其是序号为19的变量值极度偏离。出去异常值外,中位数与上下四分位数没有明显的偏向,而四分展布能够基本概括所有的数据。图3 入境过夜过夜游客数量箱线图4.数据变换通过以上分析可知,数据存在异常值,而且是非对称分布。为了能够对数据进行分析,首先应该进行数据变换。对数据进行对数变换,取自然对数,使数据能够消除异常值并适当的对沉调整。由图4调整后的箱线图可以看到:仍然存在异常值,但是箱的位置处于中间,中位数也没有对上四分位数或下四分位数的明显偏向,偏度、展布、与位置均较好。由此可知,对数据进行对数变换,取得的效果较理想。图
10、4 去自然对数的入境过夜游客数量的箱线图 (二)住宿业年末从业人数 1.茎叶图 Frequency Stem & Leaf 3.00 0 . 000 7.00 0 . 2222233 7.00 0 . 4445555 4.00 0 . 6677 5.00 0 . 88899 2.00 1 . 11 .00 1 . 2.00 1 . 45 1.00 Extremes (=296719) Stem width: 100000 Each leaf: 1 case(s)图5 住宿业年末从业人数茎叶图 如图5所示,可以看出31个地区的住宿业年末从业人数的分布相对集中。有2个异常值远远大于平均值,三分之二
11、的地区从业人数在2万到9万之间大致均匀分布。从整体来看,这个批并不对称,但有相对集中的趋势。想要进一步了解,还需要对这个批进行其他方式的表述。 2.五数总括图下图6为入境过夜游客数量的五数总括图,由图形可以看出:相比较于均值67554,中位数56643更倾向于左偏,因此可以得知有离群的极大值点。而四分展布由25202到88799,能够较为稳妥的包含大概三分之一的数据,但是极大值与极小值之间差距显著,因此也可以证明这批数据的方差极大。#31从业人数M1656643F8252028879915080296719图6 住宿业年末从业人数五数总括图 3.箱线图 如图7所示,数据存在明显的左偏趋势,下四
12、分位数的尾部长度大概为上四分位数长度的2倍,可知小数据较集中而大数据叫离散。序号为19的变量值极度偏离。除去异常值外,中位数与上下四分位数没有明显的偏向,而四分展布能够基本概括所有的数据。图7 住宿业年末从业人数箱线图4.数据变换通过以上分析可知,数据存在异常值,而且是非对称分布。为了能够对数据进行分析,首先应该进行数据变换。对数据进行对数变换,取自然对数,使数据能够消除异常值并适当的对称调整。由图7调整后的箱线图可以看到:仍然存在异常值,但不是极大值而是极小值但是箱的位置处于中间,中位数也没有对上四分位数或下四分位数的明显偏向,偏度、展布、与位置均较好。由此可知,对数据进行对数变换,取得的效
13、果较理想。图8 调整后的住宿业年末从业人员的箱线图 三、回归分析(一)回归结果表3 回归分析Dependent Variable: LOG(Y)Included observations: 31VariableCoefficientStd. Errort-StatisticProb.C-9.2906891.695153-5.4807380.0000LOG(X)1.3116880.1566538.3732180.0000R-squared0.707398Mean dependent var4.854761Adjusted R-squared0.697308S.D. dependent var1.415998S.E. of regression0.779045Akaike info criterion2.400846Sum squared resid17.60044Schwarz criterion2.493361Log likelihood-35.21311Hannan-Quinn criter.2.431004F-statistic70.11079Durbin-Watson stat1.420226Prob(F-statistic)0.000000
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1