基于探索性数据分析的全国过夜游客研究大学论文.docx

上传人:b****0 文档编号:275850 上传时间:2022-10-08 格式:DOCX 页数:14 大小:81.64KB
下载 相关 举报
基于探索性数据分析的全国过夜游客研究大学论文.docx_第1页
第1页 / 共14页
基于探索性数据分析的全国过夜游客研究大学论文.docx_第2页
第2页 / 共14页
基于探索性数据分析的全国过夜游客研究大学论文.docx_第3页
第3页 / 共14页
基于探索性数据分析的全国过夜游客研究大学论文.docx_第4页
第4页 / 共14页
基于探索性数据分析的全国过夜游客研究大学论文.docx_第5页
第5页 / 共14页
点击查看更多>>
下载资源
资源描述

基于探索性数据分析的全国过夜游客研究大学论文.docx

《基于探索性数据分析的全国过夜游客研究大学论文.docx》由会员分享,可在线阅读,更多相关《基于探索性数据分析的全国过夜游客研究大学论文.docx(14页珍藏版)》请在冰豆网上搜索。

基于探索性数据分析的全国过夜游客研究大学论文.docx

基于探索性数据分析的全国过夜游客研究大学论文

《探索性数据分析》课程论文

论文题目:

基于探索性数据分析的全国过夜游客研究

学生姓名:

学生学号:

所在学院:

年级专业:

任课教师:

完成日期:

年月日

 

基于探索性数据分析的全国过夜游客研究

()

【内容摘要】基于2013年全国31个省、直辖市、自治区住宿业年末从业人数和入境过夜游客截面数据进行探索性数据分析,通过茎叶图、五数总括图、箱线图了解数据进而改进数据并建立普通回归模型,结果表明年末从业人数是影响入境过夜游客的因素。

【关键词】探索性数据分析,入境游客,住宿业,从业人员

我国旅游资源丰富,旅游业在全国国民经济中占据重要的地位,是我国主要支柱产业之一。

随着社会的发展,我国经济、文化和生态建设都取得了长足的进步,旅游业的发展也相当繁荣。

旅游业的可持续性发展对其他领域的可持续发展具有一定的促进作用,而整个社会的可持续发展又为旅游业创造了良好的条件。

其中,旅游业对餐饮、住宿的助推作用越来越明显。

住宿业在满足游客消费需求的同时,已成为一个地区或城市经济社会发展水平、对外总体形象的重要标志。

近年来我国住宿业规模迅速扩大,住宿从业人员不断增多,整体素质不断提升,市场影响力不断增强,构成了我国旅游竞争力重要方面,为促进我国服务业繁荣发展和旅游服务水平整体提升做出了积极贡献。

旅游业的发展离不开住宿业的发展和支持,住宿业给游客提供休息和服务,并留下良好印象,优质的住宿服务有助于提升我国旅游业在国际中的形象。

对我国的各个省、市、自治区来说,相互之间也存在竞争,如各地通过深度开发具有本地特色的旅游产品来吸引游客。

研究我国入境过夜游客和住宿业从业人员的关系,是因为各地除了开发本地特色、提高旅游服务水平吸引游客以外,还能通过建设高水平的酒店来吸引游客。

一个地方过夜游客人数的增加,除了给住宿业带来更多收入以外,还意味着当地潜在的其他旅游相关行业收入的增加。

研究旅游业与住宿业的关系,有助于解释不同地区旅游人数和旅游收入的变化,从而更好的为发展旅游业服务。

一、初步认识数据

展现所收集的原始数据,并对所收集的数据进行大致的了解,以便于后续的探索性分析。

(1)原始数据

由中国统计年鉴2013年数据整理可得表1所示我国各省、市、自治区入境过夜游客人数和住宿业年末从业人数数据如下。

表12013年我国各省、市、自治区入境过夜游客人数和住宿业年末从业人数

序号

地区

入境过夜游客(万人)

住宿业年末从业人数(人)

1

北京

450.13

150808

2

天津

75.86

25202

3

河北

84.27

64475

4

山西

53.84

46477

5

内蒙古

161.61

32062

6

辽宁

256.04

56719

7

吉林

124.3

20261

8

黑龙江

152.86

22072

9

上海

614.09

81402

10

江苏

288.03

118483

11

浙江

337.57

145708

12

安徽

271.95

51127

13

福建

294.02

87469

14

江西

123.89

41114

15

山东

285.98

117079

16

河南

127.38

96485

17

湖北

267.96

70619

18

湖南

230.66

92775

19

广东

3397.9

296719

20

广西

281.74

51005

21

海南

75.64

56643

22

重庆

115.17

40877

23

四川

209.56

88799

24

贵州

62.4

32580

25

云南

287.88

62517

26

西藏

22.32

5080

27

陕西

253.47

74866

28

甘肃

9.78

24747

29

青海

4.65

7172

30

宁夏

2.54

8299

31

新疆

68.88

24544

来源:

《中国统计年鉴(2013)》

(2)描述性统计

根据原始数据,运用SPSS描述统计可以得出如下2所示描述统计量。

表2描述统计量

描述统计量

N

极小值

极大值

均值

标准差

方差

住宿业年末从业人数

31

5080

296719

67554.35

57495.586

3305742459.303

入境过夜游客数量

31

2.54

3397.90

290.0765

593.22745

351918.812

有效的N(列表状态)

31

由表2描述统计量可以看出,全31个数据皆为有效数据,不村在缺失值。

两个变量极小值与极大值之间存在极大差距,而且均值与方差相比于数据的极小值存在极大差距,说明原始数据的离散程度较大,且有可能存在异常值。

由于数据可能存在各种缺陷,没有可以直接使用的模型,因此运用探索性数据分析的方法对数据进行处理。

二、探索性分析

(一)入境过夜游客数量

1.茎叶图

如图1所示,可以看出31个地区的入境过夜游客人数的分布相对集中,三分之一的地区平均入境过夜游客在250万和290万之间。

有三个异常值远远大于平均值,剩余的三分之二在以50万到80万为峰值的正态分布中。

从整体来看,这个批并不对称,但有相对集中的趋势。

还需要对这个批进行其他方式的表述。

 

FrequencyStem&Leaf

4.000.0002

6.000.566778

4.001.1222

2.001.56

2.002.03

9.002.556788889

1.003.3

.003.

.004.

1.004.5

2.00Extremes(>=614)

Stemwidth:

100.00

Eachleaf:

1case(s)

图1入境过夜游客数量的茎叶图

2.五数总括图

下图2为入境过夜游客数量的无数总括图,由图形可以看出:

相比较于均值290,中位数161更倾向于左偏,因此可以得知有离群的极大值点。

而四分展布由75.64到285.98,可知存在大量离群值,为了更直观的表现五数总括的特点,做箱线图。

 

#

31

游客数量

M

16

161.61

F

8

75.64

285.98

1

2.54

3397.9

图2入境过夜游客数量的五数总括图

3.箱线图

如图三所示,数据存在明显的左偏趋势,序号为9尤其是序号为19的变量值极度偏离。

出去异常值外,中位数与上下四分位数没有明显的偏向,而四分展布能够基本概括所有的数据。

图3入境过夜过夜游客数量箱线图

4.数据变换

通过以上分析可知,数据存在异常值,而且是非对称分布。

为了能够对数据进行分析,首先应该进行数据变换。

对数据进行对数变换,取自然对数,使数据能够消除异常值并适当的对沉调整。

由图4调整后的箱线图可以看到:

仍然存在异常值,但是箱的位置处于中间,中位数也没有对上四分位数或下四分位数的明显偏向,偏度、展布、与位置均较好。

由此可知,对数据进行对数变换,取得的效果较理想。

 

图4去自然对数的入境过夜游客数量的箱线图

(二)住宿业年末从业人数

1.茎叶图

FrequencyStem&Leaf

3.000.000

7.000.2222233

7.000.4445555

4.000.6677

5.000.88899

2.001.11

.001.

2.001.45

1.00Extremes(>=296719)

Stemwidth:

100000

Eachleaf:

1case(s)

图5住宿业年末从业人数茎叶图

如图5所示,可以看出31个地区的住宿业年末从业人数的分布相对集中。

有2个异常值远远大于平均值,三分之二的地区从业人数在2万到9万之间大致均匀分布。

从整体来看,这个批并不对称,但有相对集中的趋势。

想要进一步了解,还需要对这个批进行其他方式的表述。

 

2.五数总括图

下图6为入境过夜游客数量的五数总括图,由图形可以看出:

相比较于均值67554,中位数56643更倾向于左偏,因此可以得知有离群的极大值点。

而四分展布由25202到88799,能够较为稳妥的包含大概三分之一的数据,但是极大值与极小值之间差距显著,因此也可以证明这批数据的方差极大。

 

#

31

从业人数

M

16

56643

F

8

25202

88799

1

5080

296719

图6住宿业年末从业人数五数总括图

3.箱线图

如图7所示,数据存在明显的左偏趋势,下四分位数的尾部长度大概为上四分位数长度的2倍,可知小数据较集中而大数据叫离散。

序号为19的变量值极度偏离。

除去异常值外,中位数与上下四分位数没有明显的偏向,而四分展布能够基本概括所有的数据。

图7住宿业年末从业人数箱线图

4.数据变换

通过以上分析可知,数据存在异常值,而且是非对称分布。

为了能够对数据进行分析,首先应该进行数据变换。

对数据进行对数变换,取自然对数,使数据能够消除异常值并适当的对称调整。

由图7调整后的箱线图可以看到:

仍然存在异常值,但不是极大值而是极小值但是箱的位置处于中间,中位数也没有对上四分位数或下四分位数的明显偏向,偏度、展布、与位置均较好。

由此可知,对数据进行对数变换,取得的效果较理想。

图8调整后的住宿业年末从业人员的箱线图

三、回归分析

(一)回归结果

表3回归分析

DependentVariable:

LOG(Y)

Includedobservations:

31

Variable

Coefficient

Std.Error

t-Statistic

Prob.  

C

-9.290689

1.695153

-5.480738

0.0000

LOG(X)

1.311688

0.156653

8.373218

0.0000

R-squared

0.707398

    Meandependentvar

4.854761

AdjustedR-squared

0.697308

    S.D.dependentvar

1.415998

S.E.ofregression

0.779045

    Akaikeinfocriterion

2.400846

Sumsquaredresid

17.60044

    Schwarzcriterion

2.493361

Loglikelihood

-35.21311

    Hannan-Quinncriter.

2.431004

F-statistic

70.11079

    Durbin-Watsonstat

1.420226

Prob(F-statistic)

0.000000

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 初中教育

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1