多元统计分析论文.docx

上传人:b****2 文档编号:24091277 上传时间:2023-05-24 格式:DOCX 页数:20 大小:569.44KB
下载 相关 举报
多元统计分析论文.docx_第1页
第1页 / 共20页
多元统计分析论文.docx_第2页
第2页 / 共20页
多元统计分析论文.docx_第3页
第3页 / 共20页
多元统计分析论文.docx_第4页
第4页 / 共20页
多元统计分析论文.docx_第5页
第5页 / 共20页
点击查看更多>>
下载资源
资源描述

多元统计分析论文.docx

《多元统计分析论文.docx》由会员分享,可在线阅读,更多相关《多元统计分析论文.docx(20页珍藏版)》请在冰豆网上搜索。

多元统计分析论文.docx

多元统计分析论文

 

关于各地区住宿业企业基本情况和经营情况的统计分析

 

班级:

统计一班

姓名:

学号:

201010060106

指导教师:

高艳

 

摘要:

关键词:

住宿业营业额频数分析因子分析聚类分析判别分析

正文:

序言:

正文:

第一步、录入数据:

图-1

图-2

第二步、进行频数分析:

表-1

统计量

法人企业(个)

年末从业人数(人)

营业额(亿元)

客房收入

餐费收入

N

有效

31

31

31

31

31

缺失

0

0

0

0

0

均值

506.87

68005.77

90.253

42.250

36.899

中值

423.00

56088.00

54.669

25.676

24.175

标准差

370.251

59799.092

93.3595

43.5005

37.8579

方差

137086.116

3.576E9

8715.988

1892.295

1433.219

偏度

1.296

2.272

1.892

1.895

1.886

偏度的标准误

.421

.421

.421

.421

.421

峰度

1.624

7.040

3.405

3.219

3.578

峰度的标准误

.821

.821

.821

.821

.821

百分位数

25

234.00

26098.00

30.930

15.178

12.916

50

423.00

56088.00

54.669

25.676

24.175

75

654.00

87962.00

98.731

47.758

44.373

表-1为统计量表,从上表中可以看出各个变量的均值、中值、标准差、方差、偏度、峰度、以及它们的标准误差,法人企业的营业额基本上是由客房收入和餐费收入平摊,但相对来说还是客房收入占得比例较大些。

图-3

图-3为带有正态曲线的直方图,描述的是法人企业个数的方面的问题,从图中可以看到各个城市的平均法人个数为506.87,标准误差为370.251,总共有31个城市,而且在这些城市中,法人企业个数在250个的城市居多,大约占到九个。

根据标准正态曲线,可以看出该变量的变化情况可大致认为服从正态分布,但在后面的部分也还是存在一定的偏差。

图-4

图-5

图-6

图-7

图-4、图-5、图-6、图-7分别表示的是年末从业人数、营业额、客房收入和餐费收入的频数直方图,分析方法和图-3相似,就不一一分析了,从上面几个图中可以看出,这几个变量都大致服从正态分布,但我国住宿业方面的发展还是很不平衡,无论是从这五个方面的哪一方面来看,都是数值小的占的比例较大。

说明只有少数地区的住宿业可以达到发达水平,还有大部分地区需要加大力度来提高自己的收入水平。

第三步、对数据进行因子分析:

表-2

相关矩阵

法人企业(个)

年末从业人数(人)

营业额(亿元)

客房收入

餐费收入

相关

法人企业(个)

1.000

.964

.932

.891

.945

年末从业人数(人)

.964

1.000

.956

.919

.968

营业额(亿元)

.932

.956

1.000

.988

.968

客房收入

.891

.919

.988

1.000

.923

餐费收入

.945

.968

.968

.923

1.000

表-2为五个变量的相关矩阵,从表中的数据可以看出,各个变量同其他变量之间的相关性都很强。

表-3

解释的总方差

成份

初始特征值

提取平方和载入

合计

方差的%

累积%

合计

方差的%

累积%

1

4.782

95.648

95.648

4.782

95.648

95.648

2

.140

2.795

98.443

3

.049

.982

99.426

4

.027

.550

99.975

5

.001

.025

100.000

提取方法:

主成份分析。

表-3为解释的总方差,可以看到只要第一个成分就可以解释95.648%的信息,而且在合计列中只有第一个因子的特征值大于1,所以我提取了第一个变量因子并对它做因子分析。

图-8

图-8为因子分析的碎石图,从图中可以明显的看到第一段的斜率很大,而后面就变得平缓了,也说明只要一个因子就能很好地解释所有的变量,说明我们只提取一个因子的做法是合理的。

但由于只有一个因子,所以无法得到因子载荷矩阵和旋转的因子载荷矩阵,但可以有成分得分系数矩阵,由此可以算出因子得分。

表-4

成份得分系数矩阵

成份

1

法人企业(个)

.202

年末从业人数(人)

.206

营业额(亿元)

.207

客房收入

.202

餐费收入

.205

提取方法:

主成分分析法。

旋转法:

具有Kaiser标准化的正交旋转法。

构成得分。

表-4即为成分得分系数矩阵,从中可以得到因子在各变量上的系数,可以得到计算因子得分的函数:

图-9

图-9为最后的因子得分,由于在保存子对话框中点了保存为新变量,所以在原数据中多了一列,即为根据表-4得到的因子得分。

第四步、对数据进行聚类分析(K-均值聚类,只选取了前三个变量):

表-5

初始聚类中心

聚类

1

2

3

法人企业(个)

1618

40

922

年末从业人数(人)

302021

4202

94364

营业额(亿元)

398.0

3.9

98.7

表-6

迭代历史记录a

迭代

聚类中心内的更改

1

2

3

1

.000

19558.723

9865.787

2

.000

5424.893

6723.862

3

.000

6141.928

11952.214

4

.000

3137.200

7758.329

5

.000

.000

.000

a.由于聚类中心内没有改动或改动较小而达到收敛。

任何中心的最大绝对坐标更改为.000。

当前迭代为5。

初始中心间的最小距离为90166.364。

表-7

最终聚类中心

聚类

1

2

3

法人企业(个)

1618

307

850

年末从业人数(人)

302021

38464

110936

营业额(亿元)

398.0

41.6

169.5

表-5、表-6、表-7分别为初始聚类中心、历史迭代记录和最终聚类中心。

根据表-6可以看出第一类的聚类中心基本上没有什么改变。

当初始聚类中心经过迭代,迭代到第五步的时候都已经变成了0.000,此时已经可以结束迭代,得到最终聚类中心,可以看出第一类的法人企业为1618个,年末从业人数为302021人,营业额为398.0亿元,第二类和第三类可以依次看出。

图-10

由于在保存子对话框中点了保存为新变量,所以在原数据中多了两列,分别为案例的类别号和案例与其类别中心之间的距离,见图-10.可以看出广东为第一类,它的住宿业很发达,企业法人个数和营业额等都非常高;北京、上海、江苏、浙江、福建、山东、河南、湖南和四川为第三类,它们的住宿业相对比较发达;其他地区分为第二类,它们的住宿业比较落后,企业法人个数和营业额等都很低。

表-8

每个聚类中的案例数

聚类

1

1.000

2

21.000

3

9.000

有效

31.000

缺失

.000

表-8为每个聚类的案例数,从中可以看出第一类中只有1个案例,第二类中有21个,第三类中有9个。

第五步、对数据做一下判别分析(先把广东、河北、上海挑出来不进行聚类,对其他的聚类之后再把这三个地区放进去判别):

图-11

表-9

标准化的典型判别式函数系数

函数

1

2

法人企业(个)

-.462

.536

年末从业人数(人)

1.321

-2.325

营业额(亿元)

.081

2.070

标准化的典型判别函数是由标准化的自变量通过Fisher判别法得到的,通过表-9可以得到标准化的典型判别函数,要得到标准化的典型判别得分,代入该函数的自变量必须是经过标准化的。

表-10

典型判别式函数系数

函数

1

2

法人企业(个)

-.003

.004

年末从业人数(人)

.000

.000

营业额(亿元)

.003

.074

(常量)

-3.705

1.496

非标准化系数

表-10是未标准化的典型判别函数系数,由于可以将实测的样品观测值直接代入求出判别得分,所以该系数使用起来比标准化的系数要方便一些。

由此表可知,两个Fisher判别函数分别为:

表-11

分类函数系数

案例的类别号

1

2

3

法人企业(个)

-.025

.000

-.015

年末从业人数(人)

.001

.000

.001

营业额(亿元)

-.010

-.058

-.165

(常量)

-44.712

-2.601

-12.662

Fisher的线性判别式函数

如表-11所示,案例的类别号栏中的每一列表示样品判入相应列的Bayes判别函数系数。

在本例中,各类的Bayes判别函数如下:

将各地区的自变量值代入上述三个Bayes判别函数,得到三个函数值。

比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。

表-12

分类结果a

案例的类别号

预测组成员

合计

1

2

3

初始

计数

1

4

0

0

4

2

0

12

0

12

3

0

0

12

12

未分组的案例

2

0

1

3

%

1

100.0

.0

.0

100.0

2

.0

100.0

.0

100.0

3

.0

.0

100.0

100.0

未分组的案例

66.7

.0

33.3

100.0

a.已对初始分组案例中的100.0%个进行了正确分类。

表-12为分类结果表,从中可以看出未分类的地区有两个应该分入第一类,有一个应该分入第三类。

图-12

由于保存了变量,在原数据中多出了几列。

其中,变量dis-1存放判别样品所属组别的值,变量dis1-1,dis2-1分别代表将地区各变量值代入第一个,第二个判别函数所得的判别分数,变量dis1-2、dis2-2,dis3-2分别代表地区分别属于第1类、第2类,第3类的Bayes后验概率值。

结果表明,广东、河北、上海应分别放入第一类、第三类和第一类。

结论:

参考文献:

方开泰,潘恩沛《聚类分析》地质出版社

M.肯德尔【英】《多元分析》科学出版社

于秀林,任雪松《多元统计分析》中国统计出版社

《中国统计年鉴》2010

附录

18-4各地区限额以上住宿业企业基本情况和经营情况(2010年)

地区

法人企业(个)

年末从业人数

营业额

 

 

 

(人)

(亿元)

#客房收入

#餐费收入

 

 

 

 

 

 

全国

15713

2108179

2797.8

1309.8

1143.9

 

北京

1240

162596

304.2

149.7

91.2

天津

222

24133

33.3

15.8

12.1

河北

475

68679

64.9

25.7

32.7

山西

388

58686

52.8

22.4

24.3

内蒙古

333

38118

40.9

19.1

18.6

 

辽宁

523

58637

85.4

40.2

36.7

吉林

229

23350

27.1

11.7

12.9

黑龙江

242

26098

28.4

15.2

10.9

 

上海

577

87962

220.4

126.5

65.6

江苏

906

123186

186.2

76.4

90.3

浙江

1158

165091

258.6

107.6

126.6

安徽

428

50842

54.7

23.7

25.0

福建

521

76651

94.2

38.9

44.4

江西

380

41874

42.3

22.4

15.9

山东

997

121488

164.9

65.7

80.9

 

河南

922

94364

98.7

44.7

42.4

湖北

527

60022

63.7

33.0

24.2

湖南

671

87989

104.9

49.6

45.7

广东

1618

302021

398.0

179.9

163.1

广西

389

49576

47.2

23.0

18.8

海南

311

56088

76.7

47.7

22.9

 

重庆

279

39871

51.3

21.4

23.2

四川

654

79094

93.6

47.8

34.6

贵州

234

23289

20.5

11.7

7.4

云南

423

52233

50.6

27.2

15.4

西藏

40

4202

3.9

2.3

1.0

 

陕西

504

67854

69.5

31.6

31.4

甘肃

193

23533

19.2

9.8

7.6

青海

56

6717

5.4

3.1

1.8

宁夏

52

6351

5.7

2.7

2.3

新疆

221

27584

30.9

13.5

14.0

 

 

 

 

 

 

主要统计指标解释:

住宿业:

指有偿为顾客提供临时住宿的服务活动。

不包括提供长期住宿场所的活动,如出租房屋、公寓等(列入房地产开发经营)。

营业额:

指住宿和餐饮业法人企业(单位)在经营活动中因提供服务或销售商品等取得的收入。

包括:

客房收入、餐费收入、商品销售额和其他收入。

其中,客房收入指住宿和餐饮业法人企业(单位)在经营活动中因提供住宿服务取得的收入。

餐费收入指住宿和餐饮业法人企业(单位)因为顾客提供就餐服务取得的收入,包括经烹饪、调制加工后出售的各种食品,如主食、炒菜、凉拌菜等的收入。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 解决方案 > 学习计划

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1