数据分析课程设计.docx

上传人:b****5 文档编号:12124294 上传时间:2023-04-17 格式:DOCX 页数:20 大小:106.17KB
下载 相关 举报
数据分析课程设计.docx_第1页
第1页 / 共20页
数据分析课程设计.docx_第2页
第2页 / 共20页
数据分析课程设计.docx_第3页
第3页 / 共20页
数据分析课程设计.docx_第4页
第4页 / 共20页
数据分析课程设计.docx_第5页
第5页 / 共20页
点击查看更多>>
下载资源
资源描述

数据分析课程设计.docx

《数据分析课程设计.docx》由会员分享,可在线阅读,更多相关《数据分析课程设计.docx(20页珍藏版)》请在冰豆网上搜索。

数据分析课程设计.docx

数据分析课程设计

摘要

本文主要说明主因子分析在浙江省各城市综合经济实力评价方面的应用,并运用功能强大的数据分析软件SPSS,简化计算方法,通过输入各项数据,追后得出评价图表,来分析浙江省各市经济建设方面哪些因子更重要。

本文引用浙江省32个市县的6项指标,人均生产总值,人均社会消费品零售总额,人均财政收入,城镇居民人均可支配收入,农村居民人均纯收入,在岗职工工资。

通关SPSS来分析这些指标的数据,来评价各市的总和实力。

关键词:

SPSS,因子分析法,综合经济实力,浙江省

 

1.引言

随着改革的开放,中国各省经济都在飞速的增长,浙江省的社会经济发展也取得了巨大的成就。

2012年,浙江深入贯彻落实科学发展观,面对严峻复杂的外部环境和困难挑战,全省经济在加快转型升级中实现平稳增长。

本文利用SPSS,对2012年浙江省32个市县主要经济指标数据进行主成分分析。

2.因子分析法的基本思想和数学模型

2.1因子分析的基本思想

用少数几个抽象的因子,去描述多个指标或者(因素)之间的联系。

将相互直接关系比较密切的变量归为同一个类别之中没一类变量就变成一个因子。

因子分析是一直降维、简化数据的技术。

作为一种比较好的研究技术,因子分析有一下特点:

(1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。

(2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。

(3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。

 

(4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。

在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理主成分分析)。

显然,在一个低维空间解释系统要比在高维系统容易的多。

当然因子分析也会有一些不便的地方,它只能做综合性的评价,同时对数据的数据量和成分也有一定要求。

而且需要先进行KOM检测数据是否适合作因子分析法。

2.2因子分析的数学模型

假设对n例样品观测了p个指标,即

,…,

,得到观测数据。

我们的任务就是从一组观测数据出发,通过分析各指标

,…,

之间的相关性,找出支配作用的潜在因子,使得这些因子可以解释各个指标之间的相关性。

则因子分析的数学模型如下:

矩阵形式表示为:

因子变量;

因子载荷阵;

因子载荷;

特殊因子。

3.指标建立

3.1人均生产总值

人均生产总值,也称作“人均GDP”,常作为发展经济学中衡量经济发展状况的指标,是重要的宏观经济指标之一,它是人们了解和把握一个国家或地区的宏观经济运行状况的有效工具。

计算方法为:

人均国内生产总值=总产出(即GDP总额,社会产品和服务的产出总额)/总人口。

3.2社会消费品零售总额

批发和零售业、住宿和餐饮业以及其他行业直接售给城乡居民和社会集团的社会消费品零售总额消费品零售额。

它可以反映一定时期内人民物质文化生活水平的提高情况,反映社会商品购买力的实现程度,以及零售市场的规模状况。

社会消费品零售总额由社会商品供给和有支付能力的商品需求的规模所决定,是研究居民生活水平、社会零售商品购买力、社会生产、货币流通和物价的发展变化趋势的重要资料。

3.3财政收入

财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。

财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。

财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。

3.4城镇居民可支配收入

居民可支配收入是指居民能够自由支配的收入。

就是从居民家庭总收入中扣除了缴纳给国家的各项税费,扣除了缴纳的各项社会保险,比如医疗保险、养老保险、失业保险等余下的收入。

可支配收入是指这一个家庭所有人员、所有人通过各个渠道得到的,比如丈夫、妻子、孩子他们通过各个渠道得到扣掉规定的税费和缴纳的社会保障以后得到的的所有收入。

3.5农民人均纯收入

农民人均纯收入,指农村住户当年从各个来源得到的总收入相应地扣除所发生的费用后的收入总和。

纯收入主要用于再生产投入和当年生活消费支出,也可用于储蓄和各种非义务性支出。

“农民人均纯收入”按人口平均的纯收入水平,反映的是一个地区或一个农户农村居民的平均收入水平。

反映的是一个国家或地区农村居民收入的平均水平。

3.6职工平均工资

职工平均工资指企业、事业、机关单位的职工在一定时期内平均每人所得的货币工资额。

它表明一定时期职工工资收入的高低程度,是反映职工工资水平的主要指标。

4.案例分析

4.1数据收集

通过浙江统计信息网查找2012年统计年鉴就可以查阅到2012年浙江省各市的国民生活经济主要指标。

并通过网络上的浙江日报等报刊收集相关数据。

收集到的数据整理成表1:

表格各列依次为年末总人口(万人),人均生产总值(元),人均社会消费品零售总额(元),人均财政收入(元),城镇居民人均可支配收入(元),农村居民人均纯收入(元),在岗职工工资(元)。

表1

杭州市

111758

4203.49

2323.83

35704

17017

42493

宁波市

114065

4031.88

2659.66

38043

18475

56257

嘉兴市

84080

3145.65

1369.79

35696

18636

40669

湖州市

63714

2692.90

944.53

32987

17188

41926

绍兴市

82966

2628.36

1064.61

36911

17706

40087

舟山市

87883

2989.71

1373.22

34224

18601

40087

温州市

45906

2410.98

647.19

34820

14719

48212

金华市

57694

2678.13

799.93

33164

13286

47196

义乌市

107420

5293.24

1346.87

44509

19147

34588

衢州市

38476

1567.69

420.80

26232

10714

31530

台州市

49438

2207.12

692.02

33979

14567

41575

丽水市

34132

1413.19

429.03

26309

8855

30582

富阳市

82738

1856.10

1196.19

32739

17397

40086

临安市

72431

1952.28

839.73

30903

15764

40078

余姚市

84970

3656.80

1352.31

37217

17977

43309

慈溪市

91985

3762.17

1401.67

37711

20383

43634

瑞安市

46088

1943.91

592.11

38988

15987

48909

乐清市

47351

1657.44

720.98

37920

17454

39630

平湖市

86582

2486.60

1511.35

37509

18547

36065

海宁市

87457

3645.10

1223.84

37634

19364

38754

桐乡市

77665

317.81

1117.66

36591

18386

35156

诸暨市

76616

2153.89

862.60

39950

19107

39625

上虞市

74227

2316.51

936.80

37981

17686

40173

绍兴县

139686

2302.67

1756.88

40805

21813

40412

东阳市

45246

2104.59

608.33

30395

15008

34588

永康市

67780

2194.48

948.06

32380

14566

32238

江山市

35906

1249.79

305.36

25499

12131

29484

温岭市

56860

2708.79

598.67

34444

16639

39324

临海市

33009

1252.27

447.09

31597

13915

42199

玉环县

87395

2493.07

1297.53

40665

18257

35064

青田县

29897

987.73

360.57

27579

9153

53285

缙云县

34088

966.01

317.06

27113

9077

30466

4.1数据处理

把表1数据导入SPSS中,在分析菜单的降维中选择因子分析;

软件输出以下内容:

(1)该表格给出的是6个原始变量的相关矩阵

表2

相关矩阵

人均生产

总值(元)

人均社会消费品零售总额(元)

人均财政收入

城镇居民

人均可支

配收入(元)

农村居民

人均纯收入

(元)

在岗职工

工资

(元)

相关

人均生产

总值(元)

1.000

.669

.902

.724

.826

.167

人均社会消费品零售总额(元)

.669

1.000

.685

.598

.570

.267

人均财政收入

.902

.685

1.000

.601

.693

.336

城镇居民

人均可支

配收入(元)

.724

.598

.601

1.000

.862

.277

农村居民

人均纯收入

(元)

.826

.570

.693

.862

1.000

.191

在岗职工

工资

(元)

.167

.267

.336

.277

.191

1.000

(2)

表3

KMO和Bartlett的检验

取样足够度的Kaiser-Meyer-Olkin度量。

.742

Bartlett的球形度检验

近似卡方

150.973

df

15

Sig.

.000

该部分给出了KMO检验和Bartlett球度检验结果。

其中KMO值为0.742,根据统计学家Kaiser给出的标准,KMO取值大于0.7,一般适合因子分析。

Bartlett球度检验给出的相伴概率为0.00,小于显著性水平0.05,因此拒绝Bartlett球度检验的零假设,认为适合因子分析。

(3)

表4

公因子方差

初始

提取

公因子方差

初始

提取

人均生产

总值(元)

1.000

.902

人均社会消费品零售总额(元)

1.000

.633

人均财政收入

1.000

.796

城镇居民

人均可支

配收入(元)

1.000

.747

农村居民

人均纯收入

(元)

1.000

.835

在岗职工

工资

(元)

1.000

.985

人均生产

总值(元)

1.000

.902

人均社会消费品零售总额(元)

1.000

.633

人均财政收入

1.000

.796

城镇居民

人均可支

配收入(元)

1.000

.747

农村居民

人均纯收入

(元)

1.000

.835

在岗职工

工资

(元)

1.000

.985

提取方法:

主成份分析。

这是因子分析初始结果,该表格的第一列列出了6个原始变量名;第二列是根据因子分析初始解计算出的变量共同度。

利用主成分分析方法得到6个特征值,它们是因子分析的初始解,可利用这6个出世界和对应的特征向量计算出银子载荷矩阵。

由于每个原始变量的所有方差都能被因子变量解释掉,因此每个变量的共同度为1。

根据最终提取的m个特征值和对应的特征向量计算出因子载荷矩阵。

这时由于因子变量个数少于原始变量的个数,因此每个变量的共同度必然小于1。

因此,本次因子提取的总体效果较理想。

(4)

表5

解释的总方差

成份

初始特征值

提取平方和载入

旋转平方和载入

合计

方差的%

累积%

合计

方差的%

累积%

合计

方差的%

累积%

1

3.965

66.082

66.082

3.965

66.082

66.082

3.792

63.197

63.197

2

.933

15.548

81.630

.933

15.548

81.630

1.106

18.433

81.630

3

.544

9.059

90.688

4

.396

6.595

97.283

5

.109

1.810

99.093

6

.054

.907

100.000

提取方法:

主成份分析。

由上表可知,第一个公因子的方差贡献率为66.082%,第二个公因子的方差贡献率为15.548%,前三个因子累计贡献率达到81.63%。

根据提取因子的条件——即其累积贡献率不低于80%时,所以提取了两个因子。

即前两个公共因子已代表了原始数据的绝大部分信息。

(5)碎石图

图1

图表中,横坐标为因子数目,纵坐标为特征值。

可以看到:

第一个因子的特征值较高,对解释变量的贡献最大;第三个以后的因子特征值都较小,曲线趋于平稳,对解释原有变量的贡献很小,已经成为可被忽略的,因此提取两个因子适合的。

(6)

表6

旋转成份矩阵a

成份

1

2

人均生产

总值(元)

.949

.038

农村居民

人均纯收入

(元)

.914

.030

人均财政收入

.856

.250

城镇居民

人均可支

配收入(元)

.853

.140

人均社会消费品零售总额(元)

.760

.233

旋转成份矩阵a

成份

1

2

人均生产

总值(元)

.949

.038

农村居民

人均纯收入

(元)

.914

.030

人均财政收入

.856

.250

城镇居民

人均可支

配收入(元)

.853

.140

人均社会消费品零售总额(元)

.760

.233

在岗职工

工资

(元)

.132

.983

提取方法:

主成份。

旋转法:

具有Kaiser标准化的正交旋转法。

在岗职工

工资

(元)

.132

.983

提取方法:

主成份。

旋转法:

具有Kaiser标准化的正交旋转法。

a.旋转在3次迭代后收敛。

假设人均生产总值

,人均社会消费品零售总额

,人均财政收入

,城镇居民人均可支配收入

,农村居民人均纯收入

,在岗职工工资

在人均生产总值,人均社会消费品零售总额,人均财政收入,城镇居民人均可支配收入,农村居民人均纯收入所占比重较大。

同理可知

在在岗职工工资的比重较大。

计算出因子得分

的结果,最后综合得分的F为:

a,b分别因子的方差贡献率。

所以算出最后的排名为下表7;

表7

城市

综合排名

F1得分

F2得分

F得分

排名

杭州市

1.28773

.52534

93.26

4

宁波市

1.31656

2.63300

127.94

1

嘉兴市

.63674

.05754

42.97

9

湖州市

-.08577

.31989

-.69

16

绍兴市

.41858

-.09040

26.26

13

舟山市

.58861

-.05896

37.98

11

温州市

-.68333

1.41733

-23.12

23

金华市

-.63226

1.31587

-21.32

21

义乌市

1.84785

-.88219

108.39

2

衢州市

-1.33838

-1.05721

-104.88

29

台州市

-.56344

.36147

-31.61

25

丽水市

-1.52916

-1.11557

-118.39

31

富阳市

.10458

-.10612

5.26

15

临安市

-.33810

-.02811

-22.78

22

余姚市

.68671

.53043

53.63

7

慈溪市

1.00410

.45715

73.46

5

瑞安市

-.49471

1.40275

-10.88

18

乐清市

-.19921

-.11614

-14.97

20

平湖市

.79070

-.71318

41.16

10

海宁市

.89972

-.27823

55.13

6

桐乡市

.14021

-1.05922

-7.20

17

诸暨市

.46730

-.27901

26.54

12

上虞市

.27655

-.08482

16.96

14

绍兴县

1.70849

-.43711

106.11

3

东阳市

-.63032

-.73635

-53.10

26

永康市

-.14253

-1.14329

-27.19

24

江山市

-1.33688

-1.46964

-111.19

30

温岭市

-.19523

-.09053

-14.31

19

临海市

-1.17010

.45457

-70.26

27

玉环县

.87292

-.90958

43.54

8

青田县

-2.11824

2.38557

-102.89

28

缙云县

-1.58966

-1.20523

-123.79

32

5.总结

浙江是中国东部沿海的一个经济大省,改革开放二十几年,社会经济发展取得了巨大的成就。

浙江省下辖11个城市,其中杭州、宁波(计划单列市)为副省级城市,也有一些经济发展较快的县级市,比如余姚市、慈溪市等,客观正确地评价浙江省各城市和县级市的综合经济实力,有利于认清各城市所处的地位和环境,优势和劣势,找出城市间经济发展的差异,进而为城市经济的发展指明方向,提供可靠的科学依据。

通过SPSS对浙江省各市的经济指标数据进行分析后,得出表2,这可以看出各市综合排名前三为宁波市、金华市、绍兴县,排在最后的为缙云县、丽水市。

因子F1在人均生产总值,人均社会消费品零售总额,人均财政收入,城镇居民人均可支配收入,农村居民人均纯收入所占比重较大。

因子F2则在在岗职工工资一项的比重大。

宁波市是一个港口城市,经济发展快,各项人均国民经济指标都与全国平均持平。

杭州市是浙江省的首府,在经济方面都起着代头作用,各项经济指标都比较高,杭州市人口较多,平均到每个人上时就数值就偏小了,综合得分就屈居第四。

在最后的得分排名中,一些县级市排名高于一般城市,由于一些县级市人口较少,从而导致各项人均指标高,所以在综合得分中数值大。

最后得分高于一些市。

6.附录

6.1平均数、标准差、偏度、峰度等统计量

表8

统计量

人均生产

总值(元)

人均社会消费品零售总额(元)

人均财政收入

城镇居民

人均可支

配收入(元)

农村居民

人均纯收入

(元)

在岗职工

工资

(元)

N

有效

32

32

32

32

32

32

缺失

0

0

0

0

0

0

均值

69859.66

2414.6986

1014.5711

34631.19

16172.56

39927.53

中值

73329.00

2309.5869

940.6634

35258.00

17292.50

40086.50

众数

29897a

317.81a

305.36a

25499a

8855a

34588a

标准差

27406.139

1057.81480

550.91907

4692.178

3330.660

6292.919

偏度

.427

.578

1.148

-.334

-.876

.567

偏度的标准误

.414

.414

.414

.414

.414

.414

峰度

-.198

.681

1.729

-.308

.149

.588

峰度的标准误

.809

.809

.809

.809

.809

.809

全距

109789

4975.43

2354.30

19010

12958

26773

2235509

77270.35

32466.28

1108198

517522

1277681

百分位数

25

45951.50

1707.1040

601.0883

31792.75

14566.25

35087.00

50

73329.00

2309.5869

940.6634

35258.00

17292.50

40086.50

75

87191.75

2919.4797

1350.9485

37867.75

18529.00

42419.50

a.存在多个众数。

显示最小值

 

6.2直方图

图2

直方图以人均生产总值为例。

 

7.个人学习小结

通过这次期末论文,我更深刻的了解了因子分析法的步骤,也比较系统的学习了这个分析方法,清楚的认识到因子分析在综合评价个作用。

还锻炼了我的写作能力和信息的搜集能力,论文体现的不仅仅是对知识的掌握,也是对语言的组织能力和表达能力的检验。

在收集数据的过程中,我还阅读了一些浙江省的其它经济数据,从而使我更加了解各市的经济情况。

在对《数据分析方法》这门课程1年的学习中,我知道了数据作为信息的只要载体在当今社会中扮演着重要角色,如何从大量的数据中揭示一些隐藏的规律,还需要我们对这些复杂的数据进行分析。

 

8.参考文献

[1]梅长林,范金城.数据分析方法.北京:

高等教育出版社[M],2006.2.

[2]浙江省统计局.浙江统计年鉴——2013.北京:

中国统计出版社,2013.8.

[3]海明.因子分析精确模型的基本思想与方法[J].统计与信息论坛,2006.9.

[4]XX百科.

 

资料仅供参考!

!

!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 幼儿教育 > 育儿知识

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1