数据分析课程设计社会发展的综合状况指标分析.docx

资源描述

数据分析课程设计社会发展的综合状况指标分析.docx

《数据分析课程设计社会发展的综合状况指标分析.docx》由会员分享，可在线阅读，更多相关《数据分析课程设计社会发展的综合状况指标分析.docx（17页珍藏版）》请在冰豆网上搜索。

数据分析课程设计社会发展的综合状况指标分析.docx

数据分析课程设计社会发展的综合状况指标分析

数据分析课程设计论文

题目：

我国各省市自治区社

会发展的综合状况指标分析

学院:

专业:

姓名:

学号:

我国各省市自治区社会发展的综合状况

指标分析

摘要

一个地区的全面发展必须使经济和社会协调发展。

为了全面衡量社会发展水平,有必要选择一套能反映社会发展的有代表性的社会指标进行综合评价，对每个地区的社会发展水平进行测量分析,我们根据各地区统计指标,选择了有代表性的社会经济指标,包括城镇居民可支配收入、农村居民可支配收入、在校学生数、学校数、卫生机构数、固定资产投资总额等方面数据进行综合考察，利用主成分分析方法对各地区综合发展状况进行评价。

论文中主要运用的方法是主成份分析法。

主成份分析法的目的是利用降维的思想，把多指标转化为少数几个综合指标。

分析出主成分后，对数据进行综合排名，能较直观的反应社会发展的综合状况，便于分析各省市自治区的社会发展情况和影响因素。

关键词：

各省自治区社会发展综合状况指标主成分分析排名

一、问题的提出…………………………………………………4

二、基于主成份分析的社会发展综合状况指标的筛选

2.1原理概述…………………………………………………………4

2.1.1主成分分析的一般数学模型…………………………4

2.1.2主成分分析确定的一般原则…………………………5

2.1.3主成分分析的基本步骤………………………………5

2.1.4主成分分析得到的主成分与原始变量之间的关系…5

2.2原始数据及来源…………………………………………………6

2.3对指标的主成分分析及筛选…………………………………7

2.3.1操作过程………………………………………………7

2.3.2实验结果输出………………………………………8

2.3.3实验结果分析………………………………………12

三、总结…………………………………………………………14

参考文献……………………………………………………………16

附录…………………………………………………………………16

第一章问题的提出

中国的经济和社会的发展如何让才能踏上一条内外和谐、全面增长的稳健之路，不但攸关中国自身的利益，也成为举世瞩目的焦点。

本文根据各省的社会发展指标，将全国主要省份社会实力进行排名，从而可以为政府决策部门对社会的发展规划提供一定的依据。

日后通过政府政策的调整，各省再发挥各自优势力量，抓住机遇，社会全发张和可持续发展能力一定会进一步提高。

社会发展状况评价的难点在于反映社会发展的指标众多，每一项指标又会从不同视角反映社会发展状况。

所以，依据他们作综合评价有一定难度。

我们可以看到，成份分析法的目的是利用降维的思想，把多指标转化为少数几个综合指标，从而很好地解决了这一问题。

第二章基于主成份分析的社会发展综合状况指标的筛选

2.1原理概述

主成分分析是考察多个定量（数值）变量间相关性的一种多元统计方法。

它是研究如何通过少数几个主分量（即原始变量线性组合）来解释多变量的方差——协方差结构。

具体地说，是导出少数几个主分量，使它们尽可能多地保留原始变量的信息，且彼此间不相关。

主成分分析常被庸吏寻找判断某种事物或现象的综合指标，并给综合指标所蕴藏的信息以恰当解释，以便更深刻地解释事物内在的规律。

2.1.1主成分分析的一般数学模型

假设有n个样本，每个样本测得p项指标（p

由于这p项指标之间往往具有相关关系，且每个样本各指标取值的单位和数量大小不同，使我们较难利用这p项指标的信息区别这n个样本。

因此，如何从这p项指标中找出少数几个综合指标，使它们尽可能多地反应各项指标的信息，而且彼此之间不相关，这就成为一个重要的问题。

怎么解决这个问题，主成分分析给出了最好的方法。

如果记原来的变量指标为

，它们的综合指标——新变量指标为

，

（m≤p）。

则

在

（2）式中，系数lij由下列原则来决定：

（1）zi与zj（i≠j；i，j=1，2，…，m）相互无关；

（2）z1是x1，x2，…，xp的一切线性组合中方差最大者；z2是与z1不相关的x1，x2，…，xp的所有线性组合中方差最大者；……；zm是与z1，z2，……zm-1都不相关的x1，x2，…，xp的所有线性组合中方差最大者。

这样决定的新变量指标z1，z2，…，zm分别称为原变量指标x1，x2，…，xp的第一，第二，…，第m主成分。

其中，z1在总方差中占的比例最大，z2，z3，…，zm的方差依次递减。

在实际问题的分析中，常挑选前几个最大的主成分，这样既减少了变量的数目，又抓住了主要矛盾，简化了变量之间的关系。

从以上分析可以看出，找主成分就是确定原来变量xj（j=1，2，…，p）在诸主成分zi（i=1，2，…，m）上的载荷lij（i=1，2，…，m；j=1，2，…，p），从数学上容易知道，它们分别是x1，x2，…，xp的相关矩阵的m个较大的特征值所对应的特征向量。

2.1.2主成分分析确定的一般原则

在主成分分析中希望用尽可能少的主成份包含原来尽可能多的信息，有以下几点原则：

（1）主成分的累积贡献率：

一般来说，提取主成份的累计贡献率达到80%~85%以上就比较满意了，可以此确定提取多少个主成分。

（2）特征根：

特征根在某种程度上可以被看成是表示主成分影响力度大小的指标，如果特征根小于1，说明该主成分的解释力度还不如直接引入一个原始变量的平均解释力度大。

因此一般可以用特征根大于1作为纳入标准。

（3）综合判断：

大量的实践表明，如果根据累积贡献率确定主成分个数往往较多，而用特征根确定又往往偏低，许多时候应该将二者结合起来，以综合确定合适的数量。

2.1.3主成分分析的基本步骤

在实际操作中，主成分分析主要是按照如下的步骤来对实际问题进行分析的：

第一步：

对原p个指标n×p个原始变量标准化。

目的是为了消除变量之间在数量级上或量纲上不用而产生的影响，以使每个变量的均值为0，方差为1。

变换标准化的公式为：

其中

和

分别是第j个变量的平均值和标准差；

第二步，根据标准化矩阵求出协方差矩阵；

第三步，求出协方差矩阵的特征根

第四步，确定主成分，结合专业知识给出各主成分所蕴含的信息，给予恰当的解释，并利用它们来判断样本的特性。

2.1.4主成分分析得到的主成分与原始变量之间的关系

主成分分析就是设法将原来众多的具有一定相关性的指标，重新组合成一组新相互无关的综合指标来代替原来指标（比如p个指标）。

通常数学上的处理就是将原来p个指标做线性组合，作为新的综合指标，但是这种线性组合，如果不加限制，则可以有很多，我们应该如何去选取呢？

如果将选取的第一个线性自合即第一个综合指标为

，自然希望

尽可能多的反映原来指标的信息，这里的“信息”用什么来表达？

最经典的方法就是用

的方差来表达，即Var（

）越大，表示

包含的信息越多。

因此在所有的线性组合中所选取的

应该是方差最大的，故称

为第一主成分。

如果第一主成分不足以代表原来p个指标的信息，再考虑

即选第二个线性组合，为了有效的反映原来的信息，

已有的信息就不需要再出现在

中，用数学语言表达就是要求Cov（

，

）=0，称

为第二主成分，以此类推可以造出第三、四…p个主成分。

不难想象这些主成分之间不仅不相关，而且它们的方差依次递减。

因此在实际工作中，就挑选前几个最大的主成分虽然这样做会损失一部分信息，但是由于它们抓住了主要矛盾，并从原始数据中进一步提取了某些新的信息，因而在某些实际问题的研究中得益比损失大，这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。

一般来说，利用主成分分析得到的主成分与原始变量之间有如下基本关系：

（1）每个主成分都是各原始变量的线性组合

（2）主成分的数目大大少于原始变量的数目

（3）主成分保留了原始变量绝大多数信息

（4）各主成分之间互不相关

通过主成分分析可以从事物之间错综复杂的关系中找出一些主成份，从而有效的利用大量统计数据进行定量分析，揭示变量之间的内在关系，得到对事物特征及发展规律的一些深层次的启发，把研究工作引向深入。

2.2原始数据及来源

本论文数据来源于中国统计年鉴《2006年全国各省自治区社会发展综合状况指标》

单位：

亿元

地区

人均地区

城镇居民

农村居民

在校

学校数

卫生

固定资产

每万人

生产总值

可支配收

家庭人均

学生数

（所）

机构数

投资总额

拥有公共

（元）

入（元）

纯收入（元）

（人）

（个）

（亿元）

交通车辆（标台）

北京

50467

19977.52

8275.47

565779

4877

3296.4

22.2

天津

41163

14283.09

6227.94

357382

2367

1820.5

14.2

河北

16962

10304.56

3801.82

862618

17733

5470.2

8.1

山西

14123

10027.7

3180.92

446428

9776

2255.7

5.7

内蒙古

20053

10357.99

3341.88

252917

7958

3363.2

6.1

辽宁

21788

10369.61

4090.4

720548

15876

5689.6

9.3

吉林

15720

9775.07

3641.13

435065

9696

2594.3

7.7

黑龙江

16195

9182.31

3552.43

592000

8181

2236.0

8.7

上海

57695

20667.91

9138.65

466333

2519

3900.0

12.5

江苏

28814

14084.26

5813.23

1306181

116

17143

10069.2

8.6

浙江

31874

18265.1

7334.81

719869

14230

7590.2

9.3

安徽

10055

9771.05

2969.08

663684

9288

3533.6

7.7

福建

21471

13753.28

4834.75

461341

9652

2981.8

9.0

江西

10798

9551.12

3459.53

770525

10210

2683.6

8.1

山东

23794

12192.24

4368.33

1338122

108

17016

11111.4

10.5

河南

13313

9810.26

3261.03

974096

14629

5904.7

7.1

湖北

13296

9802.65

3419.35

1092274

10052

3343.5

10.6

湖南

11950

10504.67

3389.62

830181

15331

3175.5

9.0

广东

28332

16015.58

5079.78

1008577

105

16953

7973.4

5.7

广西

10296

9898.75

2770.48

387447

9977

2198.7

7.4

海南

12654

9395.13

3255.53

90138

2337

423.9

7.9

重庆

12457

11569.74

2873.83

376118

6613

2407.4

9.1

四川

10546

9350.11

3002.38

860640

24015

4412.9

8.2

贵州

5787

9116.61

1984.62

221546

6147

1197.4

5.8

云南

8970

10069.89

2250.46

284230

10020

2208.6

9.7

西藏

10430

8941.08

2435.02

23327

1349

231.1

15.5

陕西

12138

9267.7

2260.19

726219

11631

2480.7

901.0

甘肃

8757

8920.59

2134.05

263691

12022

1022.6

6.1

青海

11762

9000.35

2358.37

35983

1643

408.5

18.3

宁夏

11847

9177.26

2760.14

55931

1553

498.7

7.7

新疆

15000

8871.27

2737.28

199251

8175

1567.1

13.4

依次设人均地区生产总值、城镇居民可支配收入、农村居民家庭纯收入、在校学生数、学校数、卫生机构数、固定资产投资总额、每万人拥有公共交通车辆为X1、X2、X3、X4、X5、X6、X7、X8

2.3对指标的主成分分析及筛选

在SPSS环境下进行操作，下面对主成分分析过程所得结果进行分析

2.3.1操作过程

第一步：

打开数据文件；

第二步：

原始数据一致化处理；

第三步：

打开factor将变量移到Variables；

第四步：

输出原始分析结果与原始变量的相关系数矩阵以及所以变量相关系数单侧检验的p值；

第五步：

输出碎石图；

第六步：

提交系统运行，显示结果清单；

2.3.2实验结果输出

表1

相关

1.000

.923

.962

.190

.281

-.133

.362

-.088

.923

1.000

.954

.242

.349

-.032

.435

-.109

.962

.954

1.000

.291

.371

-.028

.445

-.158

.190

.242

.291

1.000

.950

.773

.857

.081

.281

.349

.371

.950

1.000

.750

.819

.096

-.133

-.032

-.028

.773

.750

1.000

.705

.044

.362

.435

.445

.857

.819

.705

1.000

-.073

-.088

-.109

-.158

.081

.096

.044

-.073

1.000

Sig.（单侧）

.000

.152

.063

.238

.023

.320

.000

.094

.027

.431

.007

.279

.000

.056

.020

.440

.006

.198

.152

.094

.056

.000

.333

.063

.027

.020

.000

.304

.238

.431

.440

.000

.407

.023

.007

.006

.000

.349

.320

.279

.198

.333

.304

.407

.349

表2

公因子方差

初始

提取

1.000

.997

1.000

.998

1.000

.993

1.000

.997

1.000

.999

1.000

提取方法：

主成份分析。

表3

解释的总方差

成份

初始特征值

提取平方和载入

合计

方差的%

累积%

合计

方差的%

累积%

4.063

50.790

4.063

50.790

2.447

30.587

81.376

2.447

30.587

81.376

.989

12.360

93.737

.989

12.360

93.737

.208

2.601

96.338

.208

2.601

96.338

.165

2.065

98.403

.165

2.065

98.403

.074

.920

99.323

.074

.920

99.323

.038

.477

99.801

.038

.477

99.801

.016

.199

100.000

提取方法：

主成份分析。

表4

成份矩阵a

成份

.660

-.719

.111

.006

.013

.162

-.076

.715

-.657

.072

.105

.032

-.193

.018

.740

-.657

.027

.016

.057

.051

.082

.830

.498

.017

-.213

.001

.037

.112

.867

.410

.060

-.189

.153

-.063

-.107

.582

.719

-.106

.329

.152

.046

.009

.886

.286

-.116

.069

-.336

-.011

-.032

-.046

.227

.971

.051

-.039

.001

.007

提取方法:

主成分分析法。

a.已提取了7个成份。

2.3.3实验结果分析

如表1（相关矩阵表）所示各变量之间存在着较强的相关关系，如果直接用于分析，可能带来严重的共线性问题，因此有必要对变量进行主成分分析，表中的空格表明自身相关系数为1，其不相关的显著性概率为0，因此不再显示。

如表2所示，表中列出了所有的主成分，他们按照特征根从小到大的次序排列，可见第一个主成分的特征值为4.063，他解释了总变异的50.79%；第二个主成分的特征值为2.447，他解释了总变异的30.58%；第三个个主成分虽然解释了总变异的12.36%，但其特征值小于1，因此根据主成分个数的原则，即累计方差贡献率达到80%以上和特征值大于1这两个原则，确定这8个变量需要提取2个主成分。

图3为碎石图，实际上是按特征根大小排列的主成分散点图，如图所示，第一主成分与德尔主成分的特征值都大于1，从第三个主成分开始特征根就比较低，特征根小于1，可以认为前两个主成分能概括绝大部分信息。

如表4所示，从因子载荷矩阵可以看出，标准化的原始变量可以用求得的主成分来线性表示，其近似表达式可根据表3写出，以X1为例，由于本实验过程有2个主成分，可以用F1，F2来表示这两个主成分，得到的表达式如下：

X1=0.660*F1-0.719*F2

此外，运用该系数矩阵还可以得出各原始变量写出的因子表达式，方法为用此表中的第i列向量除以第i个特征根的算术平方根后，得到第i个主成分的变量系数向量，具体表达式如下：

F2=-0.4596*X1-0.42*X2-0.42*X3+0.3184*X4+0.2621*X5+0.4596*X6+0.1828*X7+0.1451*X8

从上式可以看出，第一主成分主要由X4、X5、X7确定的，并且均为中度正相关，故可以认为第一个主成分是说明教育和地方投资对社会发展的影响

第二个主成分主要是由X1、X2、X3、X6确定的，所以可以认为是反映居民医疗和生活水平，因为这两个主成分累计方差贡献率高达80%，所以用他们来替代原问题具有80%的可靠性。

可以看出，上述分析并不能看出这31个省市自治区社会发展状况的差别，因此还要计算它们分别在第一第二主成分以及综合上的得分，以此作为评价的依据。

排名表：

教育与投资

收入和医疗

主成分1

排名

主成分2

排名

综合

排名

北京

262509.25571

147923.74746

66898.934344

天津

169491.81751

87674.047865

48826.959138

河北

373365.14741

270071.35209

52239.695142

山西

197011.76168

135004.14793

32959.780346

内蒙古

119401.79659

69829.299989

28597.919059

辽宁

316130.44495

221660.34173

49272.307963

吉林

193056.05146

130588.01945

33524.207979

黑龙江

257003.14476

179860.21501

40302.580948

上海

224065.17901

111309.99977

67851.128311

江苏

563833.03052

403978.36113

81669.358489

浙江

323500.88739

211717.94816

61285.380949

安徽

285402.29087

206251.53098

40070.661202

福建

207773.36143

134193.12458

40645.56197

江西

329626.55711

240073.56188

44940.636698

山东

574557.97028

417986.07026

78676.27587

河南

416992.56582

306324.21672

54967.981616

湖北

463257.74986

341320.11025

展开阅读全文