数据分析课程设计社会发展的综合状况指标分析.docx
《数据分析课程设计社会发展的综合状况指标分析.docx》由会员分享,可在线阅读,更多相关《数据分析课程设计社会发展的综合状况指标分析.docx(17页珍藏版)》请在冰豆网上搜索。
![数据分析课程设计社会发展的综合状况指标分析.docx](https://file1.bdocx.com/fileroot1/2023-1/3/e50746c1-1e95-45b0-8215-77daf9913d65/e50746c1-1e95-45b0-8215-77daf9913d651.gif)
数据分析课程设计社会发展的综合状况指标分析
数据分析课程设计论文
题目:
我国各省市自治区社
会发展的综合状况指标分析
学院:
专业:
姓名:
学号:
我国各省市自治区社会发展的综合状况
指标分析
摘要
一个地区的全面发展必须使经济和社会协调发展。
为了全面衡量社会发展水平,有必要选择一套能反映社会发展的有代表性的社会指标进行综合评价,对每个地区的社会发展水平进行测量分析,我们根据各地区统计指标,选择了有代表性的社会经济指标,包括城镇居民可支配收入、农村居民可支配收入、在校学生数、学校数、卫生机构数、固定资产投资总额等方面数据进行综合考察,利用主成分分析方法对各地区综合发展状况进行评价。
论文中主要运用的方法是主成份分析法。
主成份分析法的目的是利用降维的思想,把多指标转化为少数几个综合指标。
分析出主成分后,对数据进行综合排名,能较直观的反应社会发展的综合状况,便于分析各省市自治区的社会发展情况和影响因素。
关键词:
各省自治区社会发展综合状况指标主成分分析排名
目录
一、问题的提出…………………………………………………4
二、基于主成份分析的社会发展综合状况指标的筛选
2.1原理概述…………………………………………………………4
2.1.1主成分分析的一般数学模型…………………………4
2.1.2主成分分析确定的一般原则…………………………5
2.1.3主成分分析的基本步骤………………………………5
2.1.4主成分分析得到的主成分与原始变量之间的关系…5
2.2原始数据及来源…………………………………………………6
2.3对指标的主成分分析及筛选…………………………………7
2.3.1操作过程………………………………………………7
2.3.2实验结果输出………………………………………8
2.3.3实验结果分析………………………………………12
三、总结…………………………………………………………14
参考文献……………………………………………………………16
附录…………………………………………………………………16
第一章问题的提出
中国的经济和社会的发展如何让才能踏上一条内外和谐、全面增长的稳健之路,不但攸关中国自身的利益,也成为举世瞩目的焦点。
本文根据各省的社会发展指标,将全国主要省份社会实力进行排名,从而可以为政府决策部门对社会的发展规划提供一定的依据。
日后通过政府政策的调整,各省再发挥各自优势力量,抓住机遇,社会全发张和可持续发展能力一定会进一步提高。
社会发展状况评价的难点在于反映社会发展的指标众多,每一项指标又会从不同视角反映社会发展状况。
所以,依据他们作综合评价有一定难度。
我们可以看到,成份分析法的目的是利用降维的思想,把多指标转化为少数几个综合指标,从而很好地解决了这一问题。
第二章基于主成份分析的社会发展综合状况指标的筛选
2.1原理概述
主成分分析是考察多个定量(数值)变量间相关性的一种多元统计方法。
它是研究如何通过少数几个主分量(即原始变量线性组合)来解释多变量的方差——协方差结构。
具体地说,是导出少数几个主分量,使它们尽可能多地保留原始变量的信息,且彼此间不相关。
主成分分析常被庸吏寻找判断某种事物或现象的综合指标,并给综合指标所蕴藏的信息以恰当解释,以便更深刻地解释事物内在的规律。
2.1.1主成分分析的一般数学模型
假设有n个样本,每个样本测得p项指标(p由于这p项指标之间往往具有相关关系,且每个样本各指标取值的单位和数量大小不同,使我们较难利用这p项指标的信息区别这n个样本。
因此,如何从这p项指标中找出少数几个综合指标,使它们尽可能多地反应各项指标的信息,而且彼此之间不相关,这就成为一个重要的问题。
怎么解决这个问题,主成分分析给出了最好的方法。
如果记原来的变量指标为
,它们的综合指标——新变量指标为
,
(m≤p)。
则
在
(2)式中,系数lij由下列原则来决定:
(1)zi与zj(i≠j;i,j=1,2,…,m)相互无关;
(2)z1是x1,x2,…,xp的一切线性组合中方差最大者;z2是与z1不相关的x1,x2,…,xp的所有线性组合中方差最大者;……;zm是与z1,z2,……zm-1都不相关的x1,x2,…,xp的所有线性组合中方差最大者。
这样决定的新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,xp的第一,第二,…,第m主成分。
其中,z1在总方差中占的比例最大,z2,z3,…,zm的方差依次递减。
在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。
从以上分析可以看出,找主成分就是确定原来变量xj(j=1,2,…,p)在诸主成分zi(i=1,2,…,m)上的载荷lij(i=1,2,…,m;j=1,2,…,p),从数学上容易知道,它们分别是x1,x2,…,xp的相关矩阵的m个较大的特征值所对应的特征向量。
2.1.2主成分分析确定的一般原则
在主成分分析中希望用尽可能少的主成份包含原来尽可能多的信息,有以下几点原则:
(1)主成分的累积贡献率:
一般来说,提取主成份的累计贡献率达到80%~85%以上就比较满意了,可以此确定提取多少个主成分。
(2)特征根:
特征根在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征根小于1,说明该主成分的解释力度还不如直接引入一个原始变量的平均解释力度大。
因此一般可以用特征根大于1作为纳入标准。
(3)综合判断:
大量的实践表明,如果根据累积贡献率确定主成分个数往往较多,而用特征根确定又往往偏低,许多时候应该将二者结合起来,以综合确定合适的数量。
2.1.3主成分分析的基本步骤
在实际操作中,主成分分析主要是按照如下的步骤来对实际问题进行分析的:
第一步:
对原p个指标n×p个原始变量标准化。
目的是为了消除变量之间在数量级上或量纲上不用而产生的影响,以使每个变量的均值为0,方差为1。
变换标准化的公式为:
其中
和
分别是第j个变量的平均值和标准差;
第二步,根据标准化矩阵求出协方差矩阵;
第三步,求出协方差矩阵的特征根
第四步,确定主成分,结合专业知识给出各主成分所蕴含的信息,给予恰当的解释,并利用它们来判断样本的特性。
2.1.4主成分分析得到的主成分与原始变量之间的关系
主成分分析就是设法将原来众多的具有一定相关性的指标,重新组合成一组新相互无关的综合指标来代替原来指标(比如p个指标)。
通常数学上的处理就是将原来p个指标做线性组合,作为新的综合指标,但是这种线性组合,如果不加限制,则可以有很多,我们应该如何去选取呢?
如果将选取的第一个线性自合即第一个综合指标为
,自然希望
尽可能多的反映原来指标的信息,这里的“信息”用什么来表达?
最经典的方法就是用
的方差来表达,即Var(
)越大,表示
包含的信息越多。
因此在所有的线性组合中所选取的
应该是方差最大的,故称
为第一主成分。
如果第一主成分不足以代表原来p个指标的信息,再考虑
即选第二个线性组合,为了有效的反映原来的信息,
已有的信息就不需要再出现在
中,用数学语言表达就是要求Cov(
,
)=0,称
为第二主成分,以此类推可以造出第三、四…p个主成分。
不难想象这些主成分之间不仅不相关,而且它们的方差依次递减。
因此在实际工作中,就挑选前几个最大的主成分虽然这样做会损失一部分信息,但是由于它们抓住了主要矛盾,并从原始数据中进一步提取了某些新的信息,因而在某些实际问题的研究中得益比损失大,这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。
一般来说,利用主成分分析得到的主成分与原始变量之间有如下基本关系:
(1)每个主成分都是各原始变量的线性组合
(2)主成分的数目大大少于原始变量的数目
(3)主成分保留了原始变量绝大多数信息
(4)各主成分之间互不相关
通过主成分分析可以从事物之间错综复杂的关系中找出一些主成份,从而有效的利用大量统计数据进行定量分析,揭示变量之间的内在关系,得到对事物特征及发展规律的一些深层次的启发,把研究工作引向深入。
2.2原始数据及来源
本论文数据来源于中国统计年鉴《2006年全国各省自治区社会发展综合状况指标》
单位:
亿元
地区
人均地区
城镇居民
农村居民
在校
学校数
卫生
固定资产
每万人
生产总值
可支配收
家庭人均
学生数
(所)
机构数
投资总额
拥有公共
(元)
入(元)
纯收入(元)
(人)
(个)
(亿元)
交通车辆(标台)
北京
50467
19977.52
8275.47
565779
80
4877
3296.4
22.2
天津
41163
14283.09
6227.94
357382
45
2367
1820.5
14.2
河北
16962
10304.56
3801.82
862618
88
17733
5470.2
8.1
山西
14123
10027.7
3180.92
446428
56
9776
2255.7
5.7
内蒙古
20053
10357.99
3341.88
252917
37
7958
3363.2
6.1
辽宁
21788
10369.61
4090.4
720548
78
15876
5689.6
9.3
吉林
15720
9775.07
3641.13
435065
45
9696
2594.3
7.7
黑龙江
16195
9182.31
3552.43
592000
65
8181
2236.0
8.7
上海
57695
20667.91
9138.65
466333
60
2519
3900.0
12.5
江苏
28814
14084.26
5813.23
1306181
116
17143
10069.2
8.6
浙江
31874
18265.1
7334.81
719869
68
14230
7590.2
9.3
安徽
10055
9771.05
2969.08
663684
83
9288
3533.6
7.7
福建
21471
13753.28
4834.75
461341
63
9652
2981.8
9.0
江西
10798
9551.12
3459.53
770525
66
10210
2683.6
8.1
山东
23794
12192.24
4368.33
1338122
108
17016
11111.4
10.5
河南
13313
9810.26
3261.03
974096
84
14629
5904.7
7.1
湖北
13296
9802.65
3419.35
1092274
86
10052
3343.5
10.6
湖南
11950
10504.67
3389.62
830181
96
15331
3175.5
9.0
广东
28332
16015.58
5079.78
1008577
105
16953
7973.4
5.7
广西
10296
9898.75
2770.48
387447
55
9977
2198.7
7.4
海南
12654
9395.13
3255.53
90138
15
2337
423.9
7.9
重庆
12457
11569.74
2873.83
376118
38
6613
2407.4
9.1
四川
10546
9350.11
3002.38
860640
74
24015
4412.9
8.2
贵州
5787
9116.61
1984.62
221546
36
6147
1197.4
5.8
云南
8970
10069.89
2250.46
284230
50
10020
2208.6
9.7
西藏
10430
8941.08
2435.02
23327
6
1349
231.1
15.5
陕西
12138
9267.7
2260.19
726219
76
11631
2480.7
901.0
甘肃
8757
8920.59
2134.05
263691
33
12022
1022.6
6.1
青海
11762
9000.35
2358.37
35983
11
1643
408.5
18.3
宁夏
11847
9177.26
2760.14
55931
13
1553
498.7
7.7
新疆
15000
8871.27
2737.28
199251
31
8175
1567.1
13.4
依次设人均地区生产总值、城镇居民可支配收入、农村居民家庭纯收入、在校学生数、学校数、卫生机构数、固定资产投资总额、每万人拥有公共交通车辆为X1、X2、X3、X4、X5、X6、X7、X8
2.3对指标的主成分分析及筛选
在SPSS环境下进行操作,下面对主成分分析过程所得结果进行分析
2.3.1操作过程
第一步:
打开数据文件;
第二步:
原始数据一致化处理;
第三步:
打开factor将变量移到Variables;
第四步:
输出原始分析结果与原始变量的相关系数矩阵以及所以变量相关系数单侧检验的p值;
第五步:
输出碎石图;
第六步:
提交系统运行,显示结果清单;
2.3.2实验结果输出
表1
相关矩阵
X1
X2
X3
X4
X5
X6
X7
X8
相关
X1
1.000
.923
.962
.190
.281
-.133
.362
-.088
X2
.923
1.000
.954
.242
.349
-.032
.435
-.109
X3
.962
.954
1.000
.291
.371
-.028
.445
-.158
X4
.190
.242
.291
1.000
.950
.773
.857
.081
X5
.281
.349
.371
.950
1.000
.750
.819
.096
X6
-.133
-.032
-.028
.773
.750
1.000
.705
.044
X7
.362
.435
.445
.857
.819
.705
1.000
-.073
X8
-.088
-.109
-.158
.081
.096
.044
-.073
1.000
Sig.(单侧)
X1
.000
.000
.152
.063
.238
.023
.320
X2
.000
.000
.094
.027
.431
.007
.279
X3
.000
.000
.056
.020
.440
.006
.198
X4
.152
.094
.056
.000
.000
.000
.333
X5
.063
.027
.020
.000
.000
.000
.304
X6
.238
.431
.440
.000
.000
.000
.407
X7
.023
.007
.006
.000
.000
.000
.349
X8
.320
.279
.198
.333
.304
.407
.349
表2
公因子方差
初始
提取
X1
1.000
.997
X2
1.000
.998
X3
1.000
.993
X4
1.000
.997
X5
1.000
.999
X6
1.000
1.000
X7
1.000
1.000
X8
1.000
1.000
提取方法:
主成份分析。
表3
解释的总方差
成份
初始特征值
提取平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
1
4.063
50.790
50.790
4.063
50.790
50.790
2
2.447
30.587
81.376
2.447
30.587
81.376
3
.989
12.360
93.737
.989
12.360
93.737
4
.208
2.601
96.338
.208
2.601
96.338
5
.165
2.065
98.403
.165
2.065
98.403
6
.074
.920
99.323
.074
.920
99.323
7
.038
.477
99.801
.038
.477
99.801
8
.016
.199
100.000
提取方法:
主成份分析。
表4
成份矩阵a
成份
1
2
3
4
5
6
7
X1
.660
-.719
.111
.006
.013
.162
-.076
X2
.715
-.657
.072
.105
.032
-.193
.018
X3
.740
-.657
.027
.016
.057
.051
.082
X4
.830
.498
.017
-.213
.001
.037
.112
X5
.867
.410
.060
-.189
.153
-.063
-.107
X6
.582
.719
-.106
.329
.152
.046
.009
X7
.886
.286
-.116
.069
-.336
-.011
-.032
X8
-.046
.227
.971
.051
-.039
.001
.007
提取方法:
主成分分析法。
a.已提取了7个成份。
2.3.3实验结果分析
如表1(相关矩阵表)所示各变量之间存在着较强的相关关系,如果直接用于分析,可能带来严重的共线性问题,因此有必要对变量进行主成分分析,表中的空格表明自身相关系数为1,其不相关的显著性概率为0,因此不再显示。
如表2所示,表中列出了所有的主成分,他们按照特征根从小到大的次序排列,可见第一个主成分的特征值为4.063,他解释了总变异的50.79%;第二个主成分的特征值为2.447,他解释了总变异的30.58%;第三个个主成分虽然解释了总变异的12.36%,但其特征值小于1,因此根据主成分个数的原则,即累计方差贡献率达到80%以上和特征值大于1这两个原则,确定这8个变量需要提取2个主成分。
图3为碎石图,实际上是按特征根大小排列的主成分散点图,如图所示,第一主成分与德尔主成分的特征值都大于1,从第三个主成分开始特征根就比较低,特征根小于1,可以认为前两个主成分能概括绝大部分信息。
如表4所示,从因子载荷矩阵可以看出,标准化的原始变量可以用求得的主成分来线性表示,其近似表达式可根据表3写出,以X1为例,由于本实验过程有2个主成分,可以用F1,F2来表示这两个主成分,得到的表达式如下:
X1=0.660*F1-0.719*F2
此外,运用该系数矩阵还可以得出各原始变量写出的因子表达式,方法为用此表中的第i列向量除以第i个特征根的算术平方根后,得到第i个主成分的变量系数向量,具体表达式如下:
F2=-0.4596*X1-0.42*X2-0.42*X3+0.3184*X4+0.2621*X5+0.4596*X6+0.1828*X7+0.1451*X8
从上式可以看出,第一主成分主要由X4、X5、X7确定的,并且均为中度正相关,故可以认为第一个主成分是说明教育和地方投资对社会发展的影响
第二个主成分主要是由X1、X2、X3、X6确定的,所以可以认为是反映居民医疗和生活水平,因为这两个主成分累计方差贡献率高达80%,所以用他们来替代原问题具有80%的可靠性。
可以看出,上述分析并不能看出这31个省市自治区社会发展状况的差别,因此还要计算它们分别在第一第二主成分以及综合上的得分,以此作为评价的依据。
排名表:
教育与投资
收入和医疗
主成分1
排名
主成分2
排名
综合
排名
北京
262509.25571
14
147923.74746
15
66898.934344
5
天津
169491.81751
21
87674.047865
22
48826.959138
11
河北
373365.14741
6
270071.35209
7
52239.695142
9
山西
197011.76168
18
135004.14793
16
32959.780346
20
内蒙古
119401.79659
24
69829.299989
25
28597.919059
22
辽宁
316130.44495
11
221660.34173
11
49272.307963
10
吉林
193056.05146
19
130588.01945
18
33524.207979
19
黑龙江
257003.14476
15
179860.21501
14
40302.580948
17
上海
224065.17901
16
111309.99977
21
67851.128311
4
江苏
563833.03052
2
403978.36113
2
81669.358489
1
浙江
323500.88739
10
211717.94816
12
61285.380949
6
安徽
285402.29087
13
206251.53098
13
40070.661202
18
福建
207773.36143
17
134193.12458
17
40645.56197
16
江西
329626.55711
9
240073.56188
9
44940.636698
14
山东
574557.97028
1
417986.07026
1
78676.27587
2
河南
416992.56582
5
306324.21672
5
54967.981616
8
湖北
463257.74986
3
341320.11025