河南省工业企业状况综合评价.docx
《河南省工业企业状况综合评价.docx》由会员分享,可在线阅读,更多相关《河南省工业企业状况综合评价.docx(14页珍藏版)》请在冰豆网上搜索。
河南省工业企业状况综合评价
华北水利水电学院
课程结业论文
报告题目:
河南省工业企业发展
综合评价
学生姓名:
赵仓仓
专业:
统计学
学号:
200812219
指导教师:
谢蕾蕾
交稿时间:
2011-04-10
河南省工业企业状况综合评价
[摘要]:
应用统计学思想中的聚类分析和主成分分析来观察和分析河南省工业企业发展的综合情况,并以此评价本省的经济发展状况。
关键词:
主成分分析聚类分析工业企业
1.问题的提出
各地区工业企业发展状况如何都有各自的指标,这是一个多指标变量的立体网络体系,根据统计数据,分析个变量,选择合适的指标,对各地区工业企业发展状况进行定量分析,以便对本省经济状况做出全面、科学地评价。
工业企业发展状况分析肩负着双重目的:
一是剖析洞察自身相关性和存在的问题;二是通过分析判断结果,与同时期外省经济现象对比,分析本省工业企业状况,以便于及时纠正,使本省的工业企业向着更好的趋势发展。
因此有必要对其进行综合评价。
利用计算机软件SPSS17.0,采用聚类分析和主成分分析来综合评价。
数据信息:
单位数
增加值
从业人数
资产总计
负债总计
业务收入
业务成本
个
亿元
万人
亿元
亿元
亿元
亿元
郑州市
2510
1298.521
61.45
3185.05
1747.94
4726.58
3843.35
开封市
1178
217.803
22.47
589.92
239.11
895.95
730.98
洛阳市
1677
780
37.97
2473.34
1498.65
3002.41
2615.05
平顶山市
864
531.3286
34.81
1746.39
1069
1842.1
1588.82
安阳市
980
520.5376
21.66
1077.49
636.27
1905.58
1657.2
鹤壁市
456
209.9724
14.08
451.62
302.17
632.51
528.78
新乡市
1122
411.4068
33.01
1134.45
636.3
1667.12
1455.52
焦作市
1053
568.7641
32.35
1112.87
632.87
2074.78
1684.55
濮阳市
657
345.099
18.06
957.82
583.77
1216.58
1023.17
许昌市
1208
545.2874
29.69
1123.85
523.17
1766.44
1392.66
漯河市
625
326.5565
16.32
552.27
238.52
1220.65
1010.25
三门峡市
658
370.0938
18.08
1115.81
692.74
1524.39
1313.84
南阳市
1358
486.3
32.56
1160.76
672.59
1530.14
1276.63
商丘市
696
290.437
15.07
789.58
478.2
1090.01
950.82
信阳市
1073
219.5268
17.89
452.89
245.15
769.91
666.5
周口市
970
282.215
17.75
564.69
264.75
895.57
712.86
驻马店市
1261
221.1429
20.21
580.94
306.62
845.72
735.47
济源市
244
172.1009
5.72
598.88
335.41
640.2
578.6
注:
数据来源于中国统计年鉴(
2.工业企业状况综合数据分析
2.1对工业企业数据做聚类分析。
在这里我们用快熟聚类分析,它以距离为样本间亲疏程度的标志。
其分析步骤如下:
首先需要用户指定聚类多少类(如k类)
然后SPSS确定k个类的初始类中心点。
SPSS会根据样本数据的实际情况,选择k个有代表性的样本数据作为初始中心,初始类中心也可由用户自行指定,需要制定k个组样本数据作为初中心点。
计算所有样本据点到k个类中心点的欧氏距离,SPSS按照k个类中心距离最短原则,把所有样本分派到各中心点所在的类中,形成一个新的k类,完成一次迭代过程。
其中欧氏距离计算公式如下:
EUCLID=
其中,k每个样本k个变量。
表示第一个样本在第i个变量上的取值。
表示第二个样本在第i个变量上的取值。
SPSS重新确定K个类的中心点。
SPSS计算每个类中心各变量的变量值均值,并以均值点作为新的类中心点。
重复上面两步计算过程。
直到达到指定的迭代次数或终止迭代的判断要求为止。
SPSS软件的运行结果如下:
InitialClusterCenters
Cluster
1
2
3
4
5
规模以上工业企业单位数
2510
456
1677
864
657
规模以上工业企业增加值
1299
210
780
531
345
从业人员年平均人数
61
14
38
35
18
资产总计
3185
452
2473
1746
958
负债总计
1748
302
1499
1069
584
主营业务收入
4727
633
3002
1842
1217
主营业务成本
3843
529
2615
1589
1023
需要聚成五类,SPSS指定了5个初始类中心点。
第二部分输出结果:
IterationHistorya
Iteration
ChangeinClusterCenters
1
2
3
4
5
1
.000
461.686
.000
543.634
378.730
2
.000
88.979
.000
125.805
91.418
3
.000
61.585
.000
68.723
65.546
4
.000
.000
.000
.000
.000
a.Convergenceachievedduetonoorsmallchangeinclustercenters.Themaximumabsolutecoordinatechangeforanycenteris.000.Thecurrentiterationis4.Theminimumdistancebetweeninitialcentersis989.835.
该表格为迭代的历史过程,可以看出进行了4次迭代,第一次形成的类中心点和初始类中心点的距离(ChangeinClusterCenters)分别为:
0.000,461.686,0.000,543.634,378.730,依次迭代,到第4次迭代后类中心点没有发生变化或变化很小,距离为0.000.快聚类进过四次迭代完成。
第三部分输出结果:
ClusterMembership
CaseNumber
城市名称
Cluster
Distance
1
郑州市
1
.000
2
开封市
2
372.402
3
洛阳市
3
.000
4
平顶山市
4
654.449
5
安阳市
4
218.440
6
鹤壁市
2
495.577
7
新乡市
4
274.892
8
焦作市
4
299.720
9
濮阳市
5
390.471
10
许昌市
4
324.767
11
漯河市
2
490.339
12
三门峡市
5
283.887
13
南阳市
5
499.420
14
商丘市
2
431.098
15
信阳市
2
319.005
16
周口市
2
169.812
17
驻马店市
2
449.655
18
济源市
2
641.041
第一类:
郑州市
第二类:
开封市鹤壁市漯河市商丘市信阳市周口市驻马店市济源市
第三类:
洛阳市
第四类:
平顶山市安阳市新乡市焦作市许昌市
第五类:
濮阳市三门峡市南阳市
第四部分输出结果:
FinalClusterCenters
Cluster
1
2
3
4
5
规模以上工业企业单位数
2510
813
1677
1045
891
规模以上工业企业增加值
1299
242
780
515
400
从业人员年平均人数
61
16
38
30
23
资产总计
3185
573
2473
1239
1078
负债总计
1748
301
1499
700
650
主营业务收入
4727
874
3002
1851
1424
主营业务成本
3843
739
2615
1556
1205
这是快速聚类分析最终的类中心位置。
这与第一次输出结果比较中心位置发生了一些变化,表明在迭代过程中,中心位置有了转移。
第五部分输出结果:
DistancesbetweenFinalClusterCenters
Cluster
1
2
3
4
5
1
6115.096
2452.236
4598.516
5191.013
2
6115.096
3759.275
1534.091
962.785
3
2452.236
3759.275
2253.558
2812.687
4
4598.516
1534.091
2253.558
609.571
5
5191.013
962.785
2812.687
609.571
该表是最终的类中心点之间的欧氏距离。
可看出第一类类中心点和第二类类中心点之间的距离最大,为6115.096,第四类类中心点和第五类类中心点的距离最小,为609.571。
第六部分输出结果:
ANOVA
Cluster
Error
F
Sig.
MeanSquare
df
MeanSquare
df
规模以上工业企业单位数
761291.259
4
101777.083
13
7.480
.002
规模以上工业企业增加值
299280.165
4
3441.507
13
86.962
.000
从业人员年平均人数
567.945
4
32.550
13
17.448
.000
资产总计
2138951.937
4
32610.316
13
65.591
.000
负债总计
722804.389
4
17812.407
13
40.579
.000
主营业务收入
4088190.204
4
34680.926
13
117.880
.000
主营业务成本
2765047.389
4
23772.206
13
116.314
.000
TheFtestsshouldbeusedonlyfordescriptivepurposesbecausetheclustershavebeenchosentomaximizethedifferencesamongcasesindifferentclusters.Theobservedsignificancelevelsarenotcorrectedforthisandthuscannotbeinterpretedastestsofthehypothesisthattheclustermeansareequal.
该表是快速聚类分析后形成的各类样本之间的单方差分析结果。
表格每一行对应相应变量的分析结果。
对于规模以上工业企业单位数而言,它的平均组间平方和(MeanSquare)761291.259平均组内平方和为101777.083,F统计量为7.480,F统计量的相伴概率为0.002,相伴概率小于显著性水平0.01,依次可以认为对于规模以上工业企业单位数变化量,五个类之间存在着显著性差异。
总体来看,聚类分析结果比较理想。
第七部分输出结果:
NumberofCasesineachCluster
Cluster
1
1.000
2
8.000
3
1.000
4
5.000
5
3.000
Valid
18.000
Missing
.000
从该表可以看出:
第1类包括1个样本,第2类包括8个样本,第3类包括1个样本,第4类包括5个样本,第5类包括3个样本。
总体样本数为18个,缺失值为0个。
2.2对工业企业数据做主成分分析。
主成分分析是一种原始变量之间的相关性,通过原来变量的少数几个线性组合解释原来变量来实现降维的多元统计方法,一般来说,利用主成分分析得到的主成分与原来变量之间有以下基本关系:
每个主成分都是各原始变量的线性组合。
主成分的数目大大少于原始变量的数目。
主成分保留了原始变量的绝大多数信息。
各主成分之间互不相关。
用SPSS软件实现统计分析是需要特别注意的是:
变量的标准化,标准化共识如下:
i=1,2,···,n;j=1,2,···,p
式中,
和
分别是第j个变量的均值和方差,在标准化之后每个变量的均值为0,标准差为1.
主成分求解结果如下:
TotalVarianceExplained
Component
InitialEigenvalues
ExtractionSumsofSquaredLoadings
Total
%ofVariance
Cumulative%
Total
%ofVariance
Cumulative%
1
6.430
91.861
91.861
6.430
91.861
91.861
2
.380
5.432
97.294
3
.102
1.464
98.758
4
.072
1.026
99.784
5
.011
.163
99.947
6
.003
.048
99.995
7
.000
.005
100.000
ExtractionMethod:
PrincipalComponentAnalysis.
该表是特征值和方差贡献度表,可以看到第一个成分特征值占了总方差的91.861%,后面的特征值贡献率越来越小,由于我们选择了特征值大于1的作为主成分的抽取条件,所以SPSS抽取了一个主成分,其特征值为6.430,累计方差贡献率为91.861%。
碎石图如下:
从图中可以看出抽取的主成分是合理的。
主成分载荷分析:
ComponentMatrixa
Component
1
规模以上工业企业单位数
.867
规模以上工业企业增加值
.985
从业人员年平均人数
.951
资产总计
.976
负债总计
.948
主营业务收入
.988
主营业务成本
.987
ExtractionMethod:
PrincipalComponentAnalysis.
a.1componentsextracted.
该表为主成分载荷表,表中7个变量的系数分别为0.867,0.985,0.951,0.976,0.948,0.988,0.987。
就第一个变量而言,第一主成分和规模以上工业企业单位数变量的相关系数为0.867,以此类推。
相关系数越大,表明主成分对该变量的代表性越大。
可以看出,第一主成分对个变量解释得都很充分。
3.总结
利用我们所熟悉的聚类分析和主成分分析,对河南工业企业发展情况作了简单的分析,就聚类分析而言,我们所研究的或指标样本之间存在着不同程度的相似性,于是根据一批样本的观测指标,具体找出一些能够度量样本或指标之间相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样本聚为一类。
关系密切的聚为一个小的分类单位,关系疏远的聚为一个大的分类单位,直到把所有样本或指标聚类完毕,这样就可以形成一个由小到大的分类系统。
就主成分分析而言,主成分分析是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法,又称主分量分析。
在实际问题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。
但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。
人们自然希望变量个数较少而得到的信息较多。
在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。
主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映问题的信息方面尽可能保持原有的信息。
信息的大小通常用离差平方和或方差来衡量。
4.感悟
4.1在软件操作时要按照参考书的说明进行,但是当要分析相应的结果是有点不知所措。
4.2在数据处理时还是很不熟练,需要加强这方面的练习。
4.3对整个操作流程比较模糊,需借助一些资料或书籍帮助完成。
参考文献:
[1]宋志刚谢蕾蕾何旭洪.SPSS实用教程.人民邮电出版社,2008.10.
[2]李静萍谢邦昌.多元统计分析方法与应用.中国人民大学出版社,2008.12.