河南省工业企业状况综合评价.docx

资源描述

河南省工业企业状况综合评价.docx

《河南省工业企业状况综合评价.docx》由会员分享，可在线阅读，更多相关《河南省工业企业状况综合评价.docx（14页珍藏版）》请在冰豆网上搜索。

河南省工业企业状况综合评价.docx

河南省工业企业状况综合评价

华北水利水电学院

课程结业论文

报告题目：

河南省工业企业发展

综合评价

学生姓名：

赵仓仓

专业：

统计学

学号：

200812219

指导教师：

谢蕾蕾

交稿时间：

2011-04-10

河南省工业企业状况综合评价

[摘要]：

应用统计学思想中的聚类分析和主成分分析来观察和分析河南省工业企业发展的综合情况，并以此评价本省的经济发展状况。

关键词：

主成分分析聚类分析工业企业

1.问题的提出

各地区工业企业发展状况如何都有各自的指标，这是一个多指标变量的立体网络体系，根据统计数据，分析个变量，选择合适的指标，对各地区工业企业发展状况进行定量分析，以便对本省经济状况做出全面、科学地评价。

工业企业发展状况分析肩负着双重目的：

一是剖析洞察自身相关性和存在的问题；二是通过分析判断结果，与同时期外省经济现象对比，分析本省工业企业状况，以便于及时纠正，使本省的工业企业向着更好的趋势发展。

因此有必要对其进行综合评价。

利用计算机软件SPSS17.0,采用聚类分析和主成分分析来综合评价。

数据信息：

单位数

增加值

从业人数

资产总计

负债总计

业务收入

业务成本

个

亿元

万人

亿元

郑州市

2510

1298.521

61.45

3185.05

1747.94

4726.58

3843.35

开封市

1178

217.803

22.47

589.92

239.11

895.95

730.98

洛阳市

1677

780

37.97

2473.34

1498.65

3002.41

2615.05

平顶山市

864

531.3286

34.81

1746.39

1069

1842.1

1588.82

安阳市

980

520.5376

21.66

1077.49

636.27

1905.58

1657.2

鹤壁市

456

209.9724

14.08

451.62

302.17

632.51

528.78

新乡市

1122

411.4068

33.01

1134.45

636.3

1667.12

1455.52

焦作市

1053

568.7641

32.35

1112.87

632.87

2074.78

1684.55

濮阳市

657

345.099

18.06

957.82

583.77

1216.58

1023.17

许昌市

1208

545.2874

29.69

1123.85

523.17

1766.44

1392.66

漯河市

625

326.5565

16.32

552.27

238.52

1220.65

1010.25

三门峡市

658

370.0938

18.08

1115.81

692.74

1524.39

1313.84

南阳市

1358

486.3

32.56

1160.76

672.59

1530.14

1276.63

商丘市

696

290.437

15.07

789.58

478.2

1090.01

950.82

信阳市

1073

219.5268

17.89

452.89

245.15

769.91

666.5

周口市

970

282.215

17.75

564.69

264.75

895.57

712.86

驻马店市

1261

221.1429

20.21

580.94

306.62

845.72

735.47

济源市

244

172.1009

5.72

598.88

335.41

640.2

578.6

注：

数据来源于中国统计年鉴（

2.工业企业状况综合数据分析

2.1对工业企业数据做聚类分析。

在这里我们用快熟聚类分析，它以距离为样本间亲疏程度的标志。

其分析步骤如下：

首先需要用户指定聚类多少类（如k类）

然后SPSS确定k个类的初始类中心点。

SPSS会根据样本数据的实际情况，选择k个有代表性的样本数据作为初始中心，初始类中心也可由用户自行指定，需要制定k个组样本数据作为初中心点。

计算所有样本据点到k个类中心点的欧氏距离，SPSS按照k个类中心距离最短原则，把所有样本分派到各中心点所在的类中，形成一个新的k类，完成一次迭代过程。

其中欧氏距离计算公式如下：

EUCLID=

其中，k每个样本k个变量。

表示第一个样本在第i个变量上的取值。

表示第二个样本在第i个变量上的取值。

SPSS重新确定K个类的中心点。

SPSS计算每个类中心各变量的变量值均值，并以均值点作为新的类中心点。

重复上面两步计算过程。

直到达到指定的迭代次数或终止迭代的判断要求为止。

SPSS软件的运行结果如下：

InitialClusterCenters

Cluster

规模以上工业企业单位数

2510

456

1677

864

657

规模以上工业企业增加值

1299

210

780

531

345

从业人员年平均人数

资产总计

3185

452

2473

1746

958

负债总计

1748

302

1499

1069

584

主营业务收入

4727

633

3002

1842

1217

主营业务成本

3843

529

2615

1589

1023

需要聚成五类，SPSS指定了5个初始类中心点。

第二部分输出结果：

IterationHistorya

Iteration

ChangeinClusterCenters

.000

461.686

.000

543.634

378.730

.000

88.979

.000

125.805

91.418

.000

61.585

.000

68.723

65.546

.000

a.Convergenceachievedduetonoorsmallchangeinclustercenters.Themaximumabsolutecoordinatechangeforanycenteris.000.Thecurrentiterationis4.Theminimumdistancebetweeninitialcentersis989.835.

该表格为迭代的历史过程，可以看出进行了4次迭代，第一次形成的类中心点和初始类中心点的距离（ChangeinClusterCenters）分别为：

0.000,461.686，0.000，543.634，378.730，依次迭代，到第4次迭代后类中心点没有发生变化或变化很小，距离为0.000.快聚类进过四次迭代完成。

第三部分输出结果：

ClusterMembership

CaseNumber

城市名称

Cluster

Distance

郑州市

.000

开封市

372.402

洛阳市

.000

平顶山市

654.449

安阳市

218.440

鹤壁市

495.577

新乡市

274.892

焦作市

299.720

濮阳市

390.471

许昌市

324.767

漯河市

490.339

三门峡市

283.887

南阳市

499.420

商丘市

431.098

信阳市

319.005

周口市

169.812

驻马店市

449.655

济源市

641.041

第一类：

郑州市

第二类：

开封市鹤壁市漯河市商丘市信阳市周口市驻马店市济源市

第三类：

洛阳市

第四类：

平顶山市安阳市新乡市焦作市许昌市

第五类：

濮阳市三门峡市南阳市

第四部分输出结果：

FinalClusterCenters

Cluster

规模以上工业企业单位数

2510

813

1677

1045

891

规模以上工业企业增加值

1299

242

780

515

400

从业人员年平均人数

资产总计

3185

573

2473

1239

1078

负债总计

1748

301

1499

700

650

主营业务收入

4727

874

3002

1851

1424

主营业务成本

3843

739

2615

1556

1205

这是快速聚类分析最终的类中心位置。

这与第一次输出结果比较中心位置发生了一些变化，表明在迭代过程中，中心位置有了转移。

第五部分输出结果：

DistancesbetweenFinalClusterCenters

Cluster

6115.096

2452.236

4598.516

5191.013

6115.096

3759.275

1534.091

962.785

2452.236

3759.275

2253.558

2812.687

4598.516

1534.091

2253.558

609.571

5191.013

962.785

2812.687

609.571

该表是最终的类中心点之间的欧氏距离。

可看出第一类类中心点和第二类类中心点之间的距离最大，为6115.096，第四类类中心点和第五类类中心点的距离最小，为609.571。

第六部分输出结果：

ANOVA

Cluster

Error

Sig.

MeanSquare

规模以上工业企业单位数

761291.259

101777.083

7.480

.002

规模以上工业企业增加值

299280.165

3441.507

86.962

.000

从业人员年平均人数

567.945

32.550

17.448

.000

资产总计

2138951.937

32610.316

65.591

.000

负债总计

722804.389

17812.407

40.579

.000

主营业务收入

4088190.204

34680.926

117.880

.000

主营业务成本

2765047.389

23772.206

116.314

.000

TheFtestsshouldbeusedonlyfordescriptivepurposesbecausetheclustershavebeenchosentomaximizethedifferencesamongcasesindifferentclusters.Theobservedsignificancelevelsarenotcorrectedforthisandthuscannotbeinterpretedastestsofthehypothesisthattheclustermeansareequal.

该表是快速聚类分析后形成的各类样本之间的单方差分析结果。

表格每一行对应相应变量的分析结果。

对于规模以上工业企业单位数而言，它的平均组间平方和（MeanSquare）761291.259平均组内平方和为101777.083，F统计量为7.480，F统计量的相伴概率为0.002，相伴概率小于显著性水平0.01，依次可以认为对于规模以上工业企业单位数变化量，五个类之间存在着显著性差异。

总体来看，聚类分析结果比较理想。

第七部分输出结果：

NumberofCasesineachCluster

Cluster

1.000

8.000

1.000

5.000

3.000

Valid

18.000

Missing

.000

从该表可以看出：

第1类包括1个样本，第2类包括8个样本，第3类包括1个样本，第4类包括5个样本，第5类包括3个样本。

总体样本数为18个，缺失值为0个。

2.2对工业企业数据做主成分分析。

主成分分析是一种原始变量之间的相关性，通过原来变量的少数几个线性组合解释原来变量来实现降维的多元统计方法，一般来说，利用主成分分析得到的主成分与原来变量之间有以下基本关系：

每个主成分都是各原始变量的线性组合。

主成分的数目大大少于原始变量的数目。

主成分保留了原始变量的绝大多数信息。

各主成分之间互不相关。

用SPSS软件实现统计分析是需要特别注意的是：

变量的标准化，标准化共识如下：

i=1,2,···，n;j=1,2,···，p

式中，

和

分别是第j个变量的均值和方差，在标准化之后每个变量的均值为0，标准差为1.

主成分求解结果如下：

TotalVarianceExplained

Component

InitialEigenvalues

ExtractionSumsofSquaredLoadings

Total

%ofVariance

Cumulative%

Total

%ofVariance

Cumulative%

6.430

91.861

6.430

91.861

.380

5.432

97.294

.102

1.464

98.758

.072

1.026

99.784

.011

.163

99.947

.003

.048

99.995

.000

.005

100.000

ExtractionMethod:

PrincipalComponentAnalysis.

该表是特征值和方差贡献度表，可以看到第一个成分特征值占了总方差的91.861％，后面的特征值贡献率越来越小，由于我们选择了特征值大于1的作为主成分的抽取条件，所以SPSS抽取了一个主成分，其特征值为6.430，累计方差贡献率为91.861％。

碎石图如下：

从图中可以看出抽取的主成分是合理的。

主成分载荷分析：

ComponentMatrixa

Component

规模以上工业企业单位数

.867

规模以上工业企业增加值

.985

从业人员年平均人数

.951

资产总计

.976

负债总计

.948

主营业务收入

.988

主营业务成本

.987

ExtractionMethod:

PrincipalComponentAnalysis.

a.1componentsextracted.

该表为主成分载荷表，表中7个变量的系数分别为0.867,0.985,0.951,0.976,0.948,0.988,0.987。

就第一个变量而言，第一主成分和规模以上工业企业单位数变量的相关系数为0.867，以此类推。

相关系数越大，表明主成分对该变量的代表性越大。

可以看出，第一主成分对个变量解释得都很充分。

3.总结

利用我们所熟悉的聚类分析和主成分分析，对河南工业企业发展情况作了简单的分析，就聚类分析而言，我们所研究的或指标样本之间存在着不同程度的相似性，于是根据一批样本的观测指标，具体找出一些能够度量样本或指标之间相似程度的统计量，以这些统计量为划分类型的依据，把一些相似程度较大的样本聚为一类。

关系密切的聚为一个小的分类单位，关系疏远的聚为一个大的分类单位，直到把所有样本或指标聚类完毕，这样就可以形成一个由小到大的分类系统。

就主成分分析而言，主成分分析是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法，又称主分量分析。

在实际问题中，为了全面分析问题，往往提出很多与此有关的变量（或因素），因为每个变量都在不同程度上反映这个课题的某些信息。

但是，在用统计分析方法研究这个多变量的课题时，变量个数太多就会增加课题的复杂性。

人们自然希望变量个数较少而得到的信息较多。

在很多情形，变量之间是有一定的相关关系的，当两个变量之间有一定相关关系时，可以解释为这两个变量反映此课题的信息有一定的重叠。

主成分分析是对于原先提出的所有变量，建立尽可能少的新变量，使得这些新变量是两两不相关的，而且这些新变量在反映问题的信息方面尽可能保持原有的信息。

信息的大小通常用离差平方和或方差来衡量。

4.感悟

4.1在软件操作时要按照参考书的说明进行，但是当要分析相应的结果是有点不知所措。

4.2在数据处理时还是很不熟练，需要加强这方面的练习。

4.3对整个操作流程比较模糊，需借助一些资料或书籍帮助完成。

参考文献：

[1]宋志刚谢蕾蕾何旭洪.SPSS实用教程.人民邮电出版社，2008.10.

[2]李静萍谢邦昌.多元统计分析方法与应用.中国人民大学出版社，2008.12.

展开阅读全文