中国各省份生产总值聚类分析与判别分析Word文档下载推荐.docx
《中国各省份生产总值聚类分析与判别分析Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《中国各省份生产总值聚类分析与判别分析Word文档下载推荐.docx(12页珍藏版)》请在冰豆网上搜索。
包括交通运输业、通讯业、商业、餐饮业、金融保险业、行政、家庭服务等非物质生产部门。
通过对各省份的地区生产总值对各产业增加值进行聚类分析,可以将各省份进行归类,即不同的发展状态。
二、分析方法及原理。
2.1聚类分析
聚类分析又称群分析,是指依据研究对象的个体特征,对其进行分类的方法。
分类在经济、管理、社会学、医学等领域,都有着广泛的应用。
聚类分析分为层次聚类分析和快速聚类分析。
层次聚类分析是根据观察与变量之间的亲疏程度,将最相似的对象结合在一起,以逐次聚合的方式,将观察值分类,直到最后所有样品都聚成一类。
层次聚类分析有两种形式,一种是对样品(个案)进行分类,称为Q型聚类;
另一种是对研究对象的观察值进行分类,称为R型聚类。
K-均值法(又称快速聚类法),是由MacQueen于1967年提出的,它将数据看成K维空间上的点,以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率。
但是,K-均值法只能产生指定类数的聚类结果,而类数的确定离不开实践经验的积累。
2.2判别分析
判别分析是根据多种因素(指标)对事物的影响来实现对事物的分类,从而对事物进行判别分类的统计方法。
判别分析适用于已经掌握了历史上分类的每一个类别的若干样品,希望根据这些历史的经验(样品),总结出分类的规律性(判别函数)来指导未来的分类。
本文对2014年中国各省省份的地区生产总值进行聚类分析和判别分析。
所用数据从中国统计年鉴2015版获得。
从2014年各省份的第一产业增加值、第二产业增加值和第三产业增加值三个方面进行了分析。
留出青海省、宁夏回族自治区、新疆维吾尔自治区三省判别分析。
三、分析过程。
3.1原始数据
以下数据收集于中国统计年鉴2015:
地区生产总值
第一产业增加值
第二产业增加值
第三产业增加值
北京市
21330.83
159
4545.51
16626.3
天津市
15722.47
199.84
7731.38
7791.25
河北省
29421.15
3447.46
15020.17
10953.5
山西省
12759.44
788.14
6343.29
5628.01
内蒙古自治区
17769.51
1627.17
9119.79
7022.55
辽宁省
28626.58
2285.75
14384.64
11956.2
吉林省
13803.81
1524.56
7287.26
4991.99
黑龙江省
15039.38
2611.46
5503.98
6923.94
上海市
23560.94
124.26
8164.79
15271.9
江苏省
65088.32
3634.33
31057.47
30396.5
浙江省
40153.5
1779.26
19152.73
19221.5
安徽省
20848.75
2392.39
11204.02
7252.34
福建省
24055.76
2014.91
12515.36
9525.49
江西省
15708.59
1683.72
8388.26
5636.61
山东省
59426.59
4798.36
28788.11
25840.1
河南省
34939.38
4160.81
17902.67
12875.9
湖北省
27367.04
3176.89
12840.22
11349.9
湖南省
27048.46
3148.75
12481.88
11417.8
广东省
67792.24
3166.67
31345.77
33279.8
广西壮族自治区
15672.97
2412.21
7335.6
5925.16
海南省
3500.72
809.64
874.42
1816.66
重庆市
14265.4
1061.03
6531.86
6672.51
四川省
28536.66
3531.05
14519.41
10486.2
贵州省
9251.01
1275.45
3847.06
4128.5
云南省
12814.59
1991.17
5281.82
5541.6
西藏自治区
920.83
91.57
336.84
492.42
陕西省
17689.94
1564.94
9689.78
6435.22
甘肃省
6835.27
900.8
2924.86
3009.61
青海省
2301.12
215.93
1232.11
853.08
宁夏回族自治区
2752.1
216.84
1343.13
1192.13
新疆维吾尔自治区
9264.1
1538.6
3927.82
3797.68
3.2聚类分析
选取上表中31个省份进行聚类分析:
共31个有效数据(Valid)参加了分析,无缺失值记录(Missing),总
记录数为31个(Total)。
上表给出了反映聚类过程的聚类进度表。
它的每一行表示一次聚类,并给出
聚类对象的名称,第一列对应的格中给出这次聚在一起的两个群间的距离。
第一步:
样品29和样品30聚成一类,凝聚系数是0.000。
与样品29、样品30的欧
式距离相等。
第二步:
样品17和样品18聚成一类,凝聚系数是0.000,与样品17、样品18欧
第三步:
样品5和样品27聚成一类,凝聚系数是0.001,与样品5、样品27欧
以此类推。
由于出现了乱码,所以使用手绘树状图来表达:
下图为分三组、或分四组、或分五组的情况:
选择分四组可以归纳为:
第一类:
北京市、上海市;
第二类:
天津市、山西省、内蒙古、辽宁省、吉林省、黑龙江省、安徽省、福建省、江西省、广西、海南、重庆、贵州、云南省、西藏、陕西省、甘肃省、青海省、宁夏、新疆;
第三类:
河北省、浙江省、河南省、湖北省、湖南省、四川省;
第四类:
江苏省、山东省、广东省。
3.3判别分析
本文采用Fisher判别函数,判别函数效果的验证方法是交互验证(Cross-Validation)法,在建立判别函数时依次去掉一例,然后用建立起来的判别函数对该例进行判别,用这种方法可以非常有效地避免强影响点的干扰。
选取青海省、宁夏、新疆三省进行判别分析。
组统计量分析:
组均值的均等性的检验:
下图显示特征值:
下图为分类函数系数表:
令地区生产总值为X1,第一产业增加值为X2,第二产业增加值为X3,第三产业增加值为X4。
又由于X1=X2+X3+X4,可以得Fisher线性判别函数分别为:
F1=-32.890+0.005*X1+0.000*X2-0.009*X3
F2=-5.334+0.001*X1+0.002*X2-0.001*X3
F3=-19.549+0.002*X1+0.004*X2-0.003*X3
F4=-67.979-0.005*X1+0.003*X2-0.006*X3
将待判别的青海省、宁夏、新疆三省份的相应数据代入Fisher判别函数中进行检验,结果青海省、宁夏、新疆的F2最大。
由此可以得出青海省、宁夏、新疆均属于第二类的结果,并且此结果与聚类分析得到的结果是一致。
之后,对其他省市进行判别,得到的结果也与聚类分析的结果一致。
四、讨论。
根据聚类分析所分的组:
由于各省份总量各有差别,另外三大产业的比例也各有差别,导致最后31个省份分为了四个组,每个组的经济情况是接近的。
可基本确定四类地区经济发展状况。
第一类是经济发达的直辖市,所处在接近的经济状况;
第二类是欠发达的城市,制定相关经济发展政策可以互相借鉴,其组内省份的三大产业的比例接近;
第三类是第二产业发达的类别;
第四类是经济发达的沿海省份。
这样的分组对现实的意义在于:
同组省份可以互相学习借鉴经济发展模式、经济政策和产业发展侧重;
而不同组间的互相学习和借鉴就要因基本经济状况不类似而提起注意。
参考文献
[1].张立军,任英华.《多元统计分析实验》.2009,3.
[2].中华人民共和国国家统计局.中国统计年鉴[M].北京:
中国统计出版社,2014.
[3].孙海燕,周梦,李卫国,冯伟.应用数理统计[M].北京:
北京航空航天大学出版社,2013
[4].XX词条:
地区生产总值.