地区农林牧渔产业聚类分析研究.docx
《地区农林牧渔产业聚类分析研究.docx》由会员分享,可在线阅读,更多相关《地区农林牧渔产业聚类分析研究.docx(13页珍藏版)》请在冰豆网上搜索。
![地区农林牧渔产业聚类分析研究.docx](https://file1.bdocx.com/fileroot1/2023-1/4/3f311761-2aad-4268-8501-9ff775f30954/3f311761-2aad-4268-8501-9ff775f309541.gif)
地区农林牧渔产业聚类分析研究
地区农林牧渔产业聚类分析研究
班级:
应数0901姓名:
顾玲玲学号:
2007090103
农林牧渔业是最为基础的上游行业,各个地区的农林牧渔业的发展是该城市中游行业(加工业)和下游行业(市场导向)的基础。
为研究我国各地区农林牧渔业产业结构的分布规律,搜集了2010年全国内地各地区的数据资料,并抽取了其中24个地区的粮食产量、油料产量、水果产量、大牲畜期末存栏头数、猪牛羊肉产量以及水产品产量的数据样本进行聚类研究分析。
本文的研究意义在于将24个样本分类,并分析各地区的区别和分类的原因,研究各地区在农林牧渔业方面的发展优势,为各类地区的未来几年的经济发展提出建设性的建议。
这里我们运用统计软件SAS软件进行帮助分析。
首先采用系统聚类CLUSTER过程其中的Ward法(即离差平方和法)分析将24个样本分为几类最为合适,Ward法的基本思想是,现将n个样品各自成一类,此时W=0;然后每次将其中某两类合并为一类,因每缩小一类离差平方和就要增加,每次选择是W增加最小的两类进行合并,直至所有的样品合并为一类为止。
使用Wrad法我们得到的结果如下:
一、采用系统聚类法进行聚类分析
1)采用Ward最小方差聚类法进行聚类分析所得结果:
就上表我们可以从4个数据结果进行讨论:
(1)由RSQ的变化情况看,当分为4个类之前,并类过程中
减少是逐渐的,改变不大,当分为4个类和3个类时差别较大,所以从
看分为4个类较合适。
(2)由SPRSQ(半偏
)知,某步的半偏
值越大.说明上一步合并的效果好.此例中NCL=1,2和3时,较大,故分为2个类、3个类或4个类是较合适的。
(3)伪F统计量(列标题为PSF)越大表示这些观测样品可显著地分为NCL个类。
此例伪F最大和次大分别为NCL=5和4(当NcL<7),说明根据伪F准则分为5个类或4个类是较合适的。
(4)伪
统计量值大表明上一次合并的两个类是很分开的.也就是上一次聚类的效果是好的.此例伪
最大和次大分别为NCL=1和3,说明根据伪
准则分为3个类或4个类是较合适的。
综上所述,讨论的结果大致确定下来,分为3个类或4个类是较合适的。
2)然后使用Ward法中的TREE过程绘制聚类过程图得到的谱系聚类图如下:
上图是已将分组确定为4组得到的分类过程步骤,从上图观察可得,山东处于一个比较尴尬的分类位置,它和其他其他三类都有点格格不入,所以它自成一组,第四组也就山东一个地区。
3)同样的,Ward法分为四类的结果也是与该图相对应的,其分类结果如下:
根据上表显示,分类的结果为:
={北京、天津、上海、海南、山西、重庆、甘肃、贵州、吉林、云南、陕西}
={辽宁、浙江、福建、广东}
={河北、江苏、安徽、湖南、湖北、四川、黑龙江、河南}
={山东}
(4)为了更明确该种分类的合理性,我整理了每个组合包含样品的各个数据水平的平均值,如下:
类别
第一类
第二类
第三类
第四类
该类包含的地区
北京,天津,上海,海南,吉林,重庆,甘肃,贵州,云南,山西,陕西
广东,福建,浙江,辽宁
河南,四川,河北,黑龙江,安徽,江苏,湖北,湖南
山东
粮食产量平均数
901.124
1090.3825
3419.8178
4316.3
油料产量平均数
32.358
52.3757
232.7653
334.5
水果产量平均数
286.055
703.89905
631.40249
2728.2548
大牲畜期末存栏头数平均数
330.20814
817.2086
532.64744
5335.6142
猪牛羊肉产量平均数
98.791527
203.39693
354.89785
684.1329
水产品产量平均数
28.566618
559.19443
185.17578
753.5939
上表数据表明第一类地区属于农林牧渔业发展水平比较低的城市,特别是粮食产量,第二类地区的发展水平相对较高,第三类地区是属于农业大省,它的粮食产量占了全国总样本粮食产量的很大一部分,而第四类山东,既是粮食产量大省,水产品产量也特别大,考虑到它是沿海地区,这也是很合理的。
第一类样本2010年农林牧渔业总产值均值为1018.5777亿元;
第二类样本2010年农林牧渔业总产值均值为2835.3211亿元;
第三类样本2010年农林牧渔业总产值均值为3590.9612亿元;
第四类样本2010年农林牧渔业总产值均值为6650.94亿元;
通过上面的分析,我们可以发现Ward法的分类结果得到每类的农林牧渔业总产值之间的差距很明显,所以采用Ward法得到分类效果较好。
下面我们采用另一种分类方法——动态聚类法,其基本思想是,开始先粗略地分一下类,然后按照某种最优的原则修改不合理的分类,直至分类比较合理为止,这样就形成一个最终的分类结果。
它对应的SAS过程为FASTCLUS(快速聚类)过程。
二、采用动态聚类法进行聚类分析
首先调用STANDARD过程将数据标准化,然后用标准化变换后的数据进行动态聚类分析。
(1)动态聚类的初始凝聚点,凝聚点是一批具有代表性的点,是欲形成类的中心的点。
下面的初始点是从标准化数据集中按指定规则选取的4个观测样品。
(2)动态聚类的分类结果(数据标准化)
={天津、上海、北京、江苏、海南、安徽、甘肃、贵州、重庆、山西、吉林、云南、湖南、湖北、黑龙江、陕西、河北}
={山东}
={浙江、福建、辽宁、广东}
={河南、四川}
(3)结果分析
类别
第一类
第二类
第三类
第四类
该类包含的地区
北京,天津,上海,海南,吉林,重庆,甘肃,贵州,云南,陕西,陕西,河北,黑龙江,安徽,江苏,湖北,湖南
山东
广东,福建,浙江,辽宁
河南,四川
粮食产量平均数
1687.4886
4316.3
1090.3825
4291.8
油料产量平均数
83.72213
334.5
52.3757
397.39
水果产量平均数
404.32912
2728.2548
703.89905
662.115
大牲畜期末存栏头数平均数
335.63909
5335.6142
817.2086
1093.8023
猪牛羊肉产量平均数
163.72833
684.1329
203.39693
571.254
水产品产量平均数
94.209941
753.5939
559.19443
97.035
观察上表,我们发现动态聚类法的分类结果中有两类是和Ward法是相同的,即第二类和第三类。
根据上表的数据,山东省粮食产量、水果产量、大牲畜期末存栏数以及水产品产量比一般的地区都高,这可能是它区别于其他城市另成一组的原因。
根据实际情况,由于山东省的地理位置和气候环境,比较适合农作物水果种植,饲养牲畜以及发展水产品产业。
所以山东利用这些优势,近年来经济发展水平稳步提高,2010年山东的农林牧渔业生产总值达6650.94亿元。
而第四类地区的油料产量最大,粮食产量也很高,结合其地理位置我们推测,这两个地区的农业应该发展得比较好,四川、河南2010年的农林牧渔业总产值分别为4081.81亿元和3258.11亿元。
第三类地区水产品产量比较高,这四个地区2010年农林牧渔业总产值平均值为2835.3211亿元。
第一类包含17个地区,其农林牧渔业总产值平均值为1917.1838亿元,但是考虑到这17个地区中有相对而言面积比较小的直辖市,它们的农林牧渔业总产值比较小也是理所当然,并且像北京、上海这样的比较发达的城市,它们是主要的经济活动中心城市,发展农林牧渔业是比较次要的。
就从农林牧渔业总产值均值来看,动态聚类法是比较合理的,但是第一类中最大值是河北达4309.42亿元,而最小值是上海为287.03亿元,这样看来分类的效果似乎不是非常理想。
三、结果与讨论
1、Ward法所得结果为:
={北京、天津、上海、海南、山西、重庆、甘肃、贵州、吉林、云南、陕西}
={辽宁、浙江、福建、广东}
={河北、江苏、安徽、湖南、湖北、四川、黑龙江、河南}
={山东}
类别
第一类
第二类
第三类
第四类
该类包含的地区
北京,天津,上海,海南,吉林,重庆,甘肃,贵州,云南,山西,陕西
广东,福建,浙江,辽宁
河南,四川,河北,黑龙江,安徽,江苏,湖北,湖南
山东
农林牧渔业总产值均值(亿元)
1018.5777
2835.3211
3590.9612
6650.94
2、动态聚类法所得结果为:
={天津、上海、北京、江苏、海南、安徽、甘肃、贵州、重庆、山西、吉林、云南、湖南、湖北、黑龙江、陕西、河北}
={山东}
={浙江、福建、辽宁、广东}
={河南、四川}
类别
第一类
第二类
第三类
第四类
该类包含的地区
北京,天津,上海,海南,吉林,重庆,甘肃,贵州,云南,陕西,陕西,河北,黑龙江,安徽,江苏,湖北,湖南
山东
广东,福建,浙江,辽宁
河南,四川
农林牧渔业总产值均值(亿元
1917.1838
6650.94
2835.3211
3458.5656
就从分类后各组农林牧渔业总产值来看,是Ward法分类效果较好,而且在实际应用中,离差平方和法的应用比较广泛,它要求样品间距离采用欧式距离。
总之不同的分类方法会得到不同的分类结果,以上分析结果可以总结为以下几点:
(1)山东省是农林牧渔业发展较好的地区,该地区应该充分利用其气候地理优势,更好的发展农林牧渔业,为山东省的经济发展作出贡献;
(2)各地区有各地区的发展优势,对于经济发达的地区(例如北京,上海)发展农林牧渔业则放在比较次要的地位;
(3)内陆土地面积较广阔的地区的粮食产量较大,可以推断出那些地区发展农业比较合适;例如:
河北、吉林、黑龙江、安徽、河南等
(4)沿江海地区应该凭借这种优势更好地发展水产职业。
例如:
广东、江苏、山东、浙江
附录:
1、数据
表1关于农林牧渔业各地区抽取数据
地区
粮食产量(万吨)x1
油料产量(万吨)x2
水果产量(万吨)x3
大牲畜期末存栏头数(万头)x4
猪牛羊肉产量(万吨)x5
水产品产量(万吨)x6
beijing
124.8
1.8
90.3
23.37
27.6
5.8
tianjin
156.29
0.54
67.0497
28.22
30.69
34.17
hebei
2910.17
143.27
1578.62
536.66
336.8
100.41
shanxi
942
8.3991
449.2008
133.6883
61.0798
3.1
liaoning
1591
55.3499
477.2144
515.6
266.8
534.7
jilin
2460
50.4
64.06
556.65
158.6331
16.5
heilongjiang
4353
28.2
49.3241
567.4
156.6
38.07
shanghai
121.68
3.3879
104.6861
6.52
18.1183
30.8986
jiangsu
3230.1
162.23
235.41
39.645
215.24
443.22
zhejiang
789.15
43.24
712.41
20.37
130.95
429.6
anhui
3069.8725
240.3472
745.7591
149.47
261.1648
183.1462
fujian
666.88
26.27
564.08
70.2841
146.81
569.67
shandong
4316.3
334.5
2728.2548
5335.6142
684.1329
753.5939
henan
5389
532.98
755.9
1080.11
615.1
93.94
hubei
2309.1
314.05
402.15
335.56
304.77
333.9
hunan
2902.7
179.2449
715.7267
444.84
422.1
188.59
guangdong
1314.5
84.6429
1061.8918
2662.5803
269.0277
702.8077
hainan
187.604
9.1042
267.9486
575.97
43.0518
145.49
chongqing
1137.2
40.54
212.87
122.85
154.4875
20.39
shan'xi
1131.4
54.38
1150.45
193.02
90.1
5.6
gansu
906.2
58.5447
277.56
623.22
77.3363
1.1942
yunnan
1576.92
50.16
342.74
742.57
270.88
43.06
guizhou
1168.27
78.6782
119.74
626.2112
154.73
8.03
sichuan
3194.6
261.8
568.33
1107.4945
527.408
100.13
注:
数据来自ccer数据库。
时间:
2010年
表2各地区2010年农林牧渔业总产值
地区
农林牧渔业总产值(亿元)
beijing
328
tianjin
317.33
hebei
4309.42
shanxi
1047.8483
liaoning
3106.5
jilin
1850.28
heilongjiang
2536.3004
shanghai
287.03
jiangsu
4297.14
zhejiang
2172.86
anhui
2955.449
fujian
2307.06
shandong
6650.94
henan
3258.11
hubei
3501.99
hunan
3787.47
guangdong
3754.8644
hainan
821.3089
chongqing
1021.1328
shan'xi
1666.0575
gansu
1057.0174
yunnan
1810.53
guizhou
997.82
sichuan
4081.81
注:
数据来自ccer数据库。
时间:
2010年
2、程序:
datanlmy;
inputregion$x1-x6;
cards;
beijing124.81.890.323.3727.65.8
tianjin156.290.5467.049728.2230.6934.17
hebei2910.17143.271578.62536.66336.8100.41
shanxi9428.3991449.2008133.688361.07983.1
liaoning159155.3499477.2144515.6266.8534.7
jilin246050.464.06556.65158.633116.5
heilongjiang435328.249.3241567.4156.638.07
shanghai121.683.3879104.68616.5218.118330.8986
jiangsu3230.1162.23235.4139.645215.24443.22
zhejiang789.1543.24712.4120.37130.95429.6
anhui3069.8725240.3472745.7591149.47261.1648183.1462
fujian666.8826.27564.0870.2841146.81569.67
shandong4316.3334.52728.25485335.6142684.1329753.5939
henan5389532.98755.91080.11615.193.94
hubei2309.1314.05402.15335.56304.77333.9
hunan2902.7179.2449715.7267444.84422.1188.59
guangdong1314.584.64291061.89182662.5803269.0277702.8077
hainan187.6049.1042267.9486575.9743.0518145.49
chongqing1137.240.54212.87122.85154.487520.39
shan'xi1131.454.381150.45193.0290.15.6
gansu906.258.5447277.56623.2277.33631.1942
yunnan1576.9250.16342.74742.57270.8843.06
guizhou1168.2778.6782119.74626.2112154.738.03
sichuan3194.6261.8568.331107.4945527.408100.13
;
procclusterdata=nlmymethod=wardstdpseudoouttree=nlmy;
varx1x2x3x4x5x6;
idregion;
proctreedata=nlmyhorizontalgraphicsn=4out=wardnlmy;
copyx1x2x3x4x5x6;
title'tableward';
run;
title'ward';
procsortdata=wardnlmy;
bycluster;
run;
procprintdata=wardnlmy;
varclusterx1x2x3x4x5x6;
run;
procmeansdata=wardnlmy;
bycluster;
varx1-x6;
run;
procstandarddata=nlmymean=0std=1out=outsta;
varx1-x6;
procfastclusdata=outstaout=outstaamaxc=4list;
varx1-x6;
idregion;
run;
3、主要参考资料:
《应用多元统计分析》高惠璇北京大学出版社