地区农林牧渔产业聚类分析研究.docx

资源描述

地区农林牧渔产业聚类分析研究.docx

《地区农林牧渔产业聚类分析研究.docx》由会员分享，可在线阅读，更多相关《地区农林牧渔产业聚类分析研究.docx（13页珍藏版）》请在冰豆网上搜索。

地区农林牧渔产业聚类分析研究.docx

地区农林牧渔产业聚类分析研究

班级：

应数0901姓名：

顾玲玲学号：

2007090103

农林牧渔业是最为基础的上游行业，各个地区的农林牧渔业的发展是该城市中游行业（加工业）和下游行业（市场导向）的基础。

为研究我国各地区农林牧渔业产业结构的分布规律，搜集了2010年全国内地各地区的数据资料，并抽取了其中24个地区的粮食产量、油料产量、水果产量、大牲畜期末存栏头数、猪牛羊肉产量以及水产品产量的数据样本进行聚类研究分析。

本文的研究意义在于将24个样本分类，并分析各地区的区别和分类的原因，研究各地区在农林牧渔业方面的发展优势，为各类地区的未来几年的经济发展提出建设性的建议。

这里我们运用统计软件SAS软件进行帮助分析。

首先采用系统聚类CLUSTER过程其中的Ward法（即离差平方和法）分析将24个样本分为几类最为合适，Ward法的基本思想是，现将n个样品各自成一类，此时W=0；然后每次将其中某两类合并为一类，因每缩小一类离差平方和就要增加，每次选择是W增加最小的两类进行合并，直至所有的样品合并为一类为止。

使用Wrad法我们得到的结果如下：

一、采用系统聚类法进行聚类分析

1）采用Ward最小方差聚类法进行聚类分析所得结果：

就上表我们可以从4个数据结果进行讨论：

（1）由RSQ的变化情况看，当分为4个类之前，并类过程中

减少是逐渐的，改变不大，当分为4个类和3个类时差别较大，所以从

看分为4个类较合适。

（2）由SPRSQ（半偏

）知，某步的半偏

值越大．说明上一步合并的效果好．此例中NCL＝1，2和3时，较大，故分为2个类、3个类或4个类是较合适的。

（3）伪F统计量（列标题为PSF）越大表示这些观测样品可显著地分为NCL个类。

此例伪F最大和次大分别为NCL＝5和4（当NcL＜7），说明根据伪F准则分为5个类或4个类是较合适的。

（4）伪

统计量值大表明上一次合并的两个类是很分开的．也就是上一次聚类的效果是好的．此例伪

最大和次大分别为NCL＝1和3，说明根据伪

准则分为3个类或4个类是较合适的。

综上所述，讨论的结果大致确定下来，分为3个类或4个类是较合适的。

2）然后使用Ward法中的TREE过程绘制聚类过程图得到的谱系聚类图如下：

上图是已将分组确定为4组得到的分类过程步骤，从上图观察可得，山东处于一个比较尴尬的分类位置，它和其他其他三类都有点格格不入，所以它自成一组，第四组也就山东一个地区。

3）同样的，Ward法分为四类的结果也是与该图相对应的，其分类结果如下：

根据上表显示，分类的结果为：

={北京、天津、上海、海南、山西、重庆、甘肃、贵州、吉林、云南、陕西}

={辽宁、浙江、福建、广东}

={河北、江苏、安徽、湖南、湖北、四川、黑龙江、河南}

={山东}

（4）为了更明确该种分类的合理性，我整理了每个组合包含样品的各个数据水平的平均值，如下：

类别

第一类

第二类

第三类

第四类

该类包含的地区

北京，天津，上海，海南，吉林，重庆，甘肃，贵州，云南，山西，陕西

广东，福建，浙江，辽宁

河南，四川，河北，黑龙江，安徽，江苏，湖北，湖南

山东

粮食产量平均数

901.124

1090.3825

3419.8178

4316.3

油料产量平均数

32.358

52.3757

232.7653

334.5

水果产量平均数

286.055

703.89905

631.40249

2728.2548

大牲畜期末存栏头数平均数

330.20814

817.2086

532.64744

5335.6142

猪牛羊肉产量平均数

98.791527

203.39693

354.89785

684.1329

水产品产量平均数

28.566618

559.19443

185.17578

753.5939

上表数据表明第一类地区属于农林牧渔业发展水平比较低的城市，特别是粮食产量，第二类地区的发展水平相对较高，第三类地区是属于农业大省，它的粮食产量占了全国总样本粮食产量的很大一部分，而第四类山东，既是粮食产量大省，水产品产量也特别大，考虑到它是沿海地区，这也是很合理的。

第一类样本2010年农林牧渔业总产值均值为1018.5777亿元；

第二类样本2010年农林牧渔业总产值均值为2835.3211亿元；

第三类样本2010年农林牧渔业总产值均值为3590.9612亿元；

第四类样本2010年农林牧渔业总产值均值为6650.94亿元；

通过上面的分析，我们可以发现Ward法的分类结果得到每类的农林牧渔业总产值之间的差距很明显，所以采用Ward法得到分类效果较好。

下面我们采用另一种分类方法——动态聚类法，其基本思想是，开始先粗略地分一下类，然后按照某种最优的原则修改不合理的分类，直至分类比较合理为止，这样就形成一个最终的分类结果。

它对应的SAS过程为FASTCLUS（快速聚类）过程。

二、采用动态聚类法进行聚类分析

首先调用STANDARD过程将数据标准化，然后用标准化变换后的数据进行动态聚类分析。

（1）动态聚类的初始凝聚点，凝聚点是一批具有代表性的点，是欲形成类的中心的点。

下面的初始点是从标准化数据集中按指定规则选取的4个观测样品。

（2）动态聚类的分类结果（数据标准化）

=｛天津、上海、北京、江苏、海南、安徽、甘肃、贵州、重庆、山西、吉林、云南、湖南、湖北、黑龙江、陕西、河北｝

=｛山东｝

=｛浙江、福建、辽宁、广东｝

=｛河南、四川｝

（3）结果分析

类别

第一类

第二类

第三类

第四类

该类包含的地区

北京，天津，上海，海南，吉林，重庆，甘肃，贵州，云南，陕西，陕西，河北，黑龙江，安徽，江苏，湖北，湖南

山东

广东，福建，浙江，辽宁

河南，四川

粮食产量平均数

1687.4886

4316.3

1090.3825

4291.8

油料产量平均数

83.72213

334.5

52.3757

397.39

水果产量平均数

404.32912

2728.2548

703.89905

662.115

大牲畜期末存栏头数平均数

335.63909

5335.6142

817.2086

1093.8023

猪牛羊肉产量平均数

163.72833

684.1329

203.39693

571.254

水产品产量平均数

94.209941

753.5939

559.19443

97.035

观察上表，我们发现动态聚类法的分类结果中有两类是和Ward法是相同的，即第二类和第三类。

根据上表的数据，山东省粮食产量、水果产量、大牲畜期末存栏数以及水产品产量比一般的地区都高，这可能是它区别于其他城市另成一组的原因。

根据实际情况，由于山东省的地理位置和气候环境，比较适合农作物水果种植，饲养牲畜以及发展水产品产业。

所以山东利用这些优势，近年来经济发展水平稳步提高，2010年山东的农林牧渔业生产总值达6650.94亿元。

而第四类地区的油料产量最大，粮食产量也很高，结合其地理位置我们推测，这两个地区的农业应该发展得比较好，四川、河南2010年的农林牧渔业总产值分别为4081.81亿元和3258.11亿元。

第三类地区水产品产量比较高，这四个地区2010年农林牧渔业总产值平均值为2835.3211亿元。

第一类包含17个地区，其农林牧渔业总产值平均值为1917.1838亿元，但是考虑到这17个地区中有相对而言面积比较小的直辖市，它们的农林牧渔业总产值比较小也是理所当然，并且像北京、上海这样的比较发达的城市，它们是主要的经济活动中心城市，发展农林牧渔业是比较次要的。

就从农林牧渔业总产值均值来看，动态聚类法是比较合理的，但是第一类中最大值是河北达4309.42亿元，而最小值是上海为287.03亿元，这样看来分类的效果似乎不是非常理想。

三、结果与讨论

1、Ward法所得结果为：

={北京、天津、上海、海南、山西、重庆、甘肃、贵州、吉林、云南、陕西}

={辽宁、浙江、福建、广东}

={河北、江苏、安徽、湖南、湖北、四川、黑龙江、河南}

={山东}

类别

第一类

第二类

第三类

第四类

该类包含的地区

北京，天津，上海，海南，吉林，重庆，甘肃，贵州，云南，山西，陕西

广东，福建，浙江，辽宁

河南，四川，河北，黑龙江，安徽，江苏，湖北，湖南

山东

农林牧渔业总产值均值（亿元）

1018.5777

2835.3211

3590.9612

6650.94

2、动态聚类法所得结果为：

=｛天津、上海、北京、江苏、海南、安徽、甘肃、贵州、重庆、山西、吉林、云南、湖南、湖北、黑龙江、陕西、河北｝

=｛山东｝

=｛浙江、福建、辽宁、广东｝

=｛河南、四川｝

类别

第一类

第二类

第三类

第四类

该类包含的地区

北京，天津，上海，海南，吉林，重庆，甘肃，贵州，云南，陕西，陕西，河北，黑龙江，安徽，江苏，湖北，湖南

山东

广东，福建，浙江，辽宁

河南，四川

农林牧渔业总产值均值（亿元

1917.1838

6650.94

2835.3211

3458.5656

就从分类后各组农林牧渔业总产值来看，是Ward法分类效果较好，而且在实际应用中，离差平方和法的应用比较广泛，它要求样品间距离采用欧式距离。

总之不同的分类方法会得到不同的分类结果，以上分析结果可以总结为以下几点：

（1）山东省是农林牧渔业发展较好的地区，该地区应该充分利用其气候地理优势，更好的发展农林牧渔业，为山东省的经济发展作出贡献；

（2）各地区有各地区的发展优势，对于经济发达的地区（例如北京，上海）发展农林牧渔业则放在比较次要的地位；

（3）内陆土地面积较广阔的地区的粮食产量较大，可以推断出那些地区发展农业比较合适；例如：

河北、吉林、黑龙江、安徽、河南等

（4）沿江海地区应该凭借这种优势更好地发展水产职业。

例如：

广东、江苏、山东、浙江

附录：

1、数据

表1关于农林牧渔业各地区抽取数据

地区

粮食产量（万吨）x1

油料产量（万吨）x2

水果产量（万吨）x3

大牲畜期末存栏头数（万头）x4

猪牛羊肉产量（万吨）x5

水产品产量（万吨）x6

beijing

124.8

1.8

90.3

23.37

27.6

5.8

tianjin

156.29

0.54

67.0497

28.22

30.69

34.17

hebei

2910.17

143.27

1578.62

536.66

336.8

100.41

shanxi

942

8.3991

449.2008

133.6883

61.0798

3.1

liaoning

1591

55.3499

477.2144

515.6

266.8

534.7

jilin

2460

50.4

64.06

556.65

158.6331

16.5

heilongjiang

4353

28.2

49.3241

567.4

156.6

38.07

shanghai

121.68

3.3879

104.6861

6.52

18.1183

30.8986

jiangsu

3230.1

162.23

235.41

39.645

215.24

443.22

zhejiang

789.15

43.24

712.41

20.37

130.95

429.6

anhui

3069.8725

240.3472

745.7591

149.47

261.1648

183.1462

fujian

666.88

26.27

564.08

70.2841

146.81

569.67

shandong

4316.3

334.5

2728.2548

5335.6142

684.1329

753.5939

henan

5389

532.98

755.9

1080.11

615.1

93.94

hubei

2309.1

314.05

402.15

335.56

304.77

333.9

hunan

2902.7

179.2449

715.7267

444.84

422.1

188.59

guangdong

1314.5

84.6429

1061.8918

2662.5803

269.0277

702.8077

hainan

187.604

9.1042

267.9486

575.97

43.0518

145.49

chongqing

1137.2

40.54

212.87

122.85

154.4875

20.39

shan'xi

1131.4

54.38

1150.45

193.02

90.1

5.6

gansu

906.2

58.5447

277.56

623.22

77.3363

1.1942

yunnan

1576.92

50.16

342.74

742.57

270.88

43.06

guizhou

1168.27

78.6782

119.74

626.2112

154.73

8.03

sichuan

3194.6

261.8

568.33

1107.4945

527.408

100.13

注：

数据来自ccer数据库。

时间：

2010年

表2各地区2010年农林牧渔业总产值

地区

农林牧渔业总产值（亿元）

beijing

328

tianjin

317.33

hebei

4309.42

shanxi

1047.8483

liaoning

3106.5

jilin

1850.28

heilongjiang

2536.3004

shanghai

287.03

jiangsu

4297.14

zhejiang

2172.86

anhui

2955.449

fujian

2307.06

shandong

6650.94

henan

3258.11

hubei

3501.99

hunan

3787.47

guangdong

3754.8644

hainan

821.3089

chongqing

1021.1328

shan'xi

1666.0575

gansu

1057.0174

yunnan

1810.53

guizhou

997.82

sichuan

4081.81

注：

数据来自ccer数据库。

时间：

2010年

2、程序：

datanlmy;

inputregion$x1-x6;

cards;

beijing124.81.890.323.3727.65.8

tianjin156.290.5467.049728.2230.6934.17

hebei2910.17143.271578.62536.66336.8100.41

shanxi9428.3991449.2008133.688361.07983.1

liaoning159155.3499477.2144515.6266.8534.7

jilin246050.464.06556.65158.633116.5

heilongjiang435328.249.3241567.4156.638.07

shanghai121.683.3879104.68616.5218.118330.8986

jiangsu3230.1162.23235.4139.645215.24443.22

zhejiang789.1543.24712.4120.37130.95429.6

anhui3069.8725240.3472745.7591149.47261.1648183.1462

fujian666.8826.27564.0870.2841146.81569.67

shandong4316.3334.52728.25485335.6142684.1329753.5939

henan5389532.98755.91080.11615.193.94

hubei2309.1314.05402.15335.56304.77333.9

hunan2902.7179.2449715.7267444.84422.1188.59

guangdong1314.584.64291061.89182662.5803269.0277702.8077

hainan187.6049.1042267.9486575.9743.0518145.49

chongqing1137.240.54212.87122.85154.487520.39

shan'xi1131.454.381150.45193.0290.15.6

gansu906.258.5447277.56623.2277.33631.1942

yunnan1576.9250.16342.74742.57270.8843.06

guizhou1168.2778.6782119.74626.2112154.738.03

sichuan3194.6261.8568.331107.4945527.408100.13

;

procclusterdata=nlmymethod=wardstdpseudoouttree=nlmy;

varx1x2x3x4x5x6;

idregion;

proctreedata=nlmyhorizontalgraphicsn=4out=wardnlmy;

copyx1x2x3x4x5x6;

title'tableward';

run;

title'ward';

procsortdata=wardnlmy;

bycluster;

run;

procprintdata=wardnlmy;

varclusterx1x2x3x4x5x6;

run;

procmeansdata=wardnlmy;

bycluster;

varx1-x6;

run;

procstandarddata=nlmymean=0std=1out=outsta;

varx1-x6;

procfastclusdata=outstaout=outstaamaxc=4list;

varx1-x6;

idregion;

run;

3、主要参考资料：

《应用多元统计分析》高惠璇北京大学出版社

展开阅读全文