多元统计考试小论文陕西省气候差异的聚类分析.docx

资源描述

多元统计考试小论文陕西省气候差异的聚类分析.docx

《多元统计考试小论文陕西省气候差异的聚类分析.docx》由会员分享，可在线阅读，更多相关《多元统计考试小论文陕西省气候差异的聚类分析.docx（13页珍藏版）》请在冰豆网上搜索。

多元统计考试小论文陕西省气候差异的聚类分析.docx

多元统计考试小论文陕西省气候差异的聚类分析

陕西省气候差异的聚类分析

摘要：

本文以陕西省10个地级城市为研究对象，选取2012年陕西省气候的相关数据，利用SPSS22.0软件，对陕西省各大城市的平均气温、日照时数、平均风速、相对湿度、无霜期、气压、降水量，共七个指标进行系统聚类分析和K均值聚类分析，并比较聚类的结果，对10个地级城市的气候进行了客观评价。

最后，提出了一些相应的对策与建议，为有关部门政策的制定提供参考与依据。

关键词：

陕西省，气候，聚类分析，SPSS22.0

引言

气候在各个地区不尽相同，又与人们的生活息息相关。

距离很近的两个城市，气候可能相同，也有可能不同。

陕西南北狭长，地形多样，气候差异很大，且明显区分为三个气候带，即温带、暖温带和北亚热带。

其中，陕南属于北亚热带气候，关中及陕北大部属暖温带气候，陕北北部长城沿线属中温带气候。

基于陕西省气候分类如此之多，故而对陕西省各大城市的气候差异进行聚类分析，有一定的实际意义与研究价值。

聚类分析是分析样品（或变量）量化分类的问题。

本文选用多元统计分析中聚类分析的系统聚类分析方法与K均值聚类分析方法，对陕西省各大城市的气候指标进行聚类分析，比较各地区间的气候差异，结合所得结果与实际情况，提出相应建议。

下面简要介绍本文所使用的两种聚类方法。

系统聚类：

其基本思想是为距离相近的样品（或变量）先聚成类，距离相远的后聚成类，过程一直进行下去，每个样品（或变量）总能聚到合适的类中。

系统聚类的过程是：

假设总共有n个样品（或变量），第一步将每个样品（或变量）独自聚成一类，共有n类；第二步根据所确定的样品（或变量）“距离”公式，把距离较近的两个样品（或变量）聚合为一类，其他的样品（或变量）仍各自聚为一类，共聚成n-1类；第三步将“距离”最近的两个类进一步聚成一类，共聚成n-2类；……以上步骤一直进行下去，最后将所有的样品（或变量）聚成一类。

在这个过程中，如果某些类的最近距离相等，则可以把这几类聚成一类。

为了直观地反映以上的聚类分析过程，常选择把整个分类系统地画成一张谱系图。

K均值聚类方法：

其基本思想是将每一个样品分配给最近中心（均值）的类中，具体算法至少包括三个步骤：

（1），将所有的样品分成K个初始类；

（2），通过欧几里得距离将某个样品划入离中心最近的类中，并对获得样品与失去样品的类，重新计算中心坐标；（3）重复步骤

（2），直到所有的样品都不能再分配时为止。

K均值聚类算法是一种最为广泛使用的聚类方法，这种算法对于大型数据有着明显的优势，具有可伸缩性和高效的性能，通常样本量大于100时我们才进行考虑。

本文只是展示这种聚类分析的运算过程，才选取该方法进行说明。

一、指标体系的建立及数据来源

地区间的气候差异受到诸多因素影响。

本文借鉴研究气候所使用的方法和多元统计分析方法，结合陕西省自身的情况与特点，考虑了具有综合性、代表性、可比性、可得性和简洁性的一系列指标，从中选取一些公认的指标，构建陕西省各地区气候指标体系。

根据《2012年陕西省统计年鉴》的数据，选择能够反映陕西省气候差异的平均气温（X1）、日照时数（X2）、平均风速（X3）、相对湿度（X4）、无霜期（X5）、气压（X6）、降水量（X7）共7项指标构建本文研究区的气候差异指标体系。

以上7项指标基本能够反映研究区的气候差异情况，具体数据如表一所示。

2012年陕西省各地区气候指标

指标

城市

平均气温

（摄氏度）

日照时数

（小时）

平均风速

（米/秒）

相对湿度

（%）

无霜期

（天）

气压

（百帕）

降水量

（毫米）

西安市

14.6

1544.8

1.2

223

969.4

426.7

铜川市

10.3

2007.1

2.2

217

904.7

502.8

宝鸡市

13.4

1642.1

1.2

224

945.3

715.3

咸阳市

13.0

2051.6

1.9

199

960.7

402.5

渭南市

14.5

1638.7

1.2

225

974.4

418.1

延安市

10.3

2463.0

1.4

206

907.0

481.8

汉中市

15.5

1278.7

1.2

238

955.8

869.7

榆林市

8.4

2992.2

2.6

210

884.7

566.8

安康市

15.8

1523.5

1.4

225

981.3

815.3

商洛市

12.8

1879.9

2.1

204

930.6

528.1

表一

研究的数据主要来自《2012年陕西省统计年鉴》和陕西省各个城市政府网站，原始数据略。

二、距离的选择与数据预处理

在进行聚类之前，首先要分析样品间的相似性，我们用距离来测度样品之间的相似程度。

例如，如果每个样品有p个指标（变量）从不同方面描述其性质，形成一个p维向量。

如果将n个样品看成p维空间中的n个点，则两个样品间相似程度就可用p维空间中的两点距离公式来度量。

两点间的距离公式可以从不同角度进行定义，存在闵可夫斯基距离，马氏距离与兰氏距离等距离。

一般的，同一批数据采用不同的距离公式，得到的分类结果也不大相同。

产生不同结果的原因，主要是由于不同的距离公式的侧重点和实际意义都有不同。

选择距离公式应遵循以下原则：

（1）要考虑所选距离公式在实际应用中有明确的意义。

例如欧几里得距离就有非常明确的空间距离的概念，马氏距离有消除量纲影响的作用。

（2）要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。

如在进行聚类分析前已经对变量作了标准化处理，则通常就可采用欧几里得距离。

（3）要考虑研究对象的特点和计算量的大小。

依照以上原则，我们先对数据进行标准化处理，之后根据所用聚类方法选取平方欧几里得距离作为距离。

由于表一中各个变量间存在不同量纲，不同数量级的情况，为使各个变量更具可比性，使数据可以在平等的条件下进行分析，要对数据进行预处理。

常用的数据标准化方法有：

Min-max标准化方法，z-score标准化方法，Decimalscaling小数定标标准化方法等等，SPSS22.0默认的数据标准化方法为z-score标准化方法。

我们在此也不多做其它的标准化转换，直接利用SPSS22.0软件默认的z-score标准化方法对原数据进行预处理。

z-score是基于原始数据的均值和标准差进行数据的标准化，适用于原始数据最大值和最小值未知的情况，或有超出取值范围的离群数据的情况，其转换公式为：

新数据=（原数据-均值）/标准差。

根据这一数据标准化方法，对2012年陕西省各地区各项气候指标进行转换，得到转换后的新数据如表二。

2012年陕西省各地区气候指标聚类分析数据

指标

城市

西安市

.70615

-.70183

-.85135

-.54001

.48775

.84360

-.86446

铜川市

-1.03894

.20609

1.08353

.27819

-.00827

-1.10503

-.41390

宝鸡市

.21915

-.51074

-.85135

.27819

.57042

.11776

.84421

咸阳市

.05682

.29349

.50307

.11455

-1.49632

.58158

-1.00773

渭南市

.66557

-.51742

-.85135

-.04909

.65309

.99419

-.91537

延安市

-1.03894

1.10145

-.46437

-1.19457

-.91763

-1.03576

-.53824

汉中市

1.07141

-1.22443

-.85135

1.42366

1.72779

.43400

1.75834

榆林市

-1.81003

2.14076

1.85748

-1.84912

-.58695

-1.70738

-.03499

安康市

1.19316

-.74366

-.46437

1.26002

.65309

1.20201

1.43626

商洛市

-.02435

-.04372

.89004

.27819

-1.08297

-.32497

-.26411

表二

三、聚类分析

对表二中的7个变量进行聚类分析，在这里我们利用spss22.0软件进行这一过程。

为确保分类结果的准确性及比较的可行性,本文将采用两种聚类方法。

1.聚类方法的选择：

系统聚类法。

在此聚类法中计算类与类之间距离的方法有多种,主要有最短距离法、最长距离法、中间距离法、重心法、类间平均法、类内平均法和离差平方和法七种方法。

各种系统聚类法的步骤完全一样，只是距离的递推公式不同。

我们先采用离差平方和法来进行聚类。

该方法是Ward提出来的，所以又称Ward法。

其基本思想来自于方差分析，如果分类正确，同类样品的离差平方和应当较小，类与类的离差平方和较大。

具体做法是先将n个样品各自成一类，然后每次缩小一类，每缩小一类，离差平方和就要增大，选择使方差增加最小的两类合并，直到所有的样品归为一类为止。

设将n个样品分成k类G1，G2，…，Gk，用Xit表示Gt中的第i个样品，nt表示Gt中样品的个数，

是Gt的重心，则Gt的样品离差平方和为

St=

（

）’（

）

如果Gp和Gq合并为新类Gr，类内离差平方和分别为

Sp=

（

）’（

）

Sq=

（

）’（

）

Sr=

（

）’（

）

它们反映了各自类内样品的分散程度，如果Gp和Gq这两类相距较近，则合并后所增加的离散平方和Sr-Sp-Sq应较小；否则，应较大。

于是定义Gp和Gq之间的平方距离为

Sr-Sp-Sq

其中，Gr=GpUGq，可以证明类间距离的递推公式为

（nk+np）/（nr+nk）

+（nk+nq）/（nr+nk）

-（nk）/（nr+nk）

。

K均值聚类分析

1967年,MacQueen首次提出了K均值聚类分析算法。

迄今为止,很多聚类任务都选择该经典算法.该算法的核心思想是找出K个聚类中心c1,c2,…,cK,使得每一个数据点xi和与其最近的聚类中心的平方距离和被最小化。

K均值聚类算法优点为:

能对大型数据集进行高效分类,其计算复杂性为O（tKmn）,其中,t为迭代次数,K为聚类数,m为特征属性数,n为待分类的对象数,通常,K,m,t<

2.聚类结果

根据表二的数据，首先按照离差平方和法进行聚类，得到结果如下，包括表三，表四以及图一。

首先会得到一个距离矩阵，选用距离为平方欧几里得距离，具体平方欧式距离见表三，聚类分析聚结表则参见表四。

个案

平方欧氏距离

.000

12.529

4.396

7.701

.329

12.489

12.847

31.814

9.078

8.862

12.529

.000

9.253

6.984

12.375

6.214

21.657

10.303

18.427

2.915

4.396

9.253

.000

10.451

4.178

11.957

4.823

28.455

3.650

7.468

7.701

6.984

10.451

.000

7.688

7.674

24.949

19.600

15.593

1.842

.329

12.375

4.178

7.688

.000

13.718

11.451

33.384

7.766

9.018

12.489

6.214

11.957

7.674

13.718

.000

31.301

8.308

25.785

6.952

12.847

21.657

4.823

24.949

11.451

31.301

.000

50.836

2.271

19.506

31.814

10.303

28.455

19.600

33.384

8.308

50.836

.000

44.564

15.632

9.078

18.427

3.650

15.593

7.766

25.785

2.271

44.564

.000

13.008

8.862

2.915

7.468

1.842

9.018

6.952

19.506

15.632

13.008

.000

表三

聚类分析聚结表

阶段

组合的集群

系数

首次出现阶段集群

下一个阶段

集群1

集群2

集群1

集群2

.165

1.086

2.221

4.667

7.660

11.814

20.226

29.443

63.000

表四

以及得到谱系图，见图一。

图一

从图一中可以清楚的看到：

西安市

（1）和渭南市（5）聚为一类（这个新类为表述方便起见记为A），汉中市（7）和安康市（9）聚为一类（记为B），之后宝鸡市（3）和B又聚为一类（记为C），之后A和C聚为一个大类。

咸阳市和商洛市聚为一类（记为D），延安市与榆林市聚为一类（记为E），D与铜川聚为一类（记为F），之后E和F聚为一个大类。

最后以上两个大类聚为一个大类。

之后我们根据离差平方和的聚类结果，得到K均值聚类中K取值为2比较合适。

再利用K均值聚类分析这一方法重新进行聚类，得到的结果如下，包括表五、表六、表七、表八、表九、表十。

K均值聚类分析：

1）初始聚类中心表，如表五所示，其中的原始数据已经经过z-score标准化：

初始聚类中心

聚类

Zscore（X1）

1.07141

-1.81003

Zscore（X2）

-1.22443

2.14076

Zscore（X3）

-.85135

1.85748

Zscore（X4）

1.42366

-1.84912

Zscore（X5）

1.72779

-.58695

Zscore（X6）

.43400

-1.70738

Zscore（X7）

1.75834

-.03499

表五

2）表六为迭代过程中类中心变化表。

从表六中可以看到本次聚类过程共经历了2次迭代。

由于我们在迭代过程中类中心的变化量的子对话框中使用系统默认的选项（最大迭代次数为10和收敛判据为0）。

所以在第二次迭代后，类中心的变化为0，从而停止迭代。

迭代历史记录a

迭代

聚类中心的更改

1.961

2.704

.000

a.由于聚类中心无更改或只有小的更改，因此达到了汇合。

任何中心的最大绝对坐标更改为.000。

当前迭代为2。

初始中心之间的最小距离是7.130。

表六

3）给出各观测量所属的类及与所属类中心的距离，如表七，其中的聚类列给出了观测量所属的类别，距离列给出了观测量与所属中心的距离。

聚类成员

个案号

聚类

距离

1.703

1.351

.989

1.940

1.521

1.540

1.961

2.704

1.457

1.418

表七

4）给出聚类结果形成的类中心的个变量值，如表八。

最终聚类中心

聚类

Zscore（X1）

.77109

-.77109

Zscore（X2）

-.73962

.73962

Zscore（X3）

-.77395

.77395

Zscore（X4）

.47455

-.47455

Zscore（X5）

.81843

-.81843

Zscore（X6）

.71831

-.71831

Zscore（X7）

.45180

-.45180

表八

5）最终聚类中心间的距离如表九。

最终聚类中心之间的距离

聚类

3.664

表九

6）每个聚类中的个案数量。

每个聚类中的个案数量

聚类

5.000

有效

10.000

缺失

.000

表十

结合表七，表八，表十。

可以看出十个城市分为两类。

第一类为：

西安市，宝鸡市，渭南市，汉中市，安康市。

第二类为：

铜川市，咸阳市，延安市，榆林市，商洛市。

四、分类结果分析

K均值聚类分析的一个很明显的缺点在于算法中K是事先给定的，本文先利用离差平方和法的出分类结果，取K值为2.之后再进行了K均值聚类。

这在一定程度上使得两种聚类结果较为相近。

我们利用两种聚类方法所得到的结果基本一致。

这说明了聚类结果的可靠性较强。

在所得城市分类中，第一类为：

西安市，宝鸡市，渭南市，汉中市，安康市。

第二类为：

铜川市，咸阳市，延安市，榆林市，商洛市。

但是明显的，离差平方和法的层次感更强，能够获知哪两个城市间相近，即聚类的全过程。

但是如果要进行聚类的城市是全国的城市气候，那么系统聚类的谱系图绝对是复杂的，不如K均值的聚类结果要好。

所以，方法没有好坏，要看其适用范围。

西安市和渭南市气候相近，汉中市和安康市气候相近，咸阳市和商洛市气候相近。

从卫星地图上来看，基本上相近的城市间距离都较近，且有相似的经纬度与地理环境。

如汉中市和安康市的卫星地图显示，这两座城市周围基本上都是山，且两市直线距离较近；又如咸阳市与商洛市，卫星上显示两者的色泽基本一致，但明显与西安市不同，西安市与渭南市相近，这两个城市的颜色较前两者深。

西安市之所以和咸阳距离最近，却不归为一类的原因可能在于：

西安市城镇化建设过快，自然资源损失较为严重，河流挖沙断流，树木砍伐过剩，导致气候变化不同于咸阳市。

咸阳市周边树木较多，绿化程度较高，而且有河流经过。

所以这可能是气候不同于咸阳市的原因。

五、建议与对策

1）关中地区:

西安等地，属于温带大陆性季风气候，全年降雨较为充沛，气温温差较小，四季分明，在古时候素有“中原粮仓”之称，气候条件对于发展农业非常适合。

在现有基础上，保持经济发展缓速发展，遏制其重工业的快速发展，实行可持续发展战略，绝不能先污染后治理的道路。

2）陕南地区:

陕南水力、矿产、生物资源丰富,四季气候分明，冬无严寒、夏无酷暑,汉中、安康的陕南现代生物医药产业基地建设,推动矿产、生物、水力三大资源的开发,形成陕南水力、矿产、生物资源开发带;在此基础上，一定要保护好环境，加强生态建设。

3）陕北地区:

延安市、榆林市等。

半干旱气候，基本上都属于中温带干旱大陆性季风气候，而又属西风带，日照充足,四季分明,气候多变,温差较大,气温偏寒,雨少不匀,春多风沙,夏季多雨,冬季受干燥而寒冷的变性极地大陆性气团控制，形成低湿、寒冷、降水稀少的气候特点。

在发展油田等能源的同时，注意这里的气候多变，应加强气候监测与环境治理。

参考文献

[1]惠俊刚.陕西区域经济发展水平的聚类分析[J].兰州商学院学报，2007

（2）：

55-70.

[2]朱建平.应用多元统计分析[M].科学出版社,2006.

[3]孙吉贵.聚类算法研究[J].软件学报,2008

（1）：

48-61.

[4]何晓群.多元统计[M].北京：

中国人民大学出版社，2002.

[5]张文彤.IBM SPSS数据分析与挖掘实战案例精粹[M].清华大学出版社，2013

[6]胡雷芳.五种常用系统聚类分析方法及其比较[J].浙江统计，2007（4）:

11-13

展开阅读全文

多元统计考试小论文 陕西省气候差异的聚类分析.docx

多元统计考试小论文陕西省气候差异的聚类分析.docx