多元统计考试小论文陕西省气候差异的聚类分析.docx-资源下载

多元统计考试小论文陕西省气候差异的聚类分析.docx

1、多元统计考试小论文陕西省气候差异的聚类分析陕西省气候差异的聚类分析摘要：本文以陕西省10个地级城市为研究对象，选取2012年陕西省气候的相关数据，利用SPSS 22.0软件，对陕西省各大城市的平均气温、日照时数、平均风速、相对湿度、无霜期、气压、降水量，共七个指标进行系统聚类分析和K均值聚类分析，并比较聚类的结果，对10个地级城市的气候进行了客观评价。最后，提出了一些相应的对策与建议，为有关部门政策的制定提供参考与依据。关键词：陕西省，气候，聚类分析，SPSS 22.0引言气候在各个地区不尽相同，又与人们的生活息息相关。距离很近的两个城市，气候可能相同，也有可能不同。陕西南北狭长，地形多样

2、，气候差异很大，且明显区分为三个气候带，即温带、暖温带和北亚热带。其中，陕南属于北亚热带气候，关中及陕北大部属暖温带气候，陕北北部长城沿线属中温带气候。基于陕西省气候分类如此之多，故而对陕西省各大城市的气候差异进行聚类分析，有一定的实际意义与研究价值。聚类分析是分析样品（或变量）量化分类的问题。本文选用多元统计分析中聚类分析的系统聚类分析方法与K均值聚类分析方法，对陕西省各大城市的气候指标进行聚类分析，比较各地区间的气候差异，结合所得结果与实际情况，提出相应建议。下面简要介绍本文所使用的两种聚类方法。系统聚类：其基本思想是为距离相近的样品（或变量）先聚成类，距离相远的后聚成类，过程一直进行下去

3、，每个样品（或变量）总能聚到合适的类中。系统聚类的过程是：假设总共有n个样品（或变量），第一步将每个样品（或变量）独自聚成一类，共有n类；第二步根据所确定的样品（或变量）“距离”公式，把距离较近的两个样品（或变量）聚合为一类，其他的样品（或变量）仍各自聚为一类，共聚成n-1类；第三步将“距离”最近的两个类进一步聚成一类，共聚成n-2类；以上步骤一直进行下去，最后将所有的样品（或变量）聚成一类。在这个过程中，如果某些类的最近距离相等，则可以把这几类聚成一类。为了直观地反映以上的聚类分析过程，常选择把整个分类系统地画成一张谱系图。K均值聚类方法：其基本思想是将每一个样品分配给最近中心（均值）的类中

4、，具体算法至少包括三个步骤：（1），将所有的样品分成K个初始类；（2），通过欧几里得距离将某个样品划入离中心最近的类中，并对获得样品与失去样品的类，重新计算中心坐标；（3）重复步骤（2），直到所有的样品都不能再分配时为止。K均值聚类算法是一种最为广泛使用的聚类方法，这种算法对于大型数据有着明显的优势，具有可伸缩性和高效的性能，通常样本量大于100时我们才进行考虑。本文只是展示这种聚类分析的运算过程，才选取该方法进行说明。一、指标体系的建立及数据来源地区间的气候差异受到诸多因素影响。本文借鉴研究气候所使用的方法和多元统计分析方法，结合陕西省自身的情况与特点，考虑了具有综合性、代表性、可比性、可得

5、性和简洁性的一系列指标，从中选取一些公认的指标，构建陕西省各地区气候指标体系。根据2012年陕西省统计年鉴的数据，选择能够反映陕西省气候差异的平均气温（X1）、日照时数（X2）、平均风速（X3）、相对湿度（X4）、无霜期（X5）、气压（X6）、降水量（X7）共7项指标构建本文研究区的气候差异指标体系。以上7项指标基本能够反映研究区的气候差异情况，具体数据如表一所示。2012年陕西省各地区气候指标指标城市平均气温(摄氏度)X1日照时数(小时)X2平均风速(米/秒)X3相对湿度(%)X4无霜期(天)X5气压(百帕)X6降水量(毫米)X7西安市14.61544.81.262223969.44

6、26.7铜川市10.32007.12.267217904.7502.8宝鸡市13.41642.11.267224945.3715.3咸阳市13.02051.61.966199960.7402.5渭南市14.51638.71.265225974.4418.1延安市10.32463.01.458206907.0481.8汉中市15.51278.71.274238955.8869.7榆林市8.42992.22.654210884.7566.8安康市15.81523.51.473225981.3815.3商洛市12.81879.92.167204930.6528.1

7、表一研究的数据主要来自2012年陕西省统计年鉴和陕西省各个城市政府网站，原始数据略。二、距离的选择与数据预处理在进行聚类之前，首先要分析样品间的相似性，我们用距离来测度样品之间的相似程度。例如，如果每个样品有p个指标（变量）从不同方面描述其性质，形成一个p维向量。如果将n个样品看成p维空间中的n个点，则两个样品间相似程度就可用p维空间中的两点距离公式来度量。两点间的距离公式可以从不同角度进行定义，存在闵可夫斯基距离，马氏距离与兰氏距离等距离。一般的，同一批数据采用不同的距离公式，得到的分类结果也不大相同。产生不同结果的原因，主要是由于不同的距离公式的侧重点和实际意义都有不同。选择距离公式应遵

8、循以下原则：（1）要考虑所选距离公式在实际应用中有明确的意义。例如欧几里得距离就有非常明确的空间距离的概念，马氏距离有消除量纲影响的作用。（2）要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析前已经对变量作了标准化处理，则通常就可采用欧几里得距离。（3）要考虑研究对象的特点和计算量的大小。依照以上原则，我们先对数据进行标准化处理，之后根据所用聚类方法选取平方欧几里得距离作为距离。由于表一中各个变量间存在不同量纲，不同数量级的情况，为使各个变量更具可比性，使数据可以在平等的条件下进行分析，要对数据进行预处理。常用的数据标准化方法有：Min-max 标准化方法，z-

9、score 标准化方法，Decimal scaling小数定标标准化方法等等，SPSS 22.0默认的数据标准化方法为z-score标准化方法。我们在此也不多做其它的标准化转换，直接利用SPSS 22.0软件默认的z-score标准化方法对原数据进行预处理。z-score是基于原始数据的均值和标准差进行数据的标准化，适用于原始数据最大值和最小值未知的情况，或有超出取值范围的离群数据的情况，其转换公式为：新数据=（原数据-均值）/标准差。根据这一数据标准化方法，对2012年陕西省各地区各项气候指标进行转换，得到转换后的新数据如表二。2012年陕西省各地区气候指标聚类分析数据指标城市X1X2X3

10、X4X5X6X7西安市.70615-.70183-.85135-.54001.48775.84360-.86446铜川市-1.03894.206091.08353.27819-.00827-1.10503-.41390宝鸡市.21915-.51074-.85135.27819.57042.11776.84421咸阳市.05682.29349.50307.11455-1.49632.58158-1.00773渭南市.66557-.51742-.85135-.04909.65309.99419-.91537延安市-1.038941.10145-.46437-1.19457-

11、.91763-1.03576-.53824汉中市1.07141-1.22443-.851351.423661.72779.434001.75834榆林市-1.810032.140761.85748-1.84912-.58695-1.70738-.03499安康市1.19316-.74366-.464371.26002.653091.202011.43626商洛市-.02435-.04372.89004.27819-1.08297-.32497-.26411表二三、聚类分析对表二中的7个变量进行聚类分析，在这里我们利用spss 22.0软件进行这一过程。为确保分类结果的准确性及

12、比较的可行性,本文将采用两种聚类方法。1. 聚类方法的选择：系统聚类法。在此聚类法中计算类与类之间距离的方法有多种,主要有最短距离法、最长距离法、中间距离法、重心法、类间平均法、类内平均法和离差平方和法七种方法。各种系统聚类法的步骤完全一样，只是距离的递推公式不同。我们先采用离差平方和法来进行聚类。该方法是Ward提出来的，所以又称Ward法。其基本思想来自于方差分析，如果分类正确，同类样品的离差平方和应当较小，类与类的离差平方和较大。具体做法是先将n个样品各自成一类，然后每次缩小一类，每缩小一类，离差平方和就要增大，选择使方差增加最小的两类合并，直到所有的样品归为一类为止。设将n个样品分成k

13、类G1，G2，Gk，用Xit表示Gt中的第i个样品，nt表示Gt中样品的个数，是Gt的重心，则Gt的样品离差平方和为St=（-）（-）如果Gp和Gq合并为新类Gr，类内离差平方和分别为Sp=（-）（-）Sq=（-）（-）Sr=（-）（-）它们反映了各自类内样品的分散程度，如果Gp和Gq这两类相距较近，则合并后所增加的离散平方和Sr - Sp - Sq 应较小；否则，应较大。于是定义Gp和Gq之间的平方距离为Sr - Sp - Sq其中，Gr=GpUGq，可以证明类间距离的递推公式为（nk+np）/（nr+nk）+ （nk+nq）/（nr+nk）-（nk）/（nr+nk）。K均值聚类分析1967

14、年,MacQueen 首次提出了K均值聚类分析算法。迄今为止,很多聚类任务都选择该经典算法.该算法的核心思想是找出K 个聚类中心c1,c2,cK,使得每一个数据点xi 和与其最近的聚类中心的平方距离和被最小化。K 均值聚类算法优点为:能对大型数据集进行高效分类,其计算复杂性为O(tKmn),其中,t 为迭代次数,K 为聚类数,m 为特征属性数,n 为待分类的对象数,通常,K,m,tn.在对大型数据集聚类时,K均值分析算法比层次聚类分析算法快得多.不足之处在于该算法通常会在获得一个局部最优值时终止;仅适合对数值型数据聚类;只适用于聚类结果为凸形(即类簇为凸形)的数据集以及K的取值。2.聚类结果

15、根据表二的数据，首先按照离差平方和法进行聚类，得到结果如下，包括表三，表四以及图一。首先会得到一个距离矩阵，选用距离为平方欧几里得距离，具体平方欧式距离见表三，聚类分析聚结表则参见表四。个案平方欧氏距离123456789101.00012.5294.3967.701.32912.48912.84731.8149.0788.862212.529.0009.2536.98412.3756.21421.65710.30318.4272.91534.3969.253.00010.4514.17811.9574.82328.4553.6507.46847.7016.98410.451.0007.6887

16、.67424.94919.60015.5931.8425.32912.3754.1787.688.00013.71811.45133.3847.7669.018612.4896.21411.9577.67413.718.00031.3018.30825.7856.952712.84721.6574.82324.94911.45131.301.00050.8362.27119.506831.81410.30328.45519.60033.3848.30850.836.00044.56415.63299.07818.4273.65015.5937.76625.7852.27144.564.0001

17、3.008108.8622.9157.4681.8429.0186.95219.50615.63213.008.000表三聚类分析聚结表阶段组合的集群系数首次出现阶段集群下一个阶段集群 1集群 2集群 1集群 2115.16500724101.0860053792.2210044374.6670375247.66002866811.81400871320.22614982629.44356991263.000780表四以及得到谱系图，见图一。图一从图一中可以清楚的看到：西安市（1）和渭南市（5）聚为一类（这个新类为表述方便起见记为A），汉中市（7）和安康市（9）聚为一类（记为B），之后宝鸡市（

18、3）和B又聚为一类（记为C），之后A和C聚为一个大类。咸阳市和商洛市聚为一类（记为D），延安市与榆林市聚为一类（记为E），D与铜川聚为一类（记为F），之后E和F聚为一个大类。最后以上两个大类聚为一个大类。之后我们根据离差平方和的聚类结果，得到K均值聚类中K取值为2比较合适。再利用K均值聚类分析这一方法重新进行聚类，得到的结果如下，包括表五、表六、表七、表八、表九、表十。 K均值聚类分析：1）初始聚类中心表，如表五所示，其中的原始数据已经经过z-score标准化：初始聚类中心聚类12Zscore(X1)1.07141-1.81003Zscore(X2)-1.224432.14076Zscore(

19、X3)-.851351.85748Zscore(X4)1.42366-1.84912Zscore(X5)1.72779-.58695Zscore(X6).43400-1.70738Zscore(X7)1.75834-.03499表五2）表六为迭代过程中类中心变化表。从表六中可以看到本次聚类过程共经历了2次迭代。由于我们在迭代过程中类中心的变化量的子对话框中使用系统默认的选项（最大迭代次数为10和收敛判据为0）。所以在第二次迭代后，类中心的变化为0，从而停止迭代。迭代历史记录a迭代聚类中心的更改1211.9612.7042.000.000a. 由于聚类中心无更改或只有小的更改，因此达到了汇合。

20、任何中心的最大绝对坐标更改为 .000。当前迭代为 2。初始中心之间的最小距离是 7.130。表六3）给出各观测量所属的类及与所属类中心的距离，如表七，其中的聚类列给出了观测量所属的类别，距离列给出了观测量与所属中心的距离。聚类成员个案号聚类距离111.703221.35131.989421.940511.521621.540711.961822.704911.4571021.418表七4）给出聚类结果形成的类中心的个变量值，如表八。最终聚类中心聚类12Zscore(X1).77109-.77109Zscore(X2)-.73962.73962Zscore(X3)-.77395.77395Z

21、score(X4).47455-.47455Zscore(X5).81843-.81843Zscore(X6).71831-.71831Zscore(X7).45180-.45180表八5）最终聚类中心间的距离如表九。最终聚类中心之间的距离聚类1213.66423.664表九6）每个聚类中的个案数量。每个聚类中的个案数量聚类15.00025.000有效10.000缺失.000表十结合表七，表八，表十。可以看出十个城市分为两类。第一类为：西安市，宝鸡市，渭南市，汉中市，安康市。第二类为：铜川市，咸阳市，延安市，榆林市，商洛市。四、分类结果分析K均值聚类分析的一个很明显的缺点在于算法中 K 是事

22、先给定的，本文先利用离差平方和法的出分类结果，取K值为2.之后再进行了K均值聚类。这在一定程度上使得两种聚类结果较为相近。我们利用两种聚类方法所得到的结果基本一致。这说明了聚类结果的可靠性较强。在所得城市分类中，第一类为：西安市，宝鸡市，渭南市，汉中市，安康市。第二类为：铜川市，咸阳市，延安市，榆林市，商洛市。但是明显的，离差平方和法的层次感更强，能够获知哪两个城市间相近，即聚类的全过程。但是如果要进行聚类的城市是全国的城市气候，那么系统聚类的谱系图绝对是复杂的，不如K均值的聚类结果要好。所以，方法没有好坏，要看其适用范围。西安市和渭南市气候相近，汉中市和安康市气候相近，咸阳市和商洛市气候相近

23、。从卫星地图上来看，基本上相近的城市间距离都较近，且有相似的经纬度与地理环境。如汉中市和安康市的卫星地图显示，这两座城市周围基本上都是山，且两市直线距离较近；又如咸阳市与商洛市，卫星上显示两者的色泽基本一致，但明显与西安市不同，西安市与渭南市相近，这两个城市的颜色较前两者深。西安市之所以和咸阳距离最近，却不归为一类的原因可能在于：西安市城镇化建设过快，自然资源损失较为严重，河流挖沙断流，树木砍伐过剩，导致气候变化不同于咸阳市。咸阳市周边树木较多，绿化程度较高，而且有河流经过。所以这可能是气候不同于咸阳市的原因。五、建议与对策1）关中地区:西安等地，属于温带大陆性季风气候，全年降雨较为充沛，气

24、温温差较小，四季分明，在古时候素有“中原粮仓”之称，气候条件对于发展农业非常适合。在现有基础上，保持经济发展缓速发展，遏制其重工业的快速发展，实行可持续发展战略，绝不能先污染后治理的道路。2）陕南地区:陕南水力、矿产、生物资源丰富, 四季气候分明，冬无严寒、夏无酷暑,汉中、安康的陕南现代生物医药产业基地建设,推动矿产、生物、水力三大资源的开发,形成陕南水力、矿产、生物资源开发带;在此基础上，一定要保护好环境，加强生态建设。 3）陕北地区:延安市、榆林市等。半干旱气候，基本上都属于中温带干旱大陆性季风气候，而又属西风带，日照充足,四季分明,气候多变,温差较大,气温偏寒,雨少不匀,春多风沙,夏季多

25、雨,冬季受干燥而寒冷的变性极地大陆性气团控制，形成低湿、寒冷、降水稀少的气候特点。在发展油田等能源的同时，注意这里的气候多变，应加强气候监测与环境治理。参考文献1 惠俊刚. 陕西区域经济发展水平的聚类分析J. 兰州商学院学报，2007（2）：55-70.2 朱建平.应用多元统计分析M.科学出版社,2006.3 孙吉贵. 聚类算法研究J.软件学报,2008(1)：48-61.4 何晓群.多元统计M.北京：中国人民大学出版社，2002.5 张文彤. IBMSPSS数据分析与挖掘实战案例精粹M.清华大学出版社，20136 胡雷芳. 五种常用系统聚类分析方法及其比较J.浙江统计，2007（4）:11-13

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

多元统计考试小论文 陕西省气候差异的聚类分析.docx