聚类分析在城市大气质量数据挖掘中的应用研究.docx
《聚类分析在城市大气质量数据挖掘中的应用研究.docx》由会员分享,可在线阅读,更多相关《聚类分析在城市大气质量数据挖掘中的应用研究.docx(14页珍藏版)》请在冰豆网上搜索。
![聚类分析在城市大气质量数据挖掘中的应用研究.docx](https://file1.bdocx.com/fileroot1/2022-11/24/603fd305-3daa-4d99-a13e-f377b219127d/603fd305-3daa-4d99-a13e-f377b219127d1.gif)
聚类分析在城市大气质量数据挖掘中的应用研究
聚类分析在城市大气质量数据挖掘中的应用研究
聚类分析在城市大气质量数据
挖掘中的应用研究
TheResearchonClusteringAnalysisanditsApplicationinCityAirQualityDataMining
摘要:
数据挖掘是指从数据库中发现隐含的、新颖的、有用的信息的过程,而聚类分析则是数据挖掘的主要技术手段之一,至今已在理论和方法上取得了丰硕的研究成果。
近年来,大气环境污染问题日益严重。
人们越来越关注环境保护与可持续发展,人类活动所排放的气体污染物将会受到严格限制。
城市大气质量监测具有典型的数据密集型特征,而如何对监测到的城市大气质量数据进行分类、并针对不同的城市群制定和实施差异化发展战略,己成为当前大气环境保护的迫切要求。
本文基于全国31个省会城市大气质量监测数据及其特性,提出利用聚类分析算法,并借助SPSS统计分析软件,进行全国省会城市群梯度分类的方法。
关键字:
数据挖掘、聚类分析、大气污染、城市细分
Abstract:
Dataminingistheprocedureofextractingofimplicit,original,usefulknowledgeinthedatabase,whileclusteringanalysisisoneofthemaintechnologymeasuresintheresearchondataminingwithamassoftheoriesandmethodsachieved.Inrecentyears,atmospherepollutionhasbecomeincreasinglyserious.Withthemoreandmoreattentiontoenvironmentandsustainabledevelopment,thegaspollutantsofhumanactivitieswillbestrictlylimited.Thecityairqualitymonitoringhasthetypicaldataintensivefeature,aswellashowtosubdividethemonitoredcityairqualitydataandhowtodevelopandimplementdifferentdevelopmentstrategiestodifferentcitiesgroup,whichhasalreadybecomeinstantdemandtoprotecttheenvironmentatthepresenttime.AmethodisputforwardthatusingclusteringanalysissubdividetheinteriorcapitalcitieswiththehelpofSPSSstatisticalanalysissoftwarebasedontheairqualitymonitoringdataof31interiorcapitalcitiesinthisthesis.
Keywords:
datamining,clusteranalysis,atmospherepollution,citysubdivision
第1章绪论
1.1我国大气污染现状[1]
大气污染是世界各国面临的最严峻环境问题,如何防止大气污染已被各国政府高度重视。
随着经济快速发展及城市化和工业化发展加剧,能源消耗迅速增加,大气污染日益严重。
中国大气环境面临的形势尤其严峻,中国已是世界少数大气污染最严重的国家之一,大气污染防治任务艰巨,任重而道远。
中国大气污染的主要来源是生活和生产用煤,主要污染物是颗粒物和SO2。
颗粒物是影响中国城市空气质量的主要污染物,SO2污染也保持在较高水平。
随着机动车辆迅猛增加,中国部分城市的大气污染特征正在由烟煤型向汽车尾气型转变,NOX呈加重趋势,有些城市已出现光化学烟雾现象。
1.2大气污染物的主要危害
1.2.1颗粒物的危害[2]
目前,人们十分关注大气中的颗粒物污染,尤其是PM2.5,它可以通过呼吸道,进入肺泡,在肺泡内积聚,引发各种疾病。
大气中的颗粒物浓度对人体健康的危害是不完全一样的,浓度越高,危害越严重。
此外,颗粒物的大小对人体健康的危害程度也不一样。
颗粒愈小,对人体的危害愈大。
100微米以上的颗粒物,在大气中滞留时间很短,可以很快沉落地面。
对人体健康影响不普遍。
100微米以下的颗粒物,可以长期在空气中滞留,对人体健康和空气的能见度,有不良影响;10微米以下的颗粒物,可以进入呼吸道,引发呼吸道疾病;2.5微米以下的颗粒物,可进入肺泡,引发肺气肿等;1.0微米以下的颗粒物,通过肺泡,进入血液系统,引发多种疾病。
1.2.2硫氧化物的危害[3]
SOX是大气的主要污染物之一,在危害人体健康的同时,还会对设备、建筑物造成损害。
SO2是无色、有刺激性臭味的气体,对人体的危害主要表现在对呼吸系统的刺激。
人体吸入SO2后,会刺激上呼吸道粘膜表层的迷走神经末稍,使呼吸道的抵抗力减弱,诱发慢性呼吸道疾病,严重的可导致肺水肿和肺心性疾病。
如果大气中同时有颗粒物质存在,颗粒物质吸附了高浓度的硫氧化物,可以进入肺的深部。
因此当大气中同时存在硫氧化物和颗粒物质时其危害程度可增加3~4倍。
第2章数据挖掘和聚类分析
2.1数据挖掘
数据挖掘的含义是指从大量的、模糊的、随机的实际应用数据中,提取隐藏在其内部中、人们原先不知晓的、却潜在有用的信息和知识的过程[4]。
我们把提取出的信息和知识表示为规律、概念、模式、规则等形式。
数据挖掘被认为是一门跨多知识领域和学科的新兴课题,它为我们使用数据从简单查询将变为在数据里挖掘与发现知识从而产生对决策行为提供支持。
通常情况下,我们把数据挖掘方法分为两大方面:
一是统计类型,有概率分析、相关性、聚类分析和判别分析等常用技术;二是人工智能领域中的机器学习型,通过训练和学习大量的样品集获得需要的模式或参数。
2.2聚类分析[5]
2.2.1聚类分析基本概念
聚类分析是数据挖掘的一项重要的方法。
聚类就是对数据集中的数据应用某种方法进行分组,把具有相似性质的事物区分开加以分类。
也就是将大量的数据划分成群组的过程,即把对象分成多个类,在同一个类中的数据对象之间具有较高的相似度,而不同类中的数据对象差别较大。
它对发现数据集内在的结构起着非常重要的作用。
聚类分析中用距离来表征不同类之间的相似程度,主要有欧氏距离和闵氏距离等,相似程度越大,距离越短。
2.2.2聚类分析的算法
聚类分析的内容十分丰富,一般情况下按方法可以分为以下几种:
非系统聚类法、系统聚类法、分解聚类法、动态聚类法、有序样品聚类法和降维法等。
非系统聚类法的典型代表是快速聚类法,即k值聚类法(K-MeansCluster),该过程可完成由用户指定类别数的大样本资料的逐步聚类分析。
所谓逐步聚类分析就是先把被聚对象进行初始分类,然后逐步调整,直到得到最终分类。
系统聚类法的典型代表是分层聚类法(HierarchicalCluster),按照分类对象的不同可以分为R型和Q型两大类,R型是对变量进行分类,Q型是对样品进行分类。
其优点是既可以对观测量(样本)进行聚类,也可以对变量进行聚类,对象既可以是连续变量也可以是分类变量。
下面章节就讲述了将聚类分析应用到国内31个省会城市大气质量监测数据的处理当中,并按照最终的计算结果对这31个省会城市进行聚类分组。
第3章聚类分析在城市大气质量数据分析中的应用
3.1运用k值聚类法分析城市大气质量数据
3.1.1k值聚类分析过程[7]
首先在SPSS中激活的数据管理窗口中输入31个城市的名称、颗粒物年平均浓度、二氧化硫年平均浓度、二氧化碳年平均浓度和一年中空气质量达标天数,并进行标准化处理。
设定聚类数k=5,最大迭代次数为10次,收敛标准值为0.02,计算机随机选择初始聚心。
表3.1、3.2、3.3、3.4分别是初始聚类中心表、迭代历史记录表、最终聚类中心表和聚类结果表。
表3.1初始聚类中心
聚类
1
2
3
4
5
颗粒物
1.13536
-2.60986
-.69835
1.85773
-2.08753
二氧化硫
-.00345
-.21759
1.38844
1.13861
-1.71655
二氧化碳
1.92011
-.50421
-1.07839
-1.20598
-1.78017
天数
-1.38581
-.72026
.93288
-1.49316
1.55549
表3.2迭代历史记录
迭代
聚类中心内的更改
1
2
3
4
5
1
1.439
.000
1.499
1.292
1.344
2
.105
.000
.204
.486
.000
3
.000
.000
.000
.000
.000
表3.3最终聚类中心
聚类
1
2
3
4
5
颗粒物
.31112
-2.60986
-.05470
1.141320
-1.03731
二氧化硫
.24241
-.21759
.32073
.59434
-1.63803
二氧化碳
1.28213
-.50421
-.35003
-.40851
-1.04011
天数
-.29565
-.72026
.36215
-1.70248
1.16904
表3.4k聚类分析结果
聚类
有效
缺失
1
2
3
4
5
9.000
1.000
12.000
4.000
5.000
31.000
.000
3.1.1k值聚类结果讨论
从k值聚类分析的结果中可以看到,31个省会城市共分为五类:
第一类城市群里共包含有9个城市,分别是北京、天津、哈尔滨、上海、南京、杭州、武汉、广州、重庆;
第二类城市群里只有一个城市,西安;
第三类城市群里共包含有12个城市,分别是石家庄、呼和浩特、沈阳、南昌、郑州、南宁、成都、贵阳、昆明、西宁、乌鲁木齐、银川;
第四类城市群共包含有4个城市,分别是太原、济南、长沙、兰州;
第五类城市群共包含有5个城市,分别是长春、合肥、福州、海口、拉萨。
第一类城市
第二类城市
第三类城市
第四类城市
第五类城市
图3.1全国省会城市大气质量监测数据k值聚类结果
从上图我们不难看出,像北上广这样的大都市和哈尔滨等重工业城市的大气质量较差,并且都分布在东部沿海地区,而东部地区经济相对比较发达;而像拉萨、兰州等这些西部城市,经济发展相对滞后,所以大气质量相对要好些。
可见,大气质量和环境的好坏与当地的经济发展水平的确有一定的联系。
3.2运用分层聚类法分析城市大气质量数据
在城市大气质量数据中,现在有4个变量影响最后的城市群细分。
那么这4个变量对不同城市大气质量排名结果的影响程度是否相同呢?
哪个才是最主要的因素呢?
针对于这个问题,我们有必要进行SPSS中的R型聚类(变量聚类)过程。
3.2.1R型聚类分析过程
选用SPSS中R型聚类分析,输出相似性矩阵,度量标准选用Pearson相关性,聚类方法选择组间联接。
表3.5、3.6分别是相似矩阵表和聚类结果表(组间平行联接),图3.2是聚类结果所输出的树状图。
表3.5R型聚类相似矩阵
案例
矩阵文件输入
颗粒物
二氧化硫
二氧化碳
天数
颗粒物
1.000
.449
.321
-.712
二氧化硫
.449
1.000
.330
-.477
二氧化碳
.321
.330
1.000
-.291
天数
-.712
-.477
-.291
1.000
表3.6R型聚类表
阶
群集组合
系数
首次出现阶群集
下一阶
群集1
群集2
群集1
群集2
1
1
2
.449
0
0
2
2
1
3
.326
1
0
3
3
1
4
-.493
2
0
0
图3.2R型聚类树状图
3.2.2R型聚类结果讨论
如果两个变量的相似性系数接近于1或者-1,那么这两个变量可以相互替代。
从表3.5相似性矩阵表中可以看到,任何两个变量相似性系数的绝对值都在0.29-0.72之间,所以均不可以相互替代。
从表3.6聚类结果表和树状图中可以看出,这4个变量按照对最终城市大气质量综合排名的影响程度的大小可以分为三类:
颗粒物年平均浓度和二氧化硫年平均浓度为一类,对最终的城市大气质量综合排名影响最小;
二氧化碳年平均浓度为一类,其对最终的城市大气质量综合排名影响中等;
全年空气质量达标天数为一类,对城市大气质量综合排名的影响最大,并且远远超过其他三个因素。
3.2.3Q型聚类分析过程
之前进行的k值聚类分析得出了31个省会城市细分为五类的结果,而这个是我们在确定了分类数的基础上所得到的结论,它能够真实的反映在四因素影响下31个省会城市大气质量监测数据之间的内在关联吗?
在知道了各个因素对结果影响程度的大小之后,我们可以通过Q型聚类分析来确定这些数据到底分为几类才能正确反映出它们之间的内在关联。
进行Q型聚类分析之前要先对数据进行标准化,然后我们仍然选择输出相似性关系表和树状图,但是度量标准选用Euclidean距离,聚类方法选择最近距离法。
附表A、B分别是相似矩阵表和聚类结果表,图3.3是聚类结果所输出的树状图。
图3.3Q型聚类树状图
3.2.4Q型聚类结果讨论
从表3.8聚类结果表和树状图中,可以看到和k值聚类所不同的聚类结果。
这里最终的聚类数则具有较大的变化空间,为了方便和k值聚类的结果进行对比,我们仍然确定聚类数为5,得到如下的聚类结果:
第一类城市群:
南京、杭州、哈尔滨、天津、成都、南宁、昆明、上海、沈阳、郑州、银川、南昌;
第二类城市群:
武汉、广州、乌鲁木齐、呼和浩特、石家庄;
第三类城市群:
兰州、济南、北京、长沙、太原、西宁、合肥;
第四类城市群:
长春、福州、海口、拉萨;
第五类城市群:
西安、重庆、贵阳。
图3.4全国省会城市大气质量监测数据Q型聚类结果
从上图我们依然可以看出,东部地区省会城市的大气质量普遍低于中西部地区省会城市的大气质量,经济越发达,大气质量越差,如东三省、京津冀、长三角等。
但是具体城市的大气质量分布和k值聚类所得出的结果有一定的不同。
尽管如此,由这两个结果可以看出,我国城市的大气环境质量具有一定的区域集中性,并且与经济发展水平也有一定的相关性。
第4章结果与讨论
文章分别利用k值聚类分析、R型聚类分析和Q型聚类分析的方法,对全国省会城市大气质量监测数据进行聚类细分,得到了不同但又趋势上大体相近的结果。
根据图3.1和图3.4,可以总结出在我国存在着几大城市群的地方:
京津冀、长三角、珠三角、山东半岛、辽中南、中原、长江中游、川渝和关中城市群等,大气质量普遍不太乐观。
由环境参数聚类分析,结果与经济水平比照,可以看出城市群的形成对大气环境存在着一定的影响,其中影响最大的要属长三角、珠三角、京津冀地区。
当然,某一区域的大气环境不仅受人为因素的影响,其地势、气候等自然因素的干扰也占很大的比率,如城市之间、城市群之间存在大气远距离传输过程。
因此,在制定相应的环境控制政策过程中,应充分考虑到人为因素、自然因素的影响以及该地区的经济发展水平。
参考文献
[1]郭海强.浅谈中国城市大气污染现状及其对策[J].能源与节能,2015,10:
107-108.
[2]杨新兴,冯丽华,尉鹏.大气颗粒物PM2.5及其危害[J].前沿科学,2012,01:
22-31.
[3]万霖,何凌燕,黄晓锋.船舶大气污染排放的研究进展[J].环境科学与技术,2013,05:
57-62.
[4]王雅轩,顼聪.数据挖掘技术的综述[J].电子技术与软件工程,2015,08:
204-205.
[5]许丽利.聚类分析的算法及应用[D].吉林大学,2010.
[6]王雯雯,赵智杰.中国城市大气污染区域特征主成分及聚类分析研究[J].中国环境科学学
会,2010.
[7]谢明霞,郭建忠,陈科.改进k中值聚类及其应用[J].烟台大学学报(自然科学与工程
版),2010,03:
217-222.
附表AQ型聚类相似矩阵
附表BQ型聚类结果表