22天津市PM25及其前体物浓度空间分布影响因素的量化研究文档格式.docx

上传人:b****6 文档编号:21833308 上传时间:2023-02-01 格式:DOCX 页数:19 大小:256.62KB
下载 相关 举报
22天津市PM25及其前体物浓度空间分布影响因素的量化研究文档格式.docx_第1页
第1页 / 共19页
22天津市PM25及其前体物浓度空间分布影响因素的量化研究文档格式.docx_第2页
第2页 / 共19页
22天津市PM25及其前体物浓度空间分布影响因素的量化研究文档格式.docx_第3页
第3页 / 共19页
22天津市PM25及其前体物浓度空间分布影响因素的量化研究文档格式.docx_第4页
第4页 / 共19页
22天津市PM25及其前体物浓度空间分布影响因素的量化研究文档格式.docx_第5页
第5页 / 共19页
点击查看更多>>
下载资源
资源描述

22天津市PM25及其前体物浓度空间分布影响因素的量化研究文档格式.docx

《22天津市PM25及其前体物浓度空间分布影响因素的量化研究文档格式.docx》由会员分享,可在线阅读,更多相关《22天津市PM25及其前体物浓度空间分布影响因素的量化研究文档格式.docx(19页珍藏版)》请在冰豆网上搜索。

22天津市PM25及其前体物浓度空间分布影响因素的量化研究文档格式.docx

本文以天津市中心城区63个街道作为研究对象,选取了来自经济普查、人口普查、定期报表和行政部门的主营业务收入、餐饮营业面积、煤炭消费量、高层建筑比重、人口密度、在建项目计划总投资和车流量等13个社会经济类指标,绿地面积这一自然环境类指标,以及风速和湿度两个气象要素指标。

指标的选取充分发挥了大数据的优势,尽可能地涵盖了与细颗粒物PM2.5及促使PM2.5形成的前体物(包括二氧化硫SO2、二氧化氮NO2、一氧化碳CO和臭氧O3)浓度紧密相关的所有因素。

在63个街道中,有8个街道设有国家空气质量自动监测站点,以这8个街道六月份PM2.5及其前体物小时平均浓度作为目标值,运用线性回归、回归树、随机森林、支持向量机和神经网络等数据挖掘方法建立预测模型,通过五折交叉检验选择各污染物浓度的最优预测模型,最终得出车流量(FLOWRATE)、煤炭消费量(COAL)、人口密度(DENSITY)和风速(WIND)等是影响PM2.5及其前体物浓度空间分布的主要因素,并预测出中心城区63个街道污染物浓度空间分布情况。

本文突破了现有的环境科学研究方法,不仅研究了城市绿化和气象条件等自然因素对PM2.5及其前体物浓度的影响,而且更为重要的是,充分利用统计系统大数据全面探讨了经济活动、城市规划和人口密度等社会发展各个方面的影响作用,这也是本文的创新之处。

关键字:

细颗粒物空间分布大数据数据挖掘

一、引言

当前我市复合型空气污染逐渐抬头,以PM2.5为代表的空气颗粒物越来越成为引发大气环境质量问题的首要污染物。

《2013年天津市环境状况公报》显示,天津市环境空气质量达标天数为145天,仅占全年的40%。

因此,对细颗粒物PM2.5及促使PM2.5形成的前体物(包括二氧化硫SO2、二氧化氮NO2、一氧化碳CO和臭氧O3)浓度的影响因素进行分析研究,进而找出关键因素、实施针对性强的政策措施,切实有效地改善空气环境质量状况,具有重要的理论价值和现实意义。

事实上,政府部门和科研院所针对PM2.5的来源和形成机制开展了大量的研究工作:

一是通过实验采样的方法,探索PM2.5的污染水平特征。

如林治卿等(2005)使用原子吸收光谱法、原子荧光光谱法和等离子发射光谱法对天津市某区通过大气自动采样仪全天采集的空气颗粒物样品进行定性检测;

二是通过调查比较的方法,分析PM2.5的影响因素。

如范引琪、李春强(2007)采用累积百分率和Ridit两种方法,分析了由于人为空气污染所造成的区域大气能见度变化趋势;

三是通过系统模拟的方法,研究PM2.5的污染来源和扩散途径。

如谢鹏等(2005)在基于GIS地理开发系统和空气污染扩散模型的基础上,探讨了两者结合的最佳方式,并应用于广州市空气质量分析中。

从现有的研究成果来看,对PM2.5浓度影响因素方面的研究还主要集中在气象条件方面,而经济因素和社会因素等方面还仅局限于机动车、能源消耗等单一因素的影响分析,在多因素的综合影响方面研究很少;

从研究方法来看,目前还主要采用实验、调查和模拟等环境科学的研究方式,而通过统计建模对涉及PM2.5及其前体物浓度的多个大数据进行系统分析还较少。

在上述研究方法的基础上,本文以天津中心城区为例,充分利用来源于经济普查、人口普查、统计报表、行政部门以及互联网络的多个大数据,综合考虑各种影响PM2.5产生、消散的自然因素和人为因素(如图1所示),运用回归树、随机森林、支持向量机和神经网络等多种数据挖掘的建模方法,通过交叉检验对各种预测方法进行定量比较,以期寻找PM2.5浓度空间分布的主要影响因素,并在此基础上对中心城区63个街道进行PM2.5浓度的空间分布预测,为政府部门出台更有针对性的政策措施提供参考意见。

此外,因现有文献研究已充分论证了二氧化硫SO2、氮氧化物NOx、臭氧O3等污染物作为前体物对PM2.5有显著的促进作用,为了更全面地分析PM2.5的经济社会活动来源,本文将这些前体物与PM2.5一并作为研究对象加以探讨。

图1:

研究思路流程图

二、指标选择和数据处理

(一)指标选择

国家环保部设在天津的大气污染物浓度监测点位共有13个,其中8个位于中心城区,另外6个分布在北辰区、东丽区、静海县和滨海新区。

从监测点位的地理位置来看,中心城区监测点位较为密集,而环城四区、远郊五县和滨海新区点位较少,为保障模型预测的精确度,仅选取中心城区作为研究范围。

本文以街道为基本单元,在中心城区的63个街道中,有8个街道设有国家空气质量自动监测点位,因此选取了2014年6月1日至6月30日这8个街道细颗粒物PM2.5、可吸入颗粒物PM10、二氧化硫SO2、二氧化氮NO2、一氧化碳CO和臭氧O3六种大气污染物的小时平均浓度值。

同时,选取了与PM2.5及其前体物浓度相关的一系列社会经济类指标、自然环境类指标、气象要素类指标,具体包括(如表1所示):

1、社会经济类指标:

一些自然过程如沙尘暴、森林火灾等虽然也会产生少量的PM2.5,但其主要来源还是煤炭、石油及其他矿物燃烧等人为排放,社会经济活动对PM2.5浓度有较大影响。

因此,选取了主营业务收入、资产合计、从业人员数量、餐饮营业面积、煤炭消费量、企业数比重、内资单位数比重、高层建筑比重、建筑物平均房龄、清洁炊事燃料比重、人口密度、在建项目计划总投资和车流量等13个与大气污染物浓度相关的社会经济类指标。

由于经济普查数据的统计范围较为全面,包含规模以上和规模以下的所有企业、事业和行政机关单位,且高层建筑比重和清洁炊事燃料比重指标仅在人口普查报表中设置,考虑到这些指标数据虽然随时间会有所增减,但各街道间的差异程度短期不会发生变化,因此,我们以2013年天津市第三次经济普查和2010年第六次人口普查有关数据作为测算依据。

在建项目计划总投资取自2014年上半年投资报表制度,车流量指标取自天津市规划局六月份各街道主要道路车流量,反映交通状况对大气污染物浓度的影响程度,这两个指标的报告期与PM2.5及其前体物浓度指标保持一致。

2、自然环境类指标:

季静(2013)等研究成果表明,江河湖泊等水域和绿色植物能大量吸附PM2.5及其前体污染物,对净化空气有良好的效果。

目前,天津市内主要有子牙河、月牙河、海河、北运河、南运河、津河、新开河等河流,但从各行政区的街道分划看,大多以河流为界,水域面积各街道无明显差距。

从市内绿化看,中心城区的绿化树木主要以绒毛白蜡树、小叶杨树等乔木为主,并且分布较为均匀;

而各街道公园的面积、大小分布则不很规则,因此,选取绿地面积与街道建成区面积的比例反映各街道的绿化情况。

3、气象要素类指标:

宋明(2013)等研究成果表明,PM2.5浓度与风速和相对湿度有较好的相关性,而与气温的相关性较差。

风速的大小决定了对污染物稀释作用的大小,适宜的风速能够加快污染物扩散;

相对湿度的升高会导致大气中的水汽不断附着在颗粒物上,造成污染增大。

因此,选取了风速和湿度两个气象要素指标。

相关系数可以反映变量之间相关关系的密切程度,因此,我们计算了PM2.5及其前体物浓度与上述三类指标的相关系数矩阵(见附录1)。

为尽可能全面地研究PM2.5及其前体物浓度的影响因素,只要这三类指标与一种PM2.5及其前体物浓度的相关系数绝对值大于0.4即作为研究指标(表1中标记*的指标)。

根据这一原则,仅在初步选取的指标中剔除了资产合计(ASSET)和建筑物平均房龄(DECADE)这两个指标。

表1:

变量列表

类别

变量

定义

数据来源

监测点位

PM2.5

监测点细颗粒物PM2.5小时平均浓度(μg/m3)

互联网络

PM10

监测点可吸入颗粒物PM10小时平均浓度(μg/m3)

SO2

监测点二氧化硫SO2小时平均浓度(μg/m3)

NO2

监测点二氧化氮NO2小时平均浓度(μg/m3)

CO

监测点一氧化碳CO小时平均浓度(mg/m3)

O3

监测点臭氧O3小时平均浓度(μg/m3)

社会经济

*PREVEN

街道所有单位(包括规模以上和规模以下,下同)主营业务收入合计(万元),表征街道经济活动情况

天津市第三次经济普查数据

ASSET

街道所有单位资产合计(万元),在一定程度上表征街道经济规模

*EMPLOY

街道所有单位从业人员人数合计(人),表征街道经济活动情况

*CATER

街道所有餐饮单位营业面积合计(平方米),表征街道餐饮单位规模

*COAL

街道所有单位煤炭消费量合计(吨)

*PENTER

按机构类型划分,企业数占街道单位数的比重(%)

*PDOME

按登记注册类型划分,内资单位数占街道单位数的比重(%)

*PHIGH

高层建筑(大于10层)占总建筑数的比重(%),表征大气污染物扩散情况

天津市第六次人口普查数据

DECADE

街道建筑物平均房龄(年)

*PCLEAN

使用清洁燃料(燃气和电)作为主要炊事燃料的居民户比重(%)

*DENSITY

人口密度(人/平方公里),即单位面积常住人口数量

*DUST

计划总投资(万元),指在建的建设工程按照总体设计规定的内容全部建成计划需要的总投资,反映街道内在建项目情况,进而体现建筑扬尘情况

固定资产投资完成情况(H201表)

*FLOWRATE

主要道路车流量,监控站点小时标准车辆通过数(辆)

天津市规划局

自然环境

*SINK

绿地,街道内绿地面积占街道面积的比重(%),表征街道碳汇能力

网络

天气要素

*HUMI

每小时平均湿度(%)

*WIND

每小时平均风速(公里/小时)

时间变量

TIME

小时值

TIME取值1至24

SIN2TIME

sin((2*pi/24)*TIME)

TIME的正余弦变形

SIN4TIME

sin((4*pi/24)*TIME)

COS2TIME

cos((2*pi/24)*TIME)

COS4TIME

cos((4*pi/24)*TIME)

(二)数据描述

从各污染物走势图(如图2及附录2所示)可以看出,PM2.5、PM10、SO2、NO2、CO和O3等六种大气污染物浓度的中位数和离散程度在一天内具有明显的周期性变化。

其中,细颗粒物PM2.5浓度在上午七点到九点达到高峰,而在傍晚时间(晚上八点到十二点)浓度值离散程度较小,但极值也较多。

可吸入颗粒物PM10浓度与PM2.5在一天内的变化趋势有一定的相似性,但波动幅度没有PM2.5明显,极值也较多。

二氧化硫SO2浓度在上午至中午期间(上午七点到中午一点)较高,且不稳定、跨度较大,而在下午四点以后浓度值较低,且分布较为集中。

二氧化氮NO2浓度在二十四小时内有两个高峰值,分别在上午六点到八点、晚上九点到十点;

其中站点五的二氧化硫SO2浓度中位数较低,且波动也较为不明显,这与其所处的地理位置有关。

一氧化碳CO浓度与二氧化硫SO2变化趋势相似,上午至中午(上午六点到中午十二点)期间较高。

臭氧O3浓度分布较为集中,且极值较少,一般上午六点到七点浓度值最低,在下午两点到三点达到高峰。

图2:

八个站点一天内PM2.5小时平均浓度走势图

(三)数据处理

1、大数据汇总。

本文的数据来源涉及到多个大数据,其中天津市第三次经济普查涵盖规模以上和规模以下单位超过24万家,第六次人口普查涵盖全市将近1300万人口、366万家庭户,污染物浓度涵盖30天内六种污染物小时平均浓度值,天气状况涵盖30天湿度和风速的小时平均值,车流量涵盖29个检测点位小时平均值,绿地面积涵盖中心城区的28个公园,以上数据均要按街道进行汇总分析。

2、监测站点与所在街道一一对应。

本文涉及两类监测站点,一是污染物监测站点,另一个是车流量监测站点,因此需要将监测站点的地理位置与所在街道进行一一对应。

3、引入TIME变量的正余弦变换。

本文拟用8个街道PM2.5及其前体物浓度预测中心城区63个街道的浓度值,由于样本量有限,需引入时间TIME变量以增加样本数量。

鉴于污染物浓度、交通和天气等指标均呈现出随时间变量的周期性变化,参考时间序列的谐波分析,如下公式:

其中,

为傅立叶系数。

引入TIME变量的四个正余弦变换(SIN2TIME、SIN4TIME、COS2TIME和COS4TIME,见表1),进一步提高模型预测的精确度。

同时,这五个时间变量也代表了其他与时间相关的综合因素,如随着每日阳光辐射量的增加,植物的光合作用会逐步增强,对PM2.5等大气污染物产生更明显的吸附作用;

城市“热岛”效应也会逐步显现,由此产生的暖升气流促进PM2.5等大气污染物向城市高空扩散等。

4、填补缺失值。

由于PM2.5及其前体物浓度数据来源于网络搜集,因此均不同程度存在一定数量的缺失值。

其中可吸入颗粒物PM10数据缺失值最多,超过了总样本量的四分之一,严重影响了预测的准确性,因此在后文中仅对除PM10以外的其他五种大气污染物浓度进行分析预测。

首先删除了这五种污染物浓度缺失值个数超过变量总数的20%的样本,对于剩余样本的缺失值,通过“DMwR”软件包里的knnImputation()函数利用样本之间的相似性,采用K最邻近结点算法(K-NearestNeighboralgorithm)进行加权平均填补,计算公式如下:

是变量i的两个值之间的距离。

三、模型建立和结果分析

(一)模型选择

为了深入探究PM2.5及前体物浓度与各指标之间的复杂关系,本文拟探索性选取多元线性回归模型和机器学习模型。

多元线性回归模型能发现PM2.5及前体物浓度与各指标之间的线性关系,便于定量的分析各指标对PM2.5及前体物浓度的影响程度。

机器学习模型能挖掘出变量与预测结果之间的深层次联系。

在机器学习模型中,回归树模型能够直观显示变量之间的复杂数据特征;

随机森林是一个包含多个回归树的分类器,其输出的类别是由个别树输出的类别的众数而定,一般情况下预测性能要优于回归树;

人工神经网络模型可以以任意精度逼近任何非线性连续函数,还具有较强的自学习和自适应能力,比线性模型更能揭示PM2.5及其前体物浓度与各指标之间的关系;

而支持向量机模型采用结构风险最小(StructuralRiskMinimization,SRM)的思想,在保证经验风险精度的同时,降低机器学习的置信风险,避免“过度学习”的问题,属于全局最优算法,具有很强的推广预测能力。

(二)模型建立

如表2所示,在本文选取的五种模型中,除线性回归模型外,其他四种模型均设置了三种可选的参数。

1、线性回归模型:

文中采用了逐步回归的方式获得最优回归方程,将各指标按偏相关系数的大小次序逐个引入方程,并进行统计检验,效果显著的指标则可以留在回归方程中。

2、回归树模型:

回归树剪枝理论1-SE(1standarderrorofminimumerror)规则能使模型在保证预测误差小于指定范围的同时,选取尽量小的复杂性参量,并以此为依据进行剪枝。

文中依据1-SE规则选择最优回归树,并设置了三个SE值。

3、随机森林模型:

随机森林模型由大量的树模型构成,模型中需设定树节点预选的变量个数和树的个数两个参数。

其中,树节点预选的变量个数一般取为

,即大于

的最小整数,其中

为输入变量的个数(本文有18个指标),因此,根据计算公式树节点预选的变量个数为5;

而树的个数取值一般较大,文中设置了200、500和700三种不同数目的树模型。

4、支持向量机模型:

选取了

三种核函数,对每一种核函数,采用董春曦等(2004)关于支持向量机参数选择的方法研究,确定使每一种模型推广能力最优的惩罚因子

5、神经网络模型:

一个三层神经网络模型就可以完成任意的

维到

维的映射,因此本文只采用带有一个隐藏层的前馈神经网络。

根据

定理,隐藏层的神经元数目与输入变量、输出变量之间有如下关系:

为隐藏层的神经元数目;

为输入层的神经元数目,文中为18;

为输出层的神经元数目,文中为1;

为1~10之间的常数。

据此,本文选取了5、10和15三种隐藏层中的结点个数。

表2:

五种模型及参数选择

模型

代码

R软件包

参数选择

线性回归

cv.lm.v1

基础包

NULL

回归树

cv.rpart.v1

library(rpart)

se=0

cv.rpart.v2

se=0.5

cv.rpart.v3

se=1

随机森林

cv.rf.v1

library(randomForest)

n=200

cv.rf.v2

n=500

cv.rf.v3

n=700

支持向量机

cv.svm.v1

library(e1071)

kernal='

polynomial'

cv.svm.v2

radialbasis'

cv.svm.v3

sigmoid'

神经网络

cv.nnet.v1

library(nnet)

size=5

cv.nnet.v2

size=10

cv.nnet.v3

size=15

(三)五折交叉检验

本文拟采用五折交叉检验的方法来获得上述五类模型性能的可靠估计,进而选择最优模型对中心城区63个街道PM2.5及其前体物浓度进行预测。

k折交叉检验是获得模型在未知数据上预测性能的常用方法。

首先将数据集平均分成k个随机训练数据子集,然后用k-1个子集建立模型,用第k个子集评估模型,并取得该模型的性能指标,对每个子集重复以上过程,进而获得k个性能指标。

本文中选取标准化均方误差(NMSE)作为性能指标,重复3次进行五折交叉检验以获得最优预测模型。

标准化均方误差(NMSE)通过计算模型预测性能与基准模型预测性能之间的比率来评估模型优劣,一般选取基准模型为预测变量实际值的平均数,计算公式如下:

NMSE取值范围为0至1,NMSE值越小,表示模型预测性能越好。

若NMSE值大于1,表示模型的预测性能还不如预测指标的简单平均数,则该模型不可取。

在交叉检验的过程中,我们尝试了神经网络模型的多种参数设置,但其预测除一氧化碳CO外的其他四种污染物的标准化均方误差(NMSE)均大于1,因此在最优模型的选择中不再考虑神经网络模型。

其他四类模型性能指标比较如图3所示,最优模型选择如表3所示。

其中,细颗粒物PM2.5最优预测模型是回归树(se=0),标准化均方误差(NMSE)为0.4808;

二氧化硫SO2、二氧化氮NO2、一氧化碳CO和臭氧O3的最优预测模型均为随机森林(n=700),标准化均方误差(NMSE)分别为0.7953、0.4556、0.0031和0.2562。

图3:

四种模型预测性能比较

表3:

PM2.5及其前体物浓度最优预测模型及其NMSE值

预测变量

最优模型

最优模型代码

标准化均方误差(NMSE)

回归树(se=0)

0.480841

随机森林(n=700)

0.795332

0.455645

0.003099

0.256215

(四)PM2.5及其前体物浓度空间分布影响因素分析

1、细颗粒物PM2.5浓度空间分布的影响因素分析

如图4回归树所示,对中心城区空气中PM2.5浓度影响较大的几个因素有与时间相关的综合因素(TIME和SIN2TIME)、车流量(FLOWRATE)、煤炭消费量(COAL)和人口密度(DENSITY)。

其中,与时间相关的综合因素如植物光合作用、城市“热岛”效应等,其作用极值往往在下午显现,并对PM2.5产生明显的吸附和促进扩散作用,从而降低了中心城区的PM2.5浓度;

交通流量通过机动车尾气、二级扬尘等途径产生PM2.5;

中心城区工业企业较少,煤炭消费量大多来源于集中供热单位,通过燃煤产生PM2.5;

而人口密度较大的地区人口活动密集,烹饪、清扫和焚烧等居民消费方式和生活习惯往往在一定程度上影响着PM2.5的生成。

图4:

PM2.5浓度的回归树模型

2、PM2.5前体物浓度空间分布的影响因素分析

(1)二氧化硫SO2:

如图5随机森林变量重要性排名可以看出,对二氧化硫SO2影响较大的因素主要有与时间相关的综合因素(TIME和SIN2TIME)、煤炭消费量(COAL)、餐饮营业面积(CATER)、从业人员数(EMPLOY)、建筑扬尘(DUST)等。

从前文图2至图7可以看出,几种大气污染物小时平均浓度在一天内均随时间具有明显的周期性变化,因此与时间相关的综合因素对几种大气污染物浓度的影响均较大。

燃煤是SO2的最大排放源,删除煤炭消费量变量的精确度减少值(IncNodePurity)是其后变量餐饮营业面积(CATER)的将近3倍。

(2)二氧化氮NO2:

对二氧化氮NO2影响较大的因素主要有车流量(FLOWRATE)、与时间相关的综合因素(TIME和SIN2TIME)、餐饮业规模(CATER)、经济活动单位(PREVEN)等。

在PM2.5等五种大气污染物浓度主要影响因素中,排名第一位的除了NO2为车流量外,其他均为与时间相关的综合因素,可见车流量对NO2的影响很大。

(3)一氧化碳CO:

对一氧化碳CO影响较大的主要因素有与时间相关的综合因素(TIME和SIN2TIME)、煤炭消费量(COAL)、餐饮营业面积(CATER)、建筑扬尘(DUST)等。

与SO2类似,除时间因素外,燃煤是影响CO的最主要因素。

(4)臭氧O3:

对臭氧O3影响较大的主要因素有与时间相关的综合因素(TIME和SIN2TIME)、风速(WIND)、绿地比重(SINK)、经济活动单位(PREVEN)等。

图5:

PM2.5前体物浓度空间分布影响因素排名

综合来看,除O3浓度受气象和环境因素影响较多以外,SO2、NO2和CO的主要影响作用均表现为人为因素,特别是煤炭消费和餐饮营业面积,对SO2、NO2和CO影响排名均处于前位,NO2还与车流量之间存在显著关系。

在对各类前体物的吸收和消散上,植物光合作用、城市“热岛”效应等与时间相关的综合因素作用显著。

这说明,我们应从煤炭、餐饮、车辆三大重点着手

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 工学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1