城市空气污染数据的真实性判别及分析研究.docx
《城市空气污染数据的真实性判别及分析研究.docx》由会员分享,可在线阅读,更多相关《城市空气污染数据的真实性判别及分析研究.docx(37页珍藏版)》请在冰豆网上搜索。
城市空气污染数据的真实性判别及分析研究
一、问题重述
1.1问题背景
空气质量问题始终是政府、环境保护部门和全国人民关注的热点问题。
20XX年的两会上,全国政协常委、环境保护部副部长吴晓青表示,政府工作报告中提出的今后五年地级市及以上城市空气质量优良天数比率超过80%的目标必须完成。
此外,吴晓青表示,很高兴在今年的“十三五”规划草案里看到增加了环境质量的考核指标,并指出增加的指标有几个特点:
一是对环境质量的指标考核更加全面、更加完善。
二是和老百姓息息相关,切身利益更加贴近、更加结合。
三是更加严格。
其中,优良天数比率指的是:
区域内城镇空气质量优良以上的监测天数占全年监测总天数的比例。
然而,由于各种主客观原因,会使所采集到的数据序列体现出一定的异常现象。
1.2问题提出
在上述问题背景的基础上,结合题目所给资料,要求建立数学模型讨论下列问题:
1、搜集相关空气质量和气候数据,分析空气质量数据的真实性,建立数学模型或者相应指标来确定是否存在数据不真实的现象。
2、在此过程中,或利用污染物之间的相关性、或利用污染物变化的连续性、或自行设计指标在时间、空间等各层次上进行对比,来确定数据不真实是否存在并讨论其严重性。
3、通过模型分析数据不真实的类型、原因,最终为环境保护和政策制定提供支撑。
4、进一步的讨论可以加入社会因素,例如分析空气质量与工业生产(例如钢产量)等数据之间的相关性,分析是否可以通过空气质量数据的变化来展示工业生产(例如钢产量)等数据的实际情况。
二、问题分析
本文的主要内容是完成城市空气污染数据的真实性的判别建模,然后根据模型结果,得到京津冀,长三角,珠三角空气污染数据存在的不真实性。
针对问题1,通过分析京津冀,长三角,珠三角三个地区中的空气污染数据的波动性,认定空气污染数据的城市具有代表性。
根据前面数据波动判断的真实数据,以各个时间的PM10、CO、NO2、SO2四个指标数据作为输入,输出的是PM2.5的指标数据作为输出建立BP神经网络模型。
将其他城市的PM10、CO、NO2、SO2四个指标数据代入BP神经网络,得到预测的PM2.5的指标数据。
通过比较预测值和实际值的差异性,判断城市空气污染数据的真实性。
针对问题2,本文利用相关系数分析法找出各污染物之间的相关性,而后从时间、空间角度进行分析。
对于时间角度,我们可以做出各地区污染物随时间变化的趋势;对于空间角度,我们可以对各地区的污染程度进行取平均值。
针对问题3,本文通过模型分析数据不真实的类型、原因,最终为环境保护和政策制定提供支撑。
对于数据不真实的类型,我们可以从相关性差异、是否连续来讨论;对于数据不真实原因,我们可以从技术层面、人为层面进行分析。
针对问题4,本文主要采用搜集到的各个地区的钢产量和煤炭产量数据,通过钢产量数据和空气质量数据的相关性,判断城市空气污染数据的真实性。
三、模型假设
1、假设京津冀,长三角,珠三角空气污染数据没有经过二次处理;
2、假设AQI指标中的PM2.5、PM10、CO、NO2、SO2具有一定的相关性,某一个指标增加,其他指标也会增加;
3、假设可由钢产量和煤炭产量数据来代表社会因素。
4、钢产量和煤炭产量数据与空气质量具有很强的相关性。
5、同一个区域的城市由于空间的连续性会导致空气质量相差不大。
6、空气污染数据处于平均的城市真实性较高。
7、AQI指数可以代表空气质量的好坏。
8、城市空气污染数据的真实性具有时间连续性,如果这个月数据真实,可以认为下个月数据也真实。
四、符号说明
符号
解释说明
AQI平均值
的中间值
BP神经网络输出
神经网络输入
Network1
根据廊坊空气建立BP神经网络
北京的网络输入
北京的网络输出
五、模型的建立与求解
5.1空气污染数据处理
本文搜集到了京津冀,长三角,珠三角空气污染数据(部分),主要包括不同日期(从2013/11/1到2015/2/28)的AQI指数、质量等级、当天AQI排名、PM2.5、PM10、CO、NO2、SO2,为了简化问题,根据AQI指数定性分析空气质量的初步真实性。
京津冀地区北京、天津、石家庄、唐山、保定、廊坊、邢台、张家口、秦皇岛、衡水、邯郸、承德、沧州的从2013/11/1到2013/12/31的AQI指数如表1所示。
表1京津冀地区AQI指数
日期
北京
天津
石家庄
唐山
保定
廊坊
邢台
张家口
秦皇岛
衡水
邯郸
承德
沧州
2013/11/1
231
189
288
293
266
245
302
164
128
231
243
104
173
2013/11/2
294
260
263
276
328
282
228
172
230
240
188
148
223
2013/11/3
80
131
144
192
135
133
150
43
170
132
169
78
140
2013/11/4
57
82
134
81
168
78
140
68
78
137
161
63
104
2013/11/5
184
131
214
148
200
189
190
95
132
115
138
96
107
2013/11/6
189
233
138
345
224
257
161
101
231
182
168
121
163
2013/11/7
59
105
115
133
97
94
104
76
137
99
106
61
78
2013/11/8
106
90
160
104
137
63
154
90
105
112
97
72
101
2013/11/9
178
190
249
202
226
66
174
106
98
175
131
114
233
2013/11/10
53
112
133
144
129
58
148
62
63
157
130
61
177
2013/11/11
47
71
120
79
105
61
103
54
72
91
75
52
65
2013/11/12
77
85
137
102
112
82
142
64
91
112
128
65
75
2013/11/13
114
111
269
128
183
111
268
77
96
151
232
74
124
2013/11/14
170
166
384
177
339
206
351
93
143
152
204
110
172
2013/11/15
95
141
173
154
170
157
205
112
137
155
165
83
117
2013/11/16
109
165
194
233
179
191
200
129
204
171
169
109
129
2013/11/17
33
71
107
85
88
81
118
59
85
107
114
50
73
2013/11/18
19
47
106
55
79
53
116
50
52
86
126
34
57
2013/11/19
22
43
139
53
97
51
124
48
52
87
129
33
66
2013/11/20
74
113
167
120
169
58
151
59
89
101
131
58
109
2013/11/21
92
212
308
211
263
101
171
64
99
157
149
70
246
2013/11/22
134
268
392
293
359
288
275
73
149
236
231
80
242
2013/11/23
212
313
498
375
491
364
457
96
294
315
362
94
300
2013/11/24
169
325
420
434
491
314
407
118
395
433
343
102
315
2013/11/25
59
101
129
144
159
98
127
84
94
148
92
82
136
2013/11/26
37
68
115
76
98
80
131
60
74
84
112
54
83
2013/11/27
42
77
104
61
96
83
110
70
64
93
97
43
70
2013/11/28
31
79
91
55
67
57
113
60
62
79
83
36
73
2013/11/29
56
104
90
83
91
98
152
53
84
104
133
47
102
2013/11/30
70
127
127
146
107
108
153
63
103
110
110
72
113
2013/12/1
56
99
166
116
124
104
180
61
98
103
123
75
87
2013/12/2
109
206
273
205
257
204
297
71
135
214
227
82
196
2013/12/3
113
283
361
311
329
228
424
83
200
335
312
102
322
2013/12/4
99
207
215
182
237
180
314
83
115
306
283
97
248
2013/12/5
83
219
221
187
206
165
257
74
83
280
205
96
250
2013/12/6
93
84
169
100
181
104
215
69
92
119
177
79
84
2013/12/7
233
202
397
222
421
325
413
86
120
210
275
102
45
2013/12/8
341
309
461
330
470
421
499
91
187
294
336
130
121
2013/12/9
97
163
240
233
213
180
380
52
158
268
312
76
169
2013/12/10
36
94
111
98
153
99
159
63
81
110
188
51
88
2013/12/11
33
81
104
78
114
78
145
79
73
109
178
51
87
2013/12/12
36
95
105
95
118
80
164
53
82
136
133
51
97
2013/12/13
41
65
319
66
104
66
135
59
57
117
113
39
89
2013/12/14
64
96
345
119
225
120
270
62
67
190
247
43
152
2013/12/15
61
128
277
115
258
133
464
70
67
244
428
66
213
2013/12/16
92
201
384
222
280
240
500
77
93
245
480
78
243
2013/12/17
137
148
306
278
267
306
461
64
98
403
387
91
252
2013/12/18
32
114
197
113
195
124
238
48
57
213
176
55
146
2013/12/19
49
98
312
71
210
100
339
53
49
234
208
46
147
2013/12/20
63
108
480
109
288
93
500
53
61
385
388
52
188
2013/12/21
50
98
498
159
380
82
500
53
65
467
456
56
205
2013/12/22
132
193
440
221
359
273
433
67
80
263
306
81
237
2013/12/23
199
261
500
340
404
343
500
82
156
360
464
99
243
2013/12/24
202
292
500
226
389
326
500
86
104
500
500
97
366
2013/12/25
278
277
500
210
458
428
500
119
169
500
500
150
306
2013/12/26
91
264
342
204
250
200
430
76
175
429
387
85
223
2013/12/27
24
43
65
63
107
50
123
58
69
115
130
43
74
2013/12/28
39
61
84
69
138
58
127
54
81
151
118
50
90
2013/12/29
58
96
89
87
87
101
116
68
90
131
119
63
76
2013/12/30
74
129
87
121
112
121
153
92
118
146
119
83
89
2013/12/31
93
133
96
103
138
132
129
139
115
165
115
81
101
在matlab中处理后得到京津冀地区AQI指数变化趋势如图1所示。
图1京津冀地区AQI指数变化趋势
可以看到京津冀地区北京、天津、石家庄、唐山、保定、廊坊、邢台、张家口、秦皇岛、衡水、邯郸、承德、沧州的AQI指数在空间上呈现出大致相同的变化趋势,比如北京的AQI指数增加,天津的AQI指数也会增加。
下面通过在matlab处理得到AQI的平均值m1,然后绘制平均值如图2所示。
然后通过天津唐各城市的平均AQI指数的中间值156.9016,可以看到廊坊的AQI数据处于中间值,初步假定廊坊的空气污染数据真实性比较高。
5.2建立BP神经网络
查前面得到京津唐地区中廊坊的空气污染数据具有较高的真实性,下面以各个时间廊坊地区的的PM10、CO、NO2、SO2四个指标数据作为输入,输出的是PM2.5的指标数据作为输出建立BP神经网络模型。
廊坊的空气污染指标(PM2.5、PM10、CO、NO2、SO2)数据如表2所示。
表2廊坊的空气污染指标
日期
输出
输入
PM2.5
PM10
CO
NO2
SO2
2013/11/1
192
313
2.32
71
18
2013/11/2
226
331
1.77
63
21
2013/11/3
85
180
1.07
47
9
2013/11/4
41
100
0.8
62
12
2013/11/5
139
255
1.83
82
39
2013/11/6
144
300
1.64
72
23
2013/11/7
11
52
0.53
44
14
2013/11/8
0
9
2.21
67
77
2013/11/9
13
0
1.94
91
49
2013/11/10
18
68
0.29
32
11
2013/11/11
34
76
0.55
51
22
2013/11/12
55
131
0.89
62
30
2013/11/13
161
279
2.71
104
83
2013/11/14
140
274
1.91
81
44
2013/11/15
131
316
1.8
87
75
2013/11/16
80
254
0.88
45
38
2013/11/17
17
61
0.5
35
20
2013/11/18
14
54
0.38
35
17
2013/11/19
21
39
0.64
41
33
2013/11/20
35
57
1.54
77
62
2013/11/21
78
161
2.55
108
90
2013/11/22
268
424
2.91
141
178
2013/11/23
342
512
3.89
163
177
2013/11/24
152
269
1.59
87
87
2013/11/25
26
83
0.59
39
34
2013/11/26
36
133
0.64
36
28
2013/11/27
11
89
0.23
17
7
2013/11/28
26
68
0.66
46
40
2013/11/29
95
167
1.78
76
91
2013/11/30
68
123
1.26
64
68
2013/12/1
102
153
1.53
77
77
2013/12/2
211
290
3.28
125
147
2013/12/3
117
178
1.85
91
85
2013/12/4
174
240
2.95
102
109
2013/12/5
79
129
1.59
63
79
2013/12/6
145
204
2.11
80
90
2013/12/7
390
482
5.46
144
99
2013/12/8
303
423
3.28
96
53
2013/12/9
22
61
0.49
33
24
2013/12/10
79
178
1.61
52
57
2013/12/11
43
79
1.04
49
53
2013/12/12
38
90
0.62
38
36
2013/12/13
64
106
1.24
55
68
2013/12/14
90
135
1.72
73
73
2013/12/15
114
167
2.63
85
77
2013/12/16
283
359
5.3
135
103
2013/12/17
200
256
3.74
93
134
2013/12/18
54
81
0.82
49
45
2013/12/19
70
98
1.14
56
54
2013/12/20
67
103
1.28
62
51
2013/12/21
91
120
1.31
82
67
2013/12/22
314
361
3.34
116
142
2013/12/23
265
321
3.45
132
126
2013/12/24
323
389
5
150
149
2013/12/25
380
485
4.57
136
96
2013/12/26
12
57
0.3
24
13
2013/12/27
29
54
0.67
52
32
2013/12/28
37
56
0.66
46
34
2013/12/29
116
165
1.93
74
94
2013/12/30
72
141
1.4
70
65
2013/12/31
111
218
1.91
70
71
本文主要利用matlab神将网络工具箱建立BP神经网络,神经网络工具箱如图3所示,神经网络输入输出分别是变量x,y.
图3神经网络工具箱
然后建立BP神经网络如图4所示,网络类型是Feed-forwarbackprop,输入变量是x,目标输出是y,网络训练函数采用trainlm,评价函数采用mse。
图4BP神经网络参数
神经网络结构如图5所示,包含一个输入层,一个输出层,两个隐含层。
图5BP神经网络结构图
神经网络训练参数如图6所示,可以看到通过7次迭代后达到网络误差要求mu,网络性能是6.62e3。
网络训练过程如图7所示。
图6神经网络训练参数
图7网络训练过程
然后将训练得到的BP神经网络network1导出到工作空间。
5.3模型求解
通过前面建立的BP神经网络,可以通过输入空气污染数据的PM10、CO、NO2、SO2得到PM2.5指标数据。
以廊坊的数据为真实依据,将其他城市的污染数据输入到BP神经网络模型中,然后得到预测的PM2.5指标数据,最后根据预测的PM2.5指标数据和测量的PM2.5指标数据判断数据的真实性。
以北京地区为例,分析数据的真实性。
北京地区的PM10、CO、NO2、SO2指标数据如表3所示,然后以此为输入,代入前面的模型得到预测的PM2.5指标数据。
表3北京地区的PM10、CO、NO2、SO2指标数据
日期
PM10
CO
NO2
SO2
2013/11/1
202
1.89
100
14
2013/11/2
253
2.14
104
11
2013/11/3
82
0.82
45
5
2013/11/4
60
0.87
54
9
2013/11/5
188
2.06
95
23
2013/11/6
135
1.47
55
9
2013/11/7
55
0.35
42
9
2013/11/8
160
2.23
93
50
2013/11/9
114
1.58
65
39
2013/11/10
39
0.45
27
8