环境污染情况聚类分析资料.docx
《环境污染情况聚类分析资料.docx》由会员分享,可在线阅读,更多相关《环境污染情况聚类分析资料.docx(17页珍藏版)》请在冰豆网上搜索。
环境污染情况聚类分析资料
使用SAS、SPSS软件对中国几个城市的环境污染情况进行聚类分析
摘要:
随着社会的发展与进步,环境污染也变得日益严重起来,随着全国范围内大面积大雾不消现象的发生,人们对环境污染情况也更关注了。
这篇论文就是通过使用SPSS和SAS软件,对中国的几个大城市进行环境污染方面的聚类分析。
关键词:
聚类分析,SPSS,SAS,环境污染,离差平方和法
聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。
它是一种重要的人类行为。
聚类分析的目标就是在相似的基础上收集数据来分类。
聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。
在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。
聚类分析具有很多不同的方法,现使用离差平方和法,重心法,最短距离法,最长距离法这四种方法对这32座城市进行分类,以下是这32座城市污染情况的表格:
城市
AQI
PM2.5
PM10
CO
NO2
O3
SO2
北京
117
163
157
3.17
64
18
6
上海
70
32
40
0.71
48
51
7
广州
44
27
47
1.01
53
41
10
深圳
53
58
78
1.55
25
47
6
杭州
59
19
44
0.56
28
47
4
天津
241
175
199
1.26
67
69
16
成都
146
25
66
0.53
31
237
9
南京
92
16
24
0.64
34
73
7
西安
93
29
70
1
31
123
20
武汉
48
17
36
0.74
29
95
6
南京
92
16
24
0.64
34
73
7
昆明
48
18
54
0.81
29
51
15
海口
29
8
41
0.52
25
23
13
福州
45
17
37
0.76
30
30
6
南宁
31
22
28
0.84
20
41
8
贵阳
54
63
109
0.8
34
95
21
长春
78
39
80
0.68
34
105
4
南昌
55
29
64
1.27
24
53
12
大连
54
32
49
0.5
28
56
2
长沙
56
55
77
0.82
23
66
10
武汉
48
17
36
0.74
29
95
6
温州
48
10
60
1.07
39
61
10
青岛
85
19
46
0.94
18
72
18
乌鲁木齐
75
40
42
0.4
23
91
4
太原
182
47
89
1.01
64
129
46
厦门
34
43
18
0.67
32
59
6
郑州
94
46
107
1.51
30
93
21
保定
174
250
290
1.16
22
87
10
合肥
143
18
24
0.5
20
56
8
珠海
48
41
78
1.35
13
46
4
重庆
49
35
57
0.77
44
66
20
兰州
88
56
108
0.43
36
60
16
呼和浩特
98
34
85
1.24
30
67
16
拉萨
38
12
25
1.58
18
69
10
哈尔滨
73
20
54
0.95
30
59
9
SPSS部分:
首先对数据进行标准化处理,然后用SPSS软件分别使用最长距离法,重心法和离差平方和法进行分析处理。
最长距离法:
群集成员
案例
5群集
4群集
3群集
2群集
1:
北京
1
1
1
1
2:
上海
2
2
2
2
3:
广州
2
2
2
2
4:
深圳
2
2
2
2
5:
杭州
2
2
2
2
6:
天津
3
1
1
1
7:
成都
4
3
3
2
8:
南京
2
2
2
2
9:
西安
2
2
2
2
10:
武汉
2
2
2
2
11:
南京
2
2
2
2
12:
昆明
2
2
2
2
13:
海口
2
2
2
2
14:
福州
2
2
2
2
15:
南宁
2
2
2
2
16:
贵阳
2
2
2
2
17:
长春
2
2
2
2
18:
南昌
2
2
2
2
19:
大连
2
2
2
2
20:
长沙
2
2
2
2
21:
武汉
2
2
2
2
22:
温州
2
2
2
2
23:
青岛
2
2
2
2
24:
乌鲁木齐
2
2
2
2
25:
太原
4
3
3
2
26:
厦门
2
2
2
2
27:
郑州
2
2
2
2
28:
保定
5
4
1
1
29:
合肥
2
2
2
2
30:
珠海
2
2
2
2
31:
重庆
2
2
2
2
32:
兰州
2
2
2
2
33:
呼和浩特
2
2
2
2
34:
拉萨
2
2
2
2
35:
哈尔滨
2
2
2
2
重心法:
群集成员
案例
5群集
4群集
3群集
2群集
1:
北京
1
1
1
1
2:
上海
2
2
2
2
3:
广州
2
2
2
2
4:
深圳
2
2
2
2
5:
杭州
2
2
2
2
6:
天津
3
1
1
1
7:
成都
4
3
3
2
8:
南京
2
2
2
2
9:
西安
2
2
2
2
10:
武汉
2
2
2
2
11:
南京
2
2
2
2
12:
昆明
2
2
2
2
13:
海口
2
2
2
2
14:
福州
2
2
2
2
15:
南宁
2
2
2
2
16:
贵阳
2
2
2
2
17:
长春
2
2
2
2
18:
南昌
2
2
2
2
19:
大连
2
2
2
2
20:
长沙
2
2
2
2
21:
武汉
2
2
2
2
22:
温州
2
2
2
2
23:
青岛
2
2
2
2
24:
乌鲁木齐
2
2
2
2
25:
太原
4
3
3
2
26:
厦门
2
2
2
2
27:
郑州
2
2
2
2
28:
保定
5
4
1
1
29:
合肥
2
2
2
2
30:
珠海
2
2
2
2
31:
重庆
2
2
2
2
32:
兰州
2
2
2
2
33:
呼和浩特
2
2
2
2
34:
拉萨
2
2
2
2
35:
哈尔滨
2
2
2
2
离差平方和法:
群集成员
案例
5群集
4群集
3群集
2群集
1:
北京
1
1
1
1
2:
上海
2
2
2
2
3:
广州
2
2
2
2
4:
深圳
2
2
2
2
5:
杭州
2
2
2
2
6:
天津
1
1
1
1
7:
成都
3
3
3
2
8:
南京
2
2
2
2
9:
西安
4
4
2
2
10:
武汉
2
2
2
2
11:
南京
2
2
2
2
12:
昆明
2
2
2
2
13:
海口
2
2
2
2
14:
福州
2
2
2
2
15:
南宁
2
2
2
2
16:
贵阳
4
4
2
2
17:
长春
4
4
2
2
18:
南昌
2
2
2
2
19:
大连
2
2
2
2
20:
长沙
2
2
2
2
21:
武汉
2
2
2
2
22:
温州
2
2
2
2
23:
青岛
2
2
2
2
24:
乌鲁木齐
2
2
2
2
25:
太原
3
3
3
2
26:
厦门
2
2
2
2
27:
郑州
4
4
2
2
28:
保定
5
1
1
1
29:
合肥
2
2
2
2
30:
珠海
2
2
2
2
31:
重庆
2
2
2
2
32:
兰州
4
4
2
2
33:
呼和浩特
4
4
2
2
34:
拉萨
2
2
2
2
35:
哈尔滨
2
2
2
2
从三种方法的树状图可以看出,离差平方和法的聚类效果最好
综合以上各统计量反映的聚类效果,我们认为分为3类是效果最好的。
分为3类的结果:
第一类:
北京、天津、保定
第二类:
上海、广州、深圳、杭州、南京、西安、武汉、昆明、海口、福州、南宁、贵阳、长春、大连、南昌、长沙、武汉、温州、青岛、乌鲁木齐、厦门、郑州、合肥、珠海、重庆、兰州、呼和浩特、拉萨、哈尔滨
第三类:
成都、太原
SAS部分:
接下来,我们再使用SAS软件分别使用最短距离法,重心法和离差平方和法进行分析处理。
SAS程序输入:
procclusterdata=sasuser.kmethod=sinpseudo;
idregion;
proctreehorizontal;
idregion;
procclusterdata=sasuser.kmethod=cenpseudo;
idregion;
proctreehorizontal;
idregion;
procclusterdata=sasuser.kmethod=warnotiepseudo;
idregion;
proctreehorizontal;
idregion;
run;
最短距离法:
重心法:
离差平方和法:
从三种方法的树状图可以看出,离差平方和法的聚类效果最好,符合聚类分析的类内距离小,类间距离大。
就离差平方和法的聚类结果进行分析。
可以看出,系统聚类共进行了32步,在每一步都合并了两个类。
查看图中统计量(RSQ),发现统计量随着分类个数的减少而减少,并且在由3类合并为2类时统计量减少得较快(从0.704减少为0.554)。
因此,从统计量来看分为3类比较合适。
接下来分析半偏统计量(SPRSQ),发现NCL=1时半偏统计量最大(值为0.5544),当NCL=2时半偏统计量次大(值为0.1497),说明这两步合并效果不好,应该采取上一步的分类。
因此,从半偏统计量来看分为2类或3类比较合适。
再分析伪F统计量(PSF),发现随着分类个数的减少伪F统计量也基本上呈现减少的趋势。
但当NCL=5、4、3和2时,伪F统计量出现了在局部增大的情况。
因此,根据伪F统计量的准则认为分成6类、5类、4类和3类是比较合适的。
最后看伪统计量(PST2),发现当NCL=1时伪统计量最大(值为38.6),当NCL=2时伪统计量次大(值为19.4),NCL=3时伪统计量(值为13.7),这说明这三步合并效果并不好,应该采取上一步的分类。
因此,从伪统计量来看,我们认为分为2类、3类和4类比较合适。
综合以上各统计量反映的聚类效果,我们认为分为3类是效果最好的。
分为3类的结果:
第一类:
北京、天津、保定污染程度一般
第二类:
上海、广州、深圳、杭州、南京、西安、武汉、昆明、海口、福州、南宁、贵阳、长春、大连、南昌、长沙、武汉、温州、青岛、乌鲁木齐、厦门、郑州、合肥、珠海、重庆、兰州、呼和浩特、拉萨、哈尔滨污染较轻
第三类:
成都、太原污染最严重
由此我们可以看出,SAS和SPSS所得出的结果是相同的,因此结果是相对比较准确的!
参考文献:
PM25.IN网站