SPSS的综合运用以我国城市空气质量分析为例Word下载.docx
《SPSS的综合运用以我国城市空气质量分析为例Word下载.docx》由会员分享,可在线阅读,更多相关《SPSS的综合运用以我国城市空气质量分析为例Word下载.docx(14页珍藏版)》请在冰豆网上搜索。
27.463
年平均气温
5.2
23.3
13.877
4.9856
年平均相对湿度
34
81
63.35
11.047
有效的N(列表状态)
从表1.1可以看出,在影响空气质量的因素中,可吸入颗粒物的最小值为0.04毫克/立方米,最大值为0.138毫克/立方米,平均值为0.9121毫克/立方米,标准差为0.21762;
二氧化硫的最小值为0.08毫克/立方米,最大值为0.079毫克/立方米,平均值为0.03902毫克/立方米,标准差为0.01593;
二氧化氮的最小值为0.016毫克/立方米,最大值为0.068毫克/立方米,平均值为0.04005毫克/立方米,标准差为0.011855;
空气质量达到及好于二级的天数最小值为244天,最大值为365天,平均值为326.81天,标准差为27.463;
年平均气温的最小值为5.2摄氏度,最大值为23.3摄氏度,平均值为13.877摄氏度,标准差为4.9856;
年平均相对湿度最小值为34%,最大值为81%,平均值为63.35%,标准差为11.047。
(1)按照顺序:
分析——相关——双变量打开相关分析的对话框
(2)在简单相关分析的主对话框中将所有变量选入“变量”中。
在“显著性检验”框中,有“双侧检验”和“单侧检验”。
系统默认是双侧检验。
(3)点击“OK”,输出结果见表2.1。
表2.1Pearson相关系数
相关性
Pearson相关性
1
.560**
.460**
-.901**
-.412*
-.132
显著性(双侧)
.001
.009
.000
.021
.480
.311
-.468**
-.448*
-.232
.089
.011
.210
-.359*
-.040
.073
.047
.831
.696
.412*
.241
.192
.617**
**.在.01水平(双侧)上显著相关。
*.在0.05水平(双侧)上显著相关。
表2.1给出了Pearson相关系数,以一个矩阵的形式表现出来。
从中可以看出,可吸入颗粒物、二氧化硫、二氧化氮空气质量达到好于二级的天数、年平均温度和年平均相对湿度的相关系数分别为0.901、0.56、0.46、0.468、0.617和0.617,在这些数据的右边都有两个星号,表示在0.01的显著性水平下,是显著相关的,还有一些相关系数带有一个星号表示在0.05的显著性水平下,相关系数是显著的。
故得出空气质量达到及好于二级的天数和可吸入颗粒物、二氧化硫和二氧化氮在0.01置信度条件下呈高负相关,其中空气质量达到及好于二级的天数和可吸入颗粒物的相关性大雨二氧化硫和二氧化氮与空气质量达到及好于二级的天数的相关性;
空气质量达到及好于二级的天数和年平均温度、年平均相对湿度在0.01置信度条件下呈高度正相关,其中年平均温度与空气质量达到及好于二级的天数相关性等于平均相对湿度与空气质量达到及好于二级的天数的相关性。
3.聚类分析
3.1.衡量指标
衡量指标的选取对于聚类分析来说至关重要,具有决定性的意义,影响空气质量好坏的因素有很多,有,温度,湿度等等,为此本文选取了四个指标,分别是可吸入颗粒物,二氧化硫,二氧化氮,空气质量达到及好于二级的天数。
用以衡量我国主要的31个城市的空气质量,数据来源于中国统计年鉴2011年:
3.2操作步骤
(1)选择分析——分类——系统聚类打开系统聚类分析对话框。
(2)在主对话框中将用于聚类的所有变量选入“变量”,把区分样本的标签变量选入“标注个案”。
(3)单击“方法”按钮,展开分层聚类分析的方法选择对话框。
(4)点击“统计量”选中“合并进程表”。
选择“方案范围”分别输入“2”和“4”,点击“继续”回到主对话框,此时分析结果中就包含了凝聚状态表。
点击“绘制”选中“树状图”,点击“继续”回到主对话框,此时分析结果中就包括了冰柱图。
(5)点击“保存”,然后再弹出的对话框中点击“继续”,最后回到主对话框中点击“OK”。
完成上述步骤后,会得到凝聚状态表(表3.1)和树状图(图3.2)。
表3.1分成2~4类时各地区所属的类别
群集成员
案例
4群集
3群集
2群集
1:
北京
8:
哈尔滨
2:
天津
9:
上海
3:
石家庄
10:
南京
4:
太原
11:
杭州
5:
呼和浩特
12:
合肥
6:
沈阳
13:
福州
7:
长春
14:
南昌
15:
济南
24:
贵阳
16:
郑州
25:
昆明
17:
武汉
26:
拉萨
2
18:
长沙
27:
西安
19:
广州
28:
兰州
3
20:
南宁
29:
西宁
21:
海口
30:
银川
22:
重庆
31:
乌鲁木齐
4
23:
成都
HIERARCHICALCLUSTERANALYSIS
DendrogramusingAverageLinkage(BetweenGroups)
RescaledDistanceClusterCombine
CASE0510152025
LabelNum+---------+---------+---------+---------+---------+
南京10-+
成都23-+-+
武汉17-++-+
杭州11---++-----+
北京1-----+|
呼和浩特5-+|
南昌14-+-+|
贵阳24-++---+|
沈阳6---+|+-+
重庆22-++-+||
银川30-+---+||||
西宁29-+|||||
哈尔滨8-++-+|||
郑州16-+-+|+-+|
石家庄3-+|||+---+
济南15-++-+|||
天津2-+||||
西安27---+|||
太原4---------+||
福州13---+---+||
南宁20---++-----++---------------------+
广州19-+-+|||
昆明25-++---+||
上海9-+-+|+---------+
长沙18-+||||
长春7---+|||
合肥12-----------------+||
海口21-+-------------------------------------+|
拉萨26-+|
兰州28-----------------------+-------------------------+
乌鲁木齐31-----------------------+
图3.2树状图
从图3.2可以直观地观测整个聚类过程和结果。
图中的第一行给出的是聚类方法“系统聚类分析”;
第2行给出的是计算类间距离的方法是“Wardmethod”;
第3行是类别合并的相对距离,它是把类别间的最大距离作为相对距离25,其余的距离都换算成与之相比的相对距离大小。
图3.2中左边一列是参加聚类的对象;
第2列是地区的编号;
图3.2中线的长短表示类别之间的相对距离远近。
该图提供了1~31个类别的所有分类结果,想要分成几类可根据实际情况而定。
本例分成四类比较合适,每一类别中包括的地区如表3.3所示。
表3.331个地区分成四类时的系统聚类结果
类别
地区
地区个数
第一类
南京,成都,武汉,杭州,北京
5
第二类
呼和浩特,南昌,贵阳,沈阳,重庆,银川,西宁,哈尔滨,郑州,石家庄,济南,天津,西安,太原
14
第三类
福州,南宁,广州,昆明,上海,长沙,长春,合肥
8
第四类
海口,拉萨,兰州,乌鲁木齐
4
从聚类分析谱系图可以看出,在不同的聚类标准下,聚类的结果不同:
当距离为0时,每个样本为单独的一类,即31个城市各自为一类;
当距离为25时,31个城市被归为一类;
在这里我们将城市分成四类:
第一类:
南京,成都,武汉,杭州,北京;
第二类:
呼和浩特,南昌,贵阳,沈阳,重庆,银川,西宁,哈尔滨,郑州,石家庄,济南,天津,西安,太原;
第三类:
福州,南宁,广州,昆明,上海,长沙,长春,合肥;
第四类:
4.1实验步骤
分析——降维——因子分析进入因子分析主对话框中,将左侧所有变量都选入“变量”中。
(2)单击“抽取”按钮,弹出“因子分析:
抽取”对话框,选中“Screeplot”以显示碎石图。
点击“Continue”按钮,返回到主对话框。
此对话框中的默认选项表明此次主要成分分析是觊觎相关系数矩阵进行的,是按照特征根大于1的原则提取成分。
(3)点击“Scores”按钮,弹出对话框“因子得分”,选中“因子得分系数矩阵”点击“Continue”按钮,返回主对话框。
(4)点击主对话框中的“OK”,可以得出输出结果,见表4.1~4.5和图4.6。
表4.1Communalities(变量共同度)
公因子方差
初始
提取
1.000
.878
.721
.742
.782
.799
.781
提取方法:
主成份分析。
表4.2TotalVarianceExplained(方差贡献表)
解释的总方差
成份
初始特征值
提取平方和载入
旋转平方和载入
合计
方差的%
累积%
1
2.974
49.570
2.556
42.604
2
1.407
23.445
73.015
1.825
30.411
3
.639
10.653
83.668
.573
9.553
93.221
.330
5.497
98.718
6
.077
1.282
100.000
表4.3ComponentMatrix(因子载荷矩阵)
.888
.300
.739
.022
.478
.604
-.864
-.189
-.683
.577
-.447
.763
提取方法:
主成分分析法。
a.已提取了2个成份。
表4.4ComponentScoreCoefficientMatrix(主成分得分系数矩阵)
旋转成份矩阵a
.915
-.201
.644
-.363
.271
-.838
.284
-.286
.847
.884
旋转法:
具有Kaiser标准化的正交旋转法。
a.旋转在3次迭代后收敛。
表4.5ComponentScoreCovarianceMatrix(主成分得分系数矩阵)
成份转换矩阵
成份
.856
-.516
.516
图4.6碎石图
表4.7成分矩阵
影响因素
4.2结果分析
(1)表2.1中的相关系数表明六个变量之间存在显著相关性,可以进行主成分分析。
(2)表4.1为变量共同度,表中最后一列的数据都大于0.720,表明提取的主成分对每个变量的解释程度都较高。
(3)表4.2为方差贡献率,“合计”是特征根,“方差的%”是每个特征根对应的方差贡献,“累计%”是累计方差贡献;
“初始特征值”列出了所有的主成分,并按照特征根的大小排列,而“提取平方和载入”对应的是提取主要成分后的各项指标。
可以看出两个主成分,因为有两个特征根大于1.由表4.2可以看出,第一主成分的特征根为2.974,方差贡献率为49.570%,第二个主成分的特征根为1.407%,方差贡献率为23.445%,两个主成分的累计方差贡献率达到73.015%,即两个主成分共解释了总变异的73.015%,进一步说明提取两个主成分是比较合适。
(4)图4.6为碎石图,实际上是按特征根大小排列的主成分折线图。
横坐标表示第几主成分,纵坐标表示特征根的值,本例在第三个特征根处变得比较平缓,表明可以提取两个主成分。
(5)表4.4为主成分得分系数矩阵,根据该矩阵,可以写出以标准化的原始变量表示的主成分的表达式。
若记标准化的原始变量为zx1、zx2、zx3、zx4,两主成分记为f1、f2,则表达式为:
f1=0.915zx1+0.644zx2+0.721zx3-0.838zx4
f2=-0.201zx1+0.363zx2+0.271zx3+0.284zx4
用这三个因子代替原来的六个变量可以概括全部信息的83.668%,因此,描述空气质量,可以用这三个因子,使问题更进一步简化、明了。
如将31个城市的标准化变量值带入上式,即可得31个城市的主成分得分。
(6)由表4.7可以看出,在第一主成分上,可吸入颗粒物的得分最高,说明可吸入颗粒物是我国主要城市空气污染的主要污染源。
在第二主成分上,年平均相对湿度的得分最高,表明湿度在一定程度上也能够影响空气的质量。
5.结论
按照聚类分析的结果,可以将我国的31个城市的空气质量分为四类:
第一类型的城市属于污染型城市,这些城市人口密集,交通拥挤,工业发达,像北京这样的全国政治文化中心,汽车拥有量很大,汽车尾气的排放量对空气的污染十分严重,大气急需改善;
第二类型的城市属于轻微污染型,这些城市的工业类型多以轻工业为主,对大气的污染较轻;
第三类型的城市空气质量良好,不会影响人体的健康;
第四类型的城市空气质量优,其中拉萨作为我国独具特色的一个旅游城市,不能以先发展再治理的短浅目光来发展经济,一定要重视环境保护。
此外,可得出中国近年来空气质量的污染主要是由于可吸入颗粒物,严重影响人体健康,故各个城市应该致力于控制和减少可吸入颗粒物的排放,比如植树造林,增加绿地面积,尽量减少裸露的地面;
城市施工时应注意防止造成大量的扬尘;
加大产业调整力度,加快淘汰落后产能,积极推广清洁能源;
实施机动车高排放标准,加快油品升级,加大高排放车辆检测力度,努力改善城市拥堵状况,严控机动车污染。