空气污染研究的主成分分析Word格式.doc

上传人:wj 文档编号:13035096 上传时间:2022-10-03 格式:DOC 页数:9 大小:413KB
下载 相关 举报
空气污染研究的主成分分析Word格式.doc_第1页
第1页 / 共9页
空气污染研究的主成分分析Word格式.doc_第2页
第2页 / 共9页
空气污染研究的主成分分析Word格式.doc_第3页
第3页 / 共9页
空气污染研究的主成分分析Word格式.doc_第4页
第4页 / 共9页
空气污染研究的主成分分析Word格式.doc_第5页
第5页 / 共9页
点击查看更多>>
下载资源
资源描述

空气污染研究的主成分分析Word格式.doc

《空气污染研究的主成分分析Word格式.doc》由会员分享,可在线阅读,更多相关《空气污染研究的主成分分析Word格式.doc(9页珍藏版)》请在冰豆网上搜索。

空气污染研究的主成分分析Word格式.doc

样本方差

原始变量

样本主成分

样本协方差

样本相关矩阵

样本平均值

协方差矩阵

特征向量矩阵

矩阵的特征值

矩阵的特征向量

信息提取率

五、问题求解

5.1协方差矩阵主成分分析

设是的协方差矩阵,的特征值与正交化特征向量分别为及,且的第个主成分为

(1)

根据已有数据计算得样本的均值向量为

根据协方差矩阵计算公式

(2)

代入数据可求得随机变量相应的样本协方差矩阵为

利用特征值计算公式代入数据可求得的特征值与对应单位正交化特征向量分别为

利用第个主成分的贡献率

(3)

及前个主成分的累计贡献率

(4)

代入数据计算得的各标准化主成分的贡献率及累计贡献率(如表1所示),可以看出,前三个标准化样本的累计贡献率已经达到98.6968%,故只需提取前三个主成分即可:

表1的各标准化主成分的贡献率及累计贡献率

贡献率(%)

累计贡献率(%)

1

304.2579

87.2948

2

28.2761

8.1127

95.4075

3

11.4645

3.2893

98.6968

4

2.5243

0.7242

99.4210

5

1.2795

0.3671

99.7881

6

0.5287

0.1517

99.9398

7

0.2096

0.0601

100.0000

记主成分向量为

由,

知的前三个主成分分别为

因此,用前三个主成分代替原来7个变量,信息损失量较小。

进一步由与的相关系数

(5)

计算出前三个主成分与各原始变量的相关系数如下表:

表2前三个主成分与各原始变量的相关系数

0.1087

0.2576

-0.0672

-0.9994

0.0357

-0.0014

-0.1937

-0.4181

0.4675

0.0740

0.0626

0.4111

-0.1274

-0.2369

0.9585

-0.3521

-0.9299

-0.1041

-0.0613

-0.1824

0.4168

由表可看出,与相关度较高,而由相关矩阵的主成分权重系数(即特征向量中的各个值)知,太阳辐射对空气污染的影响最大;

与相关度较高,由相关矩阵的主成分权重系数(即特征向量中的各个值)知,对空气污染的影响较大;

与相关度较高,同理,由相关矩阵的主成分权重系数(即特征向量中的各个值)知,对空气污染的影响较大。

考虑前三个主成分的贡献率依次降低,得出结论:

影响空气污染的最重要因素为太阳辐射。

由于的方差较大,第一主成分主要由变量控制,所以所得结论与实际不符。

5.2样本相关矩阵主成分分析

利用标准化公式对原数据进行标准化处理得到一组新的数据:

即令

  (6)

其中为的平均值,为的方差。

此时,由于的协方差矩阵即为的相关矩阵其中

(7)

为的协方差。

代入数据计算得到样本相关矩阵为

利用特征值计算公式代入数据可求得的特征值与单位正交化特征向量分别为

(8)

(9)

其中。

计算的各标准化主成分的贡献率及累计贡献率(如表3所示)。

表3的各标准化主成分的贡献率及累计贡献率

2.3368

33.3824

1.3860

19.7997

53.1821

1.2041

17.2012

70.3833

0.7271

10.3870

80.7703

0.6535

9.3356

90.1059

0.5367

7.6670

97.7729

0.1559

2.2271

100.00

可以看出,当特征值大于1时,提取前三个标准化样本的累计贡献率为70.3833%。

记主成分向量为

则的前三个主成分分别为

由与的相关系数

(10)

计算出前三个主成分与各原始变量的相关系数如表:

表4前三个主成分与各原始变量的相关系数

-0.3681

0.3255

0.6936

0.3145

-0.6202

0.2502

0.8307

-0.0046

-0.1467

0.5927

0.5123

-0.4373

0.7452

0.2305

0.2350

0.4922

-0.6714

0.1745

0.4884

0.3553

0.6072

由表4可看出,与、相关度较高,近似是7个变量的等权重之和,反映了空气质量的综合指标,值越大,空气质量越差。

与相关度较低,由相关矩阵的主成分权重系数(即特征向量中的各个值)知,CO对空气污染指标y2的影响较小;

与、相关度较高,同理,由相关矩阵的主成分权重系数(即特征向量中的各个值)知,风速和HC对空气污染的影响较大。

考虑前三个主成分的贡献率之和达到70.3833%,因此综合考虑来,和来评判影响空气污染的重要指标。

5.3差异性

从协方差矩阵出发,对所有变量进行主成分分析,何从相关矩阵出发做主成分分析,两个方向得出的结果显示,原变量在第一主成分和第二主成分中的相对重要性,由于标准化而有很大变化。

从协方差矩阵的角度进行主成分分析,所得第一主成分中,权重系数分别为-0.01、0.9922、0.941、-0.0047、0.0243、0.1124、0.0023,二重相对矩阵的角度进行主成分分析,所得的第一主成分分析,权重系数为-0.238、0.2056、0.5511、0.3776、0.4980、0.3246、0.3194。

两者差距很大,并且在第二主成分中的两个系数相差更远。

因此,由协方差矩阵和相关矩阵所得的主成分一般是不同的。

为了满足样本主成分累计贡献率达到80%以上,从相关矩阵出发做的主成分分析应保留4个主成分,而从协方差矩阵来看,只保留1个主成分即可。

由此可知,用协方差矩阵进行主成分分析更能简化运算。

本文中,由于设计的各变量的变化范围差异不大,因此应从先关矩阵出发求主成分比较合理。

近似是7个变量的等权重之和,反映了空气质量的综合指标,值越大,空气质量越差。

综合考虑来,和来评判影响空气污染的重要指标。

六、模型评价

模型优点:

(1)用主成分分析方法能够较好地揭示污染物于污染程度之间的关系;

(2)该模型所用工具较易操作;

(3)主成分分析法是从定量的角度出发,充分利用全部数据当中所包含的信息。

所确定的指标权数是基于数据分析而得到的指标间的内在结构关系,具有较好的客观性;

能有效消除不相关指标的影响,从而可进行有针对性的定量化评价;

得到的综合指标之间相互独立,不仅简化了评价系统,还减少了信息的交叉和冗余。

(4)方法计算简便,数学物理意义明确,有较强的可操作性和一定的推广应用。

模型缺点:

(1)尚未考虑到其他变量的影响,存在预测误差;

(2)该模型未给出图像,难以反映各变量对空气污染程度的影响;

(3)从主成分分析方法本身来看,还有许多方面是不能替代定性分析方法的,只能说它在定性向定量转化过程中发挥了一定的效能。

模型推广:

利用主成分综合原始变量的信息,达到降低原始变量维数的目的,进而利用前几个主成分的得分的低维数据做进一步分析,有主成分分析法构造回归模型,把各成分作为新的自变量代替原始自变量x作回归分析。

页脚内容9

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高中教育 > 高中教育

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1