1、样本方差原始变量样本主成分样本协方差样本相关矩阵样本平均值协方差矩阵特征向量矩阵矩阵的特征值矩阵的特征向量信息提取率五、问题求解5.1协方差矩阵主成分分析设是的协方差矩阵,的特征值与正交化特征向量分别为及,且的第个主成分为 (1)根据已有数据计算得样本的均值向量为根据协方差矩阵计算公式 (2)代入数据可求得随机变量相应的样本协方差矩阵为利用特征值计算公式代入数据可求得的特征值与对应单位正交化特征向量分别为,, 利用第个主成分的贡献率 (3)及前个主成分的累计贡献率 (4)代入数据计算得的各标准化主成分的贡献率及累计贡献率(如表1所示),可以看出,前三个标准化样本的累计贡献率已经达到98.696
2、8%,故只需提取前三个主成分即可:表1 的各标准化主成分的贡献率及累计贡献率贡献率(%)累计贡献率(%)1304.257987.2948228.27618.112795.4075311.46453.289398.696842.52430.724299.421051.27950.367199.788160.52870.151799.939870.20960.0601100.0000记主成分向量为 由 ,知的前三个主成分分别为因此,用前三个主成分代替原来7个变量,信息损失量较小。进一步由与的相关系数 (5)计算出前三个主成分与各原始变量的相关系数如下表:主成分相关系数原变量表2 前三个主成分与各原
3、始变量的相关系数0.10870.2576-0.0672-0.99940.0357-0.0014-0.1937-0.41810.46750.07400.06260.4111-0.1274-0.23690.9585-0.3521-0.9299-0.1041-0.0613-0.18240.4168由表可看出,与相关度较高,而由相关矩阵的主成分权重系数(即特征向量中的各个值)知,太阳辐射对空气污染的影响最大;与相关度较高,由相关矩阵的主成分权重系数(即特征向量中的各个值)知,对空气污染的影响较大;与相关度较高,同理,由相关矩阵的主成分权重系数(即特征向量中的各个值)知,对空气污染的影响较大。考虑前三个
4、主成分的贡献率依次降低,得出结论:影响空气污染的最重要因素为太阳辐射。由于的方差较大,第一主成分主要由变量控制,所以所得结论与实际不符。5.2样本相关矩阵主成分分析利用标准化公式对原数据进行标准化处理得到一组新的数据:即令 (6)其中为的平均值,为的方差。此时,由于的协方差矩阵即为的相关矩阵其中 (7) 为的协方差。代入数据计算得到样本相关矩阵为利用特征值计算公式代入数据可求得的特征值与单位正交化特征向量分别为 (8) (9)其中。计算的各标准化主成分的贡献率及累计贡献率(如表3所示)。表3 的各标准化主成分的贡献率及累计贡献率2.336833.38241.386019.799753.1821
5、1.204117.201270.38330.727110.387080.77030.65359.335690.10590.53677.667097.77290.15592.2271100.00可以看出,当特征值大于1时,提取前三个标准化样本的累计贡献率为70.3833%。记主成分向量为 由 ,则的前三个主成分分别为由与的相关系数 (10)计算出前三个主成分与各原始变量的相关系数如表:表4 前三个主成分与各原始变量的相关系数-0.36810.32550.69360.3145-0.62020.25020.8307-0.0046-0.14670.59270.5123-0.43730.74520.23
6、050.23500.4922-0.67140.17450.48840.35530.6072由表4可看出,与、相关度较高,近似是7个变量的等权重之和,反映了空气质量的综合指标,值越大,空气质量越差。与相关度较低,由相关矩阵的主成分权重系数(即特征向量中的各个值)知,CO对空气污染指标y2的影响较小;与、相关度较高,同理,由相关矩阵的主成分权重系数(即特征向量中的各个值)知,风速和HC对空气污染的影响较大。考虑前三个主成分的贡献率之和达到70.3833%,因此综合考虑来,和来评判影响空气污染的重要指标。5.3差异性从协方差矩阵出发,对所有变量进行主成分分析,何从相关矩阵出发做主成分分析,两个方向得
7、出的结果显示,原变量在第一主成分和第二主成分中的相对重要性,由于标准化而有很大变化。从协方差矩阵的角度进行主成分分析,所得第一主成分中,权重系数分别为-0.01、0.9922、0.941、-0.0047、0.0243、0.1124、0.0023,二重相对矩阵的角度进行主成分分析,所得的第一主成分分析,权重系数为-0.238、0.2056、0.5511、0.3776、0.4980、0.3246、0.3194。两者差距很大,并且在第二主成分中的两个系数相差更远。因此,由协方差矩阵和相关矩阵所得的主成分一般是不同的。为了满足样本主成分累计贡献率达到80%以上,从相关矩阵出发做的主成分分析应保留4个主
8、成分,而从协方差矩阵来看,只保留1个主成分即可。由此可知,用协方差矩阵进行主成分分析更能简化运算。本文中,由于设计的各变量的变化范围差异不大,因此应从先关矩阵出发求主成分比较合理。近似是7个变量的等权重之和,反映了空气质量的综合指标,值越大,空气质量越差。综合考虑来,和来评判影响空气污染的重要指标。六、模型评价模型优点:(1) 用主成分分析方法能够较好地揭示污染物于污染程度之间的关系;(2) 该模型所用工具较易操作;(3) 主成分分析法是从定量的角度出发,充分利用全部数据当中所包含的信息。所确定的指标权数是基于数据分析而得到的指标间的内在结构关系,具有较好的客观性;能有效消除不相关指标的影响,
9、从而可进行有针对性的定量化评价;得到的综合指标之间相互独立,不仅简化了评价系统,还减少了信息的交叉和冗余。(4) 方法计算简便,数学物理意义明确,有较强的可操作性和一定的推广应用。模型缺点:(1) 尚未考虑到其他变量的影响,存在预测误差;(2) 该模型未给出图像,难以反映各变量对空气污染程度的影响;(3) 从主成分分析方法本身来看,还有许多方面是不能替代定性分析方法的,只能说它在定性向定量转化过程中发挥了一定的效能。模型推广:利用主成分综合原始变量的信息,达到降低原始变量维数的目的,进而利用前几个主成分的得分的低维数据做进一步分析,有主成分分析法构造回归模型,把各成分作为新的自变量代替原始自变量x作回归分析。页脚内容9
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1