1、中国环境污染的规模居世界前列。2.2问题的研究意义:为分析比较各地环境污染特点,利用因子分析对环境污染的各个指标进行降维处理并得到影响环境的在因素,进一步对环境污染原因及治理措施进行分析,让更多的人认识到环境的重要性,准确把握各地区环境治理方法以及针对不同地区制定不同的政策改善环境问题,这对综合治理环境问题具有重要意义。2.3方法介绍因子分析的意义:变量间的信息的高度重叠和高度相关会给统计方法的应用设置许多障碍。为解决此问题,最简单和最直接的解决方案是削减变量个数,但这必然会导致信息丢失和信息不完全等问题的产生。为此人们希望探索一种更有效地解决方法,它既能大幅减少参与数据建模的变量个数,同时也
2、不会造成信息的大量丢失。因子分析正是这样一种能够有效降低变量维数的分析方法。因子分析的步骤:因子分析的前提条件:要求原有变量之间存在较强的相关关系。因子提取:将原有变量综合成少数几个因子是因子分析的核心容。 若存在随机向量及,使简记为,且(1)(标准化);(2)(中心化);(3)(不相关)。那么,称指标向量具有正交因子结构(所有因子相互正交,即);称此模型为正交因子模型;称为公共因子(对整个有影响的公共因素);称为特殊因子(只对的各对应分量有影响的特殊因素);称为因子载荷矩阵,为第个指标在第个公共因子上的载荷。因子载荷矩阵的建立因子分析的最基本任务之一就是建立因子载荷矩阵。对于正交因子模型,有
3、若已标准化,则在绝大多数实际问题中,往往都是未知的,由此求出是不可能的,这时可以通过主成分分析给出一组公共因子及其因子载荷矩阵。具体方法如下:(1)求出的特征根,以及相应的单位特征向量。(2)建立主成分。是正交矩阵。(3)构造公共因子,并建立因子载荷矩阵。 (逆问题)令 容易验证: 具有如下正交因子结构: (?)完全忽略了特殊因子的影响。若只取前个主成分,且令,则有其中。忽略了不重要的公共因子,由特殊因子解析。换句话说,用主成分法获得了的正交因子分解(近似)中的。这里的主要问题是如何确定因子数k方法一:根据特征值确定因子数。观察各个特征值,一般取特征值大于1的。方法二:根据因子的累计方差贡献率
4、确定因子数。 通常选取累计方差贡献率大于0.85时的特征值个数为因子个数k。使因子具有命名解释性实际分析工作中人们总是希望对因子的实际含义有比较清楚的认识。未解决这个问题,可通过因子旋转的方法使一个变量只在尽可能少的几个因子上有比较高的载荷。最理想状态下,使某个变量在某个因子上的载荷趋于1,在其他的因子上的载荷趋于0。这样,一个因子就能够成为某个变量的典型代表,于是因子的实际含义也就清楚了。 因子正交旋转当指标向量具有正交因子结构时,其公共因子向量、因子载荷矩阵及正交因子分解均不唯一确定。对任一阶正交矩阵,有则利用正交因子分解的这一性质,在因子分析(正交因子模型)中,常常在建立了初始因子载荷矩
5、阵之后,再对其作适当的正交变换(几何解释:因子轴旋转),以使得因子载荷矩阵具有更简洁、更理想(近乎分块对角矩阵形式)的结构,公共因子向量具有更明显、更直观的实际意义,正交因子分解更合理、更能反映客观实际。目前,已经提出了各种因子旋转的方法。比较常用的一种是方差极大因子轴正交旋转法,简称方差极大法。先考虑两个公共因子的平面正交旋转。具有更理想、更简化的结构,即使其各列的因子载荷值尽可能地两极分化,大者尽可能大,小者尽可能小。各载荷值可正可负,的依赖程度也不同,消除其影响:(规格化)正交旋转的目的就是要使新因子载荷矩阵的各列方差之和(总方差)达到最大。记则可由下式确定:tg且的符号可由的符号确定:
6、当公共因子数时,需要对因子载荷矩阵中的列因子载荷向量配两两对旋转,共旋转次。列。先确定,后旋转。仅列元素改变。全部列两两配对旋转完毕后,就完成了第一轮旋转。如果因子载荷矩阵还不能达到要求,那么进行第二轮旋转,如此进行下去,直到满足要求为止。每经一轮旋转,都可算出因子载荷矩阵的总方差。是一非降序列,且有上界(为),故必收敛于某一极限值,即为最大总方差。实际中,通常旋转到总方差改进不大,即(给定精度)时,旋转停止。最后,取作为最终因子载荷矩阵。计算因子得分因子得分是因子分析的最终体现。在因子分析的实际应用中,当因子确定以后,便可计算各因子在每个样本观测上的具体数值,这些数值称为因子得分,形成的变量
7、称为因子得分变量。于是,在以后的分析中就可以因子得分变量代替原有变量进行数据建模,或利用因子得分变量对样本进行分类或评价等研究,进而实现降维和简化问题的目的。,3.实证分析3.1指标:废水排放总量、需氧量排放总量、氨氮排放总量、二氧化硫排放总量、氮氧化物排放总量、烟尘灰尘排放总量3.2原始数据:地区废水排放总量化学需氧量排放总量氨氮排放总量二氧化硫排放总量氮氧化物排放总量烟尘灰尘排放总量15.0716.881.97.8915.15.748.9421.432.4520.9228.2313.9530.98126.8510.27118.99151.25179.7714.544.135.37120.8
8、2106.99150.6811.1984.774.93131.24125.83102.1526.29121.710.0199.4690.2112.0712.2274.35.3137.2354.9247.5114.96142.398.4947.2273.0679.3522.1222.444.4618.8133.2814.1760.1211014.2590.47123.2676.3741.8372.5410.3257.468.7937.9727.2388.5610.0549.380.7365.2826.0662.988.9335.641.1736.7920.8372.018.653.4454.01
9、46.2351.44178.0415.5159.02159.33120.8142.28131.8713.9119.82142.288.2130.17103.3112.0458.3858.0250.431122.915.4462.3755.2849.6290.51167.0620.8273.01112.2144.95广西21.9374.47.9346.6644.2440.293.9419.62.293.269.52.3214.5838.645.1352.6935.522.6133.13121.6313.4779.6458.5442.8611.0932.673.892.5849.1137.7915
10、.7553.385.6563.6749.8936.680.542.790.340.424.831.3950.495.8278.170.5870.916.637.323.8157.5641.8434.582.310.50.9815.4313.4523.993.7321.981.6637.7140.423.9267.024.5985.386.2881.393.3数据来源:中国环境年鉴 利用SPSS软件进行分析,首先录入数据,然后一次进行如下处理:一、考察原有变量是否适合进行因子分析 首先考察收集到的原有变量之间是否存在一定的线性关系,是否适合采用因子分析。这里借助变量的相关系数矩阵进行分析。表一是
11、原有变量的相关系数矩阵。可以看到:大部分的相关系数都较高,各变量呈较强的线性关系,能够从中提取公共因子,适合进行因子分析。表一相關性矩陣废水排放总量 单位:亿吨化学需氧量排放总量 单位:万吨氨氮排放总量 单位:二氧化硫排放总量 单位:氮氧化物排放总量 单位:烟尘灰尘排放总量 单位:相關1.000.762.913.424.612.277.906.647.773.592.519.650.394.903.842.864二、提取因子这里首先进行尝试性分析:根据原有变量的相关系数矩阵,采用主成分分析提取因子并选取大于1的特征值,分析结果如表2所示。表二Communalities起始擷取.923.892.971.908氮氧化
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1