多元统计分析课程设计Word文档格式.docx
《多元统计分析课程设计Word文档格式.docx》由会员分享,可在线阅读,更多相关《多元统计分析课程设计Word文档格式.docx(11页珍藏版)》请在冰豆网上搜索。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
2.主成分分析法方法简介
主成分分析法是一种数学变换的方法,它把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。
在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。
依次类推,I个变量就有I个主成分。
其中Li为p维正交化向量(Li*Li=1),Zi之间互不相关且按照方差由大到小排列,则称Zi为X的第I个主成分。
设X的协方差矩阵为Σ,则Σ必为半正定对称矩阵,求特征值λi(按从大到小排序)及其特征向量,可以证明,λi所对应的正交化特征向量,即为第I个主成分Zi所对应的系数向量Li,而Zi的方差贡献率定义为λi/Σλj,通常要求提取的主成分的数量k满足Σλk/Σλj>
。
3.主成分分析主要目的
是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。
通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。
由此可见,主成分分析实际上是一种降维方法。
二问题背景及数据
1.问题及背景
背景:
随着生产力水平的不断提高,我国居民生活水平不断提高,生活质量也在不断改善。
但是,受各地生产力发展水平不平衡的影响,我国各地居民的生活质量也表现为不平衡。
问题:
利用主成分分析法对我国31个省市、自治区居民的生活状况进行评价分析。
为全面分析各地居民生活状况,可选取如下指标体系进行反应:
职工人均工资、人均居住面积、城市人均用水普及量、城市煤气普及量、人均拥有道路面积、人均绿地公共面积、批发零售贸易商品销售总额、旅游外汇收入。
2.数据
图1
数据来源:
《中国统计年鉴2009》
三详细分析过程
第一步:
录入数据,有以下变量:
职工人均工资,人均居住面积,城市人口用水普及量,城市煤气普及量,人均拥有道路面积,人均绿地公共面积,批发零售贸易商品销售总额,旅游外汇收入,见图2
图2
第二步:
选择功能模块
图3
第三步:
将变量添加到Varicribles中
图4
第四步:
输入信息
图5
图6
图7
图8
图9
第五步:
单击“OK”按钮,完成运算。
图10
三.结果分析
1.
Communalities
Initial
Extraction
人均工资
.730
居住面积
.598
人均用水
.636
煤气普及
.794
人均道路
.776
人均绿地
.771
商品总额
.883
旅游外汇
.653
分析:
第一列是列出八个原始变量,第二列是根据主成分分析初始解计算出变量共同度,第三列是是根据主成分分析最终解计算出变量共同度,这时由于因子变量个数少于原始变量个数,因此每个变量的共同度必然小于1。
例如,第一行中表示m个因子变量共同解释掉原始变量“人均工资”方差%。
2.
TotalVarianceExplained
Component
InitialEigenvalues
ExtractionSumsofSquaredLoadings
RotationSumsofSquaredLoadings
Total
%ofVariance
Cumulative%
1
2
3
4
.463
5
.442
6
.230
7
.093
8
.048
.597
ExtractionMethod:
PrincipalComponentAnalysis.
上表为spss输出结果,从上表可以看出特征值和和贡献率。
从上表可以看出公共因子对原变量总体的描述情况。
可以看出前2个公共因子的的贡献率达到%,所以提取2个公共因子就可以反映原变量的大部分信息。
3.
上图为公共因子碎石图,它的横坐标为公共因子数,纵坐标为公共因子的特征值。
可以看出前2个公共因子的特征值变化非常明显,到2个以后趋于平稳。
所以得出提取2个公共因子可以对原变量的信息描述有显著作用。
这与Communalities的结论也相符合。
4.
ComponentScoreCoefficientMatrix
.216
.200
.173
.134
.187
.170
.460
.018
.426
.249
.213
该表格是因子得分矩阵,这是根据回归年算法计算出来的因子得分函数的系数,根据这个表格可得下面的因子得分函数
F1=+++将根据2个因子得分函数自动计算样本的2个因子得分,并且2个因子作为新变量,保存到SPSS窗口中
第一主成分在人均拥有道路面积的系数上为负,其他为正,而且职工人居工资、人均居住面积、批发零售贸易商品销售总额、旅游外汇收入的系数绝对值比较大,说明第一主成分代表了我国居民生活质量状况针对职工人居工资、人均居住面积、批发零售贸易商品销售总额、旅游外汇收入和其他居民生活质量状况的反应指标之间的差异。
第二主成分在职工人均工资、人均居住面积、批发零售贸易商品销售总额、旅游外汇收入的系数上为负,其他为正,而且人均拥有道路面积和人居绿地公共面积的系数的绝对值比较大,说明第二主成分代表了我国居民生活质量状况针对人均公共设施需求(人均拥有道路面积和人居绿地公共面积)和其他居民生活质量状况的反应指标之间的差异。
主成分得分表分析,主成分得分表如下:
北京
天津
河北
山西
内蒙古
辽宁
吉林
黑龙江
上海
江苏
浙江
安徽
福建
江西
山东
河南
湖北
湖南
广东
广西
海南
重庆
四川
贵州
云南
西藏
陕西
甘肃
青海
宁夏
新疆
结论:
第一主成得分较高的有北京、天津、上海、江苏、浙江、辽宁,这几个省份都是经济比较发达的地区,第一主成分代表的意义为我国居民生活质量状况针对职工人居工资、人均居住面积、批发零售贸易商品销售总额、旅游外汇收入和其他居民生活质量状况的反应指标之间的差异。
第二主成得分较高的有山东、河北、陕西等地,,由于第二主成分代表的意义为我国居民生活质量状况针对人均消费品普及量及人均公共设施需求,由此可见这几个地区非常注重人均公共设施需求及人均消费品普及量这些方面。