多元统计分析课程设计.docx
《多元统计分析课程设计.docx》由会员分享,可在线阅读,更多相关《多元统计分析课程设计.docx(12页珍藏版)》请在冰豆网上搜索。
多元统计分析课程设计
.
主成分分析法在我国居民生活质量状况综合评价中的应用
..
.
内容摘要:
而人民的生活改革开放以来,我国各地区间的经济发展速度有着明显差别,个省31质量也因此产生了不同,本文用主成分分析法,选取多个指标,对全国市居民的生活质量进行了简单的分析。
数据分析主成分分析关键词:
数据选取SPSS使用软件:
..
.
主成分分析一1.主成分分析定义把多指标转化为少数几主成分分析也称主分量分析,旨在利用降维的思想,个综合指标。
在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众因这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
多影响因素。
并且指标之间彼此有为每个变量都在不同程度上反映了所研究问题的某些信息,在用统计一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
多会增加计算量和增加分析问题的复杂性,人方法研究多变量问题时,变量太
们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
2.主成分分析法方法简介它把给定的一组相关变量通过线性主成分分析法是一种数学变换的方法,
在这些新的变量按照方差依次递减的顺序排列。
变换转成另一组不相关的变量,称为第一主成使第一变量具有最大的方差,数学变换中保持变量的总方差不变,依次类推,称为第二主成分。
分,第二变量的方差次大,并且和第一变量不相关,个变量就有I个主成分。
I之间互不相关且按照方Zi1),维正交化向量(Li*Li=其中Li为pΣ,X的协方差矩阵为X的第I个主成分。
设差由大到小排列,则称Zi为λi(按从大到小排序)及其特征向Σ必为半正定对称矩阵,求特征值则所对ZiI量,可以证明,λi所对应的正交化特征向量,即为第个主成分λi/Σλj,通常要求提取的的方差贡献率定义为Li,而Zi应的系数向量Σλk/Σλj>0.85。
k满足主成分的数量主成分分析主要目的3.
是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。
通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。
由此可见,主成分分析实际上是一种降维方法。
二问题背景及数据
问题及背景1.
生活质量我国居民生活水平不断提高,背景:
随着生产力水平的不断提高,我国各地居民的生受各地生产力发展水平不平衡的影响,但是,也在不断改善。
活质量也表现为不平衡。
..
.
问题:
利用主成分分析法对我国31个省市、自治区居民的生活状况进行评价分析。
为全面分析各地居民生活状况,可选取如下指标体系进行反应:
职工人均工资、人均居住面积、城市人均用水普及量、城市煤气普及量、人均拥有道路面积、人均绿地公共面积、批发零售贸易商品销售总额、旅游外汇收入。
2.数据
图1
数据来源:
《中国统计年鉴2009》
三详细分析过程
第一步:
录入数据,有以下变量:
职工人均工资,人均居住面积,城市人口用水普及量,城市煤气普及量,人均拥有道路面积,人均绿地公共面积,批发零售贸易商品销售总额,旅游外汇收入,见图2
..
.
2图
第二步:
选择功能模块
图3
第三步:
将变量添加到Varicribles中
图4
..
.
第四步:
输入信息
图5
图6
图7
..
.
图8
图9
第五步:
单击“OK”按钮,完成运算。
图10
..
.
三.结果分析
1.
Communalities
InitialExtraction
人均工资.7301.000
居住面积.5981.000
人均用水.6361.000煤气普.7941.000
人均道.7761.000
人均绿.7711.000
商品总.8831.000
旅游外.653
1.000
第二列是根据主成分分析初始解计算出分析:
第一列是列出八个原始变量,这时由于因第三列是是根据主成分分析最终解计算出变量共同度,变量共同度,。
例如,第一1子变量个数少于原始变量个数,因此每个变量的共同度必然小于0.730行中表示m个因子变量共同解释掉原始变量“人均工资”方差72.2%。
2.
TotalVarianceExplained商品总额-.064
.249津天-0.8625341.892352-0.02902广-0.34558西-0.16167
海南-1.14739
Component北河西山内蒙古辽宁吉林
InitialEigenvalues0.9498320.043624-0.59951-0.39209
ExtractionSumsofSquaredLoadings
RotationSumsofSquaredLoadings
Total-1.024830.231639-0.67003
%ofVariance
Cumulative%0.27295-0.0096-0.10225
Total
%ofVariance
Cumulative%
Total
%ofVariance
Cumulative%
123456784.
ComponentScore
CoefficientMatrix人均工资居住面积人均用水黑龙江上海苏江江浙安徽建福西江山东南河
3.9551.886.883.463.442.230.093.048-0.843192.9128511.278211.536949-0.234120.614881-0.150910.430619-0.80858
49.43823.58111.0335.7835.5302.8741.164.597Component1.216.200.173
49.43873.01984.05189.83495.36498.23999.403100.0002-.272-.010.134-0.37942-2.061562.2095290.5983950.5360680.6748150.6705152.655349-0.83491
3.9551.886
49.43823.581
49.43873.019
3.8741.968
48.41924.600
48.41973.019
ComponentMethod:
PrincipalExtraction
Analysis.煤气普及.170.187
人均道路.460-.068人均绿地0.607727北湖0.089345
-0.10477南-0.13126湖东广
分析:
上表为spss输出结果,从上表可以看出特征值和和贡献率。
从上表可以看出公共因子对原变量总体的描述情况。
可以看出前2个公共因子的的贡献..
.
2个公共因子就可以反映原变量的大部分信息。
率达到73.019%,所以提取3.
纵坐标为公共因上图为公共因子碎石图,它的横坐标为公共因子数,分析:
个以后趋于2到可以看出前2个公共因子的特征值变化非常明显,子的特征值。
个公共因子可以对原变量的信息描述有显著作用。
这与2平稳。
所以得出提取的结论也相符合。
Communalities.426.018
..
.
旅游外汇-.040
.213
这是根据回归年算法计算出来的因子得分函该表格是因子得分矩阵,分析:
数的系数,根据这个表格可得下面的因子得分函数F1=0.216x1+0.200x2+0.173x3+0.187x4-0.068x5+0.018x6+0.249x7+0.213x8
F2=-0.272x1-0.010x2+0.134x3+0.170x4+0.460x5+0.426x6-0.064x7-0.040x8
个因子作22个因子得分,并且SPSS将根据2个因子得分函数自动计算样本的窗口中为新变量,保存到SPSS而且职工人居工其他为正,第一主成分在人均拥有道路面积的系数上为负,旅游外汇收入的系数绝对值比批发零售贸易商品销售总额、资、人均居住面积、人均居说明第一主成分代表了我国居民生活质量状况针对职工人居工资、较大,旅游外汇收入和其他居民生活质量状况的住面积、批发零售贸易商品销售总额、反应指标之间的差异。
第二主成分在职工人均工资、人均居住面积、批发零售贸易商品销售总额、而且人均拥有道路面积和人居绿地公共旅游外汇收入的系数上为负,其他为正,说明第二主成分代表了我国居民生活质量状况针对面积的系数的绝对值比较大,和其他居民生活质人均公共设施需求(人均拥有道路面积和人居绿地公共面积)量状况的反应指标之间的差异。
主成分得分表分析,主成分得分表如下:
-1.595012.27203北京0.258921.530677
..
.
-0.04335-0.05216庆重-0.29735-0.46073四川-1.69898贵州-0.89657
-0.26378南-0.47307云
-1.42896-0.51009西藏0.279638西-0.17101陕
-0.75339肃-1.14588甘0.07707-0.13177青海0.566148-0.85301夏宁0.006558
新疆-0.49854
结论:
第一主成得分较高的有北京、天津、上海、江苏、浙江、辽宁,这几第一主成分代表的意义为我国居民生活质量状个省份都是经济比较发达的地区,旅游外汇收批发零售贸易商品销售总额、人均居住面积、况针对职工人居工资、入和其他居民生活质量状况的反应指标之间的差异。
,由于第二主成分代表的意第二主成得分较高的有山东、河北、陕西等地,由此可义为我国居民生活质量状况针对人均消费品普及量及人均公共设施需求,见这几个地区非常注重人均公共设施需求及人均消费品普及量这些方面。
..