SPSS进行主成分分析报告.docx

上传人:b****8 文档编号:11521361 上传时间:2023-03-02 格式:DOCX 页数:17 大小:519.17KB
下载 相关 举报
SPSS进行主成分分析报告.docx_第1页
第1页 / 共17页
SPSS进行主成分分析报告.docx_第2页
第2页 / 共17页
SPSS进行主成分分析报告.docx_第3页
第3页 / 共17页
SPSS进行主成分分析报告.docx_第4页
第4页 / 共17页
SPSS进行主成分分析报告.docx_第5页
第5页 / 共17页
点击查看更多>>
下载资源
资源描述

SPSS进行主成分分析报告.docx

《SPSS进行主成分分析报告.docx》由会员分享,可在线阅读,更多相关《SPSS进行主成分分析报告.docx(17页珍藏版)》请在冰豆网上搜索。

SPSS进行主成分分析报告.docx

SPSS进行主成分分析报告

实验七、利用SPSS进行主成分分析

【例子】以全国31个省市得8项经济指标为例,进行主成分分析.

第一步:

录入或调入数据(图1)。

图1 原始数据(未经标准化)

第二步:

打开“因子分析”对话框。

沿着主菜单得“Analyze→Data Reduction→Factor”得路径(图2)打开因子分析选项框(图3)。

图2打开因子分析对话框得路径

图3因子分析选项框

第三步:

选项设置。

首先,在源变量框中选中需要进行分析得变量,点击右边得箭头符号,将需要得变量调入变量(Variables)栏中(图3)。

在本例中,全部8个变量都要用上,故全部调入(图4).因无特殊需要,故不必理会“Value”栏。

下面逐项设置。

图4 将变量移到变量栏以后

 设置Descriptives描述选项。

单击Descriptives按钮(图4),弹出Descriptives对话框(图5).

图5描述选项框

在Statistics统计栏中选中Univariatedescriptives复选项,则输出结果中将会给出原始数据得抽样均值、方差与样本数目(这一栏结果可供检验参考);选中Initialsolution复选项,则会给出主成分载荷得公因子方差(这一栏数据分析时有用)。

在CorrelationMatrix栏中,选中Coefficients复选项,则会给出原始变量得相关系数矩阵(分析时可参考);选中Determinant复选项,则会给出相关系数矩阵得行列式,如果希望在Excel中对某些计算过程进行了解,可选此项,否则用途不大。

其它复选项一般不用,但在特殊情况下可以用到(本例不选)。

设置完成以后,单击Continue按钮完成设置(图5)。

设置Extraction选项。

打开Extraction对话框(图6).因子提取方法主要有7种,在Method栏中可以瞧到,系统默认得提取方法就是主成分(Principalponents),因此对此栏不作变动,就就是认可了主成分分析方法。

在Analyze栏中,选中Correlation matrix复选项,则因子分析基于数据得相关系数矩阵进行分析;如果选中Covariancematrix复选项,则因子分析基于数据得协方差矩阵进行分析。

对于主成分分析而言,由于数据标准化了,这两个结果没有分别,因此任选其一即可。

在Display栏中,选中Unrotated factorsolution(非旋转因子解)复选项,则在分析结果中给出未经旋转得因子提取结果。

对于主成分分析而言,这一项选择与否都一样;对于旋转因子分析,选择此项,可将旋转前后得结果同时给出,以便对比。

选中Scree Plot(“山麓"图),则在分析结果中给出特征根按大小分布得折线图(形如山麓截面,故得名),以便我们直观地判定因子得提取数量就是否准确.

在Extract栏中,有两种方法可以决定提取主成分(因子)得数目。

一就是根据特征根(Eigenvalues)得数值,系统默认得就是.我们知道,在主成分分析中,主成分得分得方差就就是对应得特征根数值.如果默认,则所有方差大于等于1得主成分将被保留,其余舍弃.如果觉得最后选取得主成分数量不足,可以将值降低,例如取;如果认为最后得提取得主成分数量偏多,则可以提高值,例如取。

主成分数目就是否合适,要在进行一轮分析以后才能肯定。

因此,特征根数值得设定,要在反复试验以后才能决定。

一般而言,在初次分析时,最好降低特征根得临界值(如取),这样提取得主成分将会偏多,根据初次分析得结果,在第二轮分析过程中可以调整特征根得大小.

第二种方法就是直接指定主成分得数目即因子数目,这要选中Number of factors复选项。

主成分得数目选多少合适?

开始我们并不十分清楚。

因此,首次不妨将数值设大一些,但不能超过变量数目。

本例有8个变量,因此,最大得主成分提取数目为8,不得超过此数。

在我们第一轮分析中,采用系统默认得方法提取主成分.

图6提取对话框

 需要注意得就是:

主成分计算就是利用迭代(Iterations)方法,系统默认得迭代次数就是25次。

但就是,当数据量较大时,25次迭代就是不够得,需要改为50次、100次乃至更多。

对于本例而言,变量较少,25次迭代足够,故无需改动。

设置完成以后,单击Continue按钮完成设置(图6).

设置Scores设置。

选中Saveasvariables栏,则分析结果中给出标准化得主成分得分(在数据表得后面).至于方法复选项,对主成分分析而言,三种方法没有分别,采用系统默认得“回归"(Regression)法即可。

图7因子得分对话框

选中Displayfactor scorecoefficient matrix,则在分析结果中给出因子得分系数矩阵及其相关矩阵。

 设置完成以后,单击Continue按钮完成设置(图7)。

 其它.

对于主成分分析而言,旋转项(Rotation)可以不必设置;对于数据没有缺失得情况下,Option项可以不必理会。

全部设置完成以后,点击OK确定,SPSS很快给出计算结果(图8)。

图8 主成分分析得结果

第四步,结果解读。

在因子分析结果(Output)中,首先给出得Descriptive Statistics,第一列Mean对应得变量得算术平均值,计算公式为

第二列Std、Deviation对应得就是样本标准差,计算公式为

第三列AnalysisN对应就是样本数目.这一组数据在分析过程中可作参考。

接下来就是CorrelationMatrix(相关系数矩阵),一般而言,相关系数高得变量,大多会进入同一个主成分,但不尽然,除了相关系数外,决定变量在主成分中分布地位得因素还有数据得结构。

相关系数矩阵对主成分分析具有参考价值,毕竟主成分分析就是从计算相关系数矩阵得特征根开始得。

相关系数阵下面得Determinant=1、133E-0、4就是相关矩阵得行列式值,根据关系式可知,det(λI)=det(R),从而Determinant=1、133E-0、4=λ1*λ2*λ3*λ4*λ5*λ6*λ7*λ8。

这一点在后面将会得到验证。

在munalities中,给出了因子载荷阵得初始主成分方差(Initial)与提取主成分方差(Extraction),后面将会瞧到它们得含义。

在TotalVarianceExplained(全部解释方差)表得InitialEigenvalues(初始特征根)中,给出了按顺序排列得主成分得分得方差(Total),在数值上等于相关系数矩阵得各个特征根λ,因此可以直接根据特征根计算每一个主成分得方差百分比(%ofVariance).由于全部特征根得总与等于变量数目,即有m=∑λi=8,故第一个特征根得方差百分比为λ1/m=3、755/8=46、939,第二个特征根得百分比为λ2/m=2、197/8=27、459,……,其余依此类推.然后可以算出方差累计值(Cumulative%).在Extraction SumsofSquaredLoadings,给出了从左边栏目中提取得三个主成分及有关参数,提取得原则就是满足λ>1,这一点我们在图6所示得对话框中进行了限定。

图8特征根数值衰减折线图(山麓图)

主成分得数目可以根据相关系数矩阵得特征根来判定,如前所说,相关系数矩阵得特征根刚好等于主成分得方差,而方差就是变量数据蕴涵信息得重要判据之一。

根据λ值决定主成分数目得准则有三:

 只取λ>1得特征根对应得主成分

从Total VarianceExplained表中可见,第一、第二与第三个主成分对应得λ值都大于1,这意味着这三个主成分得分得方差都大于1。

本例正就是根据这条准则提取主成分得。

累计百分比达到80%~85%以上得λ值对应得主成分

在TotalVarianceExplained表可以瞧出,前三个主成分对应得λ值累计百分比达到89、584%,这暗示只要选取三个主成分,信息量就够了。

根据特征根变化得突变点决定主成分得数量

从特征根分布得折线图(ScreePlot)上可以瞧到,第4个λ值就是一个明显得折点,这暗示选取得主成分数目应有p≤4(图8).那么,究竟就是3个还就是4个呢?

根据前面两条准则,选3个大致合适(但小有问题)。

在ponentMatrix(成分矩阵)中,给出了主成分载荷矩阵,每一列载荷值都显示了各个变量与有关主成分得相关系数。

以第一列为例,0、885实际上就是国内生产总值(GDP)与第一个主成分得相关系数。

将标准化得GDP数据与第一主成分得分进行回归,决定系数R2=0、783(图9),容易算出R=0、885,这正就是GDP在第一个主成分上得载荷。

下面将主成分载荷矩阵拷贝到Excel上面作进一步得处理:

计算公因子方差与方差贡献.首先求行平方与,例如,第一行得平方与为

h12=0、88492+0、38362+0、12092=0、9449

这就是公因子方差。

然后求列平方与,例如,第一列得平方与为

s12=0、88492+0、60672+…+0、82272=3、7551

这便就是方差贡献(图10)。

在Excel中有一个计算平方与得命令sumsq,可以方便地算出一组数据得平方与。

显然,列平方与即方差贡献。

事实上,有如下关系成立:

相关系数矩阵得特征根=方差贡献=主成分得分得方差

至于行平方与,显然与前面munalities表中得Extraction列对应得数据一样。

如果我们将8个主成分全部提取,则主成分载荷得行平方与都等于1(图11),即有hi=1,sj=λj。

到此可以明白:

在munalities中,Initial对应得就是初始公因子方差,实际上就是全部主成分得公因子方差;Extraction对应得就是提取得主成分得公因子方差,我们提取了3个主成分,故计算公因子方差时只考虑3个主成分。

图9国内生产总值(GDP)得与第一主成分得相关关系(标准化数据)

图10主成分方差与方差贡献

图11 全部主成分得公因子方差与方差贡献

提取主成分得原则上要求公因子方差得各个数值尽可能接近,亦即要求它们得方差极小,当公因子方差完全相等时,它们得方差为0,这就达到完美状态。

实际应用中,只要公因子方差数值彼此接近(不相差太远)就行了。

从上面给出得结果可以瞧出:

提取3个主成分得时候,居民消费得公因子方差偏小,这暗示提取3个主成分,居民消费方面得信息可能有较多得损失。

至于方差贡献,反映对应主成分得重要程度,这一点从方差得统计学意义可以得到理解。

在图11中,将最后一行得特征根全部乘到一起,得0、0001133,这正就是相关系数矩阵得行列式数值(在Excel中,求一组数据得乘积之与得命令就是product)。

最后说明ponentScore CoefficientMatrix(成分得分系数矩阵)与ponentScoreCovarianceMatrix(成分得分协方差矩阵),前者就是主成分得分系数,后者就是主成分得分得协方差即相关系数.从ponent ScoreCovarianceMatrix可以瞧出,标准化主成分得分之间得协方差即相关系数为0(j≠k)或1(j=k),这意味着主成分之间彼此正交即垂直。

初学者常将ponentScoreCoefficient Matrix表中得数据当成主成分得分或因子得分,这就是误会。

成分得分系数矩阵得数值就是主成分载荷除以相应得特征根得到得结果.在ponentMatrix表中,将第一列数据分别除以λ1=3、755,第二列数值分别除以λ2=2、197,…,立即得到ponentScoreCoefficient;反过来,如果将ponentScoreCoefficient Matrix表中得各列数据分别乘以λ1=3、755,λ2=2、197,…,则可将其还原为主成分载荷即ponentMatrix中得数据.

实际上,主成分得分在原始数据所在得SPSS当前数据栏中给出,不过给出得都就是标准化得主成分得分(图12a);将各个主成分乘以相应得√λ即特征根得二次方根可以将其还原为未经标准化得主成分得分.

 

a、标准化得主成分得分       b、非标准化得主成分得分

图12 两种主成分得分

计算标准化主成分得分得协方差或相关系数,结果与ponentScore CovarianceMatrix表中得给出得结果一致(见图13)。

 

第一因子

第二因子

第三因子

第一因子

1

第二因子

0、00000

第三因子

0、00000

0、00000 

1

图13主成分(得分)之间得相关系数矩阵

第五步,计算结果分析.

从ponentMatrix即主成分载荷表中可以瞧出,国内生产总值、固定资产投资与工业产值在第一主成分上载荷较大,亦即与第一主成分得相关系数较高;职工工资与货物周转量在第二主成分上得载荷绝对值较大,即负相关程度较高;消费价格指数在第三主成分上得载荷较大,即相关程度较高。

因此可将主成分命名如下:

第一主成分:

投入—产出主成分;

第二主成分:

工资-物流主成分;

第三主成分:

消费价格主成分。

作业:

课后15题.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 医学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1