统计分析软件应用SPSS主成分分析实验报告.docx
《统计分析软件应用SPSS主成分分析实验报告.docx》由会员分享,可在线阅读,更多相关《统计分析软件应用SPSS主成分分析实验报告.docx(9页珍藏版)》请在冰豆网上搜索。
统计分析软件应用SPSS主成分分析实验报告
本科学生综合性、设计性
实验报告
实验课程名称统计分析软件应用
开课学期2010至2011学年下学期
上课时间2011年4月25日
辽宁师范大学教务处编印
一、实验方案
实验名称:
主成分分析
实验时间:
小组合作:
是○否●
小组成员:
1、实验目的:
掌握主成分分析的思想和具体步骤。
掌握SPSS实现主成分分析的具体操作,并对处理结果做出解释。
2、实验设备与材料:
WindowsXP;SPSSfor等。
3、实验方法步骤及注意事项
操作步骤:
(1)打开SPSS软件,新建一数据文件,定义变量:
Company(公司名称)、X1(赔付率)、X2(净收入与总收入之比)、X3(投资收益率)、X4(再保险率)、X5(总资产报酬率)、X6(两年保费收入收益率)、X7(保费收入变化率)、X8(流动性比率),这些变量中除了Company为字符串型(String)变量外,其余变量均为数值型(Numeric)变量。
(2)选择菜单[Analyze]=>[DataReduction]=>[Factor]进入[FactorAnalysis]主对话框。
选定左边列表中的变量X1、X2、X3、X4、X5、X6、X7、X8,单击按钮使之进入[Variables]列表框。
(3)单击主对话框中的[Descriptive…]按钮,打开[FactorAnalysis:
Descriptives]子对话框,在[Statistics]栏中选择[Univariatedescriptives]项要求输出各变量的均值与标准差,在[CorrelationMatrix]栏内选择[Coefficients]项要求计算相关系数矩阵,单击[Continue]按钮返回[FactorAnalysis]主对话框。
(4)单击主对话框中的[Extraction…]按钮,打开[FactorAnalysis:
Extraction]子对话框。
在[Method]列表中选择默认因子抽取方法[PrincipalComponents],在[Analyze]栏中选择默认的[CorrelationMatrix]项要求从相关系数矩阵出发求解主成分,在[Extract]栏中选择默认项[Eigenvaluesover:
1],[Maximumiterationconvagence:
]选择25,在[Display]中选择[Screeplot]单击[Continue]按钮返回[FactorAnalysis]主对话框。
(5)[Rotation]和[Scores],均选择默认选项,单击主对话框[OK]按钮,输出结果。
注意事项:
可以看出,主成分分析依赖于原始变量,也只能反映原始变量的信息。
所以原始变量的选择很重要。
另外,如果原始变量都本质上独立,那么降维就可能失败。
这是因为很难把很多独立变量用少数综合的变量概括。
数据越相关,降维效果就越好。
在得到分析的结果时,并不一定会都得到比较清楚的结果。
这与问题的性质,选取的原始变量以及数据的质量等都有关系。
(1)由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的
选取某一种方法;
(2)对于度量单位或是取值范围在同量级的数据,可直接求协方差阵;对于度
量单位不同的指标或是取值范围彼此差异非常大的指标,应考虑将数据标
准化,再由协方差阵求主成分;
(3)主成分分析不要求数据来源于正态分布;
(4)在选取初始变量进入分析时应该特别注意原始变量是否存在多重共线性的
问题(最小特征根接近于零,说明存在多重共线性问题);
(5)因子分析中各个公共因子之间不相关,特殊因子之间不相关,公共因子和
特殊因子之间不相关。
4、实验数据处理方法:
选取了人保、平安、太平洋、大众、华泰、永安、华安7个保险公司的数据,指标都是正指标,无需归一化,将自动对原始数据进行标准差标准化处理,消除指标量纲及数量级的影响。
5、参考文献:
[1]卢纹岱.SPSSforWindows统计分析[M].电子工程出版社,2006
[2]郭显光.如何用SPSS软件进行主成分分析[J].统计与信息论坛,1998,
(2)
[3]何晓群.现代统计分析方法与应用[M].中国人民大学出版社,1998
[4]余建英、何旭宏.数据统计分析与SPSS应用[M].人民邮电出版社,2003
6、指导老师对实验设计方案的意见:
指导老师签名:
年月日
二、实验报告
1、实验目的、设备与材料、理论依据、实验方法步骤见实验设计方案
2、实验现象、数据及结果
表1描述性统计量表表2主成分因子荷载矩阵表
表3相关系数矩阵表
表4公因子方差表图1碎石图
表5总方差分解表
3、对实验现象、数据及观察结果的分析与讨论:
表1是描述统计量表,主要列出了统计量的均值、方差和数据个数。
表2是主成分因子荷载矩阵表,系数表示该因子对变量的影响程度。
这里每一列代表一个主成分作为原来变量线性组合的系数(比例)。
比如第一主成分作为赔付率、净收入与总收入之比、投资收益率、再保险率、总资产报酬率、两年保费收入收益率、保费收入变化率、流动性比率,这八个原先变量的线性组合,系数(比例)为、、、、、、、。
如用x1、x2、x3、x4、x5、x6、x7、x8分别表示原先的十个变量,而用y1、y2、y3表示新的变量,那么原先8个变量与第一、第二和第三主成分y1、y2、y3的关系为:
X1=
X2=++
X3=+
X4=++
X5=++
X6=+
X7=++
X8=+
相关系数(绝对值)越大,主成分对该变量的代表性也越大。
表3是相关系数矩阵表。
表4是公因子方差表。
表5是总方差分解表,这里的InitialEigenvalues就是这里的八个主轴长度,又称特征值(数据相关阵的特征值)。
头三个成分特征值累积占了总方差的%。
后面的特征值的贡献越来越少。
依据原则:
特征值>1,提取了3个公因子(主成分),每个原始变量都可以是8个因子的线性组合,提取3个因子,可以概括原始变量所包含信息的%。
这3个公因子(主成分)包含了原指标的绝大部分信息,可以代替原来8个变量对保险公司的投资收益进行衡量。
图1是碎石图,特征值的贡献还可以从碎石图看出。
表6因子与主成分
a1
a2
a3
b1
b2
b3
X1
X2
X3
X4
X5
X6
X7
X8
特征值
贡献率
%
%
%
累计贡献率
%
%
%
主成分表达式:
b1=*X1+*X2+**X4+*X5+***X8
b2=*X1+**X3+***X6+*X7+*X8
b3=*X1+*X2+*X3+***X6+**X8
表7
Y1
Y2
Y3
Y1=*x1+*x2+**x4+*x5+***x8
Y2=*x1+*x2-**x4+*x5+***x8
Y3=*x1+*x2+*x3+*x4+**x6+**x8
加权:
输出结果,并从高到低进行排序:
表8
1:
人保2:
平安3:
太平洋4:
大众5:
华泰6:
永安7:
华安
Z主成分综合得分
Num
Z主成分综合得分
Num
1:
人保
华泰
2:
平安
太平洋
3:
太平洋
人保
4:
大众
平安
5:
华泰
永安
6:
永安
大众
7:
华安
华安
可以如上所述计算主成分得分,还可以通过综合评价函数计算综合得分:
综合评价函数:
Z=%*Y1+%*Y2+%*Y3
4、结论:
表8中,综合得分出现负值,这只表明该保险公司的综合水平处于平均水平之下。
由主成分分析的实证结果,不仅大部分保险公司的排名存在差异,且综合得分值上存在较大差异,其定量值差异较大,这对于后来的综合定量定性分析,最终所提出的政策建议等都会产生较大影响。
由表8可以看出:
华安保险的综合水平最低,华泰保险的综合水平最高。
由于前三个主成份的贡献率高达%,用综合得分值对各地区进行排序,能从总体上反映各公司之间的差别。
5、实验总结:
1)、本次实验成败之处及其原因分析:
主成分分析是一种通过降维技术把原来众多具有一定相关性的变量化为少数几个主成分的统计方法。
通常,只要变量之间存在一定的相关性,前几个主成分往往就具有较高的累计贡献率,从而这少数的几个主成分就反映原始变量的绝大部分信息,从而达到较好的降维目的。
通过SPSS可以容易进行主成分分析,得到数据间的主成分,从而可以很好的分析数据。
2)、本实验的关键环节及改进措施:
做好本实验需要把握的关键环节:
通过总方差分析表得到贡献率大的主成分的特征值,通过主因子荷载表,应用compute计算主成分表达式的,然后加权计算综合得分,最后进行排序。
进行综合得分时,除SPSS软件外,其他软件都分别设有两种方法的过程命令,使用者可以根据需要采用其中一种来分析问题,一般不会混淆。
而正是因为SPSS没有直接进行主成分分析的命令,才使得那些本身尚未清楚区分这两种方法的使用者更加迷惑,不慎便会出现混淆性错误。
若重做本实验,为实现预期效果,仪器操作和实验步骤应如何改善:
每个因子(主成分)的系数(载荷)没有很明显的差别,所以不好命名。
因此为了对因子进行命名,可以进行旋转,使系数向0和1两极分化。
3)、对实验的自我评价:
通过本次实验,了解SPSS软件的运行管理方式,熟悉各主要操作模块,窗口及其功能,相关的系统参数设置等。
基本掌握了应用SPSS软件Analyze菜单中的
DataReduction模块对数据进行主成分分析,但是在操作过程和文字分析上还是有些生疏,有待进一步的熟练。
6、指导老师评语及得分:
签名:
年月日