SPSS数据分析.docx

资源描述

SPSS数据分析.docx

《SPSS数据分析.docx》由会员分享，可在线阅读，更多相关《SPSS数据分析.docx（18页珍藏版）》请在冰豆网上搜索。

SPSS数据分析.docx

SPSS数据分析

0SPSS

一、基本功能及操作介绍

（一）数据

1. 个案排序

对数据视图中的某个个案进行排序，具体排序规则可以点进去选择。

2. 变量排序

对变量视图中某个变量进行排序，具体规则可以点进去选择。

3. 转置

行列互转。

4. 合并文件

有两种文件的合并，添加个案可以实现两个文件的纵向合并，添加变量可以两个文件的横向合并。

5. 重构

实现把一个表格的若干个变量变为同一个变量等进行表格的合适转换

6. 汇总

对数据按照类别进行汇总，比如三个班级的学生成绩表格，可以按照班级把学生成绩的平均值等等汇总到另外一个表格，该表格就会显示比如按班级显示各个班级的成绩平均值等

7. 拆分文件

实现输出图形表格的合理拆分，比如一个公司有8个部门，现要求分男女比较各个部门的人员工资情况，理论上我们用选择个案（见下条），逐个选择男女与部门需要操作2*8次，由此画出2*8张图表。

利用拆分文件，这个时候可以选择比较组或者按组来组织输出，然后分组依据就是部门与性别，在利用下面会讲到的数据描述就可以实现预期效果。

8. 选择个案

实现选择表格中符合条件的个案然后对其进行相应操作，点击进去后会有各种选择方式，比如如果满足什么条件才选择，随机选择百分之多少等等

（二）转换

1. 重新编码为不同变量

可以把原来的变量或者变量的范围重新定义为新的变量，比如现有一个班级的学生成绩，要求分心50-70分，70-90分90-100分的同学所占比例，平均值等，现在就可以利用重新编码为不同变量，把上述范围重新编码为新的变量（名字可以自己任意选取），具体操作点击进去之后比较清楚。

2. 计算变量

实现对原来变量的重新计算从而产生新的变量，比如对原来变量进行乘以10操作产生新的变量等等，产生的变量名都是可以自己选择的

（三）分析

1. 描述统计：

实现对表格中变量的各种类型的描述统计

1.1频率

实现某一变量的频率统计，统计显示可以显示其平均值等等，可以选择用条形图或者什么其他图形进行描述，比如对于各个部门的工资可以进行分部门描述各个部门工资平均值或者其所占整体比率。

1.2描述

实现某一变量的具体描述，比如具体描述某一变量的平均值，峰值，中位数等等，对于上述的频率则是注重于该变量某属性所占份额即频率的描述

1.3探索

实现分因子列表对因变量列表的描述，例如可以实现分分部门（此时部门为因子列表中元素），对各个部门的工资进行画直方图，茎叶图或者进行相关数据的统计操作，且一次操作可以达到显示所有部门的效果。

2.比较平均值：

对变量平均值进行参数检验

2.1单样本T检验

实现某一已知数据与另外的给定数据进行检验判断有没有显著性差异，比如给出2010年的全国人平均消费，现在给出2011年各个地区的人均消费，利用单样本T检验就可以比较这两年的人均消费是否有显著差异（在进行该检验时，最后会自动计算出2011年的全国人平均消费）。

2.2独立样本T检验

实现相互独立的样本（两组样本个案数目可以不同，个案顺序可以随意调整）的均值显著性差异检验，比如给出投资类型有两种，需要比较他们对应的投资是否有显著性差异，检验变量为投资额度，分组变量为投资类型。

2.3成对样本T检验

实现配对的两个样本（两组样本的样本数必须相同两组样本观测值的先后顺序是一一对应的，不能随意改变）之间均值的显著性差异。

比如对于两份调查问卷，给相同的一些人填写，每份调查问卷对应填写得到的相应的分数，现比较这两份所得分数均值是否有差异，即把这两组选为相应的配对组即可。

比较独立样本与成对样本检验：

注意上述说明的适用条件，如果都可以适用，还需根据已知数据的形式进行选择，其实感觉这两种实现效果都是差不多的。

2.4单因素ANOVA检验

实现多个因子都可以决定某一变量时，他们对变量的影响有无显著性差异，比如投资类型有两种以上，现在需要比较投资类型对应的投资有无显著性差异，此时，运用该检验方法时，因变量列表为投资额度，因子为投资类型。

独立样本检验与单因素检验差不多，只不过独立样本检验的分组变量为两组，而单因素检验的因子至少两个。

3.线性模型

3.1一般线性模型

3.1.1单变量

研究两个及两个以上控制变量是否对观测变量产生显著影响。

比如比较工人与机器（其中机器有三种，工人有四种）对于产量的影响。

此时因变量为产量，固定因子为工人与机器，根据输出便可比较。

3.1.2协变量

这个时候如果存在工人与机器之外的第三种变量对产量有影响，为了消除这种影响而只是考虑工人与机器对于产量的影响，这个时候只需要将这第三种变量作为协变量既可。

4.相关

4.1双向量：

检验两个变量是否相关

比如检验身高与体重的相关性，这个时候也可以先画一个散点图，点进去之后具体的检验函数什么的都可以自由选择。

4.2偏相关：

提出某变量影响

由于其他变量的影响，所以在检验两个变量是否相关的时候，通过相关系数难以得出具体准确的结果，这个时候就需要剔除该变量的影响。

比如检验商业投资与地区经济增长相关性时，游客增长会对此产生影响。

所以利用偏相关检验时，变量为商业投资与地区经济增长，控制变量为游客增长，这样便可以消除游客增长对于检验的影响。

5.回归

5.1线性回归

实现因变量与自变量的线性回归关系，也可以给出具体的线性回归方程。

比如得出现在工资与工龄之间的线性关系，这里因变量是工资，自变量是工龄。

当然自变量也可以是多个，比如影响工资的还有职位，当求多个自变量与因变量的关系时，只是在自变量那里填多个自变量即可，不过这里需要把因变量下面的选择有原来的输入改为步进（原来自变量只有一个时选择步进）

5.2曲线估计（非线性回归）

当两个变量之间关系无法用线性表示就可以化为曲线估计，可以先求出这两个变量数据的散点图，然后根据散点图估计大致的曲线关系：

比如是二次还是对数关系之类。

比如求工资与工龄关系，进去曲线估计后，因变量选择工资，变量时工龄。

对于下面的模型就根据散点图选择。

输出结果后可以很清楚比较哪种曲线拟合最好之类。

二、常见分析方法及案例

（一）因子分析案例

某对外汉语培训中心对在该中心学习的外国留学生进行了一项汉语学习动机问卷调查。

使用李克特五级式量表。

第一级为最不喜欢，第五级为最喜欢。

随机抽取18人参加调查。

其中—个项目调查的是“内在动机”或称“内在兴趣动机”，了解留学生对汉语语言、文化的兴迎与喜爱。

该项目分为六个问题。

整理数据如下

1.在spss中建立数据集

2.打开Factoranalysis主对话框

2.1Analyze（分析）—Detareduction（数据化简）--factor（因素）

2.2所有数据放入variable框内

3.进入Factoranalysis主对话框右边的子对话框

3.1Descriptive子对话框

3.1.1选择Univariables（单变量描述统计量）

会输出每个变量的平均数、标准差和观测量

3.1.2选择Initialsolution（初步结果）

会输出原始分析结果：

公因子方差、协方差、各因子的特征值、所占总方差的百分比、累计百分比。

这是默认系统，应该保留。

3.1.3CorrelationMatrix（相关矩阵）围栏

选项含可选择的相关指标与相关检验:

常常选择相关系数【1】和KMO【4】

【1】coeffieient（相关系数）

列出各变量间的相关系数矩阵。

【2】Significancelevel（显著性水平）

列出各变量单侧检验的P值。

【3】Determinant（行列式）选项

输出相关系数矩阵的行列式。

【4】（KMOandBarlett’stestsofsphericity（开塞－梅耶－欧巴金和巴莱特球性检验）

选项（K-Kaiser,M-Meyer,O-Olkin）:

列出球性检验的结果，显示因素模型是否合理。

【5】Inverse（逆矩阵）：

列出相关系数的逆矩阵。

【6】Reproduced（在生相关矩阵）

列出因子分析后估计的相关矩阵与残差。

【7】Anti（逆影像）

列出包括相关系数的负值，包括方差　的负值的逆影像方差矩阵。

3.2Extraction（提取因子）子对话框

3.2.1Method

七种方法区别不大。

用默认Principalcomponents（主成分分析法）：

从解释变量的变异出发，使变异的方差能够被主成分所解释，主要用于获得初始因子的结果。

3.2.2Analyze围栏：

【1】Correlationmatrix（变量间相关矩阵）

保留默认。

【2】Covariancematrix（变量间协方差矩阵）

3.2.3Display围栏（输出结果）

【1】a.Unrotatedfactorsolution（显示未经旋转变化的因子提取结果）

【2】Screeplot（碎石图）

横轴为因子序号，纵轴表示特征值大小。

该图按特征值大小依次排列因子，可以看出哪些是主要因子。

MaximumIterationsforconvergence（收敛最大迭代次数）

3.2.4Extract（设定公因子提取标准）围栏：

【1】Eigenvaluesover

以特征大于莫数值为提取标准，保留默认选择系统默认值1。

【2】Numberoffactors（自提取因子的数量）

保留默认选择值1。

【3】Maximumiterationsforconvergence（收敛最大迭代次数）

保留默认选择25。

3.2.5Rotation（旋转）

【1】method.选择Varimatrix（正交旋转法）

【2】Display（输出结果显示）

A.Rotatedsolution

（旋转解法）：

正交旋转，输出旋转后的模式矩阵和因子转换矩阵。

B.Loadingplot

载荷散点图：

三维图：

坐标值为因子值，各个变量以三点形式分布其中，可以直观了解变量与因子之间的关系。

3.2.6Scores（因子得分）

保留默认。

3.2.7 Options,保留默认

保留默认。

表格说明Communalities （公因子方差表）：

表中给出了各变量中信息分别被提出的比例。

提取比例最高的是汉语歌曲0.874，最低的是汉语戏剧0.652.

图表说明TotalVarianceExplained （能解释的方差比例表），也称主成份列表，是一个非常重要的表格。

一个因子所解释的方差比例越高，这个因子包含原有变量信息的量就越多。

第一个成分的初始特征值为2.231，能解释的方差比例为31.621％，第二个与第三个分别为25.6％和21.4%。

其余四个成分都小于1，说明这几个成分的解释力度还不如直接引入原变量大。

这七个变量只需要提取出头三个成分即可。

图表说明ScreePlot碎石图中，从第三个成分以后的特征值就降得非常低。

第三个成分就是这一图形的“拐点”。

这一之前是主要因子，这一之后是次要因子。

因此，这一碎石图用直观的方法向我们显示，在我们这一实例中，只需要提取三个主要成分就行了。

图表说明ComponentMatrix 成分矩阵表，表中列出未使用旋转方法时使用因子能解释的各个变量的比例（各变量的信息被主成份提取了多少）。

图表说明：

表中列出了使用旋转方法后因子能解释的各个变量的比例。

对比表5可以看出，旋转后，原先较大的比例变得更大，较小的比例则变得更小。

ExtractionMethod:

PrincipalComponentAnalysis：

提取方法：

主要成分分析法

RotationMethod:

VarimaxwithKaiserNormalization：

旋转方法：

开塞正态方差最大变异法

图表说明:

ComponentTransformationMatrix 成分转换矩阵表，用来说明旋转前后主成份间的系数对应关系。

ExtractionMethod:

PrincipalComponentAnalysis：

提取方法：

主要成分分析法

RotationMethod:

VarimaxwithKaiserNormalization：

旋转方法：

开塞正态方差最大变异法

图表说明:

ComponentPlotRotatedSpace（旋转后的三维主成份图），从图中可见，我们的七个变量并没有在一个方位上，因此提取一个主成份并不能解释大部分信息。

这就是系统提取了三个主成分的原因。

（二）因子分析思路总结

1．概念

探讨具有相关关系的变量之间，是否存在不能直接观察到的，但对可观测变量的变化其支配作用的潜在因素的分析方法就是因子分析，也叫因素分析。

通俗点：

因子分析是寻找潜在的、起支配作用因子的方法。

2.思路角度分析实例

现在有 12 个地区的 5 个经济指标调查数据（总人口、学校校龄、总雇员、专业服务、中等房价），为对这 12 个地区进行综合评价，请确定出这 12 个地区的综合评价指标。

3.解决方案

3.1spss因子分析

同一指标在不同地区是不同的，用单一某一个指标难以对12个地区进行准确的评价，单一指标智能反映地区的某一方面。

所以，有必要确定综合评价指标，便于对比。

因子分析是一个不错的选择，5 个指标即为我们分析的对象，我们希望从这5个可观测指标中寻找出潜在的因素，用这些具有综合信息的因素对各地区进行评价。

下图是spss因子分析的操作界面，主要包括5方面的选项，变量区只能选择数值型变量，分类型变量不能进入该模型。

另外，spss软件为了消除不同变量间量纲和数量级对结果的影响，在该过程中默认自动进行标准化处理，因此不需要对这些变量提前进行标准化处理。

3.2描述统计选项卡

我们希望看到各变量的描述统计信息，要对比因子提取前后的方差变化，所以选定“单变量描述性”和“原始分析结果”；现在是基于相关矩阵提取因子，所以，选定相关矩阵的“系数和显著性水平“，比较重要的还有 KMO 和球形检验，通过KMO值，我们可以初步判断该数据集是否适合采用因子分析方法。

比较糟糕的是，kmo结果有时并不会出现，这主要与变量个数和样本量大小有关

3.3抽取选项卡

在该选项卡中设置如何提取因子，提取因子的方法有很多，最常用的就是主成分法。

因为参与分析的变量测度单位不同，所以选择“相关矩阵”，如果参与分析的变量测度单位相同，则考虑选用协方差矩阵。

经常用到碎石图对于判断因子的个数很有帮助，一般都会选择该项。

关于特征值，不想解释太多，这和显著性水平一样，都是统计学的一个基本概念。

一般spss默认只提取特征值大于1的因子，但，我还可以通过自定义设置需要提取的因子个数。

另外，收敛次数比较重要，可以从首次结果反馈的信息进行调整。

3.4因子旋转选项卡

因子分析要求对因子给予命名和解释，对因子旋转与否取决于因子的解释。

如果不经旋转因子已经很好解释，那么没有必要旋转，否则，应该旋转。

这里直接旋转，便于解释。

至于旋转就是坐标变换，使得因子系数向1 和 0 靠近，对公因子的命名和解释更加容易。

旋转方法一般采用”最大方差法“即可，输出旋转后的因子矩阵和载荷图，对于结果的解释非常有帮助。

3.5保存因子得分

要计算因子得分，就必须先写出因子的表达式。

而因子是不能直接观察到的，是潜在的。

但是可以通过可观测到的变量获得。

前面说到，因子分析模型是原始变量为因子的线性组合，现在我们可以根据回归的方法将模型倒过来，用原始变量也就是参与分析的变量来表示因子。

从而得到因子得分。

因子得分作为变量保存，对于以后深入分析很有用处。

4.结果解释

4.1验证数据是否适合做因子分析

主要参考kmo结果，一般认为大于0.5，即可接受。

同时还可以参考相关系数，一般认为分析变量的相关系数多数大于 0.3，则适合做因子分析；从 KMO=0.575 检验来看，不是特别适合因子分析，基本可以通过。

这里主要是为了简单介绍因子分析，所以，不看重这一结果。

4.2因子方差表

提取因子后因子方差的值均很高，表明提取的因子能很好的描述这 5 个指标。

方差分解表也表明，默认提取的前两个因子能够解释 5 个指标的 93.4%。

碎石图表明，从第三个因子开始，特征值差异很小。

综合以上，提取前两个因子。

4.3因子矩阵

由旋转因子矩阵可以看出，经旋转后，因子便于命名和解释。

因子 1主要解释的是中等房价、专业服务项目、中等校平均校龄，可以命名为社会福利因子；而因子 2 主要解释的是其余两个指标，总人口和总雇员。

可以命名为人口因子。

因子分析要求，最后得到的因子之间相互独立，没有相关性，而因子转换矩阵显示，两个因子相关性较低。

可见，对因子进行旋转是完全有必要的。

4.4因子系数

因子得分就是根据这个系数和标准化后的分析变量得到的。

其次，在数据视图中可以看到因子得分变量。

4.5结论

经过因子分析，我们的目的实现了，找到了两个综合评价指标，即人口因子和福利因子。

从原来的 5 个指标挖掘出 2 个潜在的综合因子。

可以对12 个地区给出客观评价。

我们可以根据因子1或者因子2得分，对这12个地区进行从大到小排序，得分高者被认为在这个维度上有较好表现。

5.后续处理

一般上因子分析到此就已经结束了，如果想再进一步展开分析，一般可以采取两种方式，第一是进行因子综合得分的计算，用一个总得分对样本进行大小排序，得分高者为佳；第二，将得到的若干因子作为新的变量，进行聚类分析。

展开阅读全文