spss软件实验指导书.docx

资源描述

spss软件实验指导书.docx

《spss软件实验指导书.docx》由会员分享，可在线阅读，更多相关《spss软件实验指导书.docx（44页珍藏版）》请在冰豆网上搜索。

spss软件实验指导书.docx

spss软件实验指导书

SPSS统计分析软件实验

指导书

经济与管理学院工商管理系

统计模拟实习课程组

2011年2月

1.实验一SPSS的数据基本操作

2.实验二描述性统计分析

3.实验三均值比较

4.实验四相关分析和回归分析

5.实验五聚类分析和判别分析

6.实验六因子分析和主成分分析

《SPSS统计分析软件实验》

一、课程实验课所占学时

30学时

二、实验适用专业

经济管理类各专业

三、实验的任务、性质和目的

统计计算，尤其是多元统计计算往往是十分复杂的，因此需要借助统计软件。

本课程实验正是为了使学生系统地学习SPSS这一统计软件，培养学生根据实际问题建立SPSS数据文件、利用SPSS软件提供的各种统计功能进行统计分析，并结合一定专业知识对分析结果给出合理解释的能力，从而为学生以后从事统计分析工作打下基础。

四、实验方式与基本要求

1．由授课教师讲清上机实验的基本要求和注意事项；

2．由授课教师事先布置上机实验的内容，设计要求，操作步骤，并要求

学生课前进行准备；

3．学生集中在机房上机；

4．要求学生每次完成所布置的任务，提交实验报告。

五、考核方式与评分办法

1.实验报告（60%）

2.上机检查（20%）

3.考勤（20%）

实验一SPSS基本操作

一、实验目的

1．熟悉SPSS的菜单和窗口界面，熟悉SPSS各种参数的设置；

2．掌握SPSS的数据管理功能。

二、实验内容及步骤

（一）数据的输入和保存

1.SPSS界面

当打开SPSS后，展现在我们面前的界面如下：

请注意窗口顶部显示为“SPSSforWindowsDataEditor”，表明现在所看到的是SPSS的数据管理窗口。

这是一个典型的Windows软件界面，有菜单栏、工具栏。

该界面和EXCEL极为相似，很多操作也与EXCEL类似，同学们可以自己试试。

2.定义变量

选择菜单Data==>DefineVariable。

系统弹出定义变量对话框如下：

对话框最上方为变量名，现在显示为“VAR00001”，这是系统的默认变量名；往下是变量情况描述，可以看到系统默认该变量为数值型，长度为8，有两位小数位，尚无缺失值，显示对齐方式为右对齐；第三部分为四个设置更改按钮，分别可以设定变量类型、标签、缺失值和列显示格式；第四部分实际上是用来定义变量属于数值变量、有序分类变量还是无序分类变量，现在系统默认新变量为数值变量；最下方则依次是确定、取消和帮助按钮。

假如有两组数据如下：

GROUP1:

0.841.051.201.201.391.531.671.801.872.072.11

GROUP2:

0.540.640.640.750.760.811.161.201.341.351.481.561.87

先来建立分组变量GROUP。

请将变量名改为GROUP，然后单击OK按钮。

现在SPSS的数据管理窗口如下所示：

第一列的名称已经改为了“group”，这就是我们所定义的新变量“group”。

现在我们来建立变量X。

单击第一行第二列的单元格，然后选择菜单Data==>DefineVariable，同样，将变量名改为X，然后确认。

此时SPSS的数据管理窗口如下所示：

现在，第一、第二列的名称均为深色显示，表明这两列已经被定义为变量，其余各列的名称仍为灰色的“var”，表示尚未使用。

同样地，各行的标号也为灰色，表明现在还未输入过数据，即该数据集内没有记录。

3.输入数据

我们先来输入变量X的值，请确认一行二列单元格为当前单元格，弃鼠标而用键盘，输入第一个数据0.84，此时界面显示如图A所示：

请注意：

在回车之前，你输入的数据在数据栏内显示，而不是在单元格内显示，现在回车，界面如图B所示：

首先，当前单元格下移，变成了二行二列单元格，而一行二列单元格的内容则被替换成了0.84；其次，第一行的标号变黑，表明该行已输入了数据；第三，一行一列单元格因为没有输入过数据，显示为“.”，这代表该数据为缺失值。

4.保存数据

选择菜单File==>Save，由于该数据从来没有被保存过，所以弹出Saveas对话框如下：

单击保存类型列表框，可以看到SPSS所支持的各种数据类型，有DBF、FoxPro、EXCEL、ACCESS等，这里我们仍然将其存为SPSS自己的数据格式（*.sav文件）。

在文件名框内键入Li1_1并回车，可以看到数据管理窗口左上角由Untitled变为了现在的变量名Li1_1。

（二）数据的预分析

1.数据的简单描述

首先我们需要知道数据的基本情况，如均数、标准差等。

选择Analyze==>DescriptiveStatistics==>Descriptives菜单，系统弹出描述对话框如下：

该对话框可分为左右两大部分，左侧为所有可用的侯选变量列表，右侧为选入变量列表。

我们只需要描述X，用鼠标选中X，单击中间的

，变量X的标签就会移入右侧，注意这时OK按钮变黑，表明已经可以进行分析了，单击它，系统会弹出一个新的界面如下所示：

该窗口上方的名称为SPSSforWindowsViewer，即（结果）浏览窗口，整个的结构和资源管理器类似，左侧为导航栏，右侧为具体的输出结果。

结果表格给出了样本数、最小值、最大值、均数和标准差这几个常用的统计量。

从中可以看到，24个数据总的均数为1.2846，标准差为0.4687。

如果数据进行了分组，还可以看看分组的描述情况。

这里要用到文件分割功能，请切换回数据管理窗口，选择Data==>SplitFile菜单，系统弹出文件分割对话框如下：

选择单选按钮Organizeoutputbygroups，将变量GROUP选入右侧的选入变量框，单击OK钮，此时界面不会有任何改变，但请再做一次数据描述，你就可以看到现在数据是分Group=1和Group=2两种情况在描述了！

从描述可知两组的均数和标准差分别为1.5209、1.0846和0.4218、0.4221。

2.绘制直方图

统计指标只能给出数据的大致情况，没有直方图那样直观，我们就来画个直方图瞧瞧！

选择Graphs==>Histogram，系统会弹出绘制直方图对话框如下：

将变量X选入Variable选择框内，单击OK按钮。

此时结果浏览窗口内将绘制出直方图。

最后，我们还要取消变量分割，免得它影响以后的统计分析，再次调出变量分割对话框，选择单选按钮中的“Analyzeallcases,donotcreatgroup”，单击OK按钮就可以了。

（三）保存和导出分析结果

1.保存结果文件

在结果浏览窗口中（注意：

一定要在结果浏览窗口中）选择菜单File==>Save，由于该结果也从来没有被保存过，所以弹出和前面保存数据时极为相似的一个Saveas对话框，和前面相比，他唯一的区别就是文件的保存类型只有ViewFiles（*.spo）一种。

在文件名框中键入“Li1_1”并回车，该结果文件就会按文件名Li1_1.spo被存储。

2.导出分析结果

文件倒是保存了，但问题还没有完全解决：

我们从来写文章什么的都用的是文字处理软件，尤其是WORD，可WORD不能直接读取SPO格式的文件，怎么办呢？

没关系，SPSS提供了将结果导出为纯文本格式或网页格式的功能，在结果浏览窗口中选择菜单File==>Export，系统会弹出ExprotOutput对话框如下：

最上方的Export下拉式列表可以选择输出的内容，可以为含图表的输出文档、无图表的输出文档和只有统计图表三种；中部的ExportFile对话框则填入输出的目标文件名；左下方的ExportWhat单选框可以选择输出结果的哪些部分，可以是所有结果、所有可见结果或只输出选择的结果，一般选输出所有可见结果；右下方的输出文件类型下拉式列表已被我打开，可见里面有网页格式和纯文本格式两种，在一切按所需选择完毕后按OK钮，则结果文件就会输出为你想要的类型。

实验二描述性统计分析

一、实验目的

1、掌握数据集中趋势和离中趋势的分析方法；

2、熟练掌握各个分析过程的基本步骤以及彼此之间的联系和区别。

二、实验内容及步骤

（一）Frequencies过程

频数分布表是描述性统计中最常用的方法之一，Frequencies过程就是专门为产生频数表而设计的。

它不仅可以产生详细的频数表，还可以按要求给出某百分位点的数值，以及常用的条图，圆图等统计图。

和国内常用的频数表不同，几乎所有统计软件给出的均是详细频数表，即并不按某种要求确定组段数和组距，而是按照数值精确列表。

如果想用Frequencies过程得到我们所熟悉的频数表，请先用第二章学过的Recode过程产生一个新变量来代表所需的各组段。

1.界面说明

Frequencies对话框的界面如下所示：

该界面在SPSS中实在太普通了，无须多言，重点介绍一下各部分的功能如下：

【Displayfrequencytables复选框】

确定是否在结果中输出频数表。

【Statistics钮】

单击后弹出Statistics对话框如下，用于定义需要计算的其他描述统计量。

现将各部分解释如下：

PercentileValues复选框组定义需要输出的百分位数，可计算四分位数（Quartiles）、每隔指定百分位输出当前百分位数（Cutpointsfor equalgroups）、或直接指定某个百分位数（Percentiles），如直接指定输出P2.5和P97.5。

Centraltendency复选框组用于定义描述集中趋势的一组指标：

均数（Mean）、中位数（Median）、众数（Mode）、总和（Sum）。

Dispersion复选框组用于定义描述离散趋势的一组指标：

标准差（Std.deviation）、方差（Variance）、全距（Range）、最小值（Minimum）、最大值（Maximum）、标准误（S.E.mean）。

Distribution复选框组用于定义描述分布特征的两个指标：

偏度系数（Skewness）和峰度系数（Kurtosis）。

Valuesaregroupmidpoints复选框当你输出的数据是分组频数数据，并且具体数值是组中值时，选中该复选框以通知SPSS，免得它犯错误。

众数（Mode）指所有数值中出现频率最高的一个值，在国内用的非常少。

【Charts钮】

弹出Charts对话框，用于设定所做的统计图。

Charttype单选钮组定义统计图类型，有四种选择：

无、条图（Barchart）、圆图（Piechart）、直方图Histogram），其中直方图还可以选择是否加上正态曲线（Withnormalcurve）。

ChartValues单选钮组定义是按照频数还是按百分比做图（即影响纵坐标刻度）。

【Format钮】

弹出Format对话框，用于定义输出频数表的格式，不过用处不大，一般不管。

Orderby单选钮组定义频数表的排列次序，有四个选项：

Ascendingvalues为根据数值大小按升序从小到大作频数分布；Descendingvalues为根据数值大小按降序从大到小作频数分布；Ascendingcounts为根据频数多少按升序从少到多作频数分布；Descendingcounts为根据频数多少按降序从多到少作频数分布。

MultipleVariables单选钮组如果选择了两个以上变量做频数表，则Comparevariables可以将他们的结果在同一个频数表过程输出结果中显示，便于互相比较，Organizeoutputbyvariables则将结果在不同的频数表过程输出结果中显示。

SuppressTablesmorethan...复选框当频数表的分组数大于下面设定数值时禁止它在结果中输出，这样可以避免产生巨型表格。

2.分析实例

例1某地101例健康男子血清总胆固醇值测定结果如下，请绘制频数表、直方图，计算均数、标准差、变异系数CV、中位数M、p2.5和p97.5。

4.773.376.143.953.564.234.314.715.694.124.564.375.396.305.217.225.543.935.214.125.185.774.795.125.205.104.704.743.504.694.384.896.255.324.504.633.614.444.434.254.035.854.093.354.084.795.304.973.183.975.165.105.864.795.344.244.324.776.366.384.885.553.044.553.354.874.175.855.165.094.524.384.314.585.726.554.764.614.174.034.473.403.912.704.604.095.965.484.404.555.383.894.604.473.644.345.186.143.244.903.05

解：

为节省篇幅，这里只给出精确频数表的做法，假设数据已经输好，变量名为X，具体解法如下：

1.Analyze==>DescriptiveStatistics==>Frequencies

2.Variables框：

选入X

3.单击Statistics钮：

4.　选中Mean、Std.deviation、Median复选框

5.　单击Percentiles：

输入2.5：

单击Add：

输入97.5：

单击Add：

6.　单击Continue钮

7.单击Charts钮：

8.　选中Barcharts

9.　单击Continue钮

10.单击OK

得出结果后手工计算出CV。

上面做出的直方图分组太多，需要进一步编辑。

3.结果解释

上题除直方图外的的输出结果如下：

Frequencies

最上方为表格名称，左上方为分析变量名，可见样本量N为101例，缺失值0例，均数Mean=4.69，中位数Median=4.61，标准差STD=0.8616，P2.5=3.04，P97.5=6.45。

系统对变量x作频数分布表（此处只列出了开头部分），Vaild右侧为原始值，Frequency为频数，Percent为各组频数占总例数的百分比（包括缺失记录在内），Validpercent为各组频数占总例数的有效百分比，CumPercent为各组频数占总例数的累积百分比。

（二）Descriptives过程

Descriptives过程是连续资料统计描述应用最多的一个过程，他可对变量进行描述性统计分析，计算并列出一系列相应的统计指标。

这和其他过程相比并无不同。

但该过程还有个特殊功能就是可将原始数据转换成标准正态评分值并以变量的形式存入数据库供以后分析。

1.界面说明

【Savestandardizedvaluesasvariables复选框】

确定是否将原始数据的标准正态评分存为新变量。

【Options钮】

弹出Options对话框，大部分内容均在前面Frequences过程的Statistics对话框中见过，只有最下方的DisplayOrder单选钮组是新的，可以选择为变量列表顺序、字母顺序、均数升序或均数降序。

2.结果解释

下面是一个典型的Descriptives过程结果统计表：

一望可知，这里的大部分内容都在上一节见过，因此就不再多解释了。

讲了两个过程，也许大家已经发现了：

结果中的统计专业单词多数在对话框中就已经出现，因此我们以后会详细解释对话框的内容，结果中相同的单词不再重复解释。

（三）Explore过程

Explore过程可对变量进行更为深入详尽的描述性统计分析，主要用于对资料的性质、分布特点等完全不清楚时，故又称之为探索性分析。

它在一般描述性统计指标的基础上，增加有关数据其他特征的文字与图形描述，如枝叶图、箱图等，显得更加详细、全面，有助于用户制定继续分析的方案。

1.界面说明

【Display单选钮组】

用于选择输出结果中是否包含统计描述、统计图或两者均包括。

【DependentList框】

用于选入需要分析的变量。

【FactorList框】

如果想让所分析的变量按某种因素取值分组分析，则在这里选入分组变量。

【Labelcasesby框】

选择一个变量，他的取值将作为每条记录的标签。

最典型的情况是使用记录ID号的变量。

【Statistics钮】

弹出Statistics对话框，用于选择所需要的描述统计量。

有如下选项：

Descriptives复选框：

输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误及指定的均数可信区间。

M-estimators复选框：

作中心趋势的粗略最大似然确定，输出四个不同权重的最大似然确定数。

Outliers复选框：

输出五个最大值与五个最小值。

Percentiles复选框：

输出第5%、10%、25%、50%、75%、90%、95%位数。

【Plot钮】

弹出Plot对话框，用于选择所需要的统计图。

有如下选项：

Boxplots单选框组：

确定箱式图的绘制方式，可以是按组别分组绘制（Factorlevelstogether），也可以不分组一起绘制（Depentendstogether），或者不绘制（None）。

Descriptive复选框组：

可以选择绘制茎叶图（Stem-and-leaf）和直方图（Histogram）。

Normalityplotswithtest复选框：

绘制正态分布图并进行变量是否符合正态分布的检验。

Spreadvs.LevelwithLeveneTest单选框组：

当选择了分组变量时，绘制spread-versus-level图（我还没有找到他的中文名字该叫什么），设置绘图时变量的转换方式，并进行组间方差齐性检验。

【Options钮】

用于选择对缺失值的处理方式，可以是不分析有任一缺失值的记录、不分析计算某统计量时有缺失值的记录，或报告缺失值。

2.结果解释

以例6.1的数据为例，按默认方式下的选择，Explore过程的输出如下：

Explore

首先是例行的处理记录缺失值情况报告，可见101例均为有效值。

上表详细列出了常用的描述统计量，如果有标准误也会列出（如偏度和峰度系数）。

XStem-and-LeafPlot

FrequencyStem&Leaf

1.00 2. 7

8.00 3. 00123334

9.00 3. 556689999

24.00 4. 000001111222333333344444

25.00 4. 5555556666677777777788899

17.00 5. 01111111222333334

9.00 5. 556778889

6.00 6. 112333

1.00 6. 5

1.00Extremes （>=7.2）

Stemwidth:

1.0000

Eachleaf:

1case（s）

以上是茎叶图，整数位为茎，小数位为叶。

这样可以非常直观的看出数据的分布范围及形态，在国外非常流行。

以上是箱式图，中间的黑粗线为均数，红框为四分位间距的范围，上下两个细线为最大、最小值。

（四）Crosstabs过程

Crosstabs过程用于对计数资料和有序分类资料进行统计描述和简单的统计推断。

在分析时可以产生二维至n维列联表，并计算相应的百分数指标。

统计推断则包括了我们常用的X2检验、Kappa值，分层X2（X2M-H）。

如果安装了相应模块，还可计算n维列联表的确切概率（Fisher'sExactTest）值。

Crosstabs过程不能产生一维频数表（单变量频数表），该功能由Frequencies过程实现。

1.界面说明

【Rows框】

用于选择行*列表中的行变量。

【Columns框】

用于选择行*列表中的列变量。

【Layer框】

Layer指的是层，对话框中的许多设置都可以分层设定，在同一层中的变量使用相同的设置，而不同层中的变量分别使用各自层的设置。

如果要让不同的变量做不同的分析，则将其选入Layer框，并用Previous和Next钮设为不同层。

Layer在这里用的比较少，在多元回归中我们将进行详细的解释。

【Displayclusteredbarcharts复选框】

显示重叠条图。

【Suppresstable复选框】

禁止在结果中输出行*列表。

【Exact钮】

针对2*2以上的行*列表设定计算确切概率的方法，可以是不计算（Asymptoticonly）、蒙特卡罗模拟（MonteCarlo）或确切计算（Exact）。

蒙特卡罗模拟默认进行10000次模拟，给出99%可信区间；确切计算默认计算时间限制在5分钟内。

这些默认值均可更改。

如果你在安装SPSS时没有安装EXACT模块，则此处对话框中不会出现Exact钮。

【Statistics钮】

弹出Statistics对话框，用于定义所需计算的统计量。

Chi-square复选框：

计算X2值。

Correlations复选框：

计算行、列两变量的Pearson相关系数和Spearman等级相关系数。

Norminal复选框组：

选择是否输出反映分类资料相关性的指标，很少使用。

a.Contingencycoefficient复选框：

即列联系数，其值界于0～1之间；

b.PhiandCramer'sV复选框：

这两者也是基于X2值的，Phi在四格表X2检验中界于-1～1之间，在R*C表X2检验中界于0～1之间；Cramer'sV则界于0～1之间；

c.Lambda复选框：

在自变量预测中用于反映比例缩减误差，其值为1时表明自变量预测应变量好，为0时表明自变量预测应变量差；

d.Uncertaintycoefficient复选框：

不确定系数，以熵为标准的比例缩减误差，其值接近1时表明后一变量的信息很大程度来自前一变量，其值接近0时表明后一变量的信息与前一变量无关。

Ordinal复选框组：

选择是否输出反映有序分类资料相关性的指标，很少使用。

a.Gamma复选框：

界于0～1之间，所有观察实际数集中于左上角和右下角时，其值为1；

b.Somers'd复选框：

为独立变量上不存在同分的偶对中，同序对子数超过异序对子数的比例；

c.Kendall'stau-b复选框：

界于-1～1之间；

d.Kendall'stau-c复选框：

界于-1～1之间；

Eta复选框：

计算Eta值，其平方值可认为是应变量受不同因素影

展开阅读全文