统计软件SPSS教案全Word格式.docx

资源描述

统计软件SPSS教案全Word格式.docx

《统计软件SPSS教案全Word格式.docx》由会员分享，可在线阅读，更多相关《统计软件SPSS教案全Word格式.docx（167页珍藏版）》请在冰豆网上搜索。

统计软件SPSS教案全Word格式.docx

View是用户界面设置菜单；

Transform是数据基本处理菜单；

Analyze是统计分析菜单，主要统计功能都集中在该菜单中；

Graphs是统计图形菜单；

Utilities是相关应用和设置菜单；

Windows是SPSS各窗口切换菜单；

Help是SPSS帮助菜单。

工具栏中列出了一些常用的快捷图标。

图1-1数据编辑窗口

编辑栏中可以输入数据。

变量名栏中列出了该文件中所含有的变量名。

SPSS自动命名变量名为var001、var002等。

本文件中有三个变量：

num、hair、eye。

内容区列出了各个个案在变量中的取值。

SPSS中每一行表示一个个案（记录）。

内容区的最左边是行的标号，这和Excel类似。

该窗口下方有两个标签：

“DataView”（数据视图）和“VariableView”（变量视图）。

这两种视图提供了一种类似于电子表格的方法，用以产生和编辑SPSS数据文件中的变量和数据。

“DataView”对应的表格用于查看、录入和修改数据；

“VariableView”对应的表格用于输入和修改变量的定义。

这样使用者就可以非常方便地进行变量类型的定义和数据的输入。

相对于Excel来讲，“DataView”所对应表格有以下特点：

（1）一个列对应一个变量，即每一列代表一个变量或一个被观测量的特征。

例如问卷上的每一项就是一个变量。

（2）行是观测，即每一行代表一个个体、一个观测、一个样品，在SPSS中称为事件（Case）。

例如，问卷上的每一个人就是一个观测。

（3）单元包含值，即每个单元包括一个观测中的单个变量值。

单元（Cell）是观测和变量的交叉。

（4）数据文件是一张长方形的二维表。

数据文件的范围是由观测和变量的数目决定的。

数据编辑窗口最下面的状态栏用来显示SPSS当前的运行状态。

当SPSS等待用户操作时，会出现“SPSSProcessorisready”的提示信息。

在数据编辑窗口中完成变量定义、数据输入后，单击某个统计功能菜单，SPSS会自动完成统计分析，并将弹出结果输出窗口，其中存放了数据统计的结果。

（二）数据分析概述

1、数据分析一般流程

任何一个数据分析项目，如果按照整个分析过程的流程结构来看，都可被划分为大致7个阶段：

计划阶段、数据收集、数据获取、数据准备、数据分析、结果报告和模型发布阶段。

①计划阶段：

在分析项目的初始阶段，需要花费大量的时间来设计分析计划，以减少盲目分析，避免资源浪费。

该阶段要对数据分析的各个行动步骤做好规划确定以下几个问题：

确定研究问题。

建立项目预算

确定研究范围即确定研究总体和个体

确定样本抽取方法

分析评估所需样本量

确定数据收集方式

确定与研究问题相关的数据，即确定应该收集个体的哪些数据

确定研究问题的分析方法和分析工具

②数据收集阶段：

如果手头已经有现成的数据，就可不必再进行数据收集。

数据收集的方式有很多种，可以是电话式访问，可以是面谈式收集，也可以是拦截式访问。

如果是从头进行数据收集，则应当有标准问卷，问题的设计不仅要相关，还要能够从中的出有意义的结论。

③数据获取阶段。

该阶段的目的是将分散的、原始格式各不相同的数据读入分析工具中，使分析工具可以对数据进行分析。

④数据准备阶段。

该阶段的主要任务是：

清理数据以保证数据的准确性。

对数据进行必要的转换。

如生成一些新的字段以供分析；

将连续字段离散化；

将字符型字段数值化等。

目的是将数据结构转换成合适的形式。

填充缺失数据。

对各种缺失字段，利用适当方法进行填补

对数据进行合并、汇总等。

将数据文件进行合并，将个体数据进行汇总，生成各组数据。

⑤数据分析阶段：

利用各种数据分析工具对数据进行分析，得出结论。

数据分析阶段可分为几个部分：

预分析：

包括概括性描述统计和探索性统计推断两部分，使用统计图和统计表对数据进行更好的理解，基于对数据的理解开始尝试进行分析。

精确分析：

基于上一步得到的各种信息，开始尝试拟和最佳的统计模型，以寻求对数据中所蕴涵信息最完美的解释。

完成这一部分工作往往需要统计知识和专业知识相互补充，所使用的统计方法一般是多元统计分析方法。

⑥结果报告阶段：

结果报告的目的是将整个数据分析项目的结果以一种非学术化的方式表达出来，使得决策者能够快速理解，并基于此分析结果做出决策。

⑦模型发布阶段：

结果报告仅仅是对基于历史数据所建立的模型加以阐述。

当需要利用该模型进行预测时，具体的做法是在分析软件中加以预测，该阶段的目标是将分析阶段得到的模型、信息和知识带给机构决策者以便他们能为机构作出更好的未来规划。

在大多数分析过程中，不一定会经历所有的这7步。

例如，根据分析目的，所需的数据仅是日常工作产生的交易数据，那么就不必再经历“数据收集”阶段，而直接进入“数据获取”阶段。

另外，各阶段之间可能交叉进行。

例如，有时在对原始数据进行分析之后，即进入“数据分析”阶段后，突然发现其他数据也是分析必需的，所以又返回“数据收集”阶段。

又如，在“数据分析”阶段发现某个字段因其格式不能参与分析，所以就需要进行“数据准备”阶段所做的工作。

2、用SPSS做数据分析

作为一家信息统计决策支持服务的提供商，SPSS公司在以上涉及的各个数据分析阶段均有相应的产品与其对应，其核心功能是数据分析阶段。

建立SPSS数据文件，包括：

定义数据文件结构；

录入、修改和编辑待分析的数据

分析数据。

根据设计初步判断可能用到的统计方法，先进行必要的预分析，以确定数据是否满足方法的要求；

根据预分析的结果，选择适当的统计方法和模型进行分析。

结果的说明和解释，若结果不合适，则重新选择预分析和统计分析方法。

数据和分析结果导出并保存

（三）SPSS数据文件的建立与管理

SPSS数据文件是一种有结构的数据文件：

姓名

性别

学号……

←变量名

张三

女

0101

←记录

李四

男

0102

1、定义数据文件的变量（Variableview）

例1.1：

下面是国外某工厂的职员对周围环境满足程度的调查问卷（如下图所示），

1、对满足度的调查

对于下面事项您感觉满足程度，请在横线上用“钩”表示。

很不满意不满足一般满足很满足

（1）家庭

（2）工厂

（3）政治现实

（4）经济状况

2、个人情况调查

性别（1——男，2——女）

学历（1——高中，2——专科，3——大学以上）

年龄

身高体重（cm/kg）

平均收入（千元）

生活费（千元）

家庭人口（人）

住房面积（平方米）

试据此定义数据文件结构。

打开数据编辑窗口后单击下方的VariableView标签，切换到变量定义界面，开始定义新变量。

根据以上问卷内容，定义x1～x13，共13个变量来分别表示对家庭的满意程度、表示对工厂的满意程度、表示对政治的满意程度、表示对经济的满意程度、性别、学历、年龄、身高、体重、平均收入、生活费、家庭人口和住房面积。

下面来具体看一看变量视图中各个栏目的意义和用法：

①变量名（Variablename）

Name栏：

用于设定变量名，变量名是变量存取的唯一标志。

SPSS11中变量名长度应在8位以内，但SPSS13已无此限制。

虽然键入中文也可以，但最好使用英文，由于SPSS是英文软件，变量名采用中文可能会有潜在的冲突（100%的兼容性是不存在的，典型的例子就是微软公司的产品）；

其次，当需要将数据转换为其他格式时，中文变量名也可能不能被完全识别，这里分别对13个变量命名为x1～x13。

②Type栏：

选择该框时右侧会出现形如

的按钮，单击它会弹出变量类型对话框，用于设置变量类型，相应的可以在右侧更改变量运算宽度等格式，一般按默认的普通数值型（Numeric）即可。

SPSS中变量一共有三种：

数值型、字符型（String）和日期型（Date），根据不同的显示方式，数值型又被细分为五种，所以SPSS中的变量类型共有八种，但实际上只要分得清楚数值型、字符型和日期型就可以了。

这里13个变量全部定义为普通数值型。

③With栏：

设置变量运算宽度，如数值型默认为8位，一般不用变。

该宽度只会改变输出结果的显示宽度，数据的存储结果和运算精度完全不受影响。

④Decimals栏：

设置小数位，默认为2位，即数值型变量默认情况下为5位整数、1位小数点位和2位小数。

⑤Label栏：

用于定义变量名标签，该变量名标签是对对变量名的进一步描述，长度可达120个字符，可以是中文，变量名标签会在结果中输出，阅读会非常方便。

如上题中若用x1这个变量表示对家庭的满意程度，x1为变量名，变量名标签可定义为“对家庭的满意程度”，从而是x1的含义较明确。

⑥Value：

用于定义变量值标签，变量值标签是对对变量的每一个可能取值的进一步描述。

该功能非常有用。

以变量x5为例，单击value框右部的省略号，会弹出变量值标签对话框如图所示。

|上部的两个文本框分别为变量值输入框和变量值标签输入框，分别在其中输入“1”和“男”，此时下方的Add钮变黑，单击它，该变量值标签就会被加入下方的标签框内。

与此类似定义变量值“2”为“女”，最后按OK，变量值标签就设置完成。

这样，一方面使阅读该数据文件的人能清楚得理解数据，另外做任何分析，在结果中都有相应的标签出现，阅读结果也就更方便了。

⑦Missing栏：

用于定义变量缺失值。

SPSS中默认缺失值用"

表示，如果所用数据集中还有其他表示方法，则用该框来定义。

⑧Columns栏：

定义显示的列宽，实际上它用的非常少，因为改变列宽简便的方法就是将鼠标放在数据窗口中两个变量名的中间直接拖动。

⑨Align栏：

定义显示对齐方式，按照默认的右对齐即可。

⑩Measure栏：

定义变量的测量尺度，这一项不应被忽略，它可以对变量进行精确的定义。

仅靠变量类型还不足以完全传递所有信息，比如说有序分类变量和连续性变量的类型都是数值型，并无差异。

为此，在SPSS中又引入了测量尺度的概念，它和变量类型联合起来可以对变量作更精确的限定，测量尺度一共有以下三种：

标度测量（scaleMeasurement）：

是测量的最高水平，数值可以是两个测量间的差值，比如温度，35℃和50℃相差就是15℃；

可以是两个测量间的比值，如比例测量，如重量，80公斤就是40公斤的两倍。

可以使用标度测量的数据只能是数值型变量。

本例中的月收入、年龄等均为标度测量。

有序测量（OrdinalMeasurement）：

比标度测量的信息量少一些，测量数值代表了有序分类，如4、3、2、1代表了优、良、中、差，显然这里“优”并非“中”的两倍，即测量数值不代表绝对的数量大小。

能使用有序测量的数据可以是数值型，也可以是字符型变量。

本例中的学历即为有序测量。

名义测量（NominalMeasurement）：

是几种测量中最低的水平，其数值仅代表某些分类或属性，它们之间无法比较出大小。

比如说测量的血型值，只能分为A、B、AB、O四种，不可能分出哪个高哪个低。

能使用名义测量的数据可以是数值型，也可以是字符型变量。

本例中的性别即为名义测量。

2、数据录入和保存

①直接录入

在数据编辑窗口单击DataView标签，切换到数据视图，在该视图下可直接输入数据，输入时注意数据和变量的对应关系。

中小批量的数据，直接用SPSS输入比较方便的，如果数据量非常大，就应备考虑采用专用数据库软件，如Access来录入。

②数据录入技巧

和其他常用统计软件相比，SPSS数据界面最大的优势就是支持鼠标的拖放操作，以及拷贝粘贴等命令，下面的数据录入技巧就是对这些功能的利用。

连续多个相同值的输入：

如果变量有连续多个相同数据输入，比如连续几个单元格都要输入1，可以在第一格内输入1并回车，然后回到刚才的单元格并单击copy，最后用拖放方式选中所有应输入1的单元格，单击右键并选择paste，所有选中的单元格就:

会都被刚才拷贝的1填充。

将Excel数据直接引入SPSS：

Excel已经打开原数据，并且数据量较少的时候，可以直接用拷贝粘贴的方法将数据引入SPSS。

先在Excel中选中所有的数据（不包括变量名），然后选择拷贝命令，然后切换到SPSS，最好使行1列1单元格成为当前单元格，然后执行粘贴命令，数据就会全部转入SPSS，再定义相应的变量即可。

如果数据中含有文本，则不能直接粘贴，否则会丢失数据。

这是因为SPSS默认的数据格式均为数值型，这样将文本粘贴过来就会变为缺失值。

将Word中的数据表格直接引入SPSS：

如果表格中全部都是数值，则可以选中整个表格，选择拷贝命令然后切换到SPSS，再执行粘贴命令，数据就会全部转入SPSS，并且原来的单元格会自动对应为SPSS中的一个单元格。

此时再定义相应的变量名即可。

用SPSS直接打开其他文件：

SPSS可以直接打开多种其他类型文件，如各种版本的Excel文件、dBase文件、纯文本文件等，这些文件可由SPSS直接引入。

SPSS数据文件建立起来以后，单击保存，可以保存为SPSS数据文件类型，扩展名为.sav；

也可以存为其他多种文件类型，如Excel、DBF、Access等。

（四）SPSS数据管理

SPSS数据（的基本加工和处理的）管理命令集中在Transform菜单和Data菜单，这些命令不属于统计分析的范畴，其处理结果在数据文件上体现出来，而不在结果输出窗口，主要提供的是数据管理方面的基本功能，也可以看成是对数据预处理的过程。

其中Data菜单主要实现变量级别的数据管理，如计算新变量、变量取值重新编码等，Transform菜单主要实现文件级别的数据管理，如变量排序、文件合并拆分等。

1、变量级别的数据管理——Transform菜单

Transform菜单主要集中了一些对变量进行变换的过程，如对原始数据进行四则运算、对数据重新编码、求变量秩次等，在统计分析的预处理中起着重要作用，下面列出常用的三个。

①计算新变量——Compute过程

计算新变量就是在原有SPSS数据文件的基础之上，根据用户要求，使用SPSS算术表达式以及函数，对所有记录或满足条件的记录，计算出一个新结果，并将结果存入一个指定的变量中。

这个指定变量可以是一个新变量，也可以是一个已经存在的变量。

Coumpute命令能轻松完成这样的任务。

例1.2：

根据调查问卷.sav中的数据，如果要对所有记录的月收入上全部加上100元，并把新的月收入存入一个新变量，操作对话框如图1-2。

TargetVariable框为用来存储新数据的目标变量名，可以是新变量，也可以是文件中已经存在的变量（此时会覆盖原内容），此处输入xx10；

左下方为候选变量列表，用于将计算所需变量直接引入；

NumericExpression框用于给目标变量赋值，这里选入x10，并给出赋值表达式：

x10+100；

NumericExpression框下方为软键盘和备构造表达式所需的函数。

按OK后，原数据文件中会产生一个新变量xx10，其大小为对应x10的值加上100。

图1-2Compute过程主对话框

②对变量进行分组和并——Recode过程

数据分析中，将连续变量转换为等级变量，或者将分类变量不同的变量等级进行合并是经常采取的方法，Recode过程主要完成这一类工作。

例1.3：

根据调查问卷.sav中的数据，根据年龄对受访者重新分组，年龄小于等于30为一组，用1表示；

年龄大于30为一组，用2表示，并将分组变量存入新变量xx7。

操作如下：

选择菜单Transform→，Recode→DifferentVariables，Recode对话框如图1-3所示。

图1-3RecodeintoDifferentVariables过程主对话框

将年龄（x7）选入InputVariable->

Variable框，此时OutputVariable框变黑，在其中键入新变量名xx7，并单击Change，可见原来的x7->

变成了x7->

xx7，意即由原变量x7生成新变量xx7。

现在单击"

O1dandNewvalues"

，系统弹出变量值定义对话框如图1-4所示。

根据时间情况确定旧值和新值，需要注意的是所有范围包含了端点，而且前面设定的变换会优先于后侧的变换。

这里选择Range：

Lowerthrough，右侧框中输入30，然后在右上方的Value右侧框中键入对应的新变量值1，时下方Add键变黑，单击它，Old->

New框中就会加入Lowerthru30->

1；

再选择Range：

throughhighest，右侧框中输入30，然后在右上方的Value右侧框中键入对应的新变量值2，时下方Add键变黑，单击它，Old->

New框中就会加入30thruHighest30->

2。

现在单击Continue，再单击OK，系统就会按要求生成新变量xx7。

图1-4变量值定义子对话框

③求变量秩次——RankCase过程：

RankCases过程就是用来排次序的一个专用过程。

具体来说，它根据某变量的大小来排出次序（秩次），然后将秩次结果存储到一个新变量中去。

例1.4：

根据调查问卷.sav中的数据，计算年龄的秩次。

操作如图1-5。

图1-5RankCase过程主对话框

单击OK后系统会自动生成一个新变量Rx7（即原变量前加r表示Rank之意），其取值为x7的秩次。

2、文件级别的数据管理——Data菜单

Transform菜单是对变量进行操作，而在许多情况下，我们需要对整个数据文进行加工整理，比如根据统计分析的要求对数据进分组、合并等操作。

Data菜单主要是对整个文件的加工整理，排序、筛选、分组、合并、转置等。

这里只介绍最常用的四个过程。

①记录排序——Sortcases过程

即变量排序过程，变量排序是非常常用的一项功能，学会它的使用技巧会使工作效率大大提高，例如：

数据输入完毕后，某个变量按升序或降序排列，利于发现输入错误、查找数据及了解数据。

例1.5：

根据调查问卷.sav中的数据，按月收入对所有记录重新排序。

在如下的Sortcases对话框中，将x10选入Sortby框，再按OK即可，原数据文件的记录将按月收入从小到大排列。

如果希望从大到小排列，则选择Descending，即为降序排列。

图1-6Sortcases主对话框

②数据汇总——Aggregate过程

Aggregate过程用于对数据进分类汇总，所谓分类汇总就是按指定的分类变量对观测值进行组，对每组记录的各变量值求指定的描

述统计量，并对结果进行存储。

例1.6：

根据调查问卷.sav中的数据，计算男女两个人群的平均月收入。

该问题属于分组进行描述统计，用Aggregate过程。

操作界面如图1-7。

图1-7Aggregate过程主对话框

图中BreakVariables框用于选择分组变量，这里选入x5（性别）；

SummariesofVariables框用于选择被汇总的变量，这里选入x10（月收入）；

Name&

Label用于定义新产生的汇总变量的名称和标签；

function按钮用来定义汇总函数，共有五组函数，分别为常用汇总函数、特定值、记录数、百分比和百分片断。

以最常用的一组可选的函数有均数、中位数、总和、标准差四种，这里选择均值；

Save用于定义分类汇总结果的存储方式：

将分类汇总结果加入当前数据文件，还是产生一个只包含分类汇总接的新文件，还是用分类汇总的结果代替当前文件。

这里按默认选择即可。

单击OK完成。

这时当前文件后面会产生一个新变量x10_mean，其值分别为男女的平均月收入。

③多个数据文件的合并——Mergefile过程

Mergefile过程用于合并数据文件，实际上包括了两个过程，分别对应了两种合并方式：

纵向合并，从外部数据文件中增加记录到当前数据文件中，用AddCases对话；

横向合并从，指外部数据文件增加变量到当前数据文件，用Addvariable对话框完成。

注意纵向合并要求互相合并的数据文件有相同的变量，否则会舍弃不匹配的变量；

横向合并对数据集要求高，默认按记录号合并，若按关键变量匹配，则记录应按关键变量升序，且关键变量一一对应。

例1.7：

将数据集tables.sav中的记录添加到tab1.sav中，注意在tab1.sav中的变量xingbie对应了tables.sav中的sex。

因为是记录添加，所以用AddCases。

首先应当打开文件tab1.sav，然后选择菜单Data→MergeFile→AddCases，系统会弹出打开数据文件对话框，选中需要添加的数据文件tables.sav并按OK，系统才弹出AddCases对话框如图1-8所示。

图1-8AddCases过程主对话

如图，左侧显示的是新、老数据文件中不匹配的变量名。

星号表示为当前数据集中变量，加号代表是添加数据集中的变量，左侧显示的是已匹配的变量名，可以用Rename按钮对不匹配变量改名再纳入，这里我们用鼠标强行匹配（即选中两个需要匹配的变量再单击Pare按钮），此时两个变量以"

Sex&

xingbie"

的形式加入右侧，表明最终的变量数值为两者的接和，但变量名仍以当前数据集的sex为准。

右下方的Indicatecasesourcevariable复选框用于定义一个新变量以区分哪些记录是新添加的，这里不使用。

选择完后单击OK，该操作就完成了。

例1.8：

数据集bra

展开阅读全文