spss教程第一章数据文件的建立及基本统计描述.docx

资源描述

spss教程第一章数据文件的建立及基本统计描述.docx

《spss教程第一章数据文件的建立及基本统计描述.docx》由会员分享，可在线阅读，更多相关《spss教程第一章数据文件的建立及基本统计描述.docx（54页珍藏版）》请在冰豆网上搜索。

spss教程第一章数据文件的建立及基本统计描述.docx

spss教程第一章数据文件的建立及基本统计描述

第一章数据文件的建立及基本统计描述

在社会各项经济活动和科学研究过程中，经常获得许多数据，而这些数据中包含着大量有用的信息。

若要准确地、科学地提取这些信息，就要应用各种统计分析方法，其中最基本的方法是数据的基本统计描述。

通过数据的基本统计描述，可以得到数据的分布状况，数据的主要特征值，时间序列的趋势性，是否存在异常值以及数据的大致图形等。

当然，要实现对数据的统计分析和描述，首先要从建立数据文件开始。

这一章主要介绍数据文件的建立和数据的基本统计描述方法。

§1.1SPSS的启动及数据库的建立

§1.1.2SPSS简介

SPSS（StatisticsPackageforSocialScience）forWindows是一种运行在Windows系统下的社会科学统计软件软件包。

SPSS软件包集数据整理、分析过程、结果输出等功能为一体，采用窗口操作界面，统计分析方法涵盖面广，用户操作使用方便，输出数据表格图文并貌，并且随着它的功能不断完善，统计分析方法不断充实,大大提高了统计分析工作的效率。

从1968年由美国斯坦福大学开发使用至今，已经拥有全球数以万计的用户，分布在通信、医疗、银行、证券、保险、制造、商业、市场研究、科学教育等众多的行业领域，成为世界上应用最广泛的专业统计软件之一。

SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等，具体内容包括描述统计、列联分析，总体的均值比较、相关分析、回归模型分析、聚类分析、主成份分析、时间序列分析、非参数检验等多个大类，每个类中还有多个专项统计方法。

SPSS设有专门的绘图系统，可以根据使用者的需要将给出的数据绘制各种图形，能够满足用户的不同需求。

一．SPSS的运行方式

SPSS提供了3种基本运行方式：

完全窗口菜单方式，程序运行方式、混合运行方式。

程序运行方式和混合运行方式是使用者从特殊的分析需要出发，编写自己的SPSS命令程序，通过语句直接运行。

这里只介绍完全窗口菜单管理方式，这种操作方式简单明了，除数据输入工作需要键盘外，大部分的操作命令、统计分析方法的实现是通过菜单、图标按钮、对话框来完成的，非常适用于一般的统计分析人员和一般统计方法的应用者。

SPSS中使用的对话框主要有两类，一类是文件操作对话框，文件操作对话窗口操作与Windows应用软件操作风格一致。

另一类是统计分析对话框，统计分析对话框可以分为主窗口和下级窗口，在该类对话框中，选择参与分析的各类变量及统计方法是对话框的主要任务。

有关对话框的详细操作将在后面的统计方法的实验中解释。

二．SPSS的实验环境要求

1、系统运行环境

SPSS10.0以上版本软件包可以工作在两种模式下，单机模式和作为网络系统的用户界面模式。

SPSSforWindows软件包可以运行在微软公司的Windows98、WindowsNT4.0、WindowsME、Windows2000和WindowsXP操作系统之下。

由于统计分析软件的数据量比较大，所以系统运行需要大于16M以上空间。

2、辅助软件环境

SPSS可以直接将SPSS数据文件保存为Excel工作表，也可以直接打开一个Excel工作表，因此，为了方便数据录入（许多人对Excel工作表编辑比较熟习），应在操作系统下安装一个Excel软件。

另外，许多数据在处理之前可能保存在某个数据库中，例如FoxBase、Sybase、SQL_Server、Oracle等等，如有需要从数据库中获取数据的分析，应在操作系统下安装相应的数据库管理系统。

三．SPSS的主要界面

SPSS的主要界面有数据编辑窗口和结果输出窗口。

数据编辑窗口与微软的Exdel类似，但SPSS的统计功能更多。

SPSS的结果输出窗口是显示统计分析的结果，此窗口的内容可以以结果文件.spo的形式保存。

数据编辑窗口和结果输出窗口的详细描述将在有关SPSS的数据文件建立的内容中查到。

四．SPSS的帮助系统

SPSS对一些基本模块中的统计提供了帮助，可以通过单击Help菜单中的StatisticsCoach命令，选择所需要的统计指导。

§1.1.2启动SPSS软件包

当用户在操作系统下运行SPSS软件后，计算机屏幕上出现一个对话框，如图1.1所示：

图1.1SPSS启动后操作对话框

对话框包括一个六选一单选对话框和一个复选对话框，其内容为：

●Runthetutorial运行操作指南；

●Typeindata输入数据选项，建立新的数据集时可选择此项；

●Runanexistingquery运行一个已经存在的数据文件选项；

●CreatenewqueryusingDatabaseWizard用数据库处理工具建立新文件；

●Openanexistingdatesource打开一个已经存在的数据文件；

●Openanothertypeoffile打开其他类型的文件。

●Don’tshowthisdialoginthefuture是一复选对话框，选中该复选项后，下次启动SPSS时将不会显示对话框，直接显示数据编辑窗口。

§1.1.3数据文件的建立

当对话框选择Typeindata后，点击OK，系统将显示出SPSS软件包数据编辑主窗口，数据文件的建立就是在数据编辑窗口中完成的。

数据编辑窗口可以显示两张表，分别是DataView（见图1.2）和VariableView（见图1.3），通过点击下端的2个同名窗口标签按钮实现相互切换。

数据编辑区是SPSS的主要操作窗口，是一个二维平面表格，用于对数据进行各种编辑；标尺栏由纵向标尺栏和横向标尺栏，横向标尺栏显示数据变量，纵向标尺栏显示数据顺序（如时间顺序）。

DataView表可以直接输入观测数据值或存放数据，表的左端列边框显示观测个体的序号，最上端行边框显示变量名。

VariableView表用来定义和修改变量的名称、类型及其他属性，如图1.3所示。

图1.3VariableView表

在VariableView表中，每一行描述一个变量，依次是：

Name：

变量名。

变量名必须以字母、汉字及@开头，总长度不超过8个字符，共容纳4个汉字或8个英文字母，英文字母不区别大小写，最后一个字符不能是句号。

Type：

变量类型。

变量类型有8种，最常用的是Numeric数值型变量。

其它常用的类型有：

String字符型，Date日期型,Comma逗号型（隔3位数加一个逗号）等。

Width：

变量所占的宽度。

Decimals：

小数点后位数。

Label：

变量标签。

关于变量涵义的详细说明。

Values：

变量值标签。

关于变量各个取值的涵义说明。

Missing：

缺失值的处理方式。

Columns：

变量在DateView中所显示的列宽（默认列宽为8）。

Align：

数据对齐格式（默认为右对齐）。

Measure：

数据的测度方式。

系统给出名义尺度、定序尺度和等间距尺度三种（默认为等间距尺度）。

如果输入变量名后回车，将给出变量的默认属性。

如果不定义变量的属性，直接输入数据，系统将默认变量Var00001,Var00002等。

定义了变量的各种属性后，回到DataView表中，就可以直接在表中录入数据。

输入数据后可以点击Save或Saveas作为数据文件保存。

另外对于统计分析的结果也可以作为文件保存起来。

为了在统计分析过程中能有效的利用其它软件产生的数据，SPSS软件编辑窗口除可以使用*.sav扩展名数据文件，还可以直接打开和保存下述类型的文件。

SPSSDOS版本产生的数据文件*.sys；

Excel报表程序产生的数据文件*.xls；

DBASE数据库格式文件*.dbf；

SAS统计软件产生的数据文件。

§1.2数据的编辑与整理

当录入数据之后，就可以对原始数据进行整理和分析，关于数据的整理和分析都是在数据窗口完成的。

下面将介绍SPSS统计分析软件在数据窗口的主要操作方式和菜单相应的功能。

§1.2.1数据窗口菜单栏功能操作

数据编辑窗口的主菜单如图1.4所示，主菜单中的具体功能包括：

图1.4SPSS主菜单

1.File：

文件操作。

2.Edit：

文件编辑。

3.View：

视图编辑。

4.Data：

数据操作。

5.Transform：

数据转换。

6.Analyze：

统计分析方法。

7.Graphs：

图形编辑。

8.Utilities：

实用程序。

9.Windows：

窗口控制。

10.Help：

帮助。

在统计分析过程中常用的功能主要集中在数据操作、数据转换、数据分析、统计图形的建立与编辑等操作。

§1.2.2Date数据功能

数据编辑窗口的Data菜单为用户创建和定义数据提供了方便的功能，如图1.5所示。

这个菜单是SPSS统计软件数据整理的特有功能菜单。

它的功能包括：

对变量、观测量的编辑处理；对变量数据的变换；对观察量数据整理。

这些功能为各种统计分析要求提供极其灵活了数据整理功能，用户可以根据不同统计分析对数据的要求对数据进行整理。

一、定义和编辑变量、观测量的命令

DefineVariableProperties用于定义变量属性；

CopyDataProperties由外部文件和工作文件拷贝数据变量和属性；

DefineDates定义或编辑日期变量格式；

InsertVariable在数据编辑窗口插入一个变量；

InsertCase在数据编辑窗口插入一个观测量；

GotoCase光标跳转到某一指定观测量。

二、变量数据变换的命令

SortCases对观测量进行排序；

Transpose对观测量进行转置；

Restructure对现有的观测量进行重新构造，形成新格式的数据文件；

MergeFile把外部文件数据合并到工作文件中；

Aggregate对数据进行分类或不分类汇总，产生新文件或代替工作文件。

IdentifyDuplicateCases标识重复观测量；

OrthogonalDesign进行正交设计。

三、观察量数据整理的命令

SplitFile拆分数据文件的观测量，观测量进行条件分组；

SelectCases选择观测量；

WeightCases对观测量进行加权处理。

通过选择上述命令，可以实现对数据的整理编辑。

§1.2.3Transform变换及转换功能

数据编辑窗口的Transform菜单为用户创建和定义复杂的数据提供了方便的功能，如图2.3所示。

它与Data菜单共同使用，可对基本的数据进行重新编辑，形成新的变量和观测量。

这个菜单主要对变量进行操作，分为三部分的功能。

这些功能也为各种统计分析要求提供极其灵活了数据处理功能。

图1.6Transform菜单项示意图

一.通过基本变量创建各种新变量；

Compute计算产生新变量，SPSS提供了10类100多个函数，通过该菜单可以用表达式产生一个新变量；

RandomNumberSeed创建随机数种子；

CreateTimesSeries创建时间序列变量；

二.创建各种参数变量；

Count创建一个计数变量，用于统计计数；

Recode对变量值重新编码；

RankCases为观测量排秩，求得的秩在数据窗口作为一个新变量保存；

CategorizeVariables建立新的分组变量，使数据分成若干个组；

AutomaticRecode对变量值自动编码，产生一个连续的变量值编码；

ReplaceMissingValues创建替代缺失值变量；

三.运行其它自定义的转输程序。

RunPendingTransform运行其它转换程序。

在一般的情况下，通过Date菜单和Transform菜单的操作就可以实现对原始数据的整理和变换。

§1.2.4数据的编辑

在DataView中，用鼠标左键单击数据表左边框的观测个体序号，这一行值就会被选中，用鼠标左键单击上边框的变量名，这个列就被选中，和其它Windows中的操作类似，也可以用鼠标对选中一部分单元格，选中的行、列、单元格后，单击鼠标右键，可以对它们进行复制、删除、剪切等操作。

如果需要对已经输入的数据进行修改，就要对已经存在的数据进行编辑，SPSS有许多数据编辑功能。

下面介绍几种常用的数据编辑功能。

一、插入一个新观测量（Case）

插入一个新观测量（数据）的命令是InsertCases。

在数据窗口主菜单上单击DateInsertCases命令，可以在光标所在位置的前上一行插入一行新的观测个体，可以输入新的观测数据。

二、查找指定的观测量（数据）

查找指定的观测数据的命令是GotoCase。

在数据窗口单击DateGotoCase，弹出一个对话框，如图1.7所示：

输入要找的观测量的序号后，点OK按钮，数据表中光标就会指到选定的观测量个体。

图1.7GoToCase对话框

三、观测数据排序

给观测量数据排序的命令是SortCases。

在数据窗口单击DateSortCases，打开SortCases对话框（见图1.8）。

图1.8SortCase对话框

从对话框左侧的变量列表中选择排序变量，点击右箭头按钮加入Sortby框中，然后在SortOrder栏中选择排序顺序：

Ascending观测个体按照选定的排序变量值由小到大的升序排列；

Descending观测个体按照选定的排序变量值降序排列。

注意：

观测个体.排序变量可以是一个或多个，当选择多个排序变量时，首先按第一个变量值排序，然后在第一个变量取值相同的那些个体中再按第二个变量值排序，依次类推。

注意在排序的时候，观测个体整行的值一同变到新位置，而不是只有排序变量那一列变动。

但数据表中左边框上的序号并不随着变动，因此，为了保留原始数据的信息，最好自己定义一个变量来记录观测个体的序号。

四、在数据中选取子集

如果需要从数据文件中选取一部分数据，可以在数据编辑窗口单击Data→SelectCase，打开SelectCase对话框，如图1.9所示：

图1.9SelectCase对话框

在该对话框的Select栏中选择挑选数据子集的方式（单选）：

●Allcase：

选择所有数据；

●Ifconditionissatisfied:

按指定条件选择数据。

单击If按纽，打开SelectCase：

If对话框，如图1.10所示，先选择变量，然后定义条件。

●RandomSampleofcases：

对观察值进行随机抽样。

单击Sample按纽，打开SelectCase：

Randomsample对话框。

如图1.11所示。

图1.10SelectCase：

If对话框

在SampleSize栏中有两种选择方式，一种是大概抽样（Approximately）,即键入抽样比例后由系统随机抽样；另一种是精确抽样（（Exactly），要求输入从第几个观察值起抽取多少数据。

图1.11SelectCase：

RandomSample对话框

●Basedontimeorcaserange：

顺序抽样。

单击Range按纽，打开SelectCase:

Range对话框，用户自行定义从第几个观察值开始抽到第几个观察值结束。

●Usefiltervariable：

用指定变量作过滤。

先选择一个变量，系统自动在数据管理器中将该变量值为0的观测单位标上删除记号，系统对标有删除记号的观测单位不作分析。

选择了挑选数据子集的方式后，单击OK，在数据窗口可看到新的变量filter_s。

如在数据文件SY-1中，选择年龄大于48岁的人作为选择子集。

则满足条件的年龄大于48岁的相应的新变量数据为1，否则为0。

五、数据分类汇总（数据分组汇总）

用户可以根据需要对数据按指定的变量的数值进行归类分组汇总。

以数据库SY-2两个班的学生成绩为例，如果按照性别对数学成绩进行汇总，可以使用分类汇总命令实现。

具体操作如下。

1.指定分类变量和汇总变量。

打开数据库SY-2，在数据窗口单击DateAggregate命令，打开AggregateDate对话框。

如图1.12所示：

图1.12AggregateDate对话框

2.在变量名列表框中选择分类变量”性别”进入BreakVariable（s）。

3.在变量名列表框中选择汇总变量”Math”进入AggregateVariable（s）。

4.单击Function按纽，打开AggregateDate：

Function对话框，如图1.13所示。

在此对话框中可以选择平均值、数据和、标准差的形式，特别值形式，百分数形式、频数形式等其中之一的方法进行分类汇总。

选择分类汇总的函数形式后返回AggregateDate对话框中。

图1.13AggregateDate：

AggregateFunction对话框

5.在AggregateDate对话框中指定汇总文件的保存路径。

有两种选择：

一种是选中创建新数据文件，通过File按纽，重新指定结果文件名。

一种是替代原来数据文件，用分类汇总结果覆盖当前编辑窗口的数据。

6.单击Name&Label按纽，可以重新指定结果文件中的变量名并加入变量标签。

SPSS默认的结果文件中的变量名为原变量名最后加上_1.

7.如果希望在结果文件中保存各分类组的数据个数，可以选择Savenumberofcaseinbreakgroupasvariable项。

最后单击OK，可得相应的数据文件。

六、缺失值的替代方式

如果用户希望对缺失值进行定义，可以采用以下的操作：

在数据窗口点击TransformReplaceMissingValues,打开ReplaceMissingValues，对话框，如图.1.14.所示：

图1.14ReplaceMissingValues对话框

在变量中选择具有缺失值的变量进入NewVariable框内，系统可以自动产生替代缺失值的新变量，也可处定义新变量。

然后在Method的下拉菜单中选择缺失值的替代方式。

五种方式依次是：

Seriesmean用该变量所有非缺失值的平均值替代缺失值；

Meanofnearlypoint用缺失值相邻点的的非缺失值的平均数据替代缺失值；

Medianofnearlypoint用缺失值相邻点的的非缺失值的中位数替代缺失值；

Linearinterpolation用缺失值相邻点的的非缺失值的中点值替代缺失值；

Lineartrendatpoint用线性拟合方式替代缺失值。

七、数据秩（序）的确定

如果用户需要对已有的数据变量排秩（序），如对数据SY-1中两个班的数学成绩分别排出名次，可以在数据窗口采用以下操作。

1.单击TransformRandCases，打开RandCases对话框，如图1.15所示：

图1.15RandCases对话框

2.从左边变量名列表框中选择变量”数学”（也可选择多个变量）进入Variable（s）框中，选择变量”班级”进入By框中，则系统排序时将按照进入By的变量值“班级”进行分别排序。

3.单击Ties按纽，选择Ties（Ties是指两个或两个以上的数据相等的情况）的处理方式。

由于秩与数据个数是一一对应的，当数据有相同的时，确定它们相应的秩有三种处理方式：

对应秩的Mean平均值、Low最小值和high最大值。

如本例选择最大值。

选择后返回在主对话框。

点击OK，就可以在数据窗口看到排序结果。

RankTypes按纽提供排秩方式。

单击RankTypes按纽，打开types对话框，从中选择排秩类型，排秩类型从左到右依次是：

Rank普通排序（系统默认）,新变量的值就是秩；Fractionalrankas%累计百分数排序；Savagescore以指数分布为基础的原始分排序；SumofCaseweights以分组例数之和的权重排序；Fractionalrank以秩变量除以分组例数之和排序；Ntile先给定一个大于1的整数，系统按照此数的范围确定秩。

§1.2.5SPSS对变量的编辑

一、插入一个新变量

插入一个新变量的命令是InsertVariable。

在数据窗口单击Data→InsertVariable，会在光标所在位置的前一列插入一个新的变量，变量名字和属性可以在VariableView窗口中定义。

二、已存在的变量生成新变量

对于已存在的数据变量，根据需要进行计算生成新变量的命令是Compute。

在数据窗口单击TransformCompute，打开ComputeVariable对话框，如图1.16所示。

在对话框左上方TargetVariable栏中，键入即将生成的新变量的名称，并单击Type&Lable按纽确定变量标签及数据类型。

对话框的左下栏中给出了数据文件中所有可用的变量列表，我们可以用右箭头按钮从中选取所需的变量进入右上方的NumericExpression栏中，该栏存放运算表达式，运算表达式中所需要的常用函数可以从下的Functions列表中直接选取。

这些常用函数（见附录2）和其它语言中的函数名称类似，在框中按字母顺序排列，用鼠标选中某个函数，用Functions右面的上箭头按钮加入数值表达式中，对话框中间是一个小键盘，可以用来输入数字、运算符号等。

ComputeVariable对话框的下面还有一个if按钮，可以选一部分满足某种条件的观测个体来做运算，不满足条件观测，其新变量值缺失。

图1.16ComputeVariable对话框

如图1.16表示的是数据SY-2中每个学生的数学和物理总成绩。

在ComputeVariable对话框中填好新变量名称和运算表达式后，点击OK按钮，就可以在数据文件中看到，已经生成了一个新变量Total。

三、产生计数变量

如果用户需要对满足某项条件的数据进行计数，可以使用Count命令。

以学生成绩数据SY-1为例，说明具体操作步骤：

在数据窗口单击TransformCount,打开CountOccurrenceofValuewithinCases对话框，如图1.17所示：

图1.17CountOccurrenceofValuewithinCases对话框

先在TargetVariable中指定一个变量（可以是已经存在的变量或新变量），并定义变量标签，然后指定要统计的变量加到NumericVariables框中，再单击DefineValues按纽，打开ValuetoCount对话框。

如图1.18所示：

图1.18CountValueswithinCases：

ValuetoCount对话框

在上面的对话框中，确定需要计数的数值，其Value值的设置项依次是：

Value:

输入某个值为清点对象；

System-missing:

以系统的缺失值为清点对象；

System-orusermissing:

以系统或用户指定的缺失值为清点对象；

Range:

指定数值的计数区域：

其中包括：

（）through（）在框内指定下限和上限

展开阅读全文