第二章数据编辑.docx

资源描述

第二章数据编辑.docx

《第二章数据编辑.docx》由会员分享，可在线阅读，更多相关《第二章数据编辑.docx（27页珍藏版）》请在冰豆网上搜索。

第二章数据编辑.docx

第二章数据编辑

SPSS所处理的数据文件有两种来源：

一是SPSS环境下建立的数据文件；二是调用其它软件建立的数据文件。

1在SPSS数据编辑窗口建立数据文件

当用户启动SPSS后，系统首先显示一个提示窗口，询问用户要SPSS做什么时，把鼠标移至“Typeindata”项上单击左键选中，然后单击“OK”按钮；或者该窗口中单击“Cancel”按钮进入SPSS数据编辑窗屏幕，如图所示。

图进入SPSS数据编辑器

（1）数据编辑（SPSSDataEditor）界面介绍

窗口名显示栏：

在窗口的顶部，显示窗口名称和编辑的数据文件名，没有文件名时显示为“Untitled-SPPSDataEditor”。

窗口控制按钮：

在窗口的顶部的右上角，第一个按钮是窗口最小化，第二个按钮是窗口最大化，第三个按钮是关闭窗口。

SPSS主菜单：

在窗口显示的第二行上，有：

File文档，Edit编辑，View显视，Data数据，Transform转换，Analyze分析，Graphs图形，Utilities公用项，Windows视窗。

图SPSS窗口界面

常用工具按钮：

在窗口显示的第三行上，有：

打开文档，保存文档，打印，对话检索，取消当前操作，重做操作，转到图形窗口，指向记录，指定变量操作，查找，在当前记录的上方插入新的空白记录，在当前变量的左边插入新的空白变量，切分文件，设置权重单元，标记单元，显示价值标签。

数据单元格信息显示栏：

在编辑显示区的上方，左边显示单元格和变量名（单元格：

变量名），右边显示单元里的内容。

编辑显示区：

在窗口的中部，最左边列显示单元序列号，最上边一行显示变量名称，缺省为“Var”。

编辑区选择栏：

在编辑显示区下方，DataView在编辑显示区中显示编辑数据，VariableView在编辑显示区中显示编辑数据变量信息。

状态显示栏：

在窗口的底部，左边显示执行的系统命令，右边显示窗口状态。

（2）数据文件格式

数据文件格式以每一行为一个记录，或称观察单位（Cases），每一列为一个变量（Variable）。

由于SPSS不同的统计分析过程需要不同的数据类型，因此，在学习使用SPSS软件作统计分析时要注意这个问题。

现在，我们通过一个例子来学习数据的输入操作。

例：

马尾松腮扁叶蜂在林间表土层的水平分布调查数据

调查地点

样方里的幼虫数量

样地1

140263230064287034255324459205134001873322847

样地2

3110004141520523003543511003511342403144495616

样地3

3530402314376342044232836314143325531025254514

（3）定义变量

建立数据文件的第一步是定义变量。

在数据编辑窗口左下角激活（VariableView）变量定义窗口，如下图

在数据窗口中，用户定义数据变量的名称、数据类型、宽度、小数位和标记等信息。

变量名称

输入字符（汉字和英文）作为变量的名称，本例为，样地1，样地2，样地3。

如不输入名称，系统依次默认为“var00001”、“var00002”、“var00003”…。

变量应遵循下列原则：

∙在SPSS10.0中限制为8个字符长度（4个汉字）；在SPSS12.0中没有限制。

∙首字符必须是字母或汉字，不能以下划线“_”或圆点“，”结尾。

∙变量不能有空格或某些特殊符号，如“！

？

*”等。

∙变量名不能与SPSS的关键字相同，即不能用ALL、AND、BY、EQ、GT、LE等。

变量的数据类型

当鼠标指针移至单元格，单击后该单元格的右边就会显示一个“…”按钮，单击该按钮就会显示一个数据类型设置窗口，如下图所示。

可供选择的数据类型有：

∙Numeric标准数值型，系统默认。

例如：

12345.67

∙Comma逗号数值型。

例如：

12,345.67千分位用逗号

∙Dot圆点数值型。

例如：

12.345,67千分位用圆点

∙Scientificnotal科学记数法。

例如：

1.2E+04

∙Dat日期型，有27种形式。

例如：

mm/dd/yyyy

∙Dollar美元型。

例如：

$12345.67

∙Customcurrency自定义型。

例如：

12345.67

∙String字符型。

例如：

12345.67

width指定数据字符占据的总个数（包括小数点和小数位）。

Decimal指定小数位。

根据本例的要求，变量定义如图所示。

变量标签（Label）：

有的时候变量名不能正确反映变量含义，有必要给它贴上标签以便识别。

这个时候，就在变量定义的标签栏里输入你的注释。

变量值标签（Values）：

变量值标签是用来帮助解释某些变量，特别是分类变量的数值含义。

例如，有一个数值变量，0表示女性，1表示男性。

此时，为了便于识别这些数值，我们是用变量值标签。

在下图的第一个Value栏输入数值，在第二个Value栏输入数值标签。

当两个输入栏输入内容后，Add按钮激活，点击它就定义了变量值标签。

如本例，定义了0=女和1=男。

需要修改和删除，使用Change和Remove按钮。

缺失值（Missing）：

缺失值是统计分析时，对数据中缺少数据的一种统计识别值。

缺失值定义窗口如下图。

Nomissingvalues没有定义缺失值，用系统默认值圆点“.”表示。

Discretemissingvalues可以定义3个缺失值，例如，第一格输入“0”，表示凡为0的数据是缺失值。

Rangeplusoneoptionaldiscretemissingvalue定义取值区间为缺失值。

例如，Low:

为1，High:

为5，Discretevalue:

为10，表示1至5之间的数据及数值10视为缺失值。

数据列的显示宽度（Columns）:

显示数据的列宽，默认8个字符。

对齐方式（Align）:

有左中右3种数据显示方式。

度量类型（Measure）:

按度量精度将变量分为定量变量（Scale）、等级变量（Orsinal）和定性变量（Nominal）。

该选项仅用于统计绘图时坐标轴变量的区分以及决策树模块的变量定义。

定量变量，如虫口数、死亡率等；等级变量，如防治效果的好、不好等；定性变量，如害虫抗药性发生，低抗，中抗和高抗。

（4）输入数据

变量定义完成后，在编辑区选择栏里单击“DataView”卡片，编辑显示区显示为数据编辑。

在编辑区中，把与变量名相对应的数据输入到单元格里区，如下图所示。

数据输入后的数据编辑窗口

2调用已建立的数据文件

SPSS可以调用SPSS（*.sav），Excel（*.xls），dBASE（*.dbf），ASCII（*.dat,*.txt）等数据文件。

2.1调用SPSS数据文件（*.sav）

从菜单选择File-Open-Data命令，在弹出的打开文件对话中指定数据文件的路径，文件名框内显示的是SPSS数据文件是系统默认的文件类型“*.sav”，点击所选文件，单击“打开”按钮，或双击所选文件。

这样就把该数据文件调入数据编辑窗口中。

2.2调用ASCII数据文件（文本文件，*.dat,*.txt）

文本文件（ASCII）格式是我们经常使用的一种文件格式，也是许多软件都具有的数据交换格式。

文本文件分变量固定字符宽度与使用分隔符分开变量格式（‘，’、‘;’）和制表（‘Tab’）两种形式，下面我们用例子来说明其操作。

1）定字符宽度格式文本文件的输入

我们使用Windows“记事本”创建一个显示如下格式的TEXT1.TXT的文件。

0715.56715.56

136.671022.22

2817.781840.00

3715.562555.56

4715.563271.11

548.893680.00

624.443884.44

736.674191.11

836.674497.78

该数据文件有5个变量，9个记录。

使用这种格式使用变量名称注意宽度不能超过对应的变量数据的宽度，否则会发生一些变量名称不对的错误。

该数据文件保存在配套光盘中（\SPSS\DATA\TEXT1.TXT）。

操作过程：

（1）.在主菜单中点击“File-Open-Data”命令。

（2）.出现打开文件操作窗口，在“查找范围”栏指定文本文件“TEXT1.TXT”保存的文件夹；在“文件类型”栏里，单击该输入框或者右边的下拉按钮（三角形按钮），在下拉选项里选中“Text（*.txt）”,然后在文件列表框里选中“Text1.txt”文件，再单击“打开”按钮，如下图所示。

（3）.出现数据引导对话窗口，一共有6个对话窗口。

①第一个对话窗口的设置

Doesyourtextfilematchapredefinedformat（该文本文件是否与以前定义过的格式匹配？

）

○Yes 选择此项，则“Browse..”按钮被激活，可以将以前定义的文件调出。

⊙No 不使用保存过的匹配文件，系统默认。

然后点击“下一步”按钮，出现文本输入向导的第二个对话窗口。

②第二个对话窗的设置（设置变量的分隔方式）

图变量格式和变量名设置

Howareyourvariablesarranged（变量间分隔方式？

）：

○Delimited:

变量间用特殊符号分隔，系统默认；

⊙Fixedwidth:

变量间为固定列宽度，本例选中该项。

Arevariablenamesincludedattopyourfile（文件顶端是否含变量名？

）

○Yes:

文件中第1行为变量；

⊙NO:

文件中没有变量名，系统自动给变量命名。

本例选中该项。

然后点击“下一步”按钮，出现文本输入向导的第三个对话窗口。

③第三个对话窗口的设置（设置纪录读取方式）

Thefirstcaseofdatabeginsonwhich:

指定第一数据从那行开始，本例选1。

Howmanylinesrepresentacase多少行为一个记录？

本例选择1。

Howmanycasesdoyouwanttoimport（读入多少记录？

）

⊙Allofthecases:

全部记录。

系统默认，本例选中该项；

○Thefirst1000cases:

开始的1000个记录；

○Arandompercentageofthecases（approximately）:

随机选择一定百分比。

然后，点击“下一步”按钮。

④在第四个对话窗口的设置（修改变量分割）

可以在窗口的数据显示（Datapreview）栏里，用鼠标抓住变量分隔竖线，调整竖线位置来符合变量取值宽度。

有如下三种操作：

（1）修改变量字符宽度，用鼠标抓住分割线拖移；

（2）插入一条分割线，在插入位置点击鼠标左键；

（3）删除一条分割线，用鼠标抓住分割线拖移数据窗口。

调整完成后，点击“下一步”按钮。

⑤在第五个窗口定义变量属性

Specificationsforvariable（s）selectedthedatapreview（设置在数据显示栏选中变量的属性）:

Variablename:

v1重新定义变量名称。

Data:

Numeric重新定义变量的数据类型。

在窗口中，先在数据显示栏（Datapreview）指定需要定义的变量，然后才在“Variablename”和“Data”栏输入变量名和数据类型。

完成后，点击“下一步”按钮。

⑥第六个对话窗口的设置

Wouldyouliketosavethisfileformatforfuture（是否将文件格式存盘）

○Yes选此项，“Saveas..”按钮激活，单击按钮后，将文件另存到指定的路径。

在有相同格式文本文件时调用

它来设置。

⊙No不保存

Wouldyouliketopastethesyntax（是否存为程序语句文件？

）

○Yes选中此项，则将上述过程保存为程序文件。

⊙No不保存为程序语句文件，系统默认。

设置完成后，在窗口的数据显示框里观察数据读取情况，如果读出的数据不对，可以点击“上一步”按钮，回到前面的对话窗口里进行修正设置。

数据显示正确后，点击“下一步”按钮。

最后单击“完成”按钮，文本数据就输入到数据编辑窗里，完成了数据的转换过程。

2.3调用Excel文件数据

MicrosoftExcel是使用比较普遍的图表软件，用它保存的数据文件，在SPSS中也能很方便的使用，这里我们介绍其使用的操作过程。

首先，我们已经保存有在Excel里显示如下的“EXCEL01.XLS”文件，如下图所示。

操作过程：

（1）在主菜单中选用“File-Open-Data”命令，出现打开文件操作窗口。

（2）在“查找范围”栏指定文本文件“EXCEL01.XLS”保存的文件夹；在“文件类型”栏里，单击该输入框或者右边的下拉三角形按钮，在下拉选项里选中“Excel?

（*.xls）”,然后在文件列表框里选中“EXCEL01.XLS”文件，再单击“打开”按钮，或者双击该文件。

（3）出现打开Excel数据文件对话窗

Readvariablenamesfromthefirstrowofdata变量名称是从数据的第一行读取吗，是点选此项。

Worksheet:

指定读出Excel文件中的工作表。

单击该选框右边的下拉三角形按钮，在出现的工作表中指定，系统缺省指定第一个工作表。

Range:

指定读取数据的范围。

其范围按Excel格式书写，例如：

A1:

点击“OK”按钮,Excel数据就输入到数据编辑窗里,完成数据输入转换。

总之，SPSS提供了多种数据格式的输入，我们在学习这两种方法后，能举一反三地学习其他的输入方式。

3保存数据

SPSS可以将数据保存为SPSS（*.sav）、Excel（*.xls）、dBASE（*.dbf）、ASCII（*.dat,*txt）等数据文件形式。

保存文件，从菜单选择File-Save（或SaveAs）命令。

在弹出的保存文件对话框里，指定保存路径，输入文件名，确定数据类型，最后单击“保存”按钮。

4SPSS的文件类型

∙数据文件：

扩展名为“.sav”

∙结果文件：

扩展名为“.spo”

∙图形文件：

扩展名为“.cht”

∙语句命令文件：

扩展名为“.sps”

二、数据编辑与整理

1数据整理

在主菜单中点击Data菜单命令，弹出数据文件子菜单，如下图。

主要功能有：

定义时间，插入变量或记录，到某一记录，观测值排序，数据转置，合并文件，数据分类汇总，正交设计方案，折分文件，选择观测值单位，变量加权等。

1.1定义时间变量（DefineDates..）

在菜单中选中Data-DefineDates..命令，弹出日期格式设置对话框，在对话框中选中需要的格式。

例如，我们要定义一个以天数为单位的日期变量，就在“CasesAre:

”栏里选中“Days”,在“FirstCasels”的“Day”输入框输入“1”。

然后单击?

OK?

按钮。

这样系统就在数据编辑窗口新添加了“DAY_”和“DATE_”两个变量，“DAY_”变量为数值型，“DATE_”变量为字符型。

1.2插入变量（InsertVariable）

在数据编辑窗口选定要插入变量位置的后一个变量，可以从工具条直接点击插入变量

按钮，或从菜单中选择Data-InsertVariable命令。

数据编辑窗口产生一个新的变量列。

1.3插入记录（InsertCase）

在数据编辑窗口选定要插入记录位置的后一个记录，可以从工具条直接点击插入记录

按钮，或从菜单中选择Data-InsertCase命令。

数据编辑窗口产生一个新的记录行。

1.4观察值排序（SortCases）

从菜单中选择Data-SortCases命令，弹出观测值排序对话框。

Sortby:

选择排序变量。

对所选变量的观测值排序。

如果选择了两个以上的变量，其排序结果将按变量在本栏的选入顺序依次排序。

SortOrder:

排序方式：

⊙Ascending:

升序排列。

数值型变量由小到大排列，字符型变量按ABCD字母顺序排列。

系统默认项。

○Descending:

数值型变量由大到小排列，字符型变量按ZYX字母顺序由后向前排列。

1.5数据转置（Transpose）

将工作区数据的行和列互换，使新文件的行是原数据的列，新文件的列是原数据的行。

从菜单选择“Data-Transpose..”命令，弹出数据转置对话框如下图。

Variable（S）:

把需要转换的变量添加到本变量框里。

NameVariable:

设置变量转置后的名称变量。

如果该变量是字符型，则新变量为原字符；如果该变量为数值型，则新变量名以字母V开头，其后是原数值；若缺省，系统自动生成新变量名。

此外，系统自动生成一变量名为“CASE_LBL”的新变量，存放原数据的变量名。

完成设置后，单击OK按钮完成转置，系统把转置的数据存放在数据工作区。

用户可以在数据编辑窗口，编辑和保存。

1.6合并文件（MergeFile）

（1）添加记录

将其他文件的记录添加到当前文件中，合并后新数据的记录应该为两文件之和。

从菜单选择“Data-MergeFile-AddCases..”命令。

选定添加文件后，单击打开按钮。

弹出添加记录对话框如下图。

UnpairedVariables:

显示两个数据文件中变量名及变量类型不完全相同的变量，即不能完全匹配的变量。

标有“*”的变量是工作区的变量，标有“+”的变量是连接文件的变量。

VariablesinNewWorkingData连接后新变量显示框。

需要连接的变量从左边“UnpairedVariables:

”框里添加本框中。

Indicatecasesourceasvariable在新数据文件中显示变量记录来源。

选中此项后，在新数据文件中建立一个以下框中命名的变量来标记记录来源于那一个文件，0表示原文件，1表示连接的文件。

系统缺省的变量名为：

source01。

要将合并后的数据保存，只能从菜单选择“File-SaveAs..”命令。

（2）添加变量（AddVariables）

将其他文件的变量添加到当前文件中。

从菜单选择“Data-MergeFile-AddVariables..”命令。

选定添加文件后，单击打开按钮。

弹出添加记录对话框如下图。

NewWorkingData:

显示两个文件中变量名或变量类型不完全相同的变量，这些变量将在合并后的新文件中以独立的变量存在。

若想在新文件中不包含某个变量，可选中将它移出，送入ExcludedVariables框中。

ExcludedVariables：

若两个文件中有变量名或变量类型相同的变量，则当前文件中的该变量显示在NewWorkingData框里，连接文件的该变量显示在本框里。

若想把连接文件的该变量合并到新文件中并以独立的变量存在，需单击Rename..按钮给该变量命名。

若两个变量是一对关键变量，即每个观测单位的数值大小完全相同，合并到新文件中将成为一列变量，需要调用SortCases过程，依该变量值的大小对当前文件中的观测单位排序，然后激活“Matchcasesonkeyvariablesinsort:

”选项，说明按关键变量选择观测单位的方式。

□Matchcasesonkeyvariablesinsort:

根据关键变量匹配观测单位。

☉Bothfilesprovidecases：

观测单位由两个数据文件提供。

○Extemalfilesiskeyedtable：

保持工作区文件中变量值，并将连接文件与工作区文件关键变量值相等的，

指定的变量的数值合并到新文件中。

○WorkingDataFileiskeyedtable：

保持连接文件中变量值，并将工作区文件与连接文件关键变量值相等

的，指定的变量的数值合并到新文件中。

KeyVariables：

关键变量栏。

将“ExcludedVariables”栏变量选入本框中。

1.7折分文件（SplitFiles）

我们在进行数据处理时，有时需要将某些分类变量进行分层分析，例如对品种感病性中的发病和不发病分别进行分析，此时就需要通过折分文件来实现。

我们先在数据编辑窗口打开一个例子文件“DATA4-1.SAV”，然后在从菜单选择“Data-SplitFiles”命令，弹出折分文件对话框如下图。

⊙Analyzeallcases,donotcreategroups:

分析所有观测对象，不进行折分。

系统默认。

○CompareGroups:

根据分类变量进行分折。

选中此项后，“GroupsBasedon”被激活。

若框内选入2个以上的分类变量（最多可选择8个），测分类顺序与选入的顺序相同。

○OrganizeoutputbyGroups:

根据分类变量进行分折（最多可选择8个分类变量）。

选择此项后，输出的方式按每一种不同的类组合给出一个完整的结果。

而“CompareGroups”选项则是在每一过程的输出时体现所有不同的分类组合。

⊙Sortthefilebygroupingvariables:

按分层变量值将记录由小到大升序排列，然后再折分文件。

○Fileisalreadysorted:

不排序，文件已经分类排序的选此项。

1.8选择记录（SelectCases）

在数据分析时，有时可能只对某些记录感兴趣。

例如，在判别分析时，可能用其中90%的记录数据建立判别函数，用其余10%的记录来考核判别函数。

此时，可以通过选择记录的操作。

我们先在数据编辑窗口打开一个例子文件“DATA4-1.SAV”，现在只对暴雨前的数据感兴趣。

然后，在从菜单选择“Data-SelectCases”命令，弹出选择记录对话框如下图。

1）Select:

选择方式

①Allcases：

选择全部记录，系统默认。

②Ifconditionissatisfied:

选择满足条

展开阅读全文