数据文件的建立与编辑.docx-资源下载

数据文件的建立与编辑.docx

1、数据文件的建立与编辑第二讲：数据文件的建立与编辑管理一、数据文件的建立1、测量方式（Measure）运用统计学方法分析时十分强调“对号入座”。SPSS中变量有三种测量方式，分别是：尺度变量（Scale）顺序变量（Ordinal）、分类变量（Nominal）：各对应与统计学中的计量资料、等级资料以及计数资料（包括二分类与无序多分类）。在SPSS的默认的情况下，所有的数值、文字输入都将被作为Scale处理，不同的是输入数值将完整保留，而文字全都是被转变为。2、定义变量（Variable View）运行SPSS后，将进入Data Editor界面，如下：窗口顶部显示为“SPSS Data Edit

2、or”，表明现在所看到的是SPSS的数据管理窗口。这是一个典型的Windows软件界面，有菜单栏、工具栏。特别的，工具栏下方的是数据栏，数据栏下方则是数据管理窗口的主界面。该界面和EXCEL极为相似，由若干行和列组成，每行对应了一条记录（Case），每列则对应了一个变量（Variable）。由于现在我们没有输入任何数据，所以行、列的标号都是灰色的。请注意第一行第一列的单元格边框为深色，表明该数据单元格为当前单元格。如果直接输入数据很可能不能满足统计分析的要求，所以首先要定义变量。单击Variable View：这就是变量定义窗口，我们需要对变量名称（Name）、类型（Type）、宽度（Wid

3、th）、小数位数（Decimals）、变量标签（Label）、变量值标签（Values）、缺失值（Missing）、显示数据的宽度（Columns）、对齐方式（Align）、测量方式（Measure）。Name：总长度不可以超过8个字符（4个汉字）；系统不分大小写，首字符必须是字母（或汉字），其后可接字母或数字，尽量不要在变量名称中使用标点符号或运算符号（例如：？、！、*等）；不可以将下划线 “_”和圆点“.”作为变量名的最后一个字符（但是在中文输入法，例如清华紫光时上述法则有时不成立）；变量名不可使用“all、and、by、eq、ge、gt、le、ne、not、or、to、with等SPSS

4、系统保留字。Type：在SPSS系统中，共有8种类型的变量设置，单击Type： Numeric：标准数值型；这是系统默认型别，可以在width和decimal中调节总长度与小数位数（小数点也占一位）。 Comma：带逗号的数值型；整数部分从右向左每3位加一个逗号；例如原始数据是6789.401，如果选择comma，则按照6,789.401录入；在data view中SPSS将它还原为6789.401。 Dot：带句号的数值型；整数部分从右向左每3位加一个圆点而小数点表达为逗号；例如原始数据是7889.12，如果选择dot，则按照7.889,12录入；在data view中SPSS仍将表达为7.

5、889,12。 Scientific notation：科学计数型；例如原始数据为78.123，输入时仍可按照78.123输入，但是SPSS将会把它转变为7.8E+01（7.8123101）表达。 Date：日期型；使用者可以从系统提示的日期显示形式中选择自己需要的；例如选择dd-mmm-yyyy，则2009年2月20日应该输入为20-FEB-2009；如果选择mm/dd/yyyy，则应该输入为02/20/2009。但是无论是何种输入方式，data型资料将不能直接参与运算，必须通过有关的日期转换函数转换后才行。 Dollar：带美元符号的数值型；使用者可以从系统提供的形式中选择，系统将自动生成

6、美元符号。默认为11位数（1000亿），如果超出将按照科学计数法表达，同时数据前加美元符号。 Custom currency：自定义数值型；共有5种形式，系统将其分别命名为CCA（CC为custom currency的简写，A表示第一种）至CCE，可以在edit-option-currency选项卡中作定义，定义之后可以从sample output预览修改结果。 String：字符串型；选择该中表达类型后，使用者可以在data view中输入中文或英文。字符串型变量不能参与统计运算，而且字符串中大小写字母将被系统辨认为两个完全不同的字符。Width：输入时的变量值宽度，默认为8位。Decima

7、ls：小数位数，默认为2位。Label：变量标签；用于说明变量所代表的实际意义，特别对于在name中无法准确表达的变量名称可以通过标签详细说明。Values：变量值标签；用于详细说明变量值的具体意义，特别是对于分类变量或等级变量往往用具体数值代替分类或等级，此时最好定义数值的变量标签以备分析与查阅方便。例如变量名称为sex，其label为调查对象性别，values分别是0代表男性、1代表女性。Missing：缺失值定义；在统计数据录入过程中有时会遇到观察值不详或数据录入失误，此时可以定义缺失值。 No missing values：无缺失值，系统默认。 Discrete missing val

8、ues：离散的缺失值；例如性别的取值定义为0男，1女；但是在输入过程中有时可能会误录为3或其他非0、1数值，此时可以设定2、3、4为缺失值，如果在数据输入时出现2、3、4系统将按照缺失值处理，该单元格为一个空格。 Range plus one optional discrete miss：定义某一个范围，同时还有一个不在此范围的单一数值作为缺失值（区间）；例如人群身高调查，正确的数值介于（0，1.9），可在low中填入1.9，high中可以任意填一个十分大的数值如1000。以上定义常常可以与frequencies命令结合使用。Columns：显示时的变量值宽度；显示宽度不影响机内计算，只影响

9、显示。Align：对齐方式；可选择左/中/右对齐。Measure：意义如前所述；该项设置在绘制交互作用统计图时十分有用。通常，即使是分类变量与等级变量，输入时仍然将变量当作数值录入，并在values中说明，使得这些变量参与统计分析。3、数据的录入：单击Data View选项卡，将鼠标移到单元格上，单击该单元格就可以输入数据。要注意数据编排的顺序：变量编排方向数据输入方向在SPSS中变量以及数据编排的顺序是有一定规律的：变量总是在最上方，从左到右编排；而数据总是在所对应的变量下方，自上而下编排；这一特点与Excel不同，在Excel中变量所对应的数值既可以横排，也可以纵排。另外，要注意变量值

10、的格式（Type），一旦在variable view中定义完毕，就要按照要求输入，否则系统会将其作为缺失值处理。* 请将课本P8-9，例2.1的数据输入SPSS中。* 请将课本P13，习题1、2的数据输入SPSS中4、查看变量信息与文件信息：变量值输入之后可以用Utilities菜单中的Variable命令，或单击工具栏中的“”图标，即可打开变量信息对话框。对话框显示的是光标所在位置变量值对应的变量信息。该对话框中的第一行是变量名（name），其后有“”号，表示该变量是字符串变量（string）；变量标签栏（label）没有信息；第三行是变量格式（type），A表示字符串型，8表示长度；往下

11、是缺失值定义（missing values），none表示没有规定缺失值；接着是测量方式（measurement），表示为分类变量（nominal），所以该变量所对应的变量值11、12、15没有大小之别，仅仅起区分作用。如果数据库中有很多变量，如果要一一点击查看比较麻烦，可以通过查看文件信息，显示该数据库中所有变量的信息。具体操作方法为：UtilitiesFile Info，我们将在结果输出窗口（SPSS Viewer）看到该数据库变量信息。二、数据文件的编辑整理1、数据文件的编辑与管理File菜单新建打开打开数据库从文本文档读取保存另存为显示数据文件信息建立数据缓冲区打印打印预览切换服务器

12、停止运算最近使用过的数据最近使用过的文件退出New：在新建下有5个命令，分别是新建数据（data）、新建语法输入（syntax）、新建输出窗口（output）、新建草稿输出（draft output）和新建脚本（script）。事实上，当进入SPSS后系统就已经生成了一个空数据文件；对于SPSS旧版本的用户，也可通过syntax对话框建立新数据。Open：打开选项下同样也有5个命令，基本与新建相同。在打开.xls文件时请先退出Excel，否则系统提示出错；打开后Excel文件中的所有数据都会忠实再现，默认type为numeric，measure为scale；而.xls文件中的文字有时会将消失，

13、可通过定义type为string，以及复制粘贴的方法再现。请注意excel文件的变量以及数据编排方式，否则在读取数据后还要作进一步转换。在工具栏中有其快捷按钮“”。Open Database：即所谓的ODBC接口（Open Database Capture）；该接口为微软所建立，被大多数的数据库（如MS Access）软件和办公软件（如MS Office）所支持，通过它应用程序可以直接访问以结构化查询语言（SQL）作为数据访问标准的数据库系统。Read Text Data：实际上该功能可以用Open命令完成。请注意文.txt文件中变量以及变量值的编排规则，否则在读取数据后还要作进一步转换。Sa

14、ve：请及时保存文件；save命令将保存文件中的所有内容；有时在我们处理数据的过程中系统会生成一些临时的变量，如果不想将它们也一起保存，可以采用save as命令，选择想保留的变量名称另存为其他文件。在工具栏中有其快捷按钮“”。Display Data Info：会在SPSS Viewer中输出数据文件的信息以及数据文件中所包含的变量的信息。Cache Data：如果系统从远程SQL数据库中调用数据将会很费时间，使用该命令会将数据全部读入暂存盘，建立数据缓冲区，大大加快运行速度；如果处理本机的数据，该命令的提速效果不明显。Print/Print Preview：可以修改打印机设置，并在打印前预

15、览打印效果。在工具栏中有其快捷按钮“”。Switch Server：该命令主要用于使用SPSS服务器（SPSS Server）客户端的计算机。Stop Processor：强制停止SPSS运行。Recent Used Data/Files：用于快速打开最近使用的数据或文件。Exit：退出程序，请及时保存输入数据。2、数据文件的编辑与管理Edit菜单撤销操作恢复所撤销动作剪切复制粘贴粘贴变量清除寻找系统参数设置该菜单下的命令与Word或Excel中的功能基本一致；需要解释的主要是paste variables与find。Paste Variables：在运算时我们可能会用到存在于其他.sav文件

16、中的变量及其所对应的变量值。通常的做法是选择该变量的变量值，复制粘贴到新的数据文件中，但是这样作仅仅拷贝了变量值，而对于该变量的其他信息，例如type、label、values等信息仍然需要重新定义；使用paste variables命令则可拷贝该变量的变量设置信息。注意该命令须在variable view中使用。Find：查找制定变量中的制定数据；例如要查找SPSS自带的1991 U.S. general social survey文件中age变量为50的个体。首先打开该文件，在data view中单击age变量所在列的任一单元格，点击find或直接从工具栏中点击，在弹出的对话框中键入50，

17、点击OK即可。3、数据文件的编辑与管理Data菜单定义变量属性拷贝数据属性生成时间系列周期插入变量插入观察单位转到观察单位排序行列转置改变排列格式合并（变量或观察单位）分类汇总正交设计拆分文件选择特定观察单位加权Define Variable Properties：该命令所提供的功能主要是针对nominal和ordinal类型的变量，可以在该命令的对话框中完成variable view中一些主要设置，例如type、label、value、missing、measure的设置；它的最大好处在于可以快速定义这些属性（比如通过复制另外一个类似变量的属性），以及给出一个类似频数分布表的直观视图。Cop

18、y Data Properties：该命令与edit菜单下的paste variable相似，同时define variable properties也可以提供类似功能将源变量的数据属性复制至目标变量。与前面不同的是在该命令下，源变量与目标变量可以不在同一数据中。Define Dates：自动生成时间变量，主要应用于时间序列模型。Inset Variable：有时在编辑好的数据中要添加新变量，通过该命令可以在选择的位置前插入一个新变量，而后通过上面的所介绍的命令例如define variable properties、Copy Data Properties，设置其具体属性。在工具栏中有相同功

19、能的快捷按钮“”。Inset Case：添加新观察单位，可以在当前行（case）前插入新case，在工具栏中有相同功能的快捷按钮“”。Go to Case：到达指定记录号的观察单位（case），该命令在观察单位极多时非常有用。在工具栏中有相同功能的快捷按钮“”。Sort Case：可以将某个变量的变量值从大到小或从小到大排列；便于输入结束后进行查找，纠错。Transpose：通过该命令可以将原先的case转变为一个variable，而variable则转变为case。该命令在读取一些以标准格式记录的数据时十分有用，尤其是这些数据的case很多时。例如我们读取一个.txt文件，该文件中的记录不是

20、很规范，经过转置后可以纠正。系统在执行该命令过程中生成一个临时变量case_lbl，在后续的保存过程中可通过save as将其除去。Restructure（自学）：许多时候按照“标准格式”输入的数据不一定可以立即满足我们的分析要求。例如，在重复测量模型中，我们需要将同一个体多次的测量值并排在同一行上才可以分析，但是原始数据并非如此，请打开anxiety.sav。这是原始格式这是理想的格式运行该命令，系统将弹出以下向导选项一：将选择的变量转变为观察单位（将横行数据转换为纵列）。选项二：将选择的观察单位转变为变量（将纵列数据转换为横行）。选项三：调用transpose命令。在本例中，我们相将一

21、列scores变为一行scores，所以选择选项二；按“下一步” Identifier Variable：ID变量，即如何确定每个case。 Index Variable：索引变量，即如何确定因素或水平。本例中每个subject就代表一个case，所以将subject选入Identifier Variable；因素有一个，但是有4个水平（重复了4次），所以将trail选入Index Variable；直接点击“完成”。Merge Files：用于合并数据，包括了两个过程，纵向合并（add cases），横向合并（add variables）。 Add Cases：从外部的数据文件中增加记录（

22、case）到当前数据文件中，当前的文件中变量的个数不改变，但是观察单位数增多。例如研究者研究某人群的血磷值的分布情况，先期观察了10例；而后又观察了15例；两次观察的变量都是血磷值，变量没有改变，为了分析方便考虑将两次的结果合并，称为纵向合并。对话框左侧代表的是当前与外部数据文件中不匹配的变量名称，“*”号表示为当前数据文件中的变量，“+”号则表示外部文件数据集中的变量；右侧的对话框中表示已经匹配的变量名称。有两种方法可以add cases。一种是重命名匹配法（renamepair），另外则是强行匹配法（选择两个匹配变量pair）。 Add Variables：从外部文件添加变量（varia

23、ble）到当前文件中；例如，某研究者观察某人群的血磷值，而后又观察了相同人群的年龄、性别，为了分析需要将两次结果合并，称为横向合并；合并前后相比，观测对象没有改变，但是观察的变量增多了。横向合并对两个数据的要求比较高，系统默认是按照相同的记录号进行合并，或者使用一个关键变量（key variables）进行匹配合并。如果两个数据文件的记录数（cases）不一样多，则会丢失部分记录，甚至合并失败。现有两个文件，损伤1与损伤2。损伤1中包含了190号病例（其中有缺号）的性别、年龄、血小板值；损伤2则包含了11100号病例（其中有缺号）的收缩压、舒张压、脑损伤情况。 New working dat

24、a file框中显示了新数据集中将出现的所有变量，“*”号表示为当前数据文件中的变量，“+”号则表示另外数据集中的变量；excluded variable表示不会出现在新数据中的变量，由于来自于外部文件的“id号”变量与当前文件中的变量重名，所以被系统自动排除。如果按照系统默认，两份数据的记录并不相同，合并后会出错。因此选择match cases on key variable in sorted files，有三种情况：both files provide cases（两个文件提供的所有记录）、external files is keyed table（以当前的文件为主，合并后的文件中只存在

25、当前的cases）、working data files is keyed table（以外部的文件为主，合并后的文件中只存在外部的cases）。很显然后两种做法信息将有损失，所以选择第一种；而后将“id号”选入key variable中，按OK后系统弹出以下对话框：（如果关键变量没有按照升序排列，合并将失败）所以切记：在将两份数据横向合并之前必须将它们各自按照匹配变量的升序进行排列，使用之前的sort cases命令。由于两份数据均已经排要求排列过，所以直接点击“确定”即可。合并后的数据中将即有当前数据的cases又有外部数据的cases。Aggregate：所谓的分类汇总就是按照一定的分组

26、依据将观测对象分组，并对每组的对象分别进行统计描述。其功能与之后介绍的统计描述有些重复（不如专用描述命令功能强大），但是该命令的执行结果（即分类汇总的结果）既可以作为新文件保存，也可以用它替换当前数据。例如将血磷值按照不同的分组分类汇总；break variable即为分组变量，在这里是“组别”，aggregate variable为要描述的变量，这里为“血磷值”；将组别与血磷值分别选入对应位置后即可定义汇总函数（function）以及汇总后新产生的变量的名称与标签（name & label）。系统默认将产生一个汇总数据文件；当然也可以选择将当前文件替换（replace working da

27、ta file）。Split File：拆分文件；该命令虽然也将原数据按照一定要求分组，但是命令本身不再有统计描述功能，仅具有aggregate命令中的分类功能，通常与统计描述的命令一起结合使用。一旦使用该功能，Data Editor下方的状态栏将会显示；如果将来进一步的统计分析不需要对原文件拆分（后续的统计分析命令大多都有分组因素，通常不需要将cases拆分），请将拆分数据还原。Orthogonal Design（自学）：正交表设计；该命令提供了设计（Generate）与生成（Display）正交表的功能。但是该命令所生成的正交表与理论课教材中的表格不同，表现在其表头中不出现误差列，其具体

28、操作见方差分析。Select Cases：很多时候我们不需要分析所有数据，而是按照某种要求分析其中的一部分（比如对于食管癌病例，研究者仅仅想研究原发病例，对于其他部位转移来的病例不想研究），可以采用该命令。现研究者想分析cars.sav文件中，产于美国的汽车的输出功率。选择if condition is satisfied，弹出如下对话框：该对话框左侧为待选变量，右侧上部为表达式显示区，下部的窗口内有待选众多函数（Functions）。将origin变量选入右上框中，键入“1”（在variable view中，产于美国的汽车，变量值对应的value为1），点击continue，可以看到：在该对

29、话框的下部，Unselected cases are，系统默认为filtered，被过滤的cases仍然存在于原数据文件中；如果要将这些被过滤的数据删除，则选deleted（建议少用）。被过滤掉的数据，其记录号上将被加上斜杠以示区别，同时系统将自动产生一个名为filter_$的指示变量，被过滤掉的数据为0，反之为1：Weight Cases：在SPSS系统中，通常每一行就是一个Case，但是这一规定有时将会使输入数据十分繁琐；现某研究者要研究两种药物的疗效是否有别，分别观察了A药100例（30例无效，70例有效），B药100例（21例无效，79例有效）；按照默认要求数据文件中必须至少设定两个变

30、量，分别是：药物（1A，2B）以及治疗效果（0无效，1有效），每行代表一个case，在输入数据时要输200行！如果直接使用有效或无效的频数将大大减少输入工作量。因此遇到上述情况时，通常增加一个变量：频数直接将30、70、21、79输入工作区中，但必须为系统指定分析时调用该列频数，这就是weight cases过程。具体使用将在卡方检验中详述。4、数据文件的编辑与管理Transform菜单通过计算生成新变量设定伪随机函数的种子计数并生成新计数变量重新编码（覆盖原变量或生成新变量等级化连续型数值变量排序并生成新变量自动排序自动生成时间序列变量填充时序变量中的缺失值完成尚未结束的转换命令 Trans

31、form菜单主要集中了一些对变量进行转换的过程，例如对原始数据进行函数运算、重新编码、排秩次等。它们在统计分析的预处理中起着非常重要的作用。在这些命令中最重要的是compute命令，其他transform菜单下的命令可以看成是对compute命令在某些方面的强化。Compute：该命令是transform菜单中最经常使用的命令，用于给新变量赋值。 Target Variable对话框为新变量的变量名称，变量名的定义法则与前述name的设定一样；下方可以定义该变量的type与label：在target variable下方的对话框中是存在于当前文件中的所有变量，点击其中的任意一个，其右边的按钮将显示为可用，可以将该变量选入右上方的Numeric Expression对话框中。Numeric Expression用于对新变量赋值，我们既可以直接输用键盘输入，或者使用左下方系统提供的软键盘，也可以从右下方的function中选择合适的函数。如果并非所有数据都要参与计算新变量，则可以调用IF选项，该选项的功能与DataSelect cases相似：软键盘区的一些运算符号：表示：系统的逻辑运算符号，从左到右分别为“and”、“or”

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？