统计学软件及应用实验6变量组数据处理文档格式.docx

资源描述

统计学软件及应用实验6变量组数据处理文档格式.docx

《统计学软件及应用实验6变量组数据处理文档格式.docx》由会员分享，可在线阅读，更多相关《统计学软件及应用实验6变量组数据处理文档格式.docx（16页珍藏版）》请在冰豆网上搜索。

统计学软件及应用实验6变量组数据处理文档格式.docx

（1）打开"

计算变量对话框，设定目标变量名为ts3，数字表达式为"

，确认后即建二新变量，取值为1。

（2）再次打开"

对话框，更改数字表达式为"

，单击"

如果"

按钮，设定筛选为"

s3>

=35&

s3<

=54"

，如图所示，依次确认。

（3）再次打开"

按钮，设定筛选条为"

=55&

=6453>

=55"

，依次确认，操作完成。

2.重编码过程

SPSS中提供了功能类似的两种重编码过程，其中"

重新编码为相同变量"

是对原始变量的工值直接进行重编码，替换原数值;

而"

重新编码为不同变量"

则是根据原始变量的取值生成一新变量来记录重编码结果。

2.1对连续性变量进行分组合并

在spss中可以将连续变量转换为离散（等级/定序）变量，按照某种一一对应的关系生成新变量值，可以将新值赋给原变量，也可以生成一个新变量。

例3.1CCSS项目中的受访者年龄为18-64岁，分析时将其分为18-34、35-54、55-64三组。

如果使用重编码过程，则一次就可以完成。

选择"

转换"

→"

菜单项，打开如图3.3所示的对话框。

将s3年龄选入"

数字变量→输出变量"

列表框中，此时"

输出变量"

框组变黑，在"

名称"

文本框中输入新变量名TS3并单击"

更正按钮，原来的S3->

就会变成S3->

TS3，即新老变量名间已经建立了对应关系。

现在单击"

旧值和新值"

按钮，系统打开"

重新编码到其他变量:

对话框，如下图所示。

对话框左侧为原有变量的取值情形，右侧为新变量的赋值设定。

两边设定完毕后三击"

添加"

按钮，相应的对应规则就会被加入规则列表中去。

但要注意所有的范围都是包含了端点的，虽然此时前面设定的变换会优于后面的变换，但为了避免误解，这里将不包括端点数值的情形均设定为小数数值（己知S3为整数）。

2.2分类变量类别的合并

重编码过程也常用于合并某个分类变量的几个水平为一个水平，如果分类变量的记录格式为数值型，则操作与例3.1基本上没有区别。

但如果其存储格式为字符型，则需要注意默认的转换格式为数值型，如果仍希望将其转换为字符型，则需要选中复选框"

输出变量为字符串"

。

连续性变量的离散化

重编码过程提供了精确分组的功能，但是如果希望进行的分组是较有规律的，比如说等距分组，或者等样本量分组，使用重编码过程进行操作就显得非常麻烦，且可视化程度不高，此时可考虑使用可视化过程进行分段。

SPSS中提供了两种可视化分段过程，分别为需要用户自行判断设定的可视离散化过程，以及基本全自动的最优离散化过程。

3.1可视离散化过程

可视离散化过程用于在可视界面下将连续变量进行分段，在该过程中可以使用百分位数、标准差范围或者等间距方式连续变量划分为若干组段，并采用图形化操作的方式，非常直观好用。

3.1.1对话框

可视离散化"

菜单项之后，打开的对话框要求用户选择希望进行离散化的主量，选择完毕后单击"

继续"

按钮，则系统会对相应的变量进行数值扫描，并打开如图所示时对话框。

（1）己扫描的变量列表:

列出了在前一个对话框中所选择的所有变量，更改此处的变量选择，则对话框中所有其余部分的内容均会按照所选中的变量状况进行更新。

（2）左下侧"

复制块"

框组:

当选择了多个变量且其中部分变量已设定完离散化选项，时可用，可以将设定好的属性复制"

到其他变量"

，也可以"

从另一个变量"

（即己设定好的变量）读取兰的设定。

（3）上部变量属性:

列出新老变量的名称和标签，注意其中新变量名称是必填的;

否则离散化完毕后不会生成任何新变量。

（4）中部直方图:

扫描完原变量取值情况后在此处绘制该变量的直方图，如果己设定完毕分割点，也会一并显示。

（5）下部数值标签网格:

在本网格处显示所设定的分割点数值位置和相应的标签。

（6）右下侧"

上端点"

用于设定端点是否被包括在上侧区间内。

（7）"

生成分割点"

按钮:

单击后打开如图3.5（b）所示的对话框，其中可以选择使用等间距[equalVVidthInter）、等比例（等样本量，EqualPercentilesbasedonScannedCases）或者按照指定=扣在差范围（CutpointsatMeanandSelectedStandardDeviationsbasedonScannedCases）3种方式进行分段，其中第3种方式显然可以用来在数据分析或质量控制中筛选异常值。

（8）"

生成标签"

在分割点数值设定完毕后，单击该按钮可以自动生成相应的值标签。

（9）"

反向刻度"

复选框:

在默认情况下，新的离散化变量的值是从1到π的升序整数。

反向刻度会使得这些值成为从n到1的降序整数。

3.1.2实例分析

将S3年龄变量分为10组，要求等间距。

本例实际上是要求对连续变量进行统计描述中的直方图分组，由于已知年龄范围为18-65，-全距为48，因此在分为10组的情况下，组距为5即可覆盖全部取值范围。

当然组数、组距和第一组段下限三者是相互联系的，在对话框中一般只需要定义其中两者即可自动确定第3个因素的取值。

（1）选择"

菜单项，将S3年龄选人"

要离散的变量"

列表框中，单击继续"

按钮进入主对话框。

（2）单击"

按钮，设定分割点数量为10，宽度为5，可见系统会自动填充第一个分割点的位置为18，单击"

应用"

返回到主对话框。

（3）此时会看到下部数值标签网格的"

值"

列已被自动填充，单击"

按钮，使标签可也得到自动填充。

（4）将离散的变量的名称设定为S3New，单击"

确定"

按钮，系统会提示"

封装规范将创建一人变量"

，确认后就会在数据集中生成新变量S3New。

如果注意一下结果窗口中的LOG输出就会发现，可视化分段过程实际上运行的是记录重编玛所对应的Recode过程，也就是说，两者在代码级别上实际是一回事情，只不过可视化分段过程在对话框界面上进行了进一步的开发而已。

3.2最优离散化过程

最优离散化"

过程是对前述可视化离散过程的进一步自动化，根据某些作为"

关键指示变量"

的分类变量，将原有的一个或多个连续性变量按照该分类变量类间差异最大化的优化原则离散化为分类变量，然后就可以使用离散化变量而非原始数据值进行后续的分析。

最优离散化主要和建模分析有关:

当模型中的因变量为分类变量时，在分析中往往会对自变量进行离散化（分类化），此时就可以使用该过程。

如果最终目标是生成预测模型，则"

的效果一般会优于可视离散化。

3.2.1对话框

（1）"

变量"

选项卡:

在图3.6（a）将需要离散化的一个或多个连续性变量选人右上方的"

列表框中，右下方则用于选人作为关键指示变量（一般即为模型中的因变量）的分类变量，注意这里只能选入一个分类变量。

（2）"

输出"

在图3.6（b）设定在离散化结束后输出哪些统计结果，需要解释的是第3项"

惰"

，对于每个离散化输入变量，此选项显示相对于关键指示变量的预测准确性的改善情况，可作为离散化效果的测量指标，因为进行最优离散化一般就是为了改善预测效果。

（3）"

保存"

在通过阅读输出结果确认离散化效果可以接受后，可在图3.6（c）这里选择保存离散结果为新变量用于后续分析。

同时也可以将相应的recode语句（还是recode命令!

）存为程序文件以便重复利用。

（4）"

缺失值"

定义当数据中存在缺失值时系统的处理方式，一般不用更改。

（5）"

选项"

设定在要处理的是海量数据集、关键指示变量存在罕见类别（稀疏块）等情况下的处理选项，块的端点设定等细节一般不用更改。

3.2.1实例分析

利用S3年龄变量对S4学历进行预测建模，要求基于此构思对S3进行最优离散化。

本例相应的设定如上图所示，单击"

按钮后相应的结果输出如下。

4.变量的自动重编码与数值移动

4.1变量的自动重编码

在数据分析中，将字符变量转换为数值变量，或者将数值变量重编码是非常实用的功能。

除了使用前面介绍的重编码过程手工设定转换规则外，还可以使用自动重编码过程自动按原变量值的大小或者字母排序生成新变量，而变量值就是原值的大小次序。

例：

在CCSS_Sample.sav数据中，SO城市的数值分别为100、200和300，现将其自动重编码为SONew。

自动重新编码"

菜单项，打开如图所示的对话框。

4.2变量值的移动

在时间序列模型以及一些特殊方法中，个案是需要按照时间顺序排列的，而在分析中可能需要将相应的变量值前移或者后移，该操作在SPSS中以前可以利用Lag（）函数来实现，现在则将相应的功能编制成了对话框，可以在菜单上直接调用。

在CCSS_Sample.sav数据中，time的数值滞后4个月。

转换值"

菜单项，打开如图所示的对话框该对话框同样非常简单，只说明以下内容。

（1）滞后或提前:

该单选按钮组用于确定相应变量列的数据单元格是按照案例顺序向前动还是向后移动。

（2）待转换个案数:

该处同样翻译有误，"

Numberofcasestoshift"

翻译成"

移动的个案数"

更为合适，意思是将数据列向前/后移动的行数，默认为一行。

6.转换菜单中的其他功能

6.1指定数值的查找与计数

对个案内的值计数（Count）的过程用于标识某个变量的取值中是否出现某个值，可以是单个数值，也可以指定区间，并且可以给出条件，从而不必对整个数据集进行操作。

对个案内的值计数"

（1）"

目标变量"

文本框:

在图中用于输入希望生成的计数变量名称。

数字变量"

列表框:

用于选入希望进行计数的数值型变量。

定义值"

用于定义希望进行查找/计数的变量值范围，单击此按钮打开的对话框设定非常类似于重编码处的子对话框。

生成新变量S30ld，用于标识出S3>

=55的个案。

相应的操作如上图所示，单击"

按钮后即会在数据集中生成新变量S3O1d，对于S3>

=55的个案取值为1,否则为0。

6.2变量的编秩

实际上，这里遇到的就是一个排次序的问题。

个案排秩过程就是用来排次序的一个专用过程。

具体来说，它就是根据某变量的数值大小来排出次序（秩次），然后将秩次结果存储到-个新变量中去的过程。

根据S2性别分组计算S3年龄的秩次。

个案排秩"

依据"

指的是分组编秩时的分组变量。

将秩l赋予"

单选框组:

用于选择将秩次1赋给最小值还是最大值。

秩的类型"

用于定义秩次类型，默认为最常用的"

秩"

，另有其他几种选择，因为很少用到，这里不再详述。

结"

用于定义对相同值观测量的处理方式，可以是"

均值"

、"

低"

高"

或"

顺序秩到唯一值"

，默认值为取平均秩次。

这里将变量S3选入"

列表框中，分组变量S2选人"

排序标准"

列表框中，其他设置使用默认值，然后确认即可，此时系统会建立一个新变量Rs3（即原变量名前加R，表示"

），其取值为按照S2分组的S3秩次，同时在结果窗口中会给出汇总报表，如图所示。

许多时候参数检验的条件无法满足，需要使用非参数方法，而稍微复杂些的非参数方法就无法直接用对话框来完成了，所以需要先计算秩次再进行分析。

课堂试验内容

五、实验步骤（请截图展示详细的操作过程）

1、可视分箱-等距分箱

S3.年龄（分箱化）

频率

百分比

有效百分比

累计百分比

有效

=25

277

24.1

26-38

437

38.1

62.2

39-52

245

21.4

83.6

53+

188

16.4

100.0

总计

1147

2、可视分箱-等百分比分组

=26

340

29.6

27-32

235

20.5

50.1

33-46

291

25.4

75.5

47+

281

24.5

3、可视分箱-按标准差分组

=23

164

14.3

24-36

524

45.7

60.0

37-49

220

19.2

79.2

50+

239

20.8

S0.城市

100北京

378

33.0

200上海

387

33.7

66.7

300广东

382

33.3

年龄在55岁以上的人计数

.00

992

86.5

1.00

155

13.5

年龄是18和19岁秩次依据是：

S3年龄

年龄是18和19岁的秩次的依据是：

S2性别

课堂试验结论

展开阅读全文