第三章数据的预处理.docx

资源描述

第三章数据的预处理.docx

《第三章数据的预处理.docx》由会员分享，可在线阅读，更多相关《第三章数据的预处理.docx（7页珍藏版）》请在冰豆网上搜索。

第三章数据的预处理.docx

第三章数据的预处理

第三章

SPSS数据的预处理Tuesday,October17,2017

主要内容

←个案排序

←变量计算

←数据分组

←个案选取

←计数

←分类汇总

←指定加权变量

←转置

数据排序

←目标：

排序在数据分析中的作用？

Þ快速找到可能的离群点

←手段：

将所有个案按照用户指定的某一个或多个变量的变量值的升序或降序重新排列

←菜单选项:

数据->排序个案

←注意:

（1）排序的次序：

升序、降序。

（2）多重排序,选择变量名的次序很关键。

变量计算

←目的：

产生新变量或对原变量进行必要的转换

（如:

预测问题产生比率数据偏态数据的正态处理时间序列的平稳处理等）

（1）含义:

根据用户给出的SPSS算术表达式，对所有或部分样本数据进行加工。

（2）菜单选项：

转换->计算变量；如果按钮（3）SPSS算术表达式：

Þ由算术运算符（+、-、*、/、**）、SPSS函数以及SPSS变量名组成的式子。

变量计算

（4）SPSS函数

←算术函数

←统计函数

←分布函数

←逻辑函数

←字符串函数

←缺失值函数

←日期时间函数

←其他函数

←Abs（）sqrt（）rnd（）trunc（）mod（）

←mean（）sd（）sum（）cfvar（）max（）min（）

←

normal（）uniform（）rv.（）cdf.（）

idf.（）

←

range（）any（）

←

index（）length（）lower（）lpad（）substr（）

ltrim（）

←

missing（）sysmis（）

变量计算

（5）SPSS条件表达式:

由SPSS关系运算符、逻辑运算符、SPSS函数以及SPSS变量名组成的式子。

Þ关系运算符:

>（大于）、<（小于）、=（等于）、

~=（不等于）、>=（大于等于）、<=（小于等于）

Ý如：

nl>32、sr<=700

Þ逻辑运算符:

&（AND）:

并且、|（OR）:

或者、

~（NOT）:

非

Ý如：

（nl>32）and（sr<=700）

Ý如：

（nl=32）|（sr<>700）

Ý如：

notxb=1

个案选取

←目标：

个案选取的意义？

←手段：

从现有数据中选出部分数据

Þ按条件选取；随机选取；选取指定区间中的样本

←例：

对住房调查数据

Þ挑出本市户口的样本

Þ随机挑出70%的样本

←注意：

以后的操作都针对选出的数据进行

计数

←目标：

Þ例：

学生成绩整体状况的分析

Þ例：

住房满意程度的粗略分析

←手段：

对所有或部分个案，计算若干个变量中有几个变量的值落在指定的区域内，并将结果存入新变量中

←例：

Þ学生成绩得优门次的整体状况分析

Þ住房满意程度的粗略分析

数据分组

←目标:

更好地了解连续型变量的分布特点

←手段：

组距分组

Þ指定按哪个变量分组;定义分组区间（不重不漏）;指定存放分组结果的组标志变量

←SPSS的区间

Þ狭义区间：

Ý职工工资的分组（850以下，851至900,901至950,951

至1000,1000以上）

Þ广义区间：

Ý用户缺失值的定义；变量类别的重新调整

数据分组

•性格打分（内向、一般、外向）1、与生人交往会“自来熟”

（1）从不

（2）偶尔（3）有时（4）经常2、与不熟悉的异性交往，会脸红

（1）从不

（2）偶尔（3）有时（4）经常3、在公众场合下你会大声发表自己的意见

（1）从不

（2）偶尔（3）有时（4）经常

•极为内向：

3分；较为内向：

6分；较为外向:

9分；极为外向：

12分

数据分组

分组结果存入原变量:

←定义分组区域:

定义某一区间的原变量值分组后所对应的新值是什么.未定义的原变量值保持不变。

←菜单选项:

transform->recode->intosamevariables…

←说明：

可以指定对符合一定条件的个案进行分组。

数据分组

分组结果存入新变量:

←定义分组区域:

定义某一区间的原变量值分组后所对应的新值是什么.未定义的原变量值在新变量中为系统缺失值。

←菜单选项:

transform->recode->intodifferentvariables…

←定义原变量分组后产生的相应新变量（CHANGE钮）

←可以指定对符合一定条件的个案进行分组。

分类汇总

←目标：

分析各分组下样本的统计特征

←手段：

Þ按指定的分组变量值对样本分组

Þ分别计算各组中汇总变量的基本统计量

←例：

对比男女职工的平均年龄和平均工资

性别

年龄

奖金

男

1000

女

550

男

200

性别_1

年龄_1

奖金_1

男

600

女

550

原始数据按性别变量汇总数据

分类汇总

←菜单选项:

数据->分类汇总

←说明:

Þ多重分组时，变量名的选择顺序。

Þ生成的新文件名默认为:

aggr.sav。

可修改。

Þ生成的新变量名默认为原变量名后加_1。

可修改

Þ可以在新文件中存贮各分组个案数.

指定加权变量

←目标：

Þ例：

蔬菜的平均价格、男足打分

←手段：

指定某一变量为加权变量

←例：

蔬菜的平均价格

←菜单选项:

数据->加权个案

←说明：

Þ如果取消加权变量应重新定义

数据文件的转置

←菜单选项:

data->transpose

←说明:

Þ系统自动产生一新变量case_lbl,存放原文件的变量名

Þ可以指定关键字变量,以字母v加上该变量的变量值为新文件的变量名

展开阅读全文

第三章 数据的预处理.docx

第三章数据的预处理.docx