spss初级讲义.docx
《spss初级讲义.docx》由会员分享,可在线阅读,更多相关《spss初级讲义.docx(51页珍藏版)》请在冰豆网上搜索。
spss初级讲义
Spss初中级讲义(1-5讲)
配套教材:
张文彤,邝春伟.SPSS统计分析基础教程(第2版).北京:
高等教育出版社.2011
SPSS概述
统计软件的作用
统计分析软件是数据分析的主要工具
统计设计完成后,完整的数据分析过程包括
数据的收集
数据的整理
数据的分析
结果的报告
统计学为数据分析过程提供一套完整的科学的方法论,统计软件为数据分析提供了实现手段
SPSS发展简史
软件名称
最早:
StatisticalPackageforSocialScience
现在:
IBMSPSSStatistics
软件发展
60年代:
美国斯坦福大学三位研究生研制
70年代:
SPSS总部成立于芝加哥,推出SPSS中小型机版-SPSSX
80年代:
微机版(V1~4)SPSS/PC+
90年代:
Windows版(V6~10)
本世纪:
11~20版,中文版
21版即将正式推出
SPSS的基本特点
优势
功能强大
兼容性好
易用性强
扩展性高(以一种不同的方式)
劣势
计算速度相对较慢
在统计模型的纳入上速度较慢
SPSS够用吗?
SPSS的产品定位
现有产品线
DataCollectionFamily
StatisticsFamily
ModelingFamily
DeploymentFamily
未来可能的变化
SPSS本身可能会继续向中低端发展,并逐渐与IBM的商务智能系列产品高度整合
SPSS的C/S结构与模块化结构
界面及基本操作入门
SPSS窗口简介
数据编辑窗口
数据表格
标准的电子表格
数据视图:
主操作界面
变量视图:
定义变量
单元格编辑器
显示精确数值
不能直接输入公式
菜单
快捷工具栏
状态栏
SPSS窗口简介
结果浏览窗口
各种统计软件中最为美观的结果输出
提供类似资源管理器的界面
SPSS窗口简介
语法窗口
编写SPSS程序时使用
功能集中体现在菜单“RUN”中
脚本窗口
高级用户进行SPSS二次平台开发时使用
Script菜单:
提供了基本的开发功能
Debug菜单:
提供程序调试的常用功能
统计分析软件的基本使用方式
人机交互对话方式
批处理(程序)方式
菜单方式和对话框方式
SPSS的四种运行方式
菜单对话框方式
最常用,最好记,重用性差,效率最低
程序方式
适合于批量数据分析(建议了解基本知识)
Include命令方式
适合于较大规模的分析项目
SPSSProductionFacility方式
适合于分布式环境中在服务器上执行分析
SPSS的四种结果输出
枢轴表
增强的多维立体表格,拥有动态展示功能
文本格式
标准的RTF文本
标准图与交互图
都具有动态展示功能
交互图功能更强,但已经被取消
模型
具有更强大的分析结果展示功能
SPSS的菜单项
文件
数据与转换
分析
图形
帮助
SPSS对话框操作基本规范
一级对话框元素
候选变量列表框
测量尺度+标签+变量名方式
选入变量列表框
变量移动钮
根据当前框的状态不断变化
SPSS对话框操作基本规范
一级对话框元素
五个标准按钮
确定、取消
粘贴:
用于自动生成SPSS程序
重置:
恢复对话框状态为初始状态
帮助:
方法简介、用法简介
其他按钮
多数情况下会弹出二级对话框
灰色表示不可用
SPSS对话框操作基本规范
二级对话框元素
单选框(组)
一般均成组出现
多选一
复选框(组)
可成组,也可单独出现
多选多
SPSS对话框操作基本规范
二级对话框元素
下拉列表框
功能实际上和单选框组相同
文本框
往往会和单选框、复选框结合起来使用
框组
以上各种元素的集合
集中完成某项功能
SPSS结果窗口操作
结果文件的打开和保存
结果内容的移动和删除
标准的拖放式操作
在大纲视图中操作最方便
结果的拷贝、导出操作
注意中文兼容性问题,必要时需要对软件进行设置
系统选项、中文设置与附加安装包
界面语言
结果输出语言
枢轴表默认格式
查看器字体设定
附加安装包
SPSS系列培训之:
数据录入与文件管理操作入门
@文彤老师
数据录入与数据获取操作入门
什么是消费者信心指数
消费者信心(ConsumerConfidenceorConsumerSentiment)是指消费者根据国家或地区的经济发展形势,对就业、收入、物价、利率等问题的综合判断后得出的一种看法和预期
消费者信心指数(ConsumerSentimentIndex,CSI)的概念和方法是由美国密歇根大学调查研究中心的乔治卡通纳(GeorgeKatona)在上世纪40年代后期提出的。
消费者的看法、态度和预期这些心理的直接感受决定了他们的消费支出计划。
对消费者心理及其变动的测度就是对消费总量变动测度的一个补充。
根据消费者调查结果可以计算消费者情绪指数(ConsumerSentimentIndex),又称“消费者信心”。
消费者信心指数背后的经济学原理
居民在决策家庭的开销,特别是购买诸如住宅、汽车等耐用商品时,是经过深思熟虑才决定的。
不仅是以目前的经济条件为基础,同时结合了对未来收入、就业、物价、利率变动等因素的判断和预期
六十多年的时间已经充分验证了上述理论在解释宏观经济现状时的有效性与合理性
中国消费者信心指数研究问卷
S0受访者所在城市:
100北京200上海300广州
S1请问您贵姓是?
___
S2记录被访者性别:
1男性2女性
S3请问您的十足年龄是?
___
S4请问您的学历是?
1初中/技校或以下2高中/中专3大专4本科5硕士或以上
中国消费者信心指数研究问卷
C0请问您的家庭目前有下列还贷支出吗?
C0_1房贷1有2无99拒答
C0_2车贷1有2无99拒答
C0_3其他一般消费还贷1有2无99拒答
A3首先,请问与一年前相比,您的家庭现在的经济状况怎么样呢?
是变好、基本不变还是变差?
1明显好转2略有好转3基本不变
4略有变差5明显变差9说不清/拒答
A3a为什么您这样说呢?
(最多限选两项)___
0中性原因90不知道/拒答
10改善:
收入相关110恶化:
收入相关
20改善:
就业状况相关120恶化:
就业状况相关
30改善:
投资相关130恶化:
投资相关
40改善:
家庭开支相关140恶化:
家庭开支相关
50改善:
政策/宏观经济150恶化:
政策/宏观经济相关
如何建立数据库?
操作步骤
设计变量
定义变量
输入数据
存盘以防断电
设计变量
变量设计的基本原则
不同观察对象的数据不能在同一条记录中出现
每一个测量指标/影响因素只能占据一列的位置,即同一个指标的测量数值都应当录入到同一个变量中去
最终的数据集应当能够包含原始数据的所有信息
可以出现违反这些原则的例外情况,如重复测量数据
具体的设计思路
非调查问卷数据,需要根据具体的情况设计变量结构
对于调查表数据的录入,问题就要简单得多,往往一张调查表对应了一个受访者,大多数情况下也就对应了一条记录
但是存在例外情况,特别是当进行重复测量时
定义变量
变量类型
数值型
应用最为广泛
字符型
由于分析、整理都较困难,建议尽量少用,改为编码录入
日期型
实际上是特殊的数值型变量,尽量少用
定义变量
测量尺度
标度测量(ScaleMeasurement)
温度
体重
有序测量(OrdinalMeasurement)
默认字母顺序表示大小顺序,等价于有序分类
名义测量(NominalMeasurement)
等价于无序多分类
问题:
二分类算什么测量类型?
定义变量
变量名与变量值标签
可用于对变量及变量值含义进行说明,使结果更易于阅读
缺失值
除非问卷中有特殊编码,否则按默认情况处理
其它设置
均按默认值处理,一般不需要更改
案例:
CCSS项目的数据录入
开放题和简单单选题的录入
单选题的录入
半开放题的录入
多选题的录入
多重二分法(C0)
多重分类法(A3a)
设定多选题变量集
半开放多选题的处理方式
我对数据录入软件的看法
数据量较少时:
EXCEL或SPSS
录入质量要求较高时:
Epidata等专用软件
数据量极大时:
利用Access等专用数据库软件平台做二次开发
数据录入技巧
连续多个相同值的输入
快速查找异常值、极端值
充分利用排序功能
和EXCEL、WORD快速交换数据
只有数值变量的情况
含有文本变量的情况(新老版本有所区别)
数据录入技巧
充分利用变量值标签
大大加快录入速度
快速改变变量排列次序
完全的拖放操作(这是SPSS系列的发展方向)
在变量视图和数据视图中均可进行
常用工具栏按钮
Valuelabels按钮
大大简化了数据管理工作
Dialogrecall按钮
在数据集关闭前均有效
Gotodata按钮
文件管理及其它常用操作入门
File菜单详解
新建数据文件
在SPSS中,新建一个数据文件容易的不得了--已经到了什么都不用做的地步!
数据文件的工作名称与存储名称
打开其他格式的数据文件
SPSS可以直接读入许多常用格式的数据文件
利用通用数据库ODBC接口读取数据文件
使用文本导入向导读入文本文件
File菜单详解
保存数据文件
首次保存
另存为
注意事项
善于使用^S
存为其他格式时注意兼容性
File菜单中的其他条目
SPSS系列培训之:
SPSS编程入门
都这年月了,怎么还要学编程?
实现10%的高级分析功能
实现批量分析的自动化和重复化
快速实现所需的分析功能
让自己显得更像个砖家
那么。
。
。
学点什么呢?
基本语法规则
宏程序
OMS系统
基本语法规则
主命令格式
每条SPSS命令必须从新行开始
每个命令应该以句点为命令终止符,也可以将空行解释为命令终止符
COMPUTENEWVAR=OLDVAR*2.
命令动词、分隔符、表达式、终止符
基本语法规则
子命令格式
是对命令的进一步说明和设置
很多非关键的子命令都会有其默认设定
FREQUENCIESVARIABLES=var1var2
/STATISTICS=MEAN
/ORDER=ANALYSIS.
子命令名、分隔符、命令顺序
保留字、系统变量和特殊命令
关键字和保留字:
v1tov5
$系统变量:
$casenum,$sysmis
特殊命令:
execute
SPSS程序的创建方式
对话框粘贴程序
输出LOG粘贴程序
日志文件编辑程序
宏的基本格式定义
DEFINE!
M_SAMPLE()'ABC'
任何有效的SPSS程序段.
!
ENDDEFINE.
IFVARX=1VARY=!
M_SAMPLE.
EXECUTE.
宏参数
DEFINEM_COMP(INVAR1=!
CHAREND('/')).
RECODE
!
INVAR1
(1THRU5=COPY)(ELSE=9)INTO!
CONCAT('T',!
INVAR1).
EXEC.
!
ENDDEFINE.
M_COMPINVAR1=A3.
OMS系统
即输出管理系统(OutputManagementSystem)
提供了结果输出和数据文件的自动交互功能
可以将输出结果存储为SPSS数据格式(SAV)、XML格式、HTML格式、TXT格式、PDF格式等
可以指定输出结果中的表格、文本、图形
OMS控制面板
分析实例
DATASETDECLAREfreq.sav.
OMS
/SELECTTABLES
/IFCOMMANDS=['Frequencies']SUBTYPES=['Frequencies']
/DESTINATIONFORMAT=SAVNUMBERED=TableNumber_
OUTFILE='freq.sav'.
OMSEND.
分析实例
SPSS系列培训之:
SPSS数据管理入门
数据管理入门
变量级别的数据管理--Transform菜单
文件级别的数据管理--Data菜单
(一)
文件级别的数据管理--Data菜单
(二)
数据管理入门
数据管理包括的内容
信息的录入和保存
数据的整理/清理
数据的排列格式变换
数据文件的拼接、拆分
数据的预处理
变量级别的数据管理
--Transform菜单
功能特点
转换(Transform)菜单主要集中了一些对变量数值进行变换的过程,如对原始数据进行四则运算、对数据重新编码、求出变量的秩次等
这些功能往往在统计分析的预处理中起着非常重要的作用
功能特点
计算新变量:
最常用和重要的过程。
变量转换:
包括Recode、VisualBinning、Count、Rank、AutomaticRecode这五个过程,它们实际上都可以被看成是compute过程在某一方面功能的强化和打包。
专用过程:
包括时间序列模型相关过程、自动数据准备相关过程和设定随机种子等过程。
RunPendingTransforms:
用于执行编程中被挂起(Pending)的数据整理操作。
变量赋值:
Compute过程
用于计算新变量,或者给老变量赋值
有大量的SPSS函数可供使用
学会如何写相应的语句可能更方便
实例
CCSS项目中的受访者年龄在18-64岁,他们在分析中会被分为18-34、35-54、55-64三组。
为便于使用,年龄变量S3重新赋值后将会被存储为新变量TS3,其取值1、2、3分别代表上述三种情况。
Compute过程
含有条件组合的赋值方式
&|()~=
标示出未婚男性案例
字符型变量的操作
STRINGvar1(A8).
concat(string(var1,F1),string(var2,f1)).
缺失值的处理
Ifmissing(varA)varB=1.
已有变量值的分组合并
Recode过程
Recodeintosamevariable
Recodeintodifferentvariable
对连续型变量进行分组
实例:
同上例
有重叠界值时的处理
Else
Missing、Sysmis
分类变量类别的合并
需要注意输出类型
数值变量的离散化分段
可视离散化过程
用于在可视界面下将连续变量进行分段,该过程可以使用百分位数、标准差范围或者等间距方式将连续变量划分为若干组段,并采用图形化操作的方式,非常直观好用。
最优离散化过程
是对前述可视化离散过程的进一步自动化,根据某些作为“关键指示变量”的分类变量,将原有的一个或多个连续性变量按照该分类变量类间差异最大化的优化原则离散化为分类变量,然后就可以使用离散后变量而非原始数据值进行后续的分析了。
Transform菜单中的其它过程
变量的自动重编码
可用于将字符变量转换为数值变量
变量值的平移
指定数值的查找与计数
计算变量秩次
RankCases过程
文件级别的数据管理--Data菜单
(一)
功能列表
对数据进行加工整理,比如根据统计分析的要求对数据进行分组、合并、加权、筛选等操作
简单命令:
包括插入变量、插入个案、到达某条个案、复制数据集等,它们的功能不言自明,且大多都可以使用鼠标在数据表界面上直接完成,很少使用菜单来调用,本书将不再对其进行讲解。
常用的简单过程:
包括排序、拆分文件、个案筛选和个案加权,这几个过程并不复杂,但使用的极为频繁,是大家必须要掌握的内容。
数据重组向导:
用于进行数据转置,或者对重复测量数据进行长型、宽型记录格式间的转换,详后。
文件合并向导:
将几个数据文件合并为一个大的SPSS数据文件,含横向合并和纵向合并两种情况,详后。
功能列表
数据字典相关向导:
包括定义变量属性,复制变量属性,以及新建设定属性三个向导界面。
对于较复杂的数据管理项目而言,这些都是非常有用的功能。
重复个案与异常个案查找向导:
同样用于复杂数据项目,用于简化数据管理工作。
数据验证模块:
同样真正复杂数据管理项目的需求而开发,用于数据自动查错。
与统计模型密切相关的过程:
正交设计过程是结合分析模块的一部分,用于生成结合分析所需的设计;定义日期变量过程用于时间序列数据的分析。
其它过程:
包括定义多重响应集、数据汇总过程等
记录排序:
SortCases过程
将记录按ID变量排序,有利于查找、修改
将某个变量按升序或降序排列,可以非常容易的发现输入错误,因为他们往往就是最大/最小值
缺失值在排序中会排在最小值的前面,可以通过排序的方法很快发现哪些记录为缺失
记录拆分:
SplitFile过程
将数据文件分组进行处理
Analyzeallcases:
不拆分文件
Comparegroups:
按所选变量拆分文件,各组分析结果紧挨在一起便于相互比较
Organizeoutputbygroups:
按所选变量拆分文件,各组分析结果单独放置
拆分结果可以保存,因此要注意取消
记录筛选:
SelectCases过程
按要求筛选出数据集的一部分
可以使用组合条件进行筛选
可以直接在数据集中抽样
记录加权:
WeightCases过程
分类资料数据录入格式
枚举格式
频数格式
只有先进行加权设定,统计软件才能正确识别和处理数据
数据汇总:
Aggregate过程
注意:
这里指的是希望将原数据文件分类汇总为一个新的汇总数据文件进行分析,如果只是希望进行汇总描述,则不需要使用本过程
例:
分Time月份和S0城市对CCSS案例数据中的变量index进行均数汇总,并将结果输出到新数据文件Sum_index1中
文件级别的数据管理--Data菜单
(二)
数据文件的重组与转置
对数据集进行数据排列格式间的变换:
行列转置,长型、宽型格式互换
长型:
在重复测量数据中,每一次测量被单独记录为一个case
宽型:
在重复测量数据中,每一个个体被记录为一个case,他的所有测量被记录在不同的变量中
例:
将长型数据Anxiety.sav转换为宽型格式数据
多个数据文件的合并
对话框界面下只能两两合并,多个文件一次就完成合并需要写程序
纵向合并
从外部数据文件中增加记录到当前数据文件
相对而言比较简单,操作上没有需要特别注意之处
实例:
将文件a.sav和b.sav合并
多个数据文件的合并
横向合并
从外部数据文件增加变量到当前数据文件
默认是按照记录号顺序对应起来合并,由于在许多情况下是需要按照某个ID变量取值相同的原则进行对应和合并,此时就存在是否正确对应的问题,需要加以注意
实例:
将文件a.sav和c.sav合并
标识重复个案与异常个案
标识重复个案
标识重复个案(IdentifyingDuplicateCases)的相应功能被整合到一个对话框中实现,只需通过简单的菜单操作,用户可以迅速地发现个别变量值重复,或者所有数值完全重复的记录。
例:
将CCSS案例数据第2、4条个案的ID变量值更改为1,然后按照time、id均相同的标准查找重复记录。
标识异常个案
数据字典相关功能
定义变量属性、复制数据属性、新建自定义属性、设置未知测量级别
如果有事先定义的数据字典格式,则可以先生成一个没有记录的空数据文件,将全部的数据字典设定好,将来在数据录入完毕后使用复制文件属性向导套用一下字典即可;
如果没有事先定义的数据字典格式,则可以在录入工作进行了一段时间以后先使用变量属性定义向导完成数据字典的设定工作,然后随着录入工作的进行经常扫描数据的情况,以及时更新字典,最后在录入工作完毕后使用复制文件属性向导应用字典的最终版本。
如果数据管理任务不太复杂,也可以直接在数据字典中录入数据,或者直接在变量视图中修改属性,或者直接在SPSS中录入/导入数据,然后利用设置未知测量级别向导来快速设定数据字典。
数据验证模块
为单独购买的一个模块
相关功能实际上完全可以使用程序方式实现
Spss初中级讲义(6-9讲)
统计描述中可用的工具
各种初步汇总描述方法
分组汇总,最终汇总成相应的分组频数表,可以反应出数据的大致趋势
多个百分位数组合起来,也能反应数据的分布特征
对信息的利用仍然比较粗糙
各种统计描述指标
实际上是更复杂的各种描述工具的基础,是针对数据的某种特征进行精确的数字呈现的一系列指标
对于样本而言,这些统计描述指标也可被称为统计量
均数、标准差、四分位间距,比、率等
统计描述中可用的工具
统计表
当数据比较复杂,所计算的统计指标较多时,直接观察所计算出的数值比较麻烦,为此人们又会按照一定的排列方式将统计指标组织为一张表格,以方便使用。
统计图
统计表虽然能做到非常精确,但是不够直观,如果希望结果更为直观一些,则可以按照统计指标的大小将其绘制为一张图形,这就是所谓的统计图。
统计描述的模块
SPSS中所有专业的制表过程都能够完成统计描述的任务
Reports菜单项:
主要输出文本化报表
Tables菜单项:
输出标准的SPSS结果表格
MultipleResponse菜单:
专门用于多选题数据描述
但Descriptive菜单项中提供的是最基本的统计描述过程
统计描述的模块
Frequencies过程
计算各种常用的描述指标
特色是产生频数表
对分类资料和定量资料都适用
Descriptive过程
一般性的统计描述
适用于服从正态分布的定量资料
统计描述的模块
Explore过程
用于对数据分布状况不清时的探索性分析
功能极为强大
Crosstabs过程
完成分类资料和等级资料的统计描述
完成分类资料各种各样“常规”的统计检验
Ratio过程
用于两个连续变量计算相对比指标,很少用
PP图和QQ图
分类变量的统计描述
分类变量的常用描述指标
基本的描述方式
原始数据:
频数列表
百分比
累计频数
累计百分比
集中趋势
众数
分类变量的常用描述指标
比:
任意两个变量之比,这两个变量可以是性质相同的两个指标,如两个地区相同时期内某病新发病例数之比;也可以是性质不相同的两个指标之比
性别比,货物/销售人员比
构成比:
部分占总体的比例,分观察对象为k个部分(A1、…、Ak),其中某一个部分观察对象数与观察对象总数之比为构成比
率:
某个时期内某个事件发生的频率或强度,实际上有速度的概念在里面,可以和物理中速率的定义相对照
分类变量的联合描述
列联表
常见的是二维,但三维及更高维列联表的使用原理是完全相同的
频数
行、列、总百分比
行、列、总合计
多选题的描述
对多选题进行分析时所遇到的最大困难就是各选项间存在着关联,将它们单独进行分析并不恰当。
单独分析的结果仅反映选项自身情况,不能完全代表整个题目的情况
因此在