统计分析与SPSS的应用.docx
《统计分析与SPSS的应用.docx》由会员分享,可在线阅读,更多相关《统计分析与SPSS的应用.docx(23页珍藏版)》请在冰豆网上搜索。
统计分析与SPSS的应用
《统计分析与SPSS的应用》
第一章SPSS统计分析软件概述
SPSS简史:
统计学为析过咼別共一套完整的科学的方法论。
统计软件为姻分析扌副共了现实手段
软件名称:
StatisticalPackageforSocialScience
StatisticalProductandServiceSolutions
软件发展:
60年代:
美国斯坦福大学三位研究生研制
70年代:
SPSS总部成立于芝加哥”推出SPSS中小型版——SPSSX
80年代:
微机版(VI")SPSS/PC+
90年代:
Windows版(V6~10)
本世纪:
1175版,中文版
1.1SPSS使用基础
1.1.1SPSS软件的安装和启用
1.1.2SPSS的基本窗口
-数据编辑窗口-SPSSDataEditor
扩展名为.sav
功能:
定义SPSS数据结构”录入、编辑和管理待分析的数据
特点:
®(New)-Data或SPSS启动后自动打开;②只能打开一个(SPSS15及以上版本除外)
结构:
窗口主菜单、工具栏、数据编辑区、系统状态显示区
二、SPSS结果输出窗口一SPSSViewer
SPSS的另一个主要窗口,扩展名为.spo
功能:
显示管理SPSS统计分析结果、报表及图形
特点:
①第一次进行统计分析时自动打开或(New)-Output;②允许创建或打开多个输出窗口
结构:
窗口主菜单、工具栏、分析结果显示区、状态显示区
【注】SPSS中数据的输入和结果的输出在不同窗口进行!
三、程序窗口一SyntaxEditor
扩展名为.sps编写SPSS程序时使用
特点:
①File-New/Open-Syntax或修改参数自动创建;②允许同时创建或打开多个语句窗口
构成:
窗口主菜单、工具栏、SPSS程序编辑区、状态栏
功能集中在菜单"RUN"中
四、结果草稿窗口——DraftViewer
扩展名为.rtf可被Word等文本软件读取
1.1.3SPSS软件的退岀或直接关闭
1.2SPSS的基本运行方式:
完全®口菜单方式、程序运行方式和混合运行方式
1.2.1完全窗口菜单魚
在使用SPSS过程中,所有的分析操作都通过菜单、按钮、输入对话框等方式来完成。
1.2.2程序运行方式
在使用SPSS过程中,统计分析人员根据自己的分析需要,将数据分析的步骤手工编写成SPSS命令程序,然后将编写好的程序一次由是交给计算机执行。
1.2.3混合运行方式
在使用菜单的同时编辑SPSS程序,是完全菜单方式和程序运行方式的综合。
不马上按0K键,而是按Paste按钮
1.3利用SPSS进行数据分析的基本步骤
1.3.1数据分析的一般步骤:
明确数据分析目标-正确收集数据i加工整理数据-选择恰当的统计分析方法进行探索分析i读懂统计分析结果
1.3.2利用SPSS进行数据分析的一般步骤
①SPSS数据的准备SPSS数据的加工整理阶段SPSS数据的分析阶段;
④SPSS分析结果的阅读和解释
1.4利用统计教练快速入门SPSS
SPSS的帮助系统:
强大的帮助功能是SPSS的另一特色
联机帮助——菜单Help中的Topics图解帮助——菜单Help中的Tutorial
统计教练一Help中的StatisticsCoach在线帮助一对话框中的Help及右键第二章SPSS数据文件的建立和管理
2.1SPSS数据文件
2.1.1SPSS数据文件的特点:
扩展名为.sav由数据的结构和内容两部分组成只能在SPSS软件中打开
2.1.2SPSS数据的基本组织方式
一、原始数据的组织方式
"行"为个案(case),"列"为变量(variable)例:
P17案例2-1
二计数数据的组织方式
"行"为分组,"列"为变量(variable)例:
P:
L8案例2-2
2.2SPSS数据的结构和定义方法
SPSS数据的结构是对SPSS每列变量及其相关属性的描述,其定义通过变量视图完成。
包括:
变量名、类型、列宽、小数位宽、变量名标签、变量值标签、缺失值、列显示宽度、对齐方式、计量尺度。
2.2.1变量名
字符个数不多于8个,汉字不超过4个(SPSS13.0以前版本)。
首字符以英文开头(不能以数字开头),不能包含+,-宀]门,=等运算符和逻辑林
(如:
ALL,BY,AND,NOT,OR等)。
变量名不区分犬”^^字母
SPSS有默认的变量名,它以字母"VAR"开头,后补足5位数字,如VAR00001等【注】为方便记忆,变量名最好与其代表的数据含义相对应。
2.2.2数据类型、列宽、小数列宽
数据类型是指每个变量取值的类型,分别有数值型、字符型和日期型。
相应的类型会有默认的列宽和小数位宽。
数值型,通常有阿拉伯数字和其他特殊符号(如美元符号、逗号、圆点)等组成。
默认列宽为8个字符”小数位宽默认为2位。
包括标准型(默认)、科学记数法型、逗号型、圆点型和美元符号型。
应用最为广泛
字符型,由一串字符串组成,默认列宽为8个字符,区分大小写,输入时无需双引号。
由于分析、整理都较困难,建议尽量少用,改为编码录入
日期型,用来表示日期或是时间数据。
格式很多,如dd-mmm-yyyy,mm/dd/yyyy实际上是特殊的数值型变量,尽量少用2.2.3变量名标签
对变量名含义的进一步说明,它可增强变量名的可视性和统计分析结果的可读性。
可用中文,总长度达120个字符。
可省略,但建议给出。
2.2.4变量值标签
是对变量取值含义的解釋说明信息,对定类型和定序型数据尤为重要。
2.2.5缺失数据
数据中明显错误或明显不合理的数据以及漏填的数据都可看作缺失数据。
用户指定缺失值:
字符型或数字型变量,可指定1〜3个缺失值
数字型变量,缺失值可在一个连续的闭区间内并同时附加一个区间外的离散值系统默认缺失值
用.表示(注./0)SPSS提供了专门分析缺失值的模块
2.2.6计量尺度
Scale(刻度型或定距型):
数据的最高级别,可进行四则运算和基于此的延伸运算;可分为两个子级别:
间距级(Interval):
可做加减,不可做乘除。
比如在采用摄氏度时,不能说10摄氏度是5摄氏度的2倍
tbm级(Ratio):
既可做加减,又可做乘除。
比如长度的0
定序型数据(Ordinal):
具有固定的大小顺序,却不等距如:
优、中、差定类型数据(Nominal):
没有有固定的大小顺序如:
男、女
2.2.7SPSS结构定义操作中应注意的问题(略)
2.3SPSS数据的录入与编辑
2.3.1SPSS数据的录入一调查问卷的录入
开放题凉则上按照字符变量自由录入,注意适情况适当放大变量宽度[Width)单选题:
按照选项设定标签.采用数字代码录入
多选题PIOS:
多重二分法(简称:
二分法),多重分类法(简称:
多分法)半开放题:
使用两个变量对其进行定义,在第一个变量中,"其他,请指岀"作为选项中的一个进行录入;第二个变量将"其他,请指出"看作一个独立的开放题进行数据录入将没有选择该选项的被访者作为缺失值处理多选题:
多重二分法
所谓多重二分法,是指将多选题问题中的每个答案设为一个SPSS变量,每个变量只有0或1两个取值”分别表示选择该答案和不选择该答案。
多选题:
多重二分法
[例】请问您用下列哪几种方式保持身体健康?
□科学安排饮食□运动
□保持情绪乐观积极□其他措施
每一个题项设立一个二分类变量,用Y/N或0/1表示该选项是否被选择,当选项
过多时不宜使用这种方法
多选题:
多重分类法
多选题答案定义的另一种方法,首先估计多选项问题的最多可能出现的答案个数;然后,为每个答案设置一个SPSS变量,变量取值为多选项问题中的可选答
变量必须为数值型变量,适用于问题的选项较多的情况
多选题:
多重分类法
【例】请在下面列出的20个品牌中选出您认为最信得过几个(最多列五个),并将代码填入下面空格1、2、3、4、5、。
候选品牌列表:
1、长虹2、海尔……
2.2.3SPSS数据的编辑
—、数据的定位
人工定位,人工浏览数据。
适用于数据较少的情况
系统定位,系统按照用户指定的条件自动寻找数据单元。
适用于数据量较大的情况
按个案号码定位;Data-Gotocase
按变量值定位,Edit-Find
二、插入或删除一个个案或变量
菜单操作:
Data-InsertCase/InsertVariable
鼠标右键:
InsertCase/Variables;Cut
三、数据的移动、复制和删除
步骤:
定义源数据块;单击鼠标右键Clear/Copy/Cut;指定目标单元块Paste
2.4SPSS数据的保存
2.4.1SPSS支捋的数据格式
SPSS文件格式(.sav),完整但通用性差;
Excel格式(.xIs),db仗彳怫式(.dbf)”文本文件格式(.dat)”变量格式信息丢失但可被相应软件直接读取
2.4.2保存SPSS的操作
as文件名、文件类型及选择保存变量
2.5读取其他格式的数据文件
2.5.1直接读入其他格式的数据文件
SPSS格式文件、Excel格式文件、dBase系列数据文件、SAS格式文件等
步骤:
;选择文件类型并输入文件名
2.5.2使用文本导向读入文本文件
TextData
2.5.3使用数据库导向读入文件(略)
2.6SPSS数据文件的合并
将一个(或多个)以存储在磁盘上的SPSS数据文件分别依次与SPSS数据编辑窗口中的数据合并,即合并个案。
2.6.1纵向合并数据
将数据编辑窗口中的数据与另一个SPSS数据文件中的数据进行首尾对接。
操作:
Data-MergeCases例:
职工数据.sav和追加职工.sav
【注】①合并后的数据有意义②含义相同的变量最好同名
2.6.2横向合并数据文件
将数据编辑窗口中的数据与另一个SPSS数据文件中的数据进行左右对接,即合并变量。
操作:
Data-MergeVariables例:
职工数据sa诉口职工奖金.sav
【注】①各数据文件中至少有一个名称相同的变量②事先将关键变量进行升序排序③不同含义的变量不应同名
第三章SPSS数据的预处理
3.1数据的排序(Data-SortCases)
将记录按ID变量排序,有利于查找、修改;
将某个变量按升序或降序排列,可以非常容易的发现输入错误,因为他们往往就是最划最小值;
缺失值在排序中会排在最小值的前面,可以通过flE序的方法很快发现那些记录为缺失值;
包括单值排序和多重排序;
例1:
将"职工数据.sab文件,按职称降序和工资收入升序重新排列。
例2:
"住房状况调查.sav”,通过flE序分析本市户口和夕卜市户口的住房面积情况
3.2变量的计算(Transform-Compute)
在原有数据的基础上,根据用户给出的SPSS算术表达式以及函数,对所有个案或满足条件的部分个案,计算产生一系列新变量
用于计算新变量,或者给老变量赋值
有大量的SPSS函数可供使用
学会如何写相应的语句可能更方便
实例依据"职工数据av”按职称级别计算实发工资,计算规则:
实发工资等于基本工资减去失业保险,之后,依据职称1〜4等级分别将以上计算结果上浮5%,3%,2%,1%。
SPSS算术表达式
由常量、变量、算术运算符、圆括号、函数等组成的式子
字符型常量用引号引起来
算术运算符包括:
+、-、X、/、**(乘方)
运算先后]帧序为先乘方,再乘除,最后加减。
同级运算时按从左到右的)1顷序进行,遇括号改变运算
同一表达式中常量及变量,数据类型应该彳命-致
SPSS条件表达式
对条件进行判断的式子。
其结果有两种取值:
如果判断条件成立,则结果为真;反之,则假
简单条件表达式
由关系运算符、常量、变量及算术表达式组成。
关系运算符包括>、<、二、~二还等于)、>二、<二。
如n卜35
复合条件表达式
由逻辑运算符、圆括号和简单条件表达式等组成的式子。
逻S运算符有&(或
AND)、I(或OR)、~(或NOT)。
NOT的运算最优先”其次是AND,最低是OR
如(nl<=35)andnot(zc<3)
SPSS函数
事先编好并存储在SPSS软件中,能够实现某些特定计算任务的一段计算机程序。
书写的具体形式为:
函数名(参数),其中参数可以是常量也可以是变量或算术表达式
SPSS函数大致分为八大类,分别是算术函数、统计函数、分布函数、逻辑函数、字符函数、缺失值函数、日期函数和其它函数
3.3数据选取(Data-SelectCases)
按要求筛选岀数据集的一部分,可以使用组合条件进行筛选,按指定条件选取;随机选取(包括近似选取和精确选取);选取某一区域内的样本;通过过滤变量选取。
可以直接在数据集中抽样
例:
在"住房状况调查.sav”的数据文件中,按不同条件选择个案:
只选本市户口的住户,选择全部样本的70%,从前15个个案中随机选择3个个案,选择第3到第6个个案,选出未来三年变量的缺失值。
3.4计数(Transform-Count)
计算某个值或某个区间的值出现的次数
步骤:
①指定哪些变量参与计数,计算结果存入哪个新变量;②指定计数区间例:
"住房状况调查.sav”中,分析被调查家庭中有多少比例的家庭对目前的住房满意且近几年不准备购买住房。
例:
"学生数据.sab中,分析学生各科成绩优秀、良好的门数。
3.5分类汇总(Data-Aggregate)
按指定的分类变量对观测值进行分组,对每组记录的各变量求指定的描述统计量,结果可以存入新数据文件,也可以替换当前数据文件。
例:
"住房状况调查.sav”中,分析本市户口家庭和夕卜地户口家庭目前人均住房面积的平均值是否有较大差距,未来打算购买住房的平均面积是否有较大差距。
注意:
这里指的是希望将原数据文件分类汇总为一个新的汇总数据文件进行分析,如果只是希望进行汇总描叙,则有相应的统计分析功能可以完成,不需要使用本过程
3.6数据分组(Transform-Recode)
将数据按照某种标准重新划分为不同类型:
Recodeintosamevariable;
Recodeintodifferentvariable
对连续型变量进行分组
【例】:
在"学生数据.sav"中生成新变量grade,当英语成绩小于60分时取值"不及格",大于等于60分且小于70分为"及格",大于等于70且小于80为”较好”,大于等于80为”优秀”°
【注】端点值:
前面的设定优于后面
分类变量类别的合并
【例】:
将上例在数据"学生数据.sab中生成的变量grade中的"优秀"、"良好"、"及格"三个等级合并为等级"PASS",将grade等级"不及格"转化成"NOPASS"。
3.7数据预处理的其他功能
Data-TransposeiSg,对数据集进行数据排列格式的转换:
行列互换,即将个案转为变量,将变量转为个案,主要运用于编程
例:
将T「ansfo「m.sav文件进行转置
Data-WeightCases过程
分类资料数据录入格式,只有先进行加权设定,统计软件才能正确识别和处理
分类资料数据录入格式
枚举格式频数格式
只有先进行加权设定,统计软件才能正确识别和处理数据
例:
将”蔬菜销售.sab文件进行频数分析
Data-SplitFile过程
将数据文件分组进行处理
Analyzeallcases:
不拆分文件
Comparegroups:
按所选变量拆分文件,各组分析结果紧挨在一起便于互相tb$5
Organizeoutputbygroups:
按所选变量拆分文件,各组分析结果单独放置例:
将”职工数据.sab按职称进行分割,并按职称计算基本统计指标第四章SPSS基本统计分析
统计分析内容
•统计描述
r参数估计
点估计
区间估计
・统计推断
假设检验;
均值间的比较
■相关与回归
知识回顾:
统计描述的工具
(―)统计指标:
1、集中趋势Centraltendency2.离散趋势Dispersiontendency3.偏度和峰度
(2)统计表(分配数列)
(3)统计图:
直方图(Histogram)条形图(BarChart)饼图(PieChart)统计指标——集中趋势的描述
算术平均数
救值平均救
(Arithmeticmean)调和平均救几伺平均数
Cgeometricmean>
中彳立SfeCmedian)
GPGQi筑f
位養平均数
众数Cmode)
统计扌詬——离散趋势指标
1、
2、
3、
4、
全距(Range,R)
方差(variance)和标准差(standarddeviation)四分位差(quartileinterval)
变异系数(coefficientofvariance,CV)
偏度
描述对称程度的统计量偏度(skewness):
-描迷某变量所有变量值分布形态的偏斜程度和方向
>►偏废为0表示对称
»大干。
袤示右倫
>小干D表示左偏
分布
描述陡峭程度的统计量
峰度(kurtosis)
峰度
-描迷某变量所有变量值分布形态陡山肖程虔
尖峰
平峰
>峰度为口表示与正态分布陡嵋程度相同
>•大于0表示比正态分布陡.
>小于0表示比正态分布缓.
•=;•r
关裁布7
§4.1频数分析(Frequencies)
产生频数表,输出每个变量值对应的频数;
输岀基本描述统计量
产生直方图、条图、饼图
适用于定类及定序变量资料
例:
”住房状况调查.sav"分析户主从业情况、目前所住房屋产权情况;分析对比本市户口和外地户口人均住房面积的分布。
Statistics子对话框
PercentileValues复选框组定义输出的百分数
四分位数(Quartiles)、每隔指定百分位输出当前百分位数(Cutpointsforequalgroups)、或直接指定某个百分位数(Percentiles)
Centraltendency复选框组定义描述集中趋势
均值(Mean)、中位数(Median)、众数(Mode)、总和(Sum)Statistics子对话框
Dispersion复选框组:
定义描述离散趋势
标准差(Std.deviation)、方差(Variance)、全距(Range)、最小值
(Minimum)、最大值(Maximum)、标准误(S.E.mean)
Distribution复选框组:
定义描述分布特征
偏度系数(Skewness)和峰度系数(Kurtosis)
Valuesaregroupmidpoints复选框
确定输出的数据是分组频数数据,具体数据为组中值
Charts子对话框
ChartType统计图类型选项栏
None:
不生成图Barcharts:
绘制条形图Piecharts:
绘制饼图
Histograms:
绘制直方图Withnormalcurve(加上正态曲线)
Charts子对话框
ChartValues作图数据选项栏如果选择了Ba「charts或Piecharts,便激活了
Percentage:
按百分比作图
ChartValues选项栏
Frequencies:
按频数作图
Format对话框
Orderby频数表的排列次序选项栏
Ascendingvalues按变量值的升序从小到大排歹il
按变量值的降序从大到小扫E列按频数的升序从小到大扫E列
按频数的降序从大到小排列
多变量选项栏:
用两个以上变量作频数表
两个变量的结果结合输出
Descendingvalues
Ascendingcounts
Descendingcounts
Multiplevariables
Comparevariables
Organizeoutputbyvariables各变量单独输出
Suppresstableswithmorethancategories分组变量大于10时禁止
在结果窗口中输出,以免产生巨型表格
§4.2计算基本描述统计量(Descriptives)
进彳h般性的统计描述,适用于正态分布资料
与频数分析的区别:
用于连续性变量Z值的产生
例:
"住房状况调查sav”对人均住房面积计算基本描述统计量,并分别对本市户口和夕卜地户口家庭进行比较;分析人均住房面积是否有不均衡现象。
§4.3交叉分组下的嬲分析(Crosstabs)
对两个变量之间关系的统计描述适用于定类变量和定序变量
统计检验:
卡方检验(行列变量是否独立)Ho:
行列变量独立
例1:
"职工数据.sab,要求:
编制职称和文化程度交叉分组表;编制职称、文化程度和性别三维交叉分组表
例2:
”住房状况调查,分析本市户口和外地户口家庭对"未来三年是否打算买房"是否持相同的态度。
§4.4多选项分析(Multiple)
定义多选变量Frequencies过程Crosstabs过程统计描述指标
例:
"保险市场调查sav”分析老年人购买商业养老保险的原因;分析不同单位性质人员购买商业养老保险的原因。
第5章SPSS统计分析进阶
§5.1SPSS参数检验
假设检验的基本思想
抽样分布
这个值不像我们廣诙得到的样本均慎…
.,.S出茁门扌傩假设电:
疋=50
»50
He
样本均值
抽样分布一一用临界值判断
£林平
a/2
tt/2
Ho
亦2P>2■
抽样分布一一用P值判断
从Ho假设的总体中抽出现有样本的规率.即P值-若EWe则拒绝%,接§也
•若P〉g,则接§Ho
结论:
・若检验统计蚤的值在临界值以外,则拒地Hj
・若歸统计量的值在临界值以内•,则接盘Hj
假设检验的步骤:
①提出原假设和备择假设(Ho/Hi)②确定适当的检验统计量(t)③规定显著性水平(=0.01,0.05,0.10)④计算检验统计量的值(t值或P值)⑤作岀统计决策
—、单样本T检验(OneSampleTTest)
目的:
检验某个标度型变量的均值是否为一已知值
分析结果的含义
例1:
"住房状况调查av",家庭人均住房面积是否为20平方米。
例2:
"保险公司人员构成情况.sab,推断具有高等教育水平的员工比例不低于0.8,年轻人的平均比例是否为0.5。
二、独立样本T检验(Independent-SampieTTest)
目的:
两个样本是否来自同一总体
前提:
总体服从正态分布,两个样本来自的总体等方差(方差齐性检验)
分析结果的含义
例1:
"住房状况调查.sab,推断本市户口总体和外地户口总体的家庭人均住房面积是否有显著差异。
例2:
"保险公司人员构成情况.sav",全国性保险公司与外资和合资保险公司人员构成中,具有高等教育的员工比例的均值是否存在显著性差异。
三、配对样本的T检验(Paired-SampleTTest)
目的:
同一样本的某个变量经过前后两次测试,形成两个均值是否有显著性差异。
分析结果的含义
例:
"减肥茶数