SPSS.docx
《SPSS.docx》由会员分享,可在线阅读,更多相关《SPSS.docx(16页珍藏版)》请在冰豆网上搜索。
SPSS
第1章数据分析概述与软件入门
一、spss的三种输出结果
●表格格式
●文本格式
●标准图与交互图
二、spss结果的保存和导出
●保存
在结果浏览窗口中选择菜单Filesave,保存为后缀为spo的文件。
●导出
第2章数据录入与数据获取
一、在录入数据时,归纳为以下三步:
第一步:
定义变量名;
第二步:
指定每个变量的各种属性;
第三步:
录入数据。
变量名不能与spss保留字相同,spss的保留字有ALL、END、BY、EQ、GE、GT、LE、LT、NE、NOT、OR、TO、WITH。
二、SPSS中,变量有三种的基本类型:
数值型、字符型和日期型。
1、数值型:
数值型的数据是0-9的阿拉伯数字和其他符号,如美元符号、逗号或圆点组成的。
2、字符型:
字符型数据的默认显示宽度为8个字符位,系统不区分变量名中的大小写字母,并且不能进行数学运算。
注意:
在输入数据时不应输入引号,否则双引号将会作为字符型数据的一部分。
3、日期型:
日期型数据是用来表示日期或时间的。
日期型数据的显示格式有很多,SPSS以菜单方式列出日期型数据的显示格式以供用户选择。
三、变量的测量尺度
在SPSS中使用Measure属性对变量的测量尺度进行定义。
1、定类尺度(NominalMeasurement):
定类尺度是对事物的类别或属性的一种测度,按照事物的某种属性对其进行分类或分组。
特点:
其值仅代表了事物的类别和属性,即能测度类别差异,不能比较各类之间的大小,所以各类之间没有顺序和等级。
对定类尺度的变量只能计算频数和频率。
在spss中,能适用定类尺度的数据可以是数值型,也可以是字符型变量。
使用定类变量对事物进行分类时,必须符合穷尽原则和互斥原则。
2、定序尺度(OrdinalMeasurement):
定序尺度是对事物之间的等级或顺序差别的一种测度,可比较优劣或排序。
特点:
由于定序变量只能侧度类别之间的顺序,无法测出类别之间的准确差值,即测量数值不代表绝对的数量大小,所以其测量结果只能排序,不能进行运算。
3、定矩尺度(IntervalMeasurement):
定矩尺度是对事物类别或次序之间间距的测度。
特点:
不仅能将事物区分为不同类型并进行排序,而且可能准确指出类别之间的差距是多少;定矩变量通常以自然或物理单位为计量尺度,因此测量结果往往表现为数值,所以计量结果可以进行加减运算。
4、定比尺度(ScaleMeasurement):
定比尺度是能够测算两个测度值之间比值的一种计量尺度,它的测量结果同定距变量一样表现为数值。
特点:
定比变量是测量尺度的最高水平,它除了具有其他三种测量尺度的全部特点外,还具有可计算两个测度之间比值的特点,因此它可以进行加、减、乘、除运算,而定矩变量值可进行加减运算。
定类、定序、定距、定比变量的比较
适用的运算形式
=、‡
›、‹
+、-
X、∕
变
量
层
次
定类变量
√
定序变量
√
√
定距变量
√
√
√
定比变量
√
√
√
√
四、多选题的录入
1、多重二分法(MultipleDichotomyMethod)
所谓多重二分法,是在编码的时候,对应每一个选项都要定义一个变量,有几个选项就有几个变量,这些变量均为二分类,他们各自代表对一个选项的选择结果。
2、多重分类法(MultipleCategoryMethod)
多重分类法,也是利用多个变量对一个多选题的答案进行定义,应该用多少个变量,由被访者实际可能给出的最多答案数而定。
第3章数据管理
一、变量级别的数据管理
对变量进行操作的内容主要集中于Transform菜单中,包括新变量的生成、记录的排序、对变量进行计数等。
◇计算新变量:
Compute
◇变量转换:
Recode、Count等
二、Compute过程
用于给变量赋值,其特点如下:
1)目标变量可以是新变量,也可以是已有的变量。
2)赋给变量的值可以是一个常数,也可以是从已有变量值或系统函数
3)计算而来的值
4)操作记录集可以是所有记录,也可以设定逻辑条件,只对满足条件
5)记录加以赋值。
其余纪录的相应变量或保持原状,或被赋于缺失值
三、对变量值进行分组合并
1、对连续变量进行分组
在SPSS中可以将连续变量转换为离散(等级或定序)变量,按照某种一一对应的关系生成新变量值,可以将新值赋给原变量。
●注意所有的范围都是包含了端点的,而前面设定的变换会优于后面的变换。
2、分类变量类别的合并
Recode过程也常用于合并某个分类变量的几个水平为一个水平。
Categorizevariable过程
用于将连续性变量自动按要求公成等间距的几组。
四、Transform菜单中的其它功能
count过程如果用户需要对满足某项条件的数据进行计数,可以使用Count命令。
五、记录排序
1、排序的两种方法:
(1)在数据表格的变量名处单击右键,弹出的右键菜单最后两项就是“sortAscending”和“SortDescending”。
(2)对于多变量排序,则需要使用SortCases过程来进行。
2、多变量排序需要注意的三点:
1)在多重排序中,制定排序变量名是很关键的,先指定的变量在排序时必然优先于后制订的变量。
2)可以指定按某变量值升序排序的同时按另一变量值降序排序,或相反。
3)排序以后,原来记录数据的排列次序将被打乱。
六、记录拆分
SplitFile分割文件的功能是把当前工作分割成两个或两个以上的组,随后的分析将对每个组进行。
七、记录筛选
SelectCases:
当用户不需要分析全部的数据,而是按要求分析其中的一部分,使用该选择。
第4章连续性变量的统计描述
一、连续变量的统计描述指标体系
1、集中趋势
(CentralTrend):
均数(Mean)
中位数(Median)
众数(Mode)
总合(Sum)
2、离散趋势(DispersionTrend)
标准差(Std.Deviation)、方差(Variance)、全距(Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.Mean)
3、分布特征(DistributionTendency)
偏度系数(Skewness)和峰度系数(Kurtosis)
4、其他趋势
百分位数指标(Percentile)、极端值(Outlier)。
5、所用到的统计图则有:
条图、饼图、直方图、箱式图、QQ图(用于判断正态性的)
二、Descriptive过程
Spss用于连续变量统计描述的过程,均集中在DescriptiveStatistics子菜单中。
1、Frequencies:
产生原始数据的频数表,并能计算各种百分位数。
对分类资料和定量资料都适用。
2、该过程用于一般性的统计描述,相对于Frequencies过程而言,它不能绘制统计图。
第5章分类变量的统计描述及多先题分析
一、Chi-Square过程
1、此处的Chi-Square过程其分析目的是检验分类数据样本所在总体分布(各类别所占比例)是否与已知总体分布相同,是一个单样本检验。
2、具体做法是:
1)先按照已知总体的构成比分布计算出样本中各类别的期望频数,然后求出观测频数和期望频数的差值,最后计算出卡方统计量,利用卡方分布求出P值,以得出检验结论。
2)如果理论假设是正确的,由此推算到的理论数据(次数)应该非常接近实际观测数据(次数),由此计算出的卡方值会很小;如果理论假设不正确,理论次数与实际观测次数的偏差会很大,卡方值也会很大
3)偏差大到什么程度我们就说他们不等,或者说偏差不是由随机误差造成的呢。
4)显著性水平P=0.05
二、分类变量的联合描述
1、当一共有两个分类变量时,汇总因分类变量的各类别交叉而成的复合频数表被称为行*列表,也称列联表。
2、交叉列联表分析可以比较好的反映出两个因素之间有无关联性,两因素与现象之间的相关关系。
因此,数据交叉列联表分析主要包括两个基本任务:
1)根据收集的样本数据,产生二维或多维交叉列联表;
2)在交叉列联表的基础上,对两两变量间是否存在关联性进行检验。
三、Crosstabs过程
1、Crosstabs过程既包括强大的描述功能,又提供了非常有力而实用的统计推断能力。
2、Crosstabs过程不能产生一维频数表(单变量频数表),该功能由Frequencies过程实现。
四、分类资料数据录入格式简介
1、采用频数表格式来记录。
2、传递的总信息量和传统的枚举格式差不多,只是不能得知具体的个体取值而已。
3、对频数表格式需要用WeightCases过程指定频数变量。
五、多选题的统计描述
1、多选题的记录格式
1)多重二分法(multipledichotomymethod)
2)多重分类法(multiplecategorymethod)
2、多选题的描述指标体系
在多选题分析中比较特别的描述指标有:
(1)应答人数:
是指选择了本项人数。
(2)应答人数百分比(PercentofCases):
选择该项的人占总人数的比例。
(3)应答人次:
选择本选项的人次。
(4)应答次数百分比(PercentofResponses):
在作出的选择中,选择该项的人数占总次数的比例。
3、DefineSets过程
该过程用于将若干个变量定义为多选题变量集,在这样定义后,多选题分析的专用过程就可以正确识别数据,并计算出如前所述的各种专用汇总指标。
4、Frequencies过程
功能非常简单,就是为多选题变量集生成频数表。
第6章均值比较
一、假设检验的基本思想
假设检验是除参数估计之外的另一类重要的统计推断问题。
它的基本思想可以用小概率原理来解释。
所谓小概率原理,就是认为小概率事件在一次试验中几乎不可能发生。
也就是说,如果对总体的某个假设是真实的,那么不利于或不能支持这一假设的小概率事件A在一次试验中是几乎不可能发生的;要是在一次试验中事件A竟然发生了,我们就有理由怀疑这一假设的真实性,拒绝这一假设。
根据样本观测值来判断一个有关总体的假设是否成立的问题,就是假设检验问题(hypothesistesting)。
假设检验是对我们所关心的却又是未知的总体参数先作出假设,然后抽取样本,利用样本提供的信息,根据小概率原理对假设的正确性进行判断的一种统计推断方法。
如果原假设不成立,就要拒绝原假设。
在需要的另一个假设中做出选择,这个假设称为备择假设(alternativehypothesis)。
假设检验:
运用统计理论对上述假设进行检验,在原假设与备择假设中选择其一。
二、假设检验的两类错误
接受或拒绝H0,都可能犯错误
I类错误——弃真错误,发生的概率为α(αerror)
II类错误——取伪错误,发生的概率为β(βerror)
三、z检验和t检验
Z检验和t检验主要用于总体参数的检验,包括平均数、百分比等的检验。
平均数单值的假设检验
平均数差异的假设检验
若n<30的小样本,用t检验,大样本用z检验
四、正态总体参数假设检验的步骤
第一步:
建立原假设H0和备择假设H1。
第二步:
计算统计量
第三步:
确定显著水平α的值,查相应的分布表得其临界值以及拒绝域。
第四步:
进行显著性判别。
五、One-sampleTTest过程(单样本t检验)
1、该过程用于进行样本所在总体均数与已知总体均数的比较,即单样本的t检验。
2、由于样本数据是通过随机调查若干名观察对象得来,我们只知道他所在总体的均数在该样本均数的附近,但具体是多少并不清楚。
为了回答该问题,统计学上采用了小概率反证法的原理:
我们有如下两种假设:
Ho:
u=uo,样本均数与总体均数的差异完全是抽样误差造成。
H1:
u‡uo,样本均数总体均数的差异除了由抽样误差造成外,也反映了两个总体均数确实存在的差异。
3、显然两者中必然会有一个是对的,究竟是哪一个呢?
我们不妨先假设是Ho成立,即一切的一切都是抽样误差惹的祸。
4、在这个前提下,我们的样本是从已知均数的大总体中抽出来的,那么从这个总体中抽出这样一个样本均数(以及更极端情况)的概率为多少呢?
这可以通过统计学方法计算出来,即我们所求得得p值。
如果该p值太小,成为了我们所定义的小概率事件(小于等于a水准),则我们怀疑所做的假设不成立,从而拒绝Ho,投向H1的怀抱;反之,我们就不能拒绝Ho,但一般也不太好说会接受它。
5、计算P值的检验方法有很多,当样本所在总体服从正态分布时,就可以使用t检验。
六、Independent-samplesTTest过程(独立样本t检验)
1、该过程用于进行两样本均数的比较,即常用的两样本t检验。
和上面样本t检验的原理相同,我们也采用了小概率反证法,首先假设H0:
两样本来自同一总体。
当总体服从正态分布时,我们就可以采用两样本t检验来计算从该总体中抽出这样两个活宝的概率为多少,从而做出统计推断。
2、由于H0假设的是两样本来自同一总体,因此两样本t检验在推导过程中除了要求总体服从正态分布外,还要求两样本各自所在总体方差相同(不然怎么可能是同一总体呢)。
如这些应用条件不被满足,情况较轻时可以采用校正t检验的结果,否则应使用变量变换使之满足条件,或采用非参数检验过程。
3、t检验对数据稍微偏离应用条件有较好的耐受性,所以分析时往往无需严格检验分布情况,肉眼估计即可。
七、Paired-SampleTTest(配对样本t检验)
1、Paired-SampleTTest是检验两个有联系正态总体的均值是否存在显著的差异。
又称配对样本的t检验。
2、该过程用于进行配对设计的差值均数与总体均数0比较的t检验,配对设计有两种情况:
1)对同一个受试对象处理前后的比较。
2)将受试对象按情况相近者配对,分别给予两种处理,以观察两种处理效果有无差别。
3、对于这种情况,统计学上的解决办法是求出每对的差值:
如果两种处理实际上没有差异,则差值的总体均数应当为0,从该总体中抽出的样本其均数也应当在0附近波动;反之,如果两种处理有差异,差值的总体无数就应当远离0,其样本均数也应当远离0,这样,通过检验该差值总体均数是否为0,就可以得知两种处理有无差异。
第7章方差分析
一、单因素方差分析(One-WayANOVA);
二、双因素方差分析
(GeneralLinearModelUnivariate)。
三、One-wayANOVA过程
该过程用于进行两组及多组间样本均数的比较,即成组设计的方差分析。
如果做了相应选择,还可进行随后的两两比较。
甚至于精确设定均数比较方式。
四、方差分析就是对多个总体均值是否相等这一假设进行检验。
1、方差分析基本术语
2、方差分析的原理
1)数据差异的来源
因素的水平不同(系统性差异);
随机因素(随机性差异)。
2)数据差异的度量
水平之间的方差(组间方差)——系统性因素和随机因素的共同作用。
水平内部的方差(组内方差)——随机性因素的作用。
●总变异=组内变异+组间变异
●总变异=随机变异+处理因素导致的变异
总变异=组内变异+组间变异
3)如果因素对结果没有影响,那么水平间的方差就只含随机性差异而没有系统性差异,其值与水平内部方差就应该很接近,两个方差的比值就会接近于1;反之,水平间方差就同时包含系统性差异和随机性差异,两个方差的比值就会明显大于1,当这个比值大到某个程度(比如说大于某个临界值)就可以作结论:
不同水平间存在显著差异。
五、检验统计量
1、方差分析的统计假设:
2、检验的统计量:
组间均方差与组内均方差之比
六、单因素方差分析
七、双因素方差分析
1、双因素方差分析及其类型
(一)数据结构
2、双因素方差(Univariate)分析过程
1)单因变量的双因素方差分析是对观察的现象(因变量)受两个因素或变量的影响进行分析,检验不同水平组合之间对因变量的影响是否显著。
2)双因素方差分析应用条件:
因变量和协变量必须是数值型变量,且因变量来自或近似来自正态总体。
因素变量是分类变量,变量可以是数值型或字符型的。
各水平下的总体假设服从正态分布,而且假设各水平下的方差是相等的。
3)双因素方差分析过程可以分析出每一个因素的作用;各因素之间的交互作用;检验各总体间方差是否相等;还能够对因素的各水平间均值差异进行比较等。
4)交互作用(Interaction):
如果一个因素的效应大小在另一个因素不同水平下明显不同,则称为两因素间存在交互作用。
第8章相关分析与回归分析
一、两个变量之间的关联
1、非单调关联
是指一个变量的出现(或不出现)与另一个变量的出现(或不出现)存在系统上的关联。
2、单调关联
是指调研人员可以指出两个变量关联的总体方向。
有两类单调关联:
增加型和减少型。
3、线性关联
是指两个变量之间存在“直线关系”,一个变量出现一定数量自动表明另一个变量也会出现一定数量。
4、曲线关联
是指一个变量与另一个变量相关,但是关联不是用直线而是用曲线描述的。
二、简单相关分析
1、两个变量之间的相关关系称简单相关关系。
有两种方法可以反映简单相关关系。
一是通过散点图直观地显示变量之间关系,二是通过相关系数准确地反映两变量的关系程度。
2、散点图
SPSS软件的绘图命令集中在Graphs菜单。
在进行分析前必须先作散点图,以判断两变量之间有无相关趋势,以及该趋势是否呈线性。
只有从图形上明确两变量之间存在线性相关趋势,才能继续后面的分析。
单击GraphsScatter,打开Scatterplot散点图对话框,。
然后选择需要的散点图,图中的四个选项依次是:
●Simple简单散点图
●Matrix矩阵散点图
●Overlay重叠散点图
●3-D三维散点图
三、偏相关分析
1、简单相关关系只反映两个变量之间的关系,但如果因变量受到多个因素的影响时,因变量与某一自变量之间的简单相关关系显然受到其它相关因素的影响,不能真实地反映二者之间的关系,所以需要考察在其它因素的影响剔除后二者之间的相关程度,即偏相关分析。
AnalyzeCorrelatePartial,打开PartialCorrelations对话框
四、回归分析
1、回归分析(regressionanalysis)是确定两个或两个以上变量间相互依赖的定量关系的一种统计分析方法。
运用十分广泛,回归分析按照涉及自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。
如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
2、线性回归的假设理论
(1)正态性假设:
即所研究的变量均服从正态分布;
(2)等方差假设:
即各变量总体的方差是相等的;
(3)独立性假设,即各变量之间是相互独立的;
(4)残差项无自相关性,即误差项之间互不相关,Cov(i,j)=0
SPSS软件中进行线性回归分析的选择项为Analyze→Regression→Linear
3、假设检验:
假设检验也称显著性检验,是研究者从理论或专业知识出发,对研究总体的有关特征提出一定的假设,通过抽样调查的方法获得样本数据,并根据样本数据的统计结果,从概率的角度对假设的真实性作出判断,即假设检验是根据样本调查结果证实或推翻总体有关假设的一种推论统计方法。
1)统计推断
2)独立样本T检验
3)配对样本T检验
4)小概率事件
5)置信水平:
用来表示样本统计值精确度,它是指样本统计值落在参数值某一正负区间内的概率。
6)偏相关分析
7)列联表
8)单调关联:
是指调研人员可以指出两个变量关联的总体方向。
有两类单调关联:
增加型和减少型。