SPSS笔记.docx
《SPSS笔记.docx》由会员分享,可在线阅读,更多相关《SPSS笔记.docx(23页珍藏版)》请在冰豆网上搜索。
SPSS笔记
1、信度分析(指标及其降维与量表的可靠性关系,即Cronbachα系数)2
2分析——频率分析(把握数据分布特征)2
3、分析——探索3
4、P-P图4
5、制图4
附加内容:
参数估计5
6、t检验(studentt检验)——均值的差异性5
附加:
非参数检验5
7、方差F检验6
8、单因素ANONA检验(亦是方差检验,即一维方差分析)6
9、分析→一般线性模型→单变量7
10、卡方分析(Kappa)——表示观测值At与理论值pt间的偏离程度。
8
11、相关分析(不确定性关系分析)——方向与大小方面的关联8
附加:
二元变量相关分析:
(两个及以上变量零假设的相关性分析)8
12、偏相关分析:
(控制可能影响性变量)9
13、回归分析基础(确定性关系的分析)9
附加:
线性回归分析(R2、F(方差)、Sig.)10
14、主成分分析与因子分析11
15、因子分析13
16、分析→分类14
分类概述(非分层的)14
附加:
K-means聚类过程:
(用变量来实现样品的动态分类)15
附加:
系统聚类(分层聚类)15
两步聚类:
(置信度Confidencelevel区别其是否有差异)16
1、信度分析(指标及其降维与量表的可靠性关系,即Cronbachα系数)
信度界定:
人们在衡量某事物的某种综合特征时,往往要从影响该事物该种特征的多个方面进行分析。
例如评价某人的身体素质,就要从他的身高、胸围、脉搏、血压及肺活量等多个方面进行考虑。
由这些指标的聚集构成的表称为量表。
量表的结构是否合理,或者说所选择的指标是否全面反映对应事物的性质,以及指标取值的可信程度等等,需要作出判断。
可靠性分析就是一种对上面几个问题进行解决的方法。
基本功能:
通过研究测量数值和组成研究指标的特性,剔除无效的或者对研究对象作用较小的指标,从而达到将一个多维的研究对象进行降维的目的,正是由于对分析数据进行了降维,发现了反映研究对象的数据结构,从而提高数据的可靠性。
可靠性分析主要应用在用多个指标反映对象的问题,通过对多维变量进行变量降维,达到既不影响研究对象,又降低研究难度的作用。
进行可靠性分析时,最常用的度量统计量是Cronbachα系数。
该系数判断量表的内部一致性。
当量表内的项目被标准化为标准差取1时,根据项目的平均相关系数来判断;
当项目没有进行标准化时,采用项目间的平均协方差进行判断。
Cronbachα系数可被看作相关系数,即该量表与所有含有其他可能项目数的量表之间的相关系数。
Cronbachα系数其大小可以反映量表随机误差影响的程度,反映测试的可靠程度。
Cronbachα系数系数值越大,则量表受随机误差的影响较小,越可靠。
关键:
1)量表的α系数为计算恒定值,如果删除CHX则α变为靠近量表的α系数,有较大提升,说明CH1的数据值得怀疑,剔除该变量有助于提高整个表的可靠性。
2)标准差取1时,根据项目的平均相关系数来判断;当项目没有进行标准化时,采用项目间的平均协方差进行判断。
3)Cronbachα系数系数值越大,则量表受随机误差的影响较小,越可靠。
信度判断标准:
Cronbach'sAlpha值
注:
大于0.9(很好);大于0.8(一般);大于0.7(提示需要修正,但勉强可以接受),低于0.7需要预示信度很差。
2分析——频率分析(把握数据分布特征)
统计分析的目的是研究总体的数量特征。
离散:
提供最常用的标准差,其中均值标准误可以粗略用于:
均值差(观测均值与假设值)与标准误的比值超出[-22]的范围,则可以断定两个值不同。
分布:
偏度和峰度描述分布形状和对称性的统计量
有关偏度的经验标准:
偏度值超过标准误的两倍,可以认为分布有偏。
图表:
直方图(提供正态曲线)。
说明:
将标准化得分另存为变量。
3、分析——探索
1)集中趋势计量的指标是:
众数、中位数、均值和总和。
频数分布数列中各观察值有一种向中心集中的趋势,在中心附近的观察值数目较多,远离中心的较少,这称为集中趋势。
2)离散趋势的指标有:
极差、方差和标准差。
反映的是一组资料中各观测值之间的差异或离散程度。
离散趋势小时,集中趋势的指标值的代表性就高;与之相反的是,集中趋势小时,离散趋势的指标的代表性就高。
方差(variance),是一组资料中各数值与其算术平均数的离差平方和平均数。
标准差(standarddeviation),是方差的平方根。
一般来讲方差和标准差的数值越小则说明数据越稳定,方案越好。
3)偏度(|SK|大于2)
描述频数分布数列中各观察值是否对称地分布在中心的两侧,或者说某一侧的观察值是否比另一侧的观察值对中心偏离得更远些。
是衡量平均数、中位数和标准差之间的关系的,用SK表示。
一般为|SK|大于2时,就算偏离程度很大了。
4)峰度(kurtosis——峰度K系数为3)
是频数分布的另一个性质,它是指次数曲线的高峰形态。
用K表示。
峰度系数为3称为常态峰,大于3称为高狭峰,其余为低阔峰。
5)M估计(M-estimators):
(集中趋势的稳健估计,该统计量是利用迭代方法计算出来,一般来说受异常值影响要小的多。
)
常用的点估计方法有矩法估计和极大似然估计。
6)正态分布的Lilliefors显著性检验:
小于0.05指差异性显著,大于0.05且接近1是为齐质性或者说同质性。
7)奇异值分析(箱图分析)
4、P-P图
Q-Q图相对P-P图来说原理很相似,使用的是实际百分位数与理论百分位数进行绘制图形,一般来说更稳健一点,但问题是没有明确的经验界值,故使用的频率较少。
一般原理或者说意义:
确定实际累积概率是否与理论分布的累积概率匹配,如果选定变量与检验的理论分布匹配,则点聚集在(理论分布计算的)直线周围,保持一致。
5、制图
附加内容:
参数估计
总体的参数正态分布总体N(μ,σ2)中的均值μ和方差σ2。
点估计(M-estimators):
常用的点估计方法有矩法估计和极大似然估计。
Huber提出的ψ函数中,常数k=1.339;Tukey提出的ψ函数中,常数k=4.685;Hampel提出的ψ函数中,常数a,b和c分别取1.7,3.4和8.5;Andrew函数中,常数c取1.34.
区间估计(置信水平(1-α)):
估计θ在某一个小区间内,这样就能提高可信程度。
1-α是置信度,也称置信概率;α称为显著性水平。
“LowerBound”和“UpperBound”项分别对应置信区间的下限和上限。
6、t检验(studentt检验)——均值的差异性
待检假设通常用H0表示,对立假设用H1表示。
概率很小的事件在一次试验中几乎是不可能发生的,如果小概率事件在一次试验中发生了,就说明事先的假设H0为真是不下确的,因此拒绝H0,接受H1(且拒绝原假设,接受新假设,且均值越大效果更好);否则接受H0。
概率大,则可能发生,可以接受原假设。
也就是Sig大于还是小于0.05(P值)。
Levene检验:
用于检验方差是否齐性。
F检验显著(p<0.05),则方差不齐(违反模型假设),反之,方差齐。
上表可以看出,方差不齐,则看第二行的t值,即t=-5.99是显著的(p<0.05或t>1.96),说明第一生产线(0对应的组)的原料含量是显著小于第二生产线(1对应的组)。
附加:
非参数检验
被抽样总体的参数不规定条件,即是不依赖总体分布的统计检验方法,
是指在总体不服从正态分布且分布情况不明时,用来检验数据资料是否来自同一总体假设的一类检验方法。
χ2(卡方)检验。
观察频数与理论频数的差值,即残差。
当SPSS在脚注处列出预期个数少于5的百分比及最小的预期个数,便是不合适使用卡方检验。
7、方差F检验
方差分析原理:
事件的发生往往与多个因素有关,但各个因素对事件发生的中的用作用是不一样的,而且同一因素的不同水平对事件发生的影响也是不同的。
随机(随机抽查)误差,如测量误差造成的差异或个体间的差异,称为组内差异;实验条件,即不同的处理造成的差异,称为组间差异。
如果处理没有作用,即各样本均来自同一总体,F=1,考虑抽样误差的存在,则有F≈1。
如果处理确实有作用,组间均方是由于误差与不同处理共同导致的结果,即各样本来自不同总体,那么组间均方会远远大于组内均方,即MSb》MSw。
假设有k个样本,如果原假设H0:
样本均数都相同μ1=μ2=…=μk=μ,k个样本有共同的方差σ2,则k个样本来自共同方差σ2和相同均数μ的总体,即无显著性差异。
如果经过计算,组间均方远远大于组内均方,则,F>F0.05(dfb,dfw),即p<0.05,拒绝原假设,说明样本来自不同的正态总体,说明处理造成的差异有统计意义,否则,F0.05,接受原假设,样本来自在相同总体,处理间无差异。
方差分析依据的基本原理是方差的可加性原则。
µ是总体均值;ɑ是因素不同水平对因变量的附加效应,其和为0。
8、单因素ANONA检验及其方差分析(亦是方差检验,即一维方差分析)
单变量——多因变量——分析-比较均值-单因素ANONA
多变量——单因变量——分析-线性模型-单因素
多变量——多因变量——分析-线性模型-多因素
多变量——多因变量——分析-线性模型-多因素
ANONA检验实质:
它检验由单一因素影响的一个(或几个相互独立的)因变量,由因素各水平分组的均值之间的差异,是否具有统计意义,或者说它们是否来源于同一总体。
方差齐性检验(方差相等检验):
对于方差相等的要求是比较严格的必须对方差相等的前提进行检验。
方差齐性检验的H0假设是:
方差相等。
p=>0.05,说明接受H0假设(即方差相等),从p<0.05,则拒绝H0,即说明抽样检验的对象不相同,均值越大的效果越好。
双因素方差分析:
(两两因素变量对因变量的影响)
如果同时研究两个或多个因子对试验结果(对单一的因变量)的影响,就称为双因子方差分析(Two-wayANOVA)。
协方差分析:
(消去协助变量对因变量的影响,而更好探究变量对因变量的影响)
协方差分析是利用线性回归的方法消除因素的影响后进行的方差比较。
就是说先从因变量的总偏差平方和中去除协变量对因变量的回归平方和,再对残差平方和进行分解,进行方差分析。
9、线性分析→一般线性模型→单变量
因变量:
连续变量
固定因子:
分类变量
随机因子:
连续变量且与因变量存在相关关系。
其作用大小可以通过方差成分分析来确定。
协变量:
随机因素
WLS权重:
计算加权最小二乘的权重系数。
10、卡方分析(Kappa)——表示观测值At与理论值pt间的偏离程度。
该功能用于解决什么问题:
用于检验两无序分类变量间的关联程度(或相关),例如不同性别与购物是否频繁间是否存在某种关系,可以通过卡方分析来检验。
Kappa:
内部一致性系数,取值在[01],
一般认为大于0.75表示一致性较好;在[0.40.75]间一致性一般;小于0.4较差。
11、相关分析(不确定性关系分析)——方向与大小方面的关联
在实践中发现,变量之间关系分为两种类型:
函数关系和相关关系。
函数关系是变量间唯一的确定性关系。
但是,在实际问题中,变量间的关系往往并不是那么简单,也就是说,变量之间有着密切关系,但又不能由一个(或几个)变量的值确定另一个变量的值,这种变量之间的关系是不确定性关系,称为相关关系。
其特点是:
一个变量的取值不能由另一个变量唯一确定,即当自变量x取某个值时,因变量y的值可能会有多个。
这种关系不确定的变量显然不能用函数形式予以描述,但也不是杂乱无章、无规律可循的。
为了准确度量两个变量之间关系的密切程度,用相关系数来度量。
对两个变量之间线性相关程度的度量称为简单相关系数。
若相关系数是根据总体全部数据计算的,称为总体相关系数,记为ρ;若根据样本数据计算的,称为样本相关系数,记为r。
附加:
二元变量相关分析:
(两个及以上变量零假设的相关性分析)
r>0,正相关,表明自变量和因变量呈相同方向变化。
r<0,负相关。
r的绝对值愈接近1,表示x,y愈接近线性相关。
当|r|=1时,y的取值完全依赖于x,两者为函数关系,是完全的线性关系;
r的绝对值愈接近0,表示x,y愈没有线性相关关系。
当r=0,表示两个变量之间不存在线性相关关系(但可能的非线性关系)。
当0|r|>=0.8,视为高度相关。
0.5<=|r|<0.8,视为中度相关。
|r|<0.3视为不相关。
Pearson相关系数是测试两个变量之间的线性相关程度,
Kendall偏秩相关系数是适用于度量等级变量或秩变量相关性的一种非参数度量;
Spearman秩相关系数是Pearman相关系数的非参数版本,主要基于数据的秩而不是数据的值本身,它适用于等级数据和不满足正态假设的等间隔数据。
检测的零假设是两个变量的相关系数为0(零假设是变量之间不具有相关性)。
脚注内容显示相关分析结果在0.01的水平上显著。
否定零假设(零假设是变量之间不具有相关性),认为相关系数不为零,变量之间具有相关性。
用于衡量两类现象在发展变化的方向与大小方面存在一定的关联(不包括因果和共变关系)。
12、偏相关分析:
(控制可能影响性变量)
偏相关:
偏相关分析的任务就是在形容两个变量之间的线性相关关系时控制可能对其产生影响的变量。
偏相关系数的检验:
在利用本研究总体的特性时,由于抽样误差的存在,样本中控制了其他变量的影响,两个变量间偏相关系数不为0,不能说明总体中这两个变量间的偏相关系数不是0,因此必须进行检验。
检验的零假设:
总体中两个变量间的偏相关系数为0。
该功能用于解决什么问题:
相关系数表达的统计效应中,有可能是来自于其他变量,例如冰棍销售量与性犯罪有显著的相关性,但它们间的关系多半与温度有关,所以如果不控制温度这个因素,就难以探究冰棍销售量与性犯罪间的真实关系,控制温度后,两者间可能就不显著了。
相关分析只是考虑了两个变量间的关系,偏相关可以同时考虑更多的控制因素,即可以消除其他关联性因素的影响后,在分析两个变量间的关系。
13、回归分析基础(确定性关系的分析)
变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系,用回归进行分析。
研究变量间的确定性关系,构造变量间经验公式的数理统计方法称为回归分析。
回归分析是在自然科学、社会科学等领域具有广泛应用的统计方法。
附加:
线性回归分析(R2、F(方差)、Sig.)
自变量与因变量之间呈线性关系时,我们可以构造线性回归方程。
根据参与线性回归的自变量个数的多少,可将线性回归分为一元线性回归和多元线性回归。
①拟合集优度检验
就是要检验样本数据聚集在样本回归直线周围的密集程度,从而判断回归方程对样本数据的代表程度。
一般用判断系数R2实现,它越接近于1,表明回归直线的拟合程度越好;
反之,越接近于0,直线拟合就越差。
②回归方程的显著性检验
回归方程的显著性检验是对因变量与所有自变量之间的线性关系是否显著的一种假设检验。
一般采用F检验,其H0:
回归总体不具显著性(即是所有的回归系数与零无显著差别:
a=b=0)。
H1:
回归总体具有显著性(即所有自变量对y具有显著的线性作用,即所有的回归系数同时与0有显著差别)。
③回归系数的显著性检验
就是根据样本估计的结果对总体回归系数的有关假设进行检验。
之所以对回归系数进行显著性检验,是因为回归方程的显著性检验只能检验所有回归系数是否同时与零有显著性差异,它不能保证回归方程中不包含不能较好解释说明因变量变化的自变量,因此,可以通过回归系数显著性检验对每个回归系数进行考察。
H0:
x对y没有显著性影响;
H1:
x对y具有显著性影响。
④从结果看,相伴概率Sig.<0.05,说明自变量x与因变量y之间确有线性关系。
这是对回归系数的分析。
从两系数的相伴概率来看均<0.05,即具有显著性差异且相互独立,则说明均具有显著性意义,说明回归系数是显著的,
注:
在一元线性回归分析中,回归方程的显著性检验可以替代回归系数的显著性检验,但在一般的多元回归条件下,两种检验要说明的问题不同、作用不同,不能相互替代。
回归分析能解决什么问题:
1)探索影响因变量的可能因素。
2)利用回归模型进行预测。
相关与回归间的关系:
相关分析:
侧重反映散点的疏密程度。
回归分析:
侧重反映散点的趋势程度。
a、线性:
因变量与自变量间的线性关系。
b、正态性:
因变量的正态性(残差服从正态性)。
c、独立同分布:
残差间相互独立,且遵循同一分布,要求方差齐性。
d、正交假定:
误差项与自变量不相关,其期望为0.
1、选变量——相关性2、选数据——
(1)是否满足方差齐性的要求,即(-3,3)。
(2)是否满足正态性的要求。
从P-P概率图,和图4残差直方图都可以看出正态性假设。
3、进行回归
yi=β0+β1xi1+…+βjxij+βpxip+εi(i=1,2,…n,j=1,2…p)
式中:
yi——观测值;
βj——待估参数,又称回归系数;
xij——第j个自变量在第i次观测的数值。
εi——随机误差;
回归估计方程为:
y=b0+b1x1+b2x2…+bpxp
式中:
y——估计值;
b0——常数项;
b1,b2…bp——偏回归系数。
(1)估计(Estimates):
输出回归系数及其标准误差,标准化回归系数Beta,T值及T值双侧检验的显著性概率。
(2)模型拟合度(Modelfit):
模型拟合,输出判定系数R、R2、调整R2、标准估计的误差、回归方程显著F检验的方差分析表。
其中,R,R2和调整R2逐渐增加,而预测值标准差值却逐渐减小,说明回归方程的拟合程度在逐步提高。
(3)共线性诊断(CollinearityDiagnostics):
多种共线性分析。
(4)Durbin-Watson:
输出Durbin-Watson统计量以及可能是异常值的观测量诊断表。
(5)正态概率图(StandardizedResidualPlots):
选择绘制出标准化残差
序列的直方图、标准化残差序列的正态分布累计概率图。
(肖体琼,2014)
录入资料后SPSS实现步骤:
依次点击Analyze※Regression※Linear,则出现LinearRegression(线性回归分析)主对话框。
将因变量选入Dependent(因变量),将自变量选入Independ(自变量)中,在Statistics选项中选择Partandpartialcorrelations、Collinearitydiagnostics(共线性诊断)Estimates、Modelfit,然后点击OK。
由方差分析表中F值和模型概述表中R2值确定拟合效果,由回归系数及显著性检验表中的相关性和共线性统计量确定是否存在多重共线问题。
如果存在多重共线问题,需要对因变量进行筛选。
为了克服共线问题,简化模型,增加预测精确度,本文选择逐步回归方法,SPSS实现步骤为:
在上述操作基础上,在Method框选择Stepwise(逐步),然后点击OK。
(毕建武,2013)
1)概述:
SPSS提供了多种回归分析过程,如Linear(线性回归)、Nonlinear(非线性回归)、CurveEstimation(曲线拟合)、BinaryLogistic(二分类,即事件概率回归)等。
2)相关性分析:
A,散点图;
B,偏相关关系检验(PARTIAL CORRELATION COEFFICIENTS);
C,P-P概率图;
D,残差直方图;
E,奇异值数据表
3)数据建立:
根据建立数据文件,设定Xi变量,Yi因变量。
4)ModelSummary:
回归模型(方程)的拟合优度
结果模型概述表中R2为决定系数,它反映回归效果,越接近1效果越好;矫正决定系数R2adj=1-(1-r)(n-1)/(n-k)(n为样本数,k为自变量数),表示R2剔除了自由度影响。
(毕建武2013)。
(1)回归方程编号(第1列)
(2)r相关系数,又称复相关系数(第2列)都较大,即自变量或自变量的线性组合能多大程度上解释因变量。
看来它们都大于75%,所以比较令人满意。
线性相关系数又称Pearson积差相关系数,常用R表示。
(朱庆伟,2015)
(3)r2决定系数(拟合优度),又称复相关系数平方值(第3列)。
说明回归模型自变量的变异在因变量中所占比率,接近100%最好,数值越大,回归效果很好。
在曲线拟合和非线性拟合的结果检验中常用决定系数R2衡量。
R2越大拟合度越高,拟合效果越好。
(朱庆伟,2015)
(4)矫正的决定系数,又称修正的复相关系数平方值(第4列)第二列给人一个印象是引入的变量越多,复相关系数越大。
为了消除这种影响,给出修正的复相关系数平方值。
(5)估计的标准误(第5列)说明了因变量还有好多不能被回归方程所解释。
它也是只有相对意义,没有绝对意义。
还是与所带单位有关。
从几个模型中比较,它的值变化情况。
5)Correlate(相关检验验表)
选择主菜单中/Analyze菜单中打开/Correlate子菜单,从中选择/Bivariate0命令,打开/BivariateCorrelations0主窗口。
送变量/m0和/A0进入Variable栏内,其余默认。
单击[OK]完成。
输出结果及分析。
r>0,正相关,表明自变量和因变量呈相同方向变化。
r<0,负相关。
r的绝对值愈接近1,表示x,y愈接近线性相关。
当|r|=1时,y的取值完全依赖于x,两者为函数关系,是完全的线性关系;
r的绝对值愈接近0,表示x,y愈没有线性相关关系。
当r=0,表示两个变量之间不存在线性相关关系(但可能的非线性关系)。
当0|r|>=0.8,视为高度相关。
0.5<=|r|<0.8,视为中度相关。
|r|<0.3视为不相关。
6)ANOVA(方差分析)
Analysisofvariance(方差分析)
方差分析:
其中回归平方和SRR,残差平方和SSE总偏差平方和SST;
对应的自由度;
回归均方差MSR,残差均方差MSE,;
回归方程的显著性检验统计量F;
检验结果p与0.05关系。
(毕建武,2013)
6)ExcludedVariables:
变量剔除或进入过程表
(1)第1列说明被排除在回归方程外的变量。
(2)第2列说明所有自变量进行回归分析时的Beta值,一般认为该值越大,该变量对因变量的贡献越大,越可优先进入。
(3)第3列是针对每一个变量前面的系数是否为零的假设和t检验值。
(4)第4列给出了这个检验结果。
(5)第5列给出了偏相关系数(即排除其它变量的影响后,该变量与因变量的相关性),相关性越高,说明该变量对因变量的解释能力越强。
(6)第6列为容忍度(Tolerance)值。
(7)第7列为方差膨胀因子(VIF)的值。
(8)第8列为最小的容忍度(Tolerance)值。
(喻开志,2002)
7)Coefficients(回归系数)