spss数据正态分布检验方法及意义.docx

资源描述

spss数据正态分布检验方法及意义.docx

《spss数据正态分布检验方法及意义.docx》由会员分享，可在线阅读，更多相关《spss数据正态分布检验方法及意义.docx（31页珍藏版）》请在冰豆网上搜索。

spss数据正态分布检验方法及意义.docx

spss数据正态分布检验方法及意义

如何在spss中进行正态分布检验1（转）

标签：

一、图示法

1、P-P图

以样本的累计频率作为横坐标，以安装正态分布计算的相应累计概率作为纵坐标，把样本值表现为直角坐标系中的散点。

如果资料服从整体分布，则样本点应围绕第一象限的对角线分布。

2、Q-Q图

以样本的分位数作为横坐标，以按照正态分布计算的相应分位点作为纵坐标，把样本表现为指教坐标系的散点。

如果资料服从正态分布，则样本点应该呈一条围绕第一象限对角线的直线。

以上两种方法以Q-Q图为佳，效率较高。

3、直方图

判断方法：

是否以钟形分布，同时可以选择输出正态性曲线。

4、箱式图

判断方法：

观测离群值和中位数。

5、茎叶图

类似与直方图，但实质不同。

二、计算法

1、偏度系数（Skewness）和峰度系数（Kurtosis）

计算公式：

g1表示偏度，g2表示峰度，通过计算g1和g2及其标准误σg1及σg2然后作U检验。

两种检验同时得出U<=，即p>的结论时，才可以认为该组资料服从正态分布。

由公式可见，部分文献中所说的“偏度和峰度都接近0……可以认为……近似服从正态分布”并不严谨。

2、非参数检验方法

非参数检验方法包括Kolmogorov-Smirnov检验（D检验）和Shapiro-Wilk（W检验）。

SAS中规定：

当样本含量n≤2000时，结果以Shapiro–Wilk（W检验）为准，当样本含量n>2000时，结果以Kolmogorov–Smirnov（D检验）为准。

SPSS中则这样规定：

（1）如果指定的是非整数权重，则在加权样本大小位于3和50之间时，计算Shapiro-Wilk统计量。

对于无权重或整数权重，在加权样本大小位于3和5000之间时，计算该统计量。

由此可见，部分SPSS教材里面关于“Shapiro–Wilk适用于样本量3-50之间的数据”的说法是在是理解片面，误人子弟。

（2）单样本Kolmogorov-Smirnov检验可用于检验变量（例如income）是否为正态分布。

对于此两种检验，如果P值大于，表明资料服从正态分布。

三、SPSS操作示例

SPSS中有很多操作可以进行正态检验，在此只介绍最主要和最全面最方便的操作：

1、工具栏--分析—描述性统计—探索性

2、选择要分析的变量，选入因变量框内，然后点选图表，设置输出茎叶图和直方图，选择输出正态性检验图表，注意显示（Display）要选择双项（Both）。

3、Output结果

（1）Descriptives：

描述中有峰度系数和偏度系数，根据上述判断标准，数据不符合正态分布。

Sk=0，Ku=0时，分布呈正态，Sk>0时，分布呈正偏态，Sk<0时，分布呈负偏态，时，Ku>0曲线比较陡峭，Ku<0时曲线比较平坦。

由此可判断本数据分布为正偏态（朝左偏），较陡峭。

（2）TestsofNormality：

D检验和W检验均显示数据不服从正态分布，当然在此，数据样本量为1000，应以W检验为准。

（3）直方图

直方图验证了上述检验结果。

（4）此外还有茎叶图、P-P图、Q-Q图、箱式图等输出结果，不再赘述。

结果同样验证数据不符合正态分布。

spss 判断两组数据的相关性（已使用）

标签：

两组体重数据：

先要为数据分组

使用命令：

spss的t检验：

菜单Analyze->CompareMeans->Independent-SamplesTTest

运行结果：

经方差齐性检验：

F= P=，即两方差齐。

（因为p大于）

所以选用t检验的第一行方差齐情况下的t检验的结果：

就是选用方差假设奇的结果

所以，t= , p=,没有显著性差异。

（因为 p<表示差异有显著性）。

均值相差：

解释：

使用comparemeans里的independentsmaplesTtest,检验结果里的Levene\'sTestforEqualityofVariances就是对方差齐性的检验,如果P值大于则认为是方差齐,统计量为F=S1^2/S^2~F（n1-1,n2-1）,显著水平一般为,,原假设H0:

方差相等。

方差分析（AnaylsisofVariance,ANOVA）要求各组方差整齐，不过一般认为，如果各组人数相若，就算未能通过方差整齐检验，问题也不大。

One-WayANOVA对话方块中，点击Options…（选项…）按扭，

勾Homogeneity-of-variance即可。

它会产生

Levene、CochranC、Bartlett-BoxF等检验值及其显著性水平P值，

若P值<于，便拒绝方差整齐的假设。

顺带一提，Cochran和Bartlett检定对非正态性相当敏感，

若出现「拒绝方差整齐」的检测结果，或因这原因而做成。

Statistics菜单->CompareMeans->Independent-samplesTTest..

再看看结果中p值的大小是否<.05，若然即达显著水平。

SPSS学习笔记

描述样本数据

一般的，一组数据拿出来，需要先有一个整体认识。

除了我们平时最常用的集中趋势外，还需要一些离散趋势的数据。

这方面EXCEL就能一次性的给全了数据，但对于SPSS，就需要用多个工具了，感觉上表格方面不如EXCEL好用。

个人感觉，通过描述需要了解整体数据的集中趋势和离散趋势，再借用各种图观察数据的分布形态。

对于SPSS提供的OLAPcubes（在线分析处理表），CaseSummary（观察值摘要分析表），Descriptives（描述统计）不太常用，反喜欢用Frequencies（频率分析），BasicTable（基本报表），Crosstabs（列联表）这三个，另外再配合其它图来观察。

这个可以根据个人喜好来选择。

一．使用频率分析（Frequencies）观察数值的分布。

频率分布图与分析数据结合起来，可以更清楚的看到数据分布的整体情况。

以自带文件Trendschapter为例，选择Analyze->DescriptiveStatistics->Frequencies，把hstarts选入Variables，取消在DisplayFrequencytable前的勾，在Chart里面histogram，在Statistics选项中如图1

图1

分别选好均数（Mean），中位数（Median），众数（Mode），总数（Sum），标准差（Std.deviation），方差（Variance），范围（range），最小值（Minimum），最大值（Maximum），偏度系数（Skewness），峰度系数（Kutosis），按Continue返回，再按OK，出现结果如图2

图2

表中，中位数与平均数接近，与众数相差不大，分布良好。

标准差大，即数据间的变化差异还还小。

峰度和偏度都接近0，则数据基本接近于正态分布。

下面图3的频率分布图就更直观的观察到这样的情况

图3

二．采用各种图直观观察数据分布情况，如采用柱型图观察归类的比例等。

同样以自带文件Trendschapter为例，我们可以观察一下各年的数据总和的对比：

1．选择Graph->Bar->Simple，在“Datainchartare”一项选择Summaryofgroupsofcases，然后按Define，出现图4，

图4

2．选择BarsRepresent->Otherstatistic.mean），把hstarts一项选入Variable里面，把YEAR,Periodic一项选入CategoryAxis项中，并按ChangeStatistic键，出现图5：

图5

3．在Statistic选项中选Sumofvalues一项，按Continue返回，按OK即可出现图6：

图6

从图中可以非常直观的看出1965年-1975年间，每年的总体数量对比和各数值多少。

三．通过列联表来观察，数据的交错关系。

以软件自带的文件UniversityofFloridagraduate来说明

1、选择Tables->BasicTable，在弹出对话框中，选择Graduate到Summaries栏，College到Down，Gender到Across栏，如图7

图7

2、选择Statistics按键，选取Count和layer%到CellStatistics一栏，并按Continue键，如图8

图8

三、选择Layout按键，选择SummaryVariableLabels->Inseparatelabels（汇总的标签，如本例的Graduate，放在表外），StatisticsLabels->Acrosstop（数据的标签横放在顶部，如本例的Count和Layer%），并在Labelgroupswithvaluelabelsonly前选择打勾（表示只需要具体的标签名就可以，不需要汇总名，如本例Gender和College），如图9

图9

四、选择Total按键，在Totalsovereachgroupvariable一项前选勾，则输出表会有增加汇总一栏，如图10

图10

提示，需要什么表格形式可以根据要求来调整，但对输出按键都需要熟悉，多尝试几次就可以看出不同的区别。

图11为输出的表格

图11

重要提示：

如果结果变成变量的汇总（SUM），则先选择Data->WeightCases，把Graduate的选项先选入WeightCasesby内，再选回DonotweightCases，按OK即可。

对于其他带有编号的一项都可以这样做。

这一点不知为何，本人屡次试过总需要这样调整。

参考图12

图12

几种常用的统计方法应用

一般来说，最最常用的统计分析有假设检验和回归分析，在SPSS中也有很好的对应工具来做这些分析，但对其基本思路和要求都必须了解，这样才能更灵活的发挥。

下面抄录《EXCEL在市场调查中的应用》一书中关于这方面的内容：

1．假设检验

目的：

是用来判断样本与样本，样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。

基本思想：

小概率反证法思想。

即P<或P<在一次试验中基本不会生发。

反证法思想是先提出假设（检验假设H0），再用适当的统计方法确定假设成立的可能性大小，如果可能性小，则认为假设不成立，否则，还不能认为假设不成立。

方法：

t检验，u检验，秩和检验，卡方检验

应用条件：

A、各组资料具有可比性

B、具正态分布

C、方差齐性（即先作F检验，如F<，则P>，具方差齐性）

2．方差分析

目的：

又称为变异系数分析或F检验。

用于推断两组或多组资料的总体平均数是否相同，检验两个或多个样本平均数的差异是否具有统计意义（也可认为是检验多个总体均值是否有显著性差异注1，这样可能更简单一点）。

基本思想：

用组内均方去除组间均方的商，即F值，与1比较，若F值接近1，则说明各验均数间的差异没有统计学意义，否则表示有统计学意义。

应用条件：

A、各组资料具有可比性

B、具正态分布

C、方差齐性（即F检验）

提示，在应用SPSS中，只要死死的记住一个显著系数就可以应用（如果是双尾系数需要除以2），一般的大于接受原假设，小于则拒绝。

简单的说，一般结果拒绝就是说样本有差异，样本相对独立，都是表示同一种意思，读这方面书的时候，希望不要让这些名词混乱了思路。

SPSS的方差检验中，需要注意下面问题：

方差检验中，PostHoc键有LSD的选项：

当方差分析F检验否定了原假设，即认为至少有两个总体的均值存在显著性差异时，须进一步确定是哪两个或哪几个均值显著地不同，则需要进行多重比较来检验。

LSD即是一种多因变量的三个或三个以上水平下均值之间进行的两两比较检验。

2IndependentSamples检验中的Mann-WhitneyU检验与KIndependentSamples中的Kruskal-Walllis（克鲁斯卡尔—瓦里斯）H检验法思想类似，常用来作为非参数检验。

2RelatedSamples非参数检验中，一般有Sign普通符号检验法和Wilcoxon威尔科克森符号秩检验法。

前者用于研究的问题只有两个可能的结果：

“是”或“非”，并且二者遵从二项分布；后者是普通符号检验法的改进，除了可以检验是非外，还可以了解差异的大小。

KRelatedSamples非参数检验中，主要有Friedman秩和检验与CochranQ检验二种选择，前者是对多个样本是否来自同一总体的检验，而后者是用于只分为“成功”和“失败”两种结果的定类尺度测量的数据。

附录：

SPSS假设检验方法使用对照表

图13

其中相关、配对或有交互作用可以理解为EXCEL的重复，独立或无交互作用可以理解为EXCEL中的无重复。

图13表大部分参考《数据分析与SPSS应用》一书，特别说明

3．回归分析

目的：

研究一个变量Y与其它若干变量X之间的一种数学工具。

它是一组试验或观测数据的基础上，寻找被随机性掩盖的变量之间的依存关系。

A．直线回归方程Yc=abX

B．回归关系的检验：

求回归方程在总体中是否成立，即是否样本代表的总体也有直线回归关系。

a.方差分析：

基本思想是将总变异分解为SS回归和SS乘余，然后利用F检验来判断方程是否成立。

b.t检验：

基本思想是利用样本回归系数b与总体平均数回归系数进行比较来判断回归方程是否成立。

下面摘录《数据分析与SPSS应用》一书关于相关回归和时间序列分析一些概念解释。

数据变量间主要存在二类关系：

一类是函数关系，一类是相关关系。

前者是变量间有确定关系，即一个变量的值能够在其他变量取值确定的情况下，按某种函数关系唯一确定；后者是变量间虽然具有的联系，并非确定关系，如价格与销量量，价格高了，销售量可能会上去，但无法确定销售量是多少。

通过散点图来观察，如果点都集中在一条直线附近，是线性相关，如果在一条曲线附近，则为非线性相关。

如果一个变量因另一个变量的增加而增加，减少而减少，则二个变量间存在正相关关系，反之则为负相关关系。

极端的相关是完全相关和零相关。

如某地区购买自行车多少与购买大蒜多少无关，是为零相关。

按我的理解，相关分析就是推断变量与变量之间关系的密切程度，回归就是在相关的基础上，找出变量间的拟合模型，从而进一步推测出未来的趋势和变量。

而时间序列则是以时间的作为观察的序列，来推断变量间的关系的一种模型。

以自带文件Trendschapter为例，说明一下如何应用这三种分析工具。

1．相关

打开Trendschapter文件，可以看到，这个文件的数据是以时间来排序的，在每个值前增加一行序列号变量，如图14

图14

一个时间序列的影响因素有四种变动：

A长期趋势（SecularTrend），B季节变动（SeasonalVariation），C循环变动（CyclicalVariation），D不规则变动（IrregularVariation）。

我们可以观察一下这些数据是否存在某种关系，打开Graphs->Sequence，如图15

图15

把hstarts选入Variables项，把No.选入TimeAxisLables，然后按OK，出现图16：

图16

从图可以看出，数据总是在一个周期内反复在上下波动，虽然高低的位置不一样，但这种波动显然是随着时间的不同而变化。

因此可以察看，因变量与时间的关系如何。

选择Data->DefineDates，出现图17

图17

在Year一栏填入1965，Month一栏填入1，表示数据从1965年1月开始计算。

选择Analyze->Correlate->Bivariate，出现图18

图18

把hstarts，Year和Month都选入Varibales选项，CorrelationCoefficients选择Pearson和Spearman（其实只需要选Spearman就可以，这里只是试一下，作为比较）。

注：

相关检验中有Pearson（皮尔森）相关系数和Spearman（斯皮尔曼）等级相关，前者也称皮尔森相关系数，是对两个定距变量关系的刻画；后者是用来考察两个变量中至少有一个定序变量时的相关关系。

Zero-orderCorrelations（零阶偏听偏相关系数）是按Pearson简单相关系数公式计算得到的相关系数。

在皮尔森系数r是对两个定距变量关系的刻画:

若-1≤r≤1，|r|越大，表明两个变量之间的相关程度越强。

若0

若r=1，则表明变量之间存在着完全正相关的关系。

若-1≤r<0，表明两个变量之间存在负相关。

若r=-1，则变量间的关系为完全负相关。

若r=0，表示两个变量之间无线性相关，即零相关。

按Option按键，如图19

图19

在Statistics选择MeansandstandarddeviationsCross-productdeviationsandcovariances，注意，这二个选择是Pearson才有的，如果开始只选择Spearman，则此二项不能选。

返回后，按OK如图20：

图20

从图20看到Year的Pearson系数为，Sig值为，小于P值，与Hstarts显著相关，Month的Pearson系数为，Sig值为，大于P值，则与Hstarts不显著相关。

从下图21的Spearman也同样得到相同的结论。

图21

2．回归

试建立回归模型，看能否形成各变量间的关系式。

选择Analyze->Regression->CurveEstimation，出现图22

图22

把hatarts选入Dependents选项，Independent选择Time，Models选择（Linear）线性回归，（Quadratic）二次曲线回归，（Cubic）三次曲线回归，（Exponential）指数回归，选择Includeconstantinequation表示方程式有常数项，Plotmodels则表示用图表示，然后按OK，出现图23

图23

线性方程：

二次曲线方程：

Y=三次曲线方程：

Y=（0X3）

指数曲线方程：

Y=从Sig值判断，都小于，都接受回归成立，这样，只能从R拟合度和F值较大来判断三次曲线方程的拟合程度比较高。

注意，如果方程成立的话，想要增加预测，则可以在Save选项中选择PredictedValues一项，如果还想预测未来的数值，则可以在原表上增加若干行（如1行），然后选择PredictCases下面Predictthrough，在Year填入1976，在Month填入1，这样就表示预测值到1976年的一月。

如图24所示。

图24

注意，在Independent选择Time和把ID选入结果一样，则因为ID是以时间为序来排，所以结果一样。

3．时间序列

因为R的似合度分别为，，和，都比较低，方程的效果不太好，如果要预测数值还是选择时间序列比较合适，因为从刚才Sequence的图也可以观察到，数据是以后的时间来波动的变化关系。

选择Analyze->TimeSeries->ExponentialSmoothing，出现图25

图25

把hstarts选入Variables选项，并在Model选择Winters（注意，三种不同的模型的选择：

简单指数平滑适用于不包含长期趋势和季节成分的数据；Holt方法适合于包含长期趋势但不包含季节成分的数据；Winters方法适合于包含季节成分（以及长期趋势）的数据。

EXCEL中只有简单的指数回归，与这里的绝不相同，从这里也可以看到专业分析软件的优势更具体更仔细），又按Save键，如图26

图26

PredictCase选项中选择Predictthrough，并在Year栏填入1976，month填入6，这样就可以得到1976年1-6月份的预测值（注意，此处与上面的回归不同，不需要增加6个ID，不然结果会显示有缺失值）。

返回，按Parameters键，如图27

图27

分别把Alpha（截距项的平滑系数），Gamma（趋势项的平滑系数）和Delta（季节指数的平滑系数），设为从0到1之间以步长搜索最优的参数值，其它选项采用默认值。

返回按OK，出现结果如图28：

图28

从图可看到平滑指数分别是Alpha＝，Gamma=0，Delta=0，而更重要的是，可以直接得到预测值，如图29：

图29

除了Fit一项的预测外，可以得到1976年1-6月的预测结果。

同时，可以通过FIT1的预测情况与上面三次曲线回归方程比较，采用平均绝对误差、均方根误差和平均绝对百分误差的结果选择更佳的答案。

与EXCEL表现的比较和补充

这一点是针对像我这样开始只懂得用EXCEL的人来说。

从个人的体会来说，二种软件有一定相似，操作都简便，同时又有一些可以互补的地方。

一、图型的表现力是SPSS的主要优点之一

应该说，EXCEL的图型表现主要是简便，对许多的人来说基本够用，但对于科学的表现，SPSS就更为详细和准确，这一点据说在所有统计软件中都突出。

因为大多的书里面都谈到，这里从略。

二、通过SPSS检验方差齐性和数据分布

假设检验中，采用的t检验和方差检验都需要满足二个要求，即

1．样本方差齐性

2．样本总体呈正态分布

在EXCEL中，提供了F检验来检验方差齐性问题。

也就是可以先通过F检验确定方差齐性与否来选择下一步用哪个T检验或方差检验分析工具。

但只要数据多于二组则无从下手；通过描述统计大约能从峰度和偏度来了解样本的分布（实际工作中，只要分布单峰且近似对称分布，也可应用注2），但要具体确定样本的分布也有难度。

这二个问题在SPSS就可以解决。

A、用SPSS检验方差齐性

同样以UniversityofFloridagraduate文件作为例子来检验性别数据是否方差齐性

a.选择Analyze->DescriptiveStatistics->Explore，再选择DependentList->Graduate，FactorList->Gender，Display->Both，如图30

图30

b.点击Plot按键，在对话框里选择Boxplots->None，SpreadwithLeveneTest->Untransformed，在Descriptive选择中取消Stem-and-leaf一项，如图31

图31

然后，按OK键，结果如图32显示：

图32

图32中可以看出,显著值sig都大于，因此不能拒绝H0方差齐性的假设，即数据的方差齐性。

提示，在SPSS中，应用t检验是不需要单独检验方差齐性问题。

结果中就有Levene检验的结果，从中就可

展开阅读全文