spss数据正态分布检验方法及意义.docx-资源下载

spss数据正态分布检验方法及意义.docx

1、spss数据正态分布检验方法及意义spss 数据正态分布检验方法及意义判读要观察某一属性的一组数据是否符合正态分布，可以有两种方法（目前我知道这两种，并且这两种方法只是直观观察，不是定量的正态分布检验）：1：在spss里的基本统计分析功能里的频数统计功能里有对某个变量各个观测值的频数直方图中可以选择绘制正态曲线。具体如下：Analyze-Descriptive Statistics-Frequencies，打开频数统计对话框，在Statistics里可以选择获得各种描述性的统计量，如：均值、方差、分位数、峰度、标准差等各种描述性统计量。在Charts里可以选择显示的图形类型，其中Histogr

2、ams选项为柱状图也就是我们说的直方图，同时可以选择是否绘制该组数据的正态曲线（With norma curve），这样我们可以直观观察该组数据是否大致符合正态分布。如下图：从上图中可以看出，该组数据基本符合正态分布。2：正态分布的Q-Q图：在spss里的基本统计分析功能里的探索性分析里面可以通过观察数据的q-q图来判断数据是否服从正态分布。具体步骤如下：Analyze-Descriptive Statistics-Explore打开对话框，选择Plots选项，选择Normality plots with tests选项，可以绘制该组数据的q-q图。图的横坐标为改变量的观测值，纵坐标为分位数。

3、若该组数据服从正态分布，则图中的点应该靠近图中直线。纵坐标为分位数，是根据分布函数公式F(x)=i/n+1得出的.i为把一组数从小到大排序后第i个数据的位置，n为样本容量。若该数组服从正态分布则其q-q图应该与理论的q-q图（也就是图中的直线）基本符合。对于理论的标准正态分布，其q-q图为y=x直线。非标准正态分布的斜率为样本标准差，截距为样本均值。如下图：如何在spss中进行正态分布检验1(转)(2009-07-22 11:11:57)标签：杂谈一、图示法1、P-P图以样本的累计频率作为横坐标，以安装正态分布计算的相应累计概率作为纵坐标，把样本值表现为直角坐标系中的散点。如果资料服从整体分

4、布，则样本点应围绕第一象限的对角线分布。2、Q-Q图以样本的分位数作为横坐标，以按照正态分布计算的相应分位点作为纵坐标，把样本表现为指教坐标系的散点。如果资料服从正态分布，则样本点应该呈一条围绕第一象限对角线的直线。以上两种方法以Q-Q图为佳，效率较高。3、直方图判断方法：是否以钟形分布，同时可以选择输出正态性曲线。4、箱式图判断方法：观测离群值和中位数。5、茎叶图类似与直方图，但实质不同。二、计算法1、偏度系数（Skewness）和峰度系数（Kurtosis）计算公式：g1表示偏度，g2表示峰度，通过计算g1和g2及其标准误g1及g2然后作U检验。两种检验同时得出U0.05的结论时，才可以认

5、为该组资料服从正态分布。由公式可见，部分文献中所说的“偏度和峰度都接近0可以认为近似服从正态分布”并不严谨。2、非参数检验方法非参数检验方法包括Kolmogorov-Smirnov检验（D检验）和Shapiro- Wilk （W 检验）。SAS中规定：当样本含量n 2000时，结果以Shapiro Wilk（W 检验）为准，当样本含量n 2000 时，结果以Kolmogorov Smirnov（D 检验）为准。SPSS中则这样规定：（1）如果指定的是非整数权重，则在加权样本大小位于3和50之间时，计算 Shapiro-Wilk 统计量。对于无权重或整数权重，在加权样本大小位于3 和 5000

6、之间时，计算该统计量。由此可见，部分SPSS教材里面关于“Shapiro Wilk适用于样本量3-50之间的数据”的说法是在是理解片面，误人子弟。（2）单样本 Kolmogorov-Smirnov 检验可用于检验变量（例如income）是否为正态分布。对于此两种检验，如果P值大于0.05，表明资料服从正态分布。三、SPSS操作示例SPSS中有很多操作可以进行正态检验，在此只介绍最主要和最全面最方便的操作：1、工具栏-分析描述性统计探索性2、选择要分析的变量，选入因变量框内，然后点选图表，设置输出茎叶图和直方图，选择输出正态性检验图表，注意显示（Display）要选择双项（Both）。3、Out

7、put结果（1）Descriptives：描述中有峰度系数和偏度系数，根据上述判断标准，数据不符合正态分布。Sk=0，Ku=0时，分布呈正态，Sk0时，分布呈正偏态，Sk0曲线比较陡峭，KuCompare Means-Independent-Samples T Test运行结果：经方差齐性检验： F= 0.393 P=0.532，即两方差齐。（因为p大于0.05）所以选用 t检验的第一行方差齐情况下的t检验的结果：就是选用方差假设奇的结果所以，t=0.644, p=0.522, 没有显著性差异。（因为 p 0.05 表示差异有显著性）。均值相差：113.30159解释：使用compare

8、means里的independent smaples T test,检验结果里的 Levenes Test for Equality of Variances就是对方差齐性的检验,如果P值大于0.05则认为是方差齐,统计量为F= S12/S2 F(n1-1,n2-1) ,显著水平一般为0.05,0.01,原假设H0:方差相等。方差分析(Anaylsis of Variance, ANOVA)要求各组方差整齐，不过一般认为，如果各组人数相若，就算未能通过方差整齐检验，问题也不大。One-Way ANOVA对话方块中，点击Options(选项)按扭，勾Homogeneity-of-varianc

9、e即可。它会产生Levene、Cochran C、Bartlett-Box F等检验值及其显著性水平P值，若P值Compare Means-Independent-samples T Test.再看看结果中p值的大小是否Descriptive Statistics-Frequencies，把hstarts选入Variables，取消在Display Frequency table前的勾，在Chart里面histogram，在Statistics选项中如图1图1分别选好均数(Mean)，中位数(Median)，众数(Mode)，总数(Sum)，标准差(Std. deviation)，方差(Var

10、iance)，范围(range)，最小值(Minimum)，最大值(Maximum)，偏度系数(Skewness)，峰度系数(Kutosis)，按Continue返回，再按OK，出现结果如图2图2表中，中位数与平均数接近，与众数相差不大，分布良好。标准差大，即数据间的变化差异还还小。峰度和偏度都接近0，则数据基本接近于正态分布。下面图3的频率分布图就更直观的观察到这样的情况图3二采用各种图直观观察数据分布情况，如采用柱型图观察归类的比例等。同样以自带文件Trends chapter 13.sav为例，我们可以观察一下各年的数据总和的对比：1 选择Graph-Bar-Simple，在“Data

11、in chart are”一项选择Summary of groups of cases，然后按Define，出现图4，图42 选择Bars Represent-Other statistic(e.g. mean)，把hstarts一项选入Variable里面，把YEAR, Periodic一项选入Category Axis项中，并按Change Statistic键，出现图5：图53在Statistic选项中选Sum of values一项，按Continue返回，按OK即可出现图6：图6从图中可以非常直观的看出1965年-1975年间，每年的总体数量对比和各数值多少。三通过列联表来观察，数据

12、的交错关系。以软件自带的文件University of Florida graduate salaries.sav来说明1、选择Tables-Basic Table，在弹出对话框中，选择Graduate到Summaries栏，College到Down ，Gender到Across栏，如图7图72、选择Statistics按键，选取Count和layer%到Cell Statistics一栏，并按Continue键，如图8图8三、选择Layout按键，选择Summary Variable Labels-In separate labels（汇总的标签，如本例的Graduate，放在表外），Sta

13、tistics Labels-Across top（数据的标签横放在顶部，如本例的Count和Layer%），并在Label groups with value labels only前选择打勾(表示只需要具体的标签名就可以，不需要汇总名，如本例Gender和College)，如图9图9四、选择Total按键，在Totals over each group variable一项前选勾，则输出表会有增加汇总一栏，如图10图10提示，需要什么表格形式可以根据要求来调整，但对输出按键都需要熟悉，多尝试几次就可以看出不同的区别。图11为输出的表格图11重要提示：如果结果变成变量的汇总（SUM），则先选

14、择Data-Weight Cases，把Graduate的选项先选入Weight Cases by内，再选回Do not weight Cases，按OK即可。对于其他带有编号的一项都可以这样做。这一点不知为何，本人屡次试过总需要这样调整。参考图12图12几种常用的统计方法应用一般来说，最最常用的统计分析有假设检验和回归分析，在SPSS中也有很好的对应工具来做这些分析，但对其基本思路和要求都必须了解，这样才能更灵活的发挥。下面抄录EXCEL在市场调查中的应用一书中关于这方面的内容：1假设检验目的：是用来判断样本与样本，样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。基本思想：小

15、概率反证法思想。即P0.01或P0.05在一次试验中基本不会生发。反证法思想是先提出假设（检验假设H0），再用适当的统计方法确定假设成立的可能性大小，如果可能性小，则认为假设不成立，否则，还不能认为假设不成立。方法：t检验，u检验，秩和检验，卡方检验应用条件：A、各组资料具有可比性B、具正态分布C、方差齐性（即先作F检验，如F0.1，具方差齐性）2方差分析目的：又称为变异系数分析或F检验。用于推断两组或多组资料的总体平均数是否相同，检验两个或多个样本平均数的差异是否具有统计意义(也可认为是检验多个总体均值是否有显著性差异注1，这样可能更简单一点)。基本思想：用组内均方去除组间均方的商，即F值，

16、与1比较，若F值接近1，则说明各验均数间的差异没有统计学意义，否则表示有统计学意义。应用条件：A、各组资料具有可比性B、具正态分布C、方差齐性（即F检验）提示，在应用SPSS中，只要死死的记住一个显著系数0.05就可以应用（如果是双尾系数需要除以2），一般的大于0.05接受原假设，小于0.05则拒绝。简单的说，一般结果拒绝就是说样本有差异，样本相对独立，都是表示同一种意思，读这方面书的时候，希望不要让这些名词混乱了思路。SPSS的方差检验中，需要注意下面问题：方差检验中，Post Hoc键有LSD的选项：当方差分析F检验否定了原假设，即认为至少有两个总体的均值存在显著性差异时，须进一步确定是

17、哪两个或哪几个均值显著地不同，则需要进行多重比较来检验。LSD即是一种多因变量的三个或三个以上水平下均值之间进行的两两比较检验。2 Independent Samples检验中的Mann-Whitney U检验与K Independent Samples中的Kruskal-Walllis（克鲁斯卡尔瓦里斯）H检验法思想类似，常用来作为非参数检验。2 Related Samples非参数检验中，一般有Sign普通符号检验法和Wilcoxon威尔科克森符号秩检验法。前者用于研究的问题只有两个可能的结果：“是”或“非”，并且二者遵从二项分布；后者是普通符号检验法的改进，除了可以检验是非外，还可以了解

18、差异的大小。K Related Samples非参数检验中，主要有Friedman秩和检验与Cochran Q检验二种选择，前者是对多个样本是否来自同一总体的检验，而后者是用于只分为“成功”和“失败”两种结果的定类尺度测量的数据。附录：SPSS假设检验方法使用对照表图13其中相关、配对或有交互作用可以理解为EXCEL的重复，独立或无交互作用可以理解为EXCEL中的无重复。图13表大部分参考数据分析与SPSS应用一书，特别说明3回归分析目的：研究一个变量Y与其它若干变量X之间的一种数学工具。它是一组试验或观测数据的基础上，寻找被随机性掩盖的变量之间的依存关系。A直线回归方程 Yc=a bXB回归

19、关系的检验：求回归方程在总体中是否成立，即是否样本代表的总体也有直线回归关系。a. 方差分析：基本思想是将总变异分解为SS回归和SS乘余，然后利用F检验来判断方程是否成立。b. t检验：基本思想是利用样本回归系数b与总体平均数回归系数进行比较来判断回归方程是否成立。下面摘录数据分析与SPSS应用一书关于相关回归和时间序列分析一些概念解释。数据变量间主要存在二类关系：一类是函数关系，一类是相关关系。前者是变量间有确定关系，即一个变量的值能够在其他变量取值确定的情况下，按某种函数关系唯一确定；后者是变量间虽然具有的联系，并非确定关系，如价格与销量量，价格高了，销售量可能会上去，但无法确定销售量是多

20、少。通过散点图来观察，如果点都集中在一条直线附近，是线性相关，如果在一条曲线附近，则为非线性相关。如果一个变量因另一个变量的增加而增加，减少而减少，则二个变量间存在正相关关系，反之则为负相关关系。极端的相关是完全相关和零相关。如某地区购买自行车多少与购买大蒜多少无关，是为零相关。按我的理解，相关分析就是推断变量与变量之间关系的密切程度，回归就是在相关的基础上，找出变量间的拟合模型，从而进一步推测出未来的趋势和变量。而时间序列则是以时间的作为观察的序列，来推断变量间的关系的一种模型。以自带文件Trends chapter 13.sav为例，说明一下如何应用这三种分析工具。1相关打开Trends

21、chapter 13.sav文件，可以看到，这个文件的数据是以时间来排序的，在每个值前增加一行序列号变量，如图14图14一个时间序列的影响因素有四种变动：A长期趋势（Secular Trend），B季节变动（Seasonal Variation），C循环变动（Cyclical Variation），D不规则变动（Irregular Variation）。我们可以观察一下这些数据是否存在某种关系，打开Graphs-Sequence，如图15图15把hstarts选入Variables项，把No.选入Time Axis Lables，然后按OK，出现图16：图16从图可以看出，数据总是在一个周期内

22、反复在上下波动，虽然高低的位置不一样，但这种波动显然是随着时间的不同而变化。因此可以察看，因变量与时间的关系如何。选择Data-Define Dates，出现图17图17在Year一栏填入1965，Month一栏填入1，表示数据从1965年1月开始计算。选择Analyze-Correlate-Bivariate，出现图18图18把hstarts，Year和Month都选入Varibales选项，Correlation Coefficients选择Pearson和Spearman（其实只需要选Spearman就可以，这里只是试一下，作为比较）。注：相关检验中有Pearson（皮尔森）相关系数和S

23、pearman（斯皮尔曼）等级相关，前者也称皮尔森相关系数，是对两个定距变量关系的刻画；后者是用来考察两个变量中至少有一个定序变量时的相关关系。Zero-order Correlations（零阶偏听偏相关系数）是按Pearson简单相关系数公式计算得到的相关系数。在皮尔森系数r是对两个定距变量关系的刻画:若-1r1，|r|越大，表明两个变量之间的相关程度越强。若0r1，表明两个变量之间存在正相关。若r=1，则表明变量之间存在着完全正相关的关系。若-1rRegression-Curve Estimation，出现图22图22把hatarts选入Dependents选项，Independent选

24、择Time，Models选择（Linear）线性回归，（Quadratic）二次曲线回归，（Cubic）三次曲线回归，（Exponential）指数回归，选择Include constant in equation表示方程式有常数项，Plot models则表示用图表示，然后按OK，出现图23图23线性方程：Y=70.43 0.135X二次曲线方程：Y=64.171 0.415X-0.02X2三次曲线方程：Y=87.68-1.667X 0.037X2( 0X3)指数曲线方程：Y=68.229xe0.002从Sig值判断，都小于0.05，都接受回归成立，这样，只能从R拟合度和F值较大来判断三次曲线方程的拟合程度比较高。注意，如果方程成立的话，想要增加预测，则可以在Save选项中选择Predicted Values一项，如果还想预测未来的数值，则可以在原表上增加若干行（如1行），然后选择Predict Cases下面Predict through，在Year填入1976，在M

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？