实验描述性统计分析.docx
《实验描述性统计分析.docx》由会员分享,可在线阅读,更多相关《实验描述性统计分析.docx(19页珍藏版)》请在冰豆网上搜索。
实验描述性统计分析
实验四描述性统计分析
峰度
一、集中趋势的测度
定类数据:
众数
定序数据:
中位数和分位数
定距和定比数据:
均值
众数、中位数和均值的比较
1.一组数据向其中心值靠拢的倾向和程度
2.测度集中趋势就是寻找数据一般水平的代表值或中心值
3.不同类型的数据用不同的集中趋势测度值
4.低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据
5.选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定
I.众数(Mode)
1、集中趋势的测度值之一
2、出现次数最多的变量值
3、不受极端值的影响
4、可能没有众数或有几个众数
5、主要用于定类数据,也可用于定序数据和数值型数据
II.中位数(Median)
6、集中趋势的测度值之一
7、排序后处于中间位置上的值
8、不受极端值的影响
9、主要用于定序数据,也可用数值型数据,但不能用于定类数据
10、各变量值与中位数的离差绝对值之和最小,即
III.四分位数(Quartiles)
1.集中趋势的测度值之一
2.排序后处于25%和75%位置上的值
3.不受极端值的影响
4.主要用于定序数据,也可用于数值型数据,但不能用于定类数据
IV.均值(Mean)
1.集中趋势的测度值之一
2.最常用的测度值
3.一组数据的均衡点所在
4.易受极端值的影响
5.用于数值型数据,不能用于定类数据和定序数据
众数、中位数和均值的关系
二、离散程度的测度
定类数据:
异众比率
定序数据:
四分位差
定距和定比数据:
方差及标准差
I.异众比率
1.离散程度的测度值之一
2.非众数组的频数占总频数的比率
3.仅用于定类数据
4.用于衡量众数的代表性
II.四分位差
1.离散程度的测度值之一
2.也称为内距或四分间距
3.上四分位数与下四分位数之差
QD=QU-QL
4.反映了中间50%数据的离散程度
5.不受极端值的影响
6.用于衡量中位数的代表性
III.方差和标准差(VarianceandStd。
deviation)
1.离散程度的测度值之一
2.最常用的测度值
3.反映了数据的分布
4.反映了各变量值与均值的平均差异
5.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差
IV.偏态(kurtosis)
1.数据分布偏斜程度的测度
2.偏态系数=0为对称分布
3.偏态系数>0为右偏分布
4.偏态系数<0为左偏分布
V.峰度(skewness)
1.数据分布扁平程度的测度
2.峰度系数=3扁平程度适中
3.偏态系数<3为扁平分布
4.偏态系数>3为尖峰分布
三、描述统计量的软件实现
1、Excel
选择工具==>数据分析==>描述统计
即可输出大部分描述统计量。
但EXCEL只能按行或列进行分组统计,因此在编辑数据时要注意。
2、SPSS
SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在Analyze→DescriptiveStatistics菜单中,最常用的是列在最前面的四个过程:
●Frequencies过程的特色是产生频数表;
●Descriptives过程则进行一般性的统计描述;
●Explore过程用于对数据概况不清时的探索性分析;
●Crosstabs过程则完成计数资料和等级资料的统计描述和一般的统计检验;
●我们常用的X2检验也在其中完成。
2.1Frequencies过程
此过程可以方便地对数据按组进行归类整理,形成各变量的不同水平的频数分布表和图形,以便对各变量的数据特征和观测量分布状况有一个概括的认识。
频数分布表是描述性统计中最常用的方法之一。
它还可对数据的分布趋势进行初步分析。
【Statistics按钮】
●PercentileValues复选框组定义需要输出的百分位数,可计算四分位数(Quartiles)、每隔指定百分位输出当前百分位数(Cutpointsfor equalgroups)、或直接指定某个百分位数(Percentiles),如直接指定输出P2.5和P97.5;
●Centraltendency复选框组用于定义描述集中趋势的一组指标:
均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum);
●Dispersion复选框组用于定义描述离散趋势的一组指标:
标准差(Std.deviation)、方差(Variance)、全距(Range)、最小值(Minimum)、最大值(Maximum)、均值标准误差(S.E.mean);
●Distribution复选框组用于定义描述分布特征的两个指标:
偏度系数(Skewness)和峰度系数(Kurtosis);
●Valuesaregroupmidpoints复选框当你输出的数据是分组频数数据,并且具体数值是组中值时,选中该复选框以通知SPSS,免得它犯错误。
【Chart按钮】
●Charttype单选钮组定义统计图类型,有四种选择:
无、条图(Barchart)、饼图(Piechart)、直方图Histogram),其中直方图还可以选择是否加上正态曲线(Withnormalcurve);
●ChartValues单选钮组定义是按照频数还是按百分比做图(即影响纵坐标刻度)。
例4.1利用房价原始数据图.Sav绘制频数表、直方图,计算均数、标准差、中位数M、p2.5和p97.5。
1.Analyze==>DescriptiveStatistics==>Frequencies
2.Variables框:
选入Price
3.单击Statistics钮:
4. 选中Mean、Std.deviation、Median复选框
5.单击Percentiles:
输入2.5:
单击Add:
输入97.5:
单击Add:
6.单击Continue钮
7.单击Charts钮:
8.选中Barcharts
9.单击Continue钮
10.单击OK。
最上方为表格名称,左上方为分析变量名,可见样本量N为105例,缺失值0例,均数Mean=220.72,中位数Median=213.00,标准差STD=47.108,P2.5=134.10,P97.5=326.35。
案例1:
利用居民储蓄调查表数据进行频数分析,实现:
目标一:
分析储户的户口和职业的基本情况;
提示:
为使频数分布表一目了然,可调整频数分布表中数据的输出顺序,如按频数的降序输出,户口按饼图输出,职业按条形图输出;
目标二:
分析储户一次存(取)款金额的分布,并对城镇储户和农村储户进行比较。
提示:
由于存(取)款金额数据为定距型变量,直接采用频数分析不利于对其分布形态的把握,因此考虑先用数据分组功能(Transform→Record)对数据分组后再编制频数分布表;
进行数据拆分,并分别计算城镇储户和农村储户的一次存(取)款金额的四分位数,并通过四分位数比较两者分布上的差异。
2.2Descriptives过程
可对变量进行描述统计量分析,计算并列出一系列相应的统计指标,包括平均值、算术和、标准差、最大值、最小值等,且可将原始数据转换成标准Z分值(标准正态评分值)并存入数据库。
选择菜单Analyze==>descriptive==>Descriptives对话框的界面如下所示:
【Savestandardizedvaluesasvariables复选框】
确定是否将原始数据的标准正态评分存为新变量。
案例2:
利用居民储蓄调查表数据计算基本描述统计量,实现:
目标一:
计算存(取)款金额的基本描述统计量,并分别对城镇储户和农村储户进行比较;
提示:
首先按照户口对数据进行拆分;
目标二:
分析储户一次存(取)款的数量是否存在不均衡现象。
提示:
可以从分析金额是否有大量异常值入手;
计算存(取)款金额的标准化值,并选中SaveStandardizedAsVariables选项,将自动计算存(取)款金额的标准化值,并存为Za5;
对Za5进行排序,并分为三组(Za5<=-3低金额组,-3=3高金额组)后进行频数分析;
观察低金额组(即低异常值组)和高金额组(即高异常值组)的比例,如异常组的总比例大于理论值0.3%,即认为存(取)款金额存在一定的不均衡现象。
2.3Explore过程
功能:
1.检查数据是否有错误
2.数值的分布特征
3.对数据的规律的初步观察
选择菜单Analyze==>descriptive==>Explore对话框的界面如下所示:
【Display单选钮组】
用于选择输出结果中是否包含统计描述、统计图或两者均包括。
【DependentList框】用于选入需要分析的变量。
【FactorList框】如果想让所分析的变量按某种因素取值分组分析,则在这里选入分组变量。
【Labelcasesby框】
选择一个变量,他的取值将作为每条记录的标签。
最典型的情况是使用记录ID号的变量。
【Statistics钮】
弹出Statistics对话框,用于选择所需要的描述统计量。
有如下选项:
●Descriptives复选框:
输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误及指定的均数可信区间。
●M-estimators复选框:
作中心趋势的粗略最大似然确定,输出四个不同权重的最大似然确定数。
●Outliers复选框:
输出五个最大值与五个最小值。
●Percentiles复选框:
输出第5%、10%、25%、50%、75%、90%、95%位数。
【Plot钮】
弹出Plot对话框,用于选择所需要的统计图。
有如下选项:
●Boxplots单选框组:
确定箱式图的绘制方式,可以是按组别分组绘制(Factorlevelstogether),也可以不分组一起绘制(Depentendstogether),或者不绘制(None)。
●Descriptive复选框组:
可以选择绘制茎叶图(Stem-and-leaf)和直方图(Histogram)。
●Normalityplotswithtest复选框:
绘制正态分布图并进行变量是否符合正态分布的检验。
●Spreadvs.LevelwithLeveneTest单选框组:
当选择了分组变量时,绘制spread-versus-level图,设置绘图时变量的转换方式,并进行组间方差齐性检验。
【Options钮】
用于选择对缺失值的处理方式,可以是不分析有任一缺失值的记录、不分析计算某统计量时有缺失值的记录,或报告缺失值。
Statistic
Std.Error
price
Mean
220.72
4.597
95%ConfidenceIntervalforMean
LowerBound
211.61
UpperBound
229.84
5%TrimmedMean
219.55
Median
213.00
Variance
2219.125
Std.Deviation
47.108
Minimum
125
Maximum
345
Range
220
InterquartileRange
65
Skewness
.473
.236
Kurtosis
-.274
.467
以下是房价茎叶图:
price
priceStem-and-LeafPlot
FrequencyStem&Leaf
3.001.223
3.001.455
16.001.6667777777777777
20.001.88888888888999999999
14.002.00000000001111
14.002.22222222233333
13.002.4444444455555
8.002.66666777
7.002.8899999
4.003.0111
2.003.22
1.003.4
Stemwidth:
100
Eachleaf:
1case(s)
以上是茎叶图,整数位为茎,小数位为叶。
这样可以非常直观的看出数据的分布范围及形态,在国外非常流行。
以上是箱线图,中间的黑粗线为均数,红框为四分位间距的范围,上下两个细线为最大、最小值。
案例3:
利用居民储蓄调查表数据分析储户存(取)款金额的分布情况。
2.4Crosstabs过程(列联表分析)
Crosstabs过程用于分析多个变量不同取值下的分布,掌握多变量的联合分布特征,进而分析变量之间的相互影响和关系。
称列联表分析或交叉分组下的频数分析。
两大基本任务:
1)根据收集到的样本数据编制二维或多维交叉列联表;
2)在交叉列联表的基础上,对两两变量间是否存在一定的相关性进行分析。
Crosstabs过程不能产生一维频数表(单变量频数表),该功能由Frequencies过程实现。
交叉列联表的卡方检验:
检验行变量和列变量是否独立?
◆建立零假设(H0);列联表分析中卡方检验的零假设为行变量与列变量独立;
◆选择和建立检验统计量;列联表分析中卡方检验的检验统计量是Pearson卡方统计量。
◆确定显著性水平和临界值;
◆结论和决策。
方法一:
如果卡方的观测值大于卡方临界值,可拒绝零假设;
方法二:
如果卡方观测值的概率p值小于等于α,拒绝零假设。
Ø在SPSS中,上述列联表卡方检验的过程,除用户要自行确定显著性水平和进行决策外,其余各步都是SPSS自动完成的;
ØSPSS将自动计算卡方统计量的观测值以及大于等于该值的概率P值;
Ø因此,在应用中,用户只要明确零假设,便可方便地按照第二种决策方式进行决策。
Ø事实上,所有的假设检验均是这样进行的。
例4.2利用下表格数据,进行列联表分析。
处理
愈合
未愈合
合计
呋喃硝胺
54
8
62
甲氰咪胍
44
20
64
合计
98
28
126
解:
由于此处给出的直接是频数表,因此在建立数据集时可以直接输入三个变量――行变量、列变量和指示每个格子中频数的变量,然后用WeightCases对话框指定频数变量,最后调用Crosstabs过程进行X2检验。
假设三个变量分别名为R、C和W,则数据集结构和命令如下:
R
C
W
1.00
1.00
54.00
1.00
2.00
44.00
2.00
1.00
8.00
2.00
2.00
20.00
1.Data==>WeightCases
2.WeightCasesby单选框:
选中
3.FreqencyVariable:
选入W
4.单击OK钮
5.Analyze==>DescriptiveStatistics==>Crosstabs
6.Rows框:
选入R
7.Columns框:
C
8.Statistics钮:
Chi-square复选框:
选中:
单击Continue钮
9.单击OK钮
从左到右为:
检验统计量值(Value)、自由度(df)、双侧近似概率(Asymp.Sig.2-sided)、双侧精确概率(ExactSig.2-sided)、单侧精确概率(ExactSig.1-sided);
从上到下为:
Pearson卡方(PearsonChi-Square即常用的卡方检验)、连续性校正的卡方值(ContinuityCorrection)、对数似然比方法计算的卡方(LikelihoodRatio)、Fisher‘s确切概率法(Fisher’sExactTest)、线性相关的卡方值(LinearbyLinearAssociation)、有效记录数(NofValidCases)。
另外,ContinuityCorrection和Pearson卡方值处分别标注有a和b,表格下方为相应的注解:
a.只为2*2表计算。
b.0%个格子的期望频数小于5,最小的期望频数为13.78。
因此,这里无须校正,直接采用第一行的检验结果,即X2=6.133,P=0.013,如给定显著性α为0.05,由于卡方的频率p值小于α,因此拒绝零假设,即认为两组方法治疗效果有差异。
如果交叉列联表中有20%以上单元格中的期望频数小于5,则一般不宜使用卡方检验。
在这种情况下,可以采用似然率卡方检验等方法进行修正。
例4.3以数据加工(职工数据).sav为例,检验职称和文化程度是否有关联?
1.Analyze==>DescriptiveStatistics==>Crosstabs;
2.如果进行二维列联表分析,将行变量职称(zc)选择到Row(s)框,将列变量文化程度(xl)选择到Column框中;
3.选择Displayclusteredbarcharts选项,指定绘制各变量交叉分组下频数分布柱形图,suppresstables表示不输出列联表,仅分析行列变量间关系;
4.单击Cell按钮指定列联表单元格中的输出内容;
5.单击Format按钮指定列联表各单元的输出排列顺序,SPSS默认以行变量取值的升序排列;
6.单击Statistics按钮指定用哪种方法分析行变量和列变量间的关系,一般选择Chi-Square卡方检验。
案例4:
利用居民储蓄调查表数据进行计算,实现以下两个目标:
目标一:
分析城镇储户和农村储户对“未来两年内收入状况的变化趋势”是否持相同的态度;
提示:
列联表的行变量为户口(a13),列变量为未来收入情况(a3),在列联表中输出各种百分比,期望频数、剩余、标准化剩余,同时显示各交叉分组下频数分布柱形图,并利用卡方检验方法,对城镇和农村储户对该问题的态度是否一致进行分析;
目标二:
分析城镇和农村储户对储蓄是否合算的认同是否一致。
提示:
该分析中列联表的行变量为户口(a13),列变量为什么合算(a1),在列联表的基础上进行卡方检验。
补充:
多选项分析
多选项分析是针对问卷调查中的多选项问题的。
对于多选项问题由于答案个数不止一个,如果仍按单选问题的方式设置SPSS变量,那么该变量虽然能够存储多个答案,但却无法直接支持对问题的分析。
即对一个多选项问题仅设置一个SPSS变量在数据处理和分析中是行不通的。
●将多选项问题分解;(前面已讲过)
●利用前面讲到的频数分析或交叉分组下的频数分析等方法进行分析。
多选项频数分析或多选项交叉分组下的频数分析
1、定义多项选择变量集
将多选项问题分解并设置成多个变量后,指定这些变量为一个集合。
1、选择菜单Analyze==>MultipleResponse==>Definesets;
2、从数值型变量中将进入多选项变量集的变量选择到Variablesinsets框中;
3、在variablesarecodedas框中指定多选项变量集中的变量是按照哪种方法分解的。
Dichotomies表示以多选项二分法分解,并在countedvalue中输入对哪组值进行分析。
Spss规定等于该值的样本为一组,其余样本为另一组;categories表示以多选项分类法分解,并在Range框和through框中输入变量取值的最小值和最大值。
4、为多选项变量集命名,系统会自动在该名字前加字符$;
5、单击Add按钮将定义好的多选项变量集加到MultResponseSets框中。
2、定义多项选择变量集
将多选项问题分解并设置成多个变量后,指定这些变量为一个集合。
选择菜单Analyze==>MultipleResponse==>Definesets
3、多选项频数分析操作或多选项交叉分组下的频数分析
选择菜单Analyze==>MultipleResponse==>Frequencies
或选择菜单Analyze==>MultipleResponse==>Crosstabs
与前Frequencies和Crosstabs操作类似。
案例5:
利用居民储蓄调查表数据进行分析,实现以下两个分析目标:
分析储户的储蓄目的;
提示:
即回答储蓄的最主要目的是什么,占到多少?
什么的比例最少?
分析不同年龄段储户的储蓄目的。
提示:
采用多选项交叉分组下的频数分析。
回答20岁以下储户中存钱主要是为了什么?
其他如20~35岁的储户,35~50岁的储户,50岁以上的储户他们存钱的最主要的目的又是什么呢?