描述性统计分析DescriptiveStatistics.docx
《描述性统计分析DescriptiveStatistics.docx》由会员分享,可在线阅读,更多相关《描述性统计分析DescriptiveStatistics.docx(34页珍藏版)》请在冰豆网上搜索。
描述性统计分析DescriptiveStatistics
第二讲:
一般数据分析
教学目的:
能应用SPSS软件进行:
描述分析、频数分析、数据探索、交叉表分析、图形分析等
教学内容:
1)描述分析
2)频数分析
3)数据探索
4)交叉表分析
教学重点:
描述分析、频数分析、交叉表
教学难点:
数据探索、交叉表分析
教学时间:
1学时
描述性统计分析DescriptiveStatistics
描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。
SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在DescriptiveStatistics菜单中,最常用的是列在最前面的四个过程:
●Frequencies过程的特色是产生频数表;
●Descriptives过程则进行一般性的统计描述;
●Explore过程用于对数据概况不清时的探索性分析;
●Crosstabs过程则完成计数资料和等级资料的统计描述和一般的统计检验,常用的X2检验也在其中完成。
1.1Frequencies过程
频数分布表是描述性统计中最常用的方法之一,Frequencies过程就是专门为产生频数表而设计的。
它不仅可以产生详细的频数表,还可以按要求给出某百分位点的数值,以及常用的条图、饼图等统计图。
和国内常用的频数表不同,几乎所有统计软件给出的都是详细频数表,即并不按某种要求确定组段数和组距,而是按照数值精确列表。
如果想用Frequencies过程得到熟悉的频数表,请先用第3章学过的Recode过程产生一个新变量来代表所需的各组段。
1.1.1 界面说明
Frequencies对话框的界面如图1.1a所示。
选取Analyze→DescriptiveStatistics→Frequencies,系统就会弹出该对话框,其各部分的功能如下:
1.Variable(s)框:
左侧的变量可全部选入右侧的Variable(s)框内,一次性完成所有变量的频数分析;也可逐一选入右侧,进行分析n次分析(这样就太累了)。
2.Displayfrequencytables复选框:
确定是否在结果中输出频数表。
图1.1aFrequencies对话框
3.Statistics:
单击后弹出Statistics对话框如图1.1b,用于定义需要计算的其他描述统计量。
其中:
●PercentileValues复选框组:
定义需要输出的百分位数,可计算四分位数(Quartiles)、每隔指定百分位输出当前百分位数(Cutpointsfor equalgroups)、或直接指定某个百分位数(Percentiles),如直接指定输出P2.5(即累计百分数为2.5%处的变量值)和P97.5(即累计达到97.5%处的变量值)。
●Centraltendency复选框组:
用于定义描述集中趋势的一组指标:
均值(Mean)、中位数(Median)、众数(Mode)、总和(Sum)。
●Dispersion复选框组:
用于定义描述离散趋势的一组指标:
标准差(Std.deviation)、方差(Variance)、全距(Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.mean)。
●Distribution复选框组:
用于定义描述分布特征的两个指标:
偏度系数(Skewness)和峰度系数(Kurtosis)。
●Valuesaregroupmidpoints复选框:
当输出的数据是分组频数数据,并且具体数值是组中值时,选中该复选框,以通知SPSS,免得它犯错误。
图1.1bFrequencies的Statistics对话框
4.Charts:
弹出Charts对话框,用于设定所做的统计图。
●Charttype单选钮组定义统计图类型,有四种选择:
无、条图(Barchart)、圆图(Piechart)、直方图Histogram),其中直方图还可以选择是否加上正态曲线(Withnormalcurve)。
●ChartValues单选钮组定义是按照频数还是按百分比做图(即影响纵坐标刻度)。
5.Format:
弹出Format对话框,用于定义输出频数表的格式,不过用处不大,一般不管。
●Orderby单选钮组定义频数表的排列次序,有四个选项:
Ascendingvalues为根据数值大小按升序从小到大作频数分布;Descendingvalues为根据数值大小按降序从大到小作频数分布;Ascendingcounts为根据频数多少按升序从少到多作频数分布;Descendingcounts为根据频数多少按降序从多到少作频数分布。
●MultipleVariables单选钮组如果选择了两个以上变量做频数表,则Comparevariables可以将他们的结果在同一个频数表过程输出结果中显示,便于互相比较,Organizeoutputbyvariables则将结果在不同的频数表过程输出结果中显示。
●SuppressTablesmorethan...复选框当频数表的分组数大于下面设定数值时禁止它在结果中输出,这样可以避免产生巨型表格。
1.1.2实例分析
例1.1利用111.sav文件中q9(即被访问者最近一次参加促销活动的消费)的调查数据,绘制频数表、直方图,计算平均值、标准差、变异系数CV、中位数Mode、p2.5和p97.5。
●求解
上述要求中,除CV需用手工计算外,其他问题都可通过Frequencie解决。
其主要操作如下:
1.从程序中打开SPSS,选择File→open→data,打开111.sav;
2.Analyze→DescriptiveStatistics→Frequencies,弹出Frequencies对话框;
3.Variables框:
选入q9
4.单击Statistics
5.选中Mean、Std.deviation、Median复选框
6.单击Percentiles:
输入2.5:
单击Add:
输入97.5:
单击Add:
7.单击Continue
8.单击Charts:
9.选中Barcharts
10.单击Continue
11.单击OK,系统即在SPSSViewer中显示所有结果,详见结果解释。
而CV可用得到的Std.deviation与Mean相除求得。
●问题与处理
图1.2是q9的次数分布直方图,它表明:
由于q9的取值点较多,使得按变量取值分组进行的Frequencies分析表很长,绘出的直方图也因分组太多而显得不清爽,需要进一步处理。
可先对q9分组,可通过重新赋值于新变量来实现,再作直方图。
图1.2q9的次数分布直方图
1.1.3 结果解释
●StatisticsTable
Statistics
被访问者最近一次参加促销活动的消费
N
Valid
312
Missing
0
Mean
114.03
Mode
113
Std.Deviation
18.158
Percentiles
2.5
58.00
97.5
293.70
表的最上方是表名,接下来是变量q9的标签——被访问者最近一次参加促销活动的消费;表的左侧是统计变量名称,右侧是统计结果。
表中数据显示:
样本量N为312个,缺失值0个,平均值Mean=114.03,中位数Median=113,标准差STD=18.158,P2.5=58,P97.5=293.7。
●FrequenciesTable
上表是系统对变量q9作的频数分布表(此处只列出了开头部分),Vaild右侧为原始值,Frequency为频数,Percent为各组频数占总例数的百分比(包括缺失记录在内),Validpercent为各组频数占总例数的有效百分比,CumPercent为各组频数占总例数的累积百分比。
1.2Descriptives过程
Descriptives过程是连续资料统计描述应用最多的一个过程,他可对变量进行描述性统计分析,计算并列出一系列相应的统计指标。
这和其他过程相比并无不同。
但该过程还有个特殊功能就是可将原始数据转换成标准正态评分值并以变量的形式存入数据库供以后分析。
1.2.1界面说明
Descriptives对话框的界面如图1.3a所示。
选取Analyze→DescriptiveStatistics→Descriptives,系统就会弹出该对话框,其各部分的功能如下:
●Savestandardizedvaluesasvariables复选框:
确定是否将原始数据的标准正态评分存为新变量。
●Options:
Options对话框(见图1.3b)中的大部分内容均在前面Frequences过程的Statistics对话框中见过,只有最下方的DisplayOrder单选钮组是新的,可以选择为变量列表顺序、字母顺序、均值升序或均值降序。
1.2.2 结果解释
利用111.sav文件中的q9数据,选择Analyze→DescriptiveStatistics→Descriptives,在弹出的Descriptives对话框中选q9到Variable(s)框中,点击ok,即可得到如下一个典型的Descriptives过程结果统计表:
DescriptiveStatistics
N
Minimum
Maximum
Mean
Std.Deviation
被访问者最近一次参加促销活动的消费
312
52
300
114.03
18.158
ValidN(listwise)
312
表中各统计项在前面都有解释,这里就不再啰嗦了。
图1.3aDescriptives对话框
图1.3bDescriptives中的Options对话框
1.3Explore过程
Explore过程可对变量进行更为深入详尽的描述性统计分析,主要用于对资料的性质、分布特点等完全不清楚时,故又称之为探索性分析。
它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,如茎叶图、箱图等,显得更加详细、全面,有助于用户制定继续分析的方案。
1.3.1 界面说明
Explore对话框的界面如图1.4a所示。
选取Analyze→DescriptiveStatistics→Explore,系统就会弹出该对话框,其各部分的功能如下:
图1.4aExplore对话框
●Display单选钮组:
用于选择输出结果中是否包含统计描述、统计图或两者均包括。
●DependentList框:
用于选入需要分析的变量。
●FactorList框:
如果想让所分析的变量按某种因素取值分组分析,则在这里选入分组变量。
●Labelcasesby框:
选择一个变量,他的取值将作为每条记录的标签。
最典型的情况是使用记录ID号的变量。
●Statistics:
弹出Statistics对话框(见图1.4b),用于选择所需要的描述统计量。
有如下选项:
Descriptives复选框:
输出平均值、中位数、众数、5%修正平均值、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误及指定的均值可信区间。
M-estimators复选框:
作中心趋势的粗略最大似然确定,输出四个不同权重的最大似然确定数。
Outliers复选框:
输出五个最大值与五个最小值。
Percentiles复选框:
输出第5%、10%、25%、50%、75%、90%、95%位数。
图1.4bExplore中的Statistics对话框
●Plot:
弹出Plot对话框(见图1.4c),用于选择所需要的统计图。
有如下选项:
Boxplots单选框组:
确定箱式图的绘制方式,可以是按组别分组绘制(Factorlevelstogether),也可以不分组一起绘制(Depentendstogether),或者不绘制(None)。
Descriptive复选框组:
可以选择绘制茎叶图(Stem-and-leaf)和直方图(Histogram)。
Normalityplotswithtest复选框:
绘制正态分布图并进行变量是否符合正态分布的检验。
Spreadvs.LevelwithLeveneTest单选框组:
当选择了分组变量时,绘制spread-versus-level图,设置绘图时变量的转换方式,并进行组间方差齐性检验。
图1.4cExplore中的Plots对话框
●Options:
用于选择对缺失值的处理方式,可以是不分析有任一缺失值的记录、不分析计算某统计量时有缺失值的记录,或报告缺失值,如图1.4d所示。
图1.4dExplore中的Options对话框
1.3.2 结果解释
以例1.1的数据为例,按默认方式下的选择,Explore过程的输出如下:
●首先是例行的处理记录缺失值情况报告,可见312例均为有效值。
CaseProcessingSummary
Cases
Valid
Missing
Total
N
Percent
N
Percent
N
Percent
被访问者最近一次参加促销活动的消费
312
100.0%
0
.0%
312
100.0%
●其次是描述统计结果,包括平均数Mean及其95%的置信区间、中位数Median、方差Variance、标准差Std.Deviation、偏度Skewness、峰度Kurtosis等,几乎常见的描述统计量都出现了,比较全面。
Descriptives
Statistic
Std.Error
被访问者最近一次参加促销活动的消费
Mean
114.03
3.887
95%ConfidenceIntervalforMean
LowerBound
151.38
UpperBound
171.18
5%TrimmedMean
112.82
Median
113.00
Variance
4713.891
Std.Deviation
18.158
Minimum
52
Maximum
300
Range
248
InterquartileRange
114.50
Skewness
.113
.138
Kurtosis
-1.027
.275
●然后是茎叶图,整数位为茎,小数位为叶。
这样可以非常直观的看出数据的分布范围及形态,在国外非常流行。
被访问者最近一次参加促销活动的消费Stem-and-LeafPlot
FrequencyStem&Leaf
11.000.55555555555
30.000.111111*********117777777777777
32.000.88888888888888899999999999999999
25.001.0000000000000111111111111
25.001.2222222233333333333333333
27.001.444444444444444455555555555
31.001.111111*********1117777777777777
30.001.888888888888889999999999999999
25.002.0000000000000000011111111
25.002.2222222222333333333333333
18.002.444444444444455555
17.002.11111111177777777
14.002.88888999999999
2.003.00
Stemwidth:
100
Eachleaf:
1case(s)
●最后还有箱式图,中间的黑粗线为均值,红框为四分位间距的范围,上下两个细线为最大、最小值。
1.4Crosstabs过程
Crosstabs过程用于对计数资料和有序分类资料进行统计描述和简单的统计推断。
在分析时可以产生二维至n维列联表,并计算相应的百分数指标。
统计推断则包括了常用的X2检验、Kappa值,分层X2(X2M-H)。
如果安装了相应模块,还可计算n维列联表的确切概率(Fisher'sExactTest)值。
这里只介绍一些常用的。
1.4.1 界面说明
Crosstabs对话框的界面如图1.5a所示。
选取Analyze→DescriptiveStatistics→Crosstabs,系统就会弹出该对话框,其各部分的功能如下:
●Rows框:
用于选择行*列表中的行变量。
●Columns框:
用于选择行*列表中的列变量。
●Layer框:
Layer指的是层,对话框中的许多设置都可以分层设定,在同一层中的变量使用相同的设置,而不同层中的变量分别使用各自层的设置。
如果要让不同的变量做不同的分析,则将其选入Layer框,并用Previous和Next钮设为不同层。
Layer在这里用的比较少,在多元回归中将进行详细的解释。
●Displayclusteredbarcharts复选框:
显示重叠条图。
●Suppresstable复选框:
禁止在结果中输出行*列表。
●Exact:
针对2*2以上的行*列表设定计算确切概率的方法,可以是不计算(Asymptoticonly)、蒙特卡罗模拟(MonteCarlo)或确切计算(Exact)。
蒙特卡罗模拟默认进行10000次模拟,给出99%可信区间;确切计算默认计算时间限制在5分钟内。
这些默认值均可更改。
图1.5aCrosstabs对话框
●Statistics:
弹出Statistics对话框,用于定义所需计算的统计量,见图1.5b。
图1.5bCrosstabs中的Statistics对话框
oChi-square复选框:
计算X2值。
oCorrelations复选框:
计算行、列两变量的Pearson相关系数和Spearman等级相关系数。
oNorminal复选框组:
选择是否输出反映分类资料相关性的指标,很少使用。
a.Contingencycoefficient复选框:
即列联系数,其值界于0~1之间;
b.PhiandCramer'sV复选框:
这两者也是基于X2值的,Phi在四格表X2检验中界于-1~1之间,在R*C表X2检验中界于0~1之间;Cramer'sV则界于0~1之间;
c.Lambda复选框:
在自变量预测中用于反映比例缩减误差,其值为1时表明自变量预测因变量好,为0时表明自变量预测因变量差;
d.Uncertaintycoefficient复选框:
不确定系数,以熵为标准的比例缩减误差,其值接近1时表明后一变量的信息很大程度来自前一变量,其值接近0时表明后一变量的信息与前一变量无关。
oOrdinal复选框组:
选择是否输出反映有序分类资料相关性的指标,很少使用。
a.Gamma复选框:
界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;
b.Somers'd复选框:
为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;
c.Kendall'stau-b复选框:
界于-1~1之间;
d.Kendall'stau-c复选框:
界于-1~1之间;
oEta复选框:
计算Eta值,其平方值可认为是因变量受不同因素影响所致方差的比例;
oKappa复选框:
计算Kappa值,即内部一致性系数;
oRisk复选框:
计算比数比OR值;
oMcNemanr复选框:
进行McNemanr检验(一种非参检验);
oCochran'sandMantel-Haenszelstatistics复选框:
计算X2M-H统计量(分层X2,也有写为X2CMH的),可在下方输出H0假设的OR值,默认为1。
●Cells:
弹出Cells对话框(见图1.5c),用于定义列联表单元格中需要计算的指标:
图1.5cCrosstabs中的CellDisplay对话框
oCounts复选框组:
是否输出实际观察数(Observed)和理论数(Expected);
oPercentages复选框组:
是否输出行百分数(Row)、列百分数(Column)以及合计百分数(Total);
oResiduals复选框组:
选择残差的显示方式,可以是实际数与理论数的差值(Unstandardized)、标化后的差值(Standardized,实际数与理论数的差值除理论数),或者由标准误确立的单元格残差(Adj.Standardized);
●Format:
用于选择行变量是升序还是降序排列。
1.4.2 分析实例
例1.2利用111.sav文件中调查数据,做年龄age与月收入income的交叉分析表,并分析在“性别sex”变量控制下的年龄与收入的关系。
这两个问题都可以通过Crosstabs来完成,在默认111.sav文件已打开时,第一个问题的操作步骤如下:
1.Analyze→DescriptiveStatistics→Crosstabs
2.Rows框:
选入age
3.Columns框:
选入income
4.单击Cells:
选中Observed下的Counts,和Percentage下的Row,单击Continue
5.单击OK
第二个问题的操作步骤如下:
1.Analyze→DescriptiveStatistics→Crosstabs
2.Rows框:
选入age
3.Columns框:
选入income
4.Layer框:
选入sex
5.单击Statistics:
选中Chi-square和Correlation,单击Continue
6.单击Cells:
选中Observed下的Counts,和Percentage下的Row,单击Continue
7.单击OK
1.4.3 结果解释
第一题的结果如下:
●首先是处理记录缺失值情况报告,可见312个cases均为有效值。
Crosstabs
CaseProcessingSummary
Cases
Valid
Missing
Total
N
Percent
N
Percent
N
Percent
被访问者年龄*被访问者月收入
312
100.0%
0
.0%
312
100.0%
●被访问者年龄age与月收入income的交叉分析表,行是年龄分组,列是与收入分组,中间的数据是各组人数和在各年龄组中月收入的人数比重。
分析表结果显示:
25岁以下年龄组中,被访问者月收入在1000元以下的占14.2%;而25-35岁年龄组的占51.1%,35-45岁组占24.1%,45岁以上组占42.9%。
但将收入级别调高后,35-45岁组的人数比重都为最高,两边年龄组的则逐渐下降。
这表明:
随年龄变化,月收入既有先减后增的趋势,也有先增后减的趋势