实验描述性统计分析.docx

资源描述

实验描述性统计分析.docx

《实验描述性统计分析.docx》由会员分享，可在线阅读，更多相关《实验描述性统计分析.docx（19页珍藏版）》请在冰豆网上搜索。

实验描述性统计分析.docx

实验描述性统计分析

实验四描述性统计分析

峰度

一、集中趋势的测度

定类数据：

众数

定序数据：

中位数和分位数

定距和定比数据：

均值

众数、中位数和均值的比较

1.一组数据向其中心值靠拢的倾向和程度

2.测度集中趋势就是寻找数据一般水平的代表值或中心值

3.不同类型的数据用不同的集中趋势测度值

4.低层次数据的集中趋势测度值适用于高层次的测量数据，反过来，高层次数据的集中趋势测度值并不适用于低层次的测量数据

5.选用哪一个测度值来反映数据的集中趋势，要根据所掌握的数据的类型来确定

I.众数（Mode）

1、集中趋势的测度值之一

2、出现次数最多的变量值

3、不受极端值的影响

4、可能没有众数或有几个众数

5、主要用于定类数据，也可用于定序数据和数值型数据

II.中位数（Median）

6、集中趋势的测度值之一

7、排序后处于中间位置上的值

8、不受极端值的影响

9、主要用于定序数据，也可用数值型数据，但不能用于定类数据

10、各变量值与中位数的离差绝对值之和最小，即

III.四分位数（Quartiles）

1.集中趋势的测度值之一

2.排序后处于25%和75%位置上的值

3.不受极端值的影响

4.主要用于定序数据，也可用于数值型数据，但不能用于定类数据

IV.均值（Mean）

1.集中趋势的测度值之一

2.最常用的测度值

3.一组数据的均衡点所在

4.易受极端值的影响

5.用于数值型数据，不能用于定类数据和定序数据

众数、中位数和均值的关系

二、离散程度的测度

定类数据：

异众比率

定序数据：

四分位差

定距和定比数据：

方差及标准差

I.异众比率

1.离散程度的测度值之一

2.非众数组的频数占总频数的比率

3.仅用于定类数据

4.用于衡量众数的代表性

II.四分位差

1.离散程度的测度值之一

2.也称为内距或四分间距

3.上四分位数与下四分位数之差

QD=QU-QL

4.反映了中间50%数据的离散程度

5.不受极端值的影响

6.用于衡量中位数的代表性

III.方差和标准差（VarianceandStd。

deviation）

1.离散程度的测度值之一

2.最常用的测度值

3.反映了数据的分布

4.反映了各变量值与均值的平均差异

5.根据总体数据计算的，称为总体方差或标准差；根据样本数据计算的，称为样本方差或标准差

IV.偏态（kurtosis）

1.数据分布偏斜程度的测度

2.偏态系数=0为对称分布

3.偏态系数>0为右偏分布

4.偏态系数<0为左偏分布

V.峰度（skewness）

1.数据分布扁平程度的测度

2.峰度系数=3扁平程度适中

3.偏态系数<3为扁平分布

4.偏态系数>3为尖峰分布

三、描述统计量的软件实现

1、Excel

选择工具==>数据分析==>描述统计

即可输出大部分描述统计量。

但EXCEL只能按行或列进行分组统计，因此在编辑数据时要注意。

2、SPSS

SPSS的许多模块均可完成描述性分析，但专门为该目的而设计的几个模块则集中在Analyze→DescriptiveStatistics菜单中，最常用的是列在最前面的四个过程：

●Frequencies过程的特色是产生频数表；

●Descriptives过程则进行一般性的统计描述；

●Explore过程用于对数据概况不清时的探索性分析；

●Crosstabs过程则完成计数资料和等级资料的统计描述和一般的统计检验；

●我们常用的X2检验也在其中完成。

2.1Frequencies过程

此过程可以方便地对数据按组进行归类整理，形成各变量的不同水平的频数分布表和图形，以便对各变量的数据特征和观测量分布状况有一个概括的认识。

频数分布表是描述性统计中最常用的方法之一。

它还可对数据的分布趋势进行初步分析。

【Statistics按钮】

●PercentileValues复选框组定义需要输出的百分位数，可计算四分位数（Quartiles）、每隔指定百分位输出当前百分位数（Cutpointsfor equalgroups）、或直接指定某个百分位数（Percentiles），如直接指定输出P2.5和P97.5；

●Centraltendency复选框组用于定义描述集中趋势的一组指标：

均数（Mean）、中位数（Median）、众数（Mode）、总和（Sum）；

●Dispersion复选框组用于定义描述离散趋势的一组指标：

标准差（Std.deviation）、方差（Variance）、全距（Range）、最小值（Minimum）、最大值（Maximum）、均值标准误差（S.E.mean）；

●Distribution复选框组用于定义描述分布特征的两个指标：

偏度系数（Skewness）和峰度系数（Kurtosis）；

●Valuesaregroupmidpoints复选框当你输出的数据是分组频数数据，并且具体数值是组中值时，选中该复选框以通知SPSS，免得它犯错误。

【Chart按钮】

●Charttype单选钮组定义统计图类型，有四种选择：

无、条图（Barchart）、饼图（Piechart）、直方图Histogram），其中直方图还可以选择是否加上正态曲线（Withnormalcurve）；

●ChartValues单选钮组定义是按照频数还是按百分比做图（即影响纵坐标刻度）。

例4.1利用房价原始数据图.Sav绘制频数表、直方图，计算均数、标准差、中位数M、p2.5和p97.5。

1.Analyze==>DescriptiveStatistics==>Frequencies

2.Variables框：

选入Price

3.单击Statistics钮：

4.　选中Mean、Std.deviation、Median复选框

5.单击Percentiles：

输入2.5：

单击Add：

输入97.5：

单击Add：

6.单击Continue钮

7.单击Charts钮：

8.选中Barcharts

9.单击Continue钮

10.单击OK。

最上方为表格名称，左上方为分析变量名，可见样本量N为105例，缺失值0例，均数Mean=220.72，中位数Median=213.00，标准差STD=47.108，P2.5=134.10，P97.5=326.35。

案例1：

利用居民储蓄调查表数据进行频数分析，实现：

目标一：

分析储户的户口和职业的基本情况；

提示：

为使频数分布表一目了然，可调整频数分布表中数据的输出顺序，如按频数的降序输出，户口按饼图输出，职业按条形图输出；

目标二：

分析储户一次存（取）款金额的分布，并对城镇储户和农村储户进行比较。

提示：

由于存（取）款金额数据为定距型变量，直接采用频数分析不利于对其分布形态的把握，因此考虑先用数据分组功能（Transform→Record）对数据分组后再编制频数分布表；

进行数据拆分，并分别计算城镇储户和农村储户的一次存（取）款金额的四分位数，并通过四分位数比较两者分布上的差异。

2.2Descriptives过程

可对变量进行描述统计量分析，计算并列出一系列相应的统计指标，包括平均值、算术和、标准差、最大值、最小值等，且可将原始数据转换成标准Z分值（标准正态评分值）并存入数据库。

选择菜单Analyze==>descriptive==>Descriptives对话框的界面如下所示：

【Savestandardizedvaluesasvariables复选框】

确定是否将原始数据的标准正态评分存为新变量。

案例2：

利用居民储蓄调查表数据计算基本描述统计量，实现：

目标一：

计算存（取）款金额的基本描述统计量，并分别对城镇储户和农村储户进行比较；

提示：

首先按照户口对数据进行拆分；

目标二：

分析储户一次存（取）款的数量是否存在不均衡现象。

提示：

可以从分析金额是否有大量异常值入手；

计算存（取）款金额的标准化值，并选中SaveStandardizedAsVariables选项，将自动计算存（取）款金额的标准化值，并存为Za5；

对Za5进行排序，并分为三组（Za5<=-3低金额组，-3=3高金额组）后进行频数分析；

观察低金额组（即低异常值组）和高金额组（即高异常值组）的比例，如异常组的总比例大于理论值0.3%，即认为存（取）款金额存在一定的不均衡现象。

2.3Explore过程

功能：

1.检查数据是否有错误

2.数值的分布特征

3.对数据的规律的初步观察

选择菜单Analyze==>descriptive==>Explore对话框的界面如下所示：

【Display单选钮组】

用于选择输出结果中是否包含统计描述、统计图或两者均包括。

【DependentList框】用于选入需要分析的变量。

【FactorList框】如果想让所分析的变量按某种因素取值分组分析，则在这里选入分组变量。

【Labelcasesby框】

选择一个变量，他的取值将作为每条记录的标签。

最典型的情况是使用记录ID号的变量。

【Statistics钮】

弹出Statistics对话框，用于选择所需要的描述统计量。

有如下选项：

●Descriptives复选框：

输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误及指定的均数可信区间。

●M-estimators复选框：

作中心趋势的粗略最大似然确定，输出四个不同权重的最大似然确定数。

●Outliers复选框：

输出五个最大值与五个最小值。

●Percentiles复选框：

输出第5%、10%、25%、50%、75%、90%、95%位数。

【Plot钮】

弹出Plot对话框，用于选择所需要的统计图。

有如下选项：

●Boxplots单选框组：

确定箱式图的绘制方式，可以是按组别分组绘制（Factorlevelstogether），也可以不分组一起绘制（Depentendstogether），或者不绘制（None）。

●Descriptive复选框组：

可以选择绘制茎叶图（Stem-and-leaf）和直方图（Histogram）。

●Normalityplotswithtest复选框：

绘制正态分布图并进行变量是否符合正态分布的检验。

●Spreadvs.LevelwithLeveneTest单选框组：

当选择了分组变量时，绘制spread-versus-level图，设置绘图时变量的转换方式，并进行组间方差齐性检验。

【Options钮】

用于选择对缺失值的处理方式，可以是不分析有任一缺失值的记录、不分析计算某统计量时有缺失值的记录，或报告缺失值。

Statistic

Std.Error

price

Mean

220.72

4.597

95%ConfidenceIntervalforMean

LowerBound

211.61

UpperBound

229.84

5%TrimmedMean

219.55

Median

213.00

Variance

2219.125

Std.Deviation

47.108

Minimum

125

Maximum

345

Range

220

InterquartileRange

Skewness

.473

.236

Kurtosis

-.274

.467

以下是房价茎叶图：

price

priceStem-and-LeafPlot

FrequencyStem&Leaf

3.001.223

3.001.455

16.001.6667777777777777

20.001.88888888888999999999

14.002.00000000001111

14.002.22222222233333

13.002.4444444455555

8.002.66666777

7.002.8899999

4.003.0111

2.003.22

1.003.4

Stemwidth:

100

Eachleaf:

1case（s）

以上是茎叶图，整数位为茎，小数位为叶。

这样可以非常直观的看出数据的分布范围及形态，在国外非常流行。

以上是箱线图，中间的黑粗线为均数，红框为四分位间距的范围，上下两个细线为最大、最小值。

案例3：

利用居民储蓄调查表数据分析储户存（取）款金额的分布情况。

2.4Crosstabs过程（列联表分析）

Crosstabs过程用于分析多个变量不同取值下的分布，掌握多变量的联合分布特征，进而分析变量之间的相互影响和关系。

称列联表分析或交叉分组下的频数分析。

两大基本任务：

1）根据收集到的样本数据编制二维或多维交叉列联表；

2）在交叉列联表的基础上，对两两变量间是否存在一定的相关性进行分析。

Crosstabs过程不能产生一维频数表（单变量频数表），该功能由Frequencies过程实现。

交叉列联表的卡方检验:

检验行变量和列变量是否独立？

◆建立零假设（H0）；列联表分析中卡方检验的零假设为行变量与列变量独立；

◆选择和建立检验统计量；列联表分析中卡方检验的检验统计量是Pearson卡方统计量。

◆确定显著性水平和临界值；

◆结论和决策。

方法一：

如果卡方的观测值大于卡方临界值，可拒绝零假设；

方法二：

如果卡方观测值的概率p值小于等于α，拒绝零假设。

Ø在SPSS中，上述列联表卡方检验的过程，除用户要自行确定显著性水平和进行决策外，其余各步都是SPSS自动完成的；

ØSPSS将自动计算卡方统计量的观测值以及大于等于该值的概率P值；

Ø因此，在应用中，用户只要明确零假设，便可方便地按照第二种决策方式进行决策。

Ø事实上，所有的假设检验均是这样进行的。

例4.2利用下表格数据，进行列联表分析。

处理

愈合

未愈合

合计

呋喃硝胺

甲氰咪胍

合计

126

解：

由于此处给出的直接是频数表，因此在建立数据集时可以直接输入三个变量――行变量、列变量和指示每个格子中频数的变量，然后用WeightCases对话框指定频数变量，最后调用Crosstabs过程进行X2检验。

假设三个变量分别名为R、C和W，则数据集结构和命令如下：

1.00

54.00

1.00

2.00

44.00

2.00

1.00

8.00

2.00

20.00

1.Data==>WeightCases

2.WeightCasesby单选框：

选中

3.FreqencyVariable：

选入W

4.单击OK钮

5.Analyze==>DescriptiveStatistics==>Crosstabs

6.Rows框：

选入R

7.Columns框：

8.Statistics钮：

Chi-square复选框：

选中：

单击Continue钮

9.单击OK钮

从左到右为：

检验统计量值（Value）、自由度（df）、双侧近似概率（Asymp.Sig.2-sided）、双侧精确概率（ExactSig.2-sided）、单侧精确概率（ExactSig.1-sided）；

从上到下为：

Pearson卡方（PearsonChi-Square即常用的卡方检验）、连续性校正的卡方值（ContinuityCorrection）、对数似然比方法计算的卡方（LikelihoodRatio）、Fisher‘s确切概率法（Fisher’sExactTest）、线性相关的卡方值（LinearbyLinearAssociation）、有效记录数（NofValidCases）。

另外，ContinuityCorrection和Pearson卡方值处分别标注有a和b，表格下方为相应的注解：

a.只为2*2表计算。

b.0%个格子的期望频数小于5，最小的期望频数为13.78。

因此，这里无须校正，直接采用第一行的检验结果，即X2=6.133，P=0.013，如给定显著性α为0.05，由于卡方的频率p值小于α，因此拒绝零假设，即认为两组方法治疗效果有差异。

如果交叉列联表中有20%以上单元格中的期望频数小于5，则一般不宜使用卡方检验。

在这种情况下，可以采用似然率卡方检验等方法进行修正。

例4.3以数据加工（职工数据）.sav为例，检验职称和文化程度是否有关联？

1.Analyze==>DescriptiveStatistics==>Crosstabs；

2.如果进行二维列联表分析，将行变量职称（zc）选择到Row（s）框，将列变量文化程度（xl）选择到Column框中；

3.选择Displayclusteredbarcharts选项，指定绘制各变量交叉分组下频数分布柱形图，suppresstables表示不输出列联表，仅分析行列变量间关系；

4.单击Cell按钮指定列联表单元格中的输出内容；

5.单击Format按钮指定列联表各单元的输出排列顺序，SPSS默认以行变量取值的升序排列；

6.单击Statistics按钮指定用哪种方法分析行变量和列变量间的关系，一般选择Chi-Square卡方检验。

案例4：

利用居民储蓄调查表数据进行计算，实现以下两个目标：

目标一：

分析城镇储户和农村储户对“未来两年内收入状况的变化趋势”是否持相同的态度；

提示：

列联表的行变量为户口（a13），列变量为未来收入情况（a3），在列联表中输出各种百分比，期望频数、剩余、标准化剩余，同时显示各交叉分组下频数分布柱形图，并利用卡方检验方法，对城镇和农村储户对该问题的态度是否一致进行分析；

目标二：

分析城镇和农村储户对储蓄是否合算的认同是否一致。

提示：

该分析中列联表的行变量为户口（a13），列变量为什么合算（a1），在列联表的基础上进行卡方检验。

补充：

多选项分析

多选项分析是针对问卷调查中的多选项问题的。

对于多选项问题由于答案个数不止一个，如果仍按单选问题的方式设置SPSS变量，那么该变量虽然能够存储多个答案，但却无法直接支持对问题的分析。

即对一个多选项问题仅设置一个SPSS变量在数据处理和分析中是行不通的。

●将多选项问题分解；（前面已讲过）

●利用前面讲到的频数分析或交叉分组下的频数分析等方法进行分析。

多选项频数分析或多选项交叉分组下的频数分析

1、定义多项选择变量集

将多选项问题分解并设置成多个变量后，指定这些变量为一个集合。

1、选择菜单Analyze==>MultipleResponse==>Definesets；

2、从数值型变量中将进入多选项变量集的变量选择到Variablesinsets框中；

3、在variablesarecodedas框中指定多选项变量集中的变量是按照哪种方法分解的。

Dichotomies表示以多选项二分法分解，并在countedvalue中输入对哪组值进行分析。

Spss规定等于该值的样本为一组，其余样本为另一组；categories表示以多选项分类法分解，并在Range框和through框中输入变量取值的最小值和最大值。

4、为多选项变量集命名，系统会自动在该名字前加字符＄；

5、单击Add按钮将定义好的多选项变量集加到MultResponseSets框中。

2、定义多项选择变量集

将多选项问题分解并设置成多个变量后，指定这些变量为一个集合。

选择菜单Analyze==>MultipleResponse==>Definesets

3、多选项频数分析操作或多选项交叉分组下的频数分析

选择菜单Analyze==>MultipleResponse==>Frequencies

或选择菜单Analyze==>MultipleResponse==>Crosstabs

与前Frequencies和Crosstabs操作类似。

案例5：

利用居民储蓄调查表数据进行分析，实现以下两个分析目标：

分析储户的储蓄目的；

提示：

即回答储蓄的最主要目的是什么，占到多少？

什么的比例最少？

分析不同年龄段储户的储蓄目的。

提示：

采用多选项交叉分组下的频数分析。

回答20岁以下储户中存钱主要是为了什么？

其他如20～35岁的储户，35～50岁的储户，50岁以上的储户他们存钱的最主要的目的又是什么呢？

展开阅读全文