实验描述性统计分析.docx

上传人:b****7 文档编号:11247276 上传时间:2023-02-26 格式:DOCX 页数:19 大小:106.11KB
下载 相关 举报
实验描述性统计分析.docx_第1页
第1页 / 共19页
实验描述性统计分析.docx_第2页
第2页 / 共19页
实验描述性统计分析.docx_第3页
第3页 / 共19页
实验描述性统计分析.docx_第4页
第4页 / 共19页
实验描述性统计分析.docx_第5页
第5页 / 共19页
点击查看更多>>
下载资源
资源描述

实验描述性统计分析.docx

《实验描述性统计分析.docx》由会员分享,可在线阅读,更多相关《实验描述性统计分析.docx(19页珍藏版)》请在冰豆网上搜索。

实验描述性统计分析.docx

实验描述性统计分析

实验四描述性统计分析

峰度

一、集中趋势的测度

定类数据:

众数

定序数据:

中位数和分位数

定距和定比数据:

均值

众数、中位数和均值的比较

1.一组数据向其中心值靠拢的倾向和程度

2.测度集中趋势就是寻找数据一般水平的代表值或中心值

3.不同类型的数据用不同的集中趋势测度值

4.低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据

5.选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定

I.众数(Mode)

1、集中趋势的测度值之一

2、出现次数最多的变量值

3、不受极端值的影响

4、可能没有众数或有几个众数

5、主要用于定类数据,也可用于定序数据和数值型数据

II.中位数(Median)

6、集中趋势的测度值之一

7、排序后处于中间位置上的值

8、不受极端值的影响

9、主要用于定序数据,也可用数值型数据,但不能用于定类数据

10、各变量值与中位数的离差绝对值之和最小,即

III.四分位数(Quartiles)

1.集中趋势的测度值之一

2.排序后处于25%和75%位置上的值

3.不受极端值的影响

4.主要用于定序数据,也可用于数值型数据,但不能用于定类数据

IV.均值(Mean)

1.集中趋势的测度值之一

2.最常用的测度值

3.一组数据的均衡点所在

4.易受极端值的影响

5.用于数值型数据,不能用于定类数据和定序数据

众数、中位数和均值的关系

二、离散程度的测度

定类数据:

异众比率

定序数据:

四分位差

定距和定比数据:

方差及标准差

I.异众比率

1.离散程度的测度值之一

2.非众数组的频数占总频数的比率

3.仅用于定类数据

4.用于衡量众数的代表性

II.四分位差

1.离散程度的测度值之一

2.也称为内距或四分间距

3.上四分位数与下四分位数之差

QD=QU-QL

4.反映了中间50%数据的离散程度

5.不受极端值的影响

6.用于衡量中位数的代表性

III.方差和标准差(VarianceandStd。

deviation)

1.离散程度的测度值之一

2.最常用的测度值

3.反映了数据的分布

4.反映了各变量值与均值的平均差异

5.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差

IV.偏态(kurtosis)

1.数据分布偏斜程度的测度

2.偏态系数=0为对称分布

3.偏态系数>0为右偏分布

4.偏态系数<0为左偏分布

V.峰度(skewness)

1.数据分布扁平程度的测度

2.峰度系数=3扁平程度适中

3.偏态系数<3为扁平分布

4.偏态系数>3为尖峰分布

三、描述统计量的软件实现

1、Excel

选择工具==>数据分析==>描述统计

即可输出大部分描述统计量。

但EXCEL只能按行或列进行分组统计,因此在编辑数据时要注意。

 

2、SPSS

SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在Analyze→DescriptiveStatistics菜单中,最常用的是列在最前面的四个过程:

●Frequencies过程的特色是产生频数表;

●Descriptives过程则进行一般性的统计描述;

●Explore过程用于对数据概况不清时的探索性分析;

●Crosstabs过程则完成计数资料和等级资料的统计描述和一般的统计检验;

●我们常用的X2检验也在其中完成。

2.1Frequencies过程

此过程可以方便地对数据按组进行归类整理,形成各变量的不同水平的频数分布表和图形,以便对各变量的数据特征和观测量分布状况有一个概括的认识。

频数分布表是描述性统计中最常用的方法之一。

它还可对数据的分布趋势进行初步分析。

【Statistics按钮】

●PercentileValues复选框组定义需要输出的百分位数,可计算四分位数(Quartiles)、每隔指定百分位输出当前百分位数(Cutpointsfor  equalgroups)、或直接指定某个百分位数(Percentiles),如直接指定输出P2.5和P97.5;

●Centraltendency复选框组用于定义描述集中趋势的一组指标:

均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum);

●Dispersion复选框组用于定义描述离散趋势的一组指标:

标准差(Std.deviation)、方差(Variance)、全距(Range)、最小值(Minimum)、最大值(Maximum)、均值标准误差(S.E.mean);

●Distribution复选框组用于定义描述分布特征的两个指标:

偏度系数(Skewness)和峰度系数(Kurtosis);

●Valuesaregroupmidpoints复选框当你输出的数据是分组频数数据,并且具体数值是组中值时,选中该复选框以通知SPSS,免得它犯错误。

【Chart按钮】

●Charttype单选钮组定义统计图类型,有四种选择:

无、条图(Barchart)、饼图(Piechart)、直方图Histogram),其中直方图还可以选择是否加上正态曲线(Withnormalcurve);

●ChartValues单选钮组定义是按照频数还是按百分比做图(即影响纵坐标刻度)。

例4.1利用房价原始数据图.Sav绘制频数表、直方图,计算均数、标准差、中位数M、p2.5和p97.5。

1.Analyze==>DescriptiveStatistics==>Frequencies

2.Variables框:

选入Price

3.单击Statistics钮:

4. 选中Mean、Std.deviation、Median复选框

5.单击Percentiles:

输入2.5:

单击Add:

输入97.5:

单击Add:

6.单击Continue钮

7.单击Charts钮:

8.选中Barcharts

9.单击Continue钮

10.单击OK。

最上方为表格名称,左上方为分析变量名,可见样本量N为105例,缺失值0例,均数Mean=220.72,中位数Median=213.00,标准差STD=47.108,P2.5=134.10,P97.5=326.35。

案例1:

利用居民储蓄调查表数据进行频数分析,实现:

目标一:

分析储户的户口和职业的基本情况;

提示:

为使频数分布表一目了然,可调整频数分布表中数据的输出顺序,如按频数的降序输出,户口按饼图输出,职业按条形图输出;

目标二:

分析储户一次存(取)款金额的分布,并对城镇储户和农村储户进行比较。

提示:

由于存(取)款金额数据为定距型变量,直接采用频数分析不利于对其分布形态的把握,因此考虑先用数据分组功能(Transform→Record)对数据分组后再编制频数分布表;

进行数据拆分,并分别计算城镇储户和农村储户的一次存(取)款金额的四分位数,并通过四分位数比较两者分布上的差异。

2.2Descriptives过程

可对变量进行描述统计量分析,计算并列出一系列相应的统计指标,包括平均值、算术和、标准差、最大值、最小值等,且可将原始数据转换成标准Z分值(标准正态评分值)并存入数据库。

选择菜单Analyze==>descriptive==>Descriptives对话框的界面如下所示:

【Savestandardizedvaluesasvariables复选框】

确定是否将原始数据的标准正态评分存为新变量。

案例2:

利用居民储蓄调查表数据计算基本描述统计量,实现:

目标一:

计算存(取)款金额的基本描述统计量,并分别对城镇储户和农村储户进行比较;

提示:

首先按照户口对数据进行拆分;

目标二:

分析储户一次存(取)款的数量是否存在不均衡现象。

提示:

可以从分析金额是否有大量异常值入手;

计算存(取)款金额的标准化值,并选中SaveStandardizedAsVariables选项,将自动计算存(取)款金额的标准化值,并存为Za5;

对Za5进行排序,并分为三组(Za5<=-3低金额组,-3=3高金额组)后进行频数分析;

观察低金额组(即低异常值组)和高金额组(即高异常值组)的比例,如异常组的总比例大于理论值0.3%,即认为存(取)款金额存在一定的不均衡现象。

2.3Explore过程

功能:

1.检查数据是否有错误

2.数值的分布特征

3.对数据的规律的初步观察

选择菜单Analyze==>descriptive==>Explore对话框的界面如下所示:

【Display单选钮组】

用于选择输出结果中是否包含统计描述、统计图或两者均包括。

【DependentList框】用于选入需要分析的变量。

【FactorList框】如果想让所分析的变量按某种因素取值分组分析,则在这里选入分组变量。

【Labelcasesby框】

选择一个变量,他的取值将作为每条记录的标签。

最典型的情况是使用记录ID号的变量。

【Statistics钮】

弹出Statistics对话框,用于选择所需要的描述统计量。

有如下选项:

●Descriptives复选框:

输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误及指定的均数可信区间。

●M-estimators复选框:

作中心趋势的粗略最大似然确定,输出四个不同权重的最大似然确定数。

●Outliers复选框:

输出五个最大值与五个最小值。

●Percentiles复选框:

输出第5%、10%、25%、50%、75%、90%、95%位数。

【Plot钮】

弹出Plot对话框,用于选择所需要的统计图。

有如下选项:

●Boxplots单选框组:

确定箱式图的绘制方式,可以是按组别分组绘制(Factorlevelstogether),也可以不分组一起绘制(Depentendstogether),或者不绘制(None)。

●Descriptive复选框组:

可以选择绘制茎叶图(Stem-and-leaf)和直方图(Histogram)。

●Normalityplotswithtest复选框:

绘制正态分布图并进行变量是否符合正态分布的检验。

●Spreadvs.LevelwithLeveneTest单选框组:

当选择了分组变量时,绘制spread-versus-level图,设置绘图时变量的转换方式,并进行组间方差齐性检验。

【Options钮】

用于选择对缺失值的处理方式,可以是不分析有任一缺失值的记录、不分析计算某统计量时有缺失值的记录,或报告缺失值。

Statistic

Std.Error

price

Mean

220.72

4.597

 

95%ConfidenceIntervalforMean

LowerBound

211.61

 

UpperBound

229.84

 

5%TrimmedMean

219.55

 

Median

213.00

 

Variance

2219.125

 

Std.Deviation

47.108

 

Minimum

125

 

Maximum

345

 

Range

220

 

InterquartileRange

65

 

Skewness

.473

.236

 

Kurtosis

-.274

.467

 

 

 

 

 

 

 

 

以下是房价茎叶图:

price

priceStem-and-LeafPlot

FrequencyStem&Leaf

3.001.223

3.001.455

16.001.6667777777777777

20.001.88888888888999999999

14.002.00000000001111

14.002.22222222233333

13.002.4444444455555

8.002.66666777

7.002.8899999

4.003.0111

2.003.22

1.003.4

Stemwidth:

100

Eachleaf:

1case(s)

以上是茎叶图,整数位为茎,小数位为叶。

这样可以非常直观的看出数据的分布范围及形态,在国外非常流行。

以上是箱线图,中间的黑粗线为均数,红框为四分位间距的范围,上下两个细线为最大、最小值。

案例3:

利用居民储蓄调查表数据分析储户存(取)款金额的分布情况。

2.4Crosstabs过程(列联表分析)

Crosstabs过程用于分析多个变量不同取值下的分布,掌握多变量的联合分布特征,进而分析变量之间的相互影响和关系。

称列联表分析或交叉分组下的频数分析。

两大基本任务:

1)根据收集到的样本数据编制二维或多维交叉列联表;

2)在交叉列联表的基础上,对两两变量间是否存在一定的相关性进行分析。

Crosstabs过程不能产生一维频数表(单变量频数表),该功能由Frequencies过程实现。

交叉列联表的卡方检验:

检验行变量和列变量是否独立?

◆建立零假设(H0);列联表分析中卡方检验的零假设为行变量与列变量独立;

◆选择和建立检验统计量;列联表分析中卡方检验的检验统计量是Pearson卡方统计量。

◆确定显著性水平和临界值;

◆结论和决策。

方法一:

如果卡方的观测值大于卡方临界值,可拒绝零假设;

方法二:

如果卡方观测值的概率p值小于等于α,拒绝零假设。

Ø在SPSS中,上述列联表卡方检验的过程,除用户要自行确定显著性水平和进行决策外,其余各步都是SPSS自动完成的;

ØSPSS将自动计算卡方统计量的观测值以及大于等于该值的概率P值;

Ø因此,在应用中,用户只要明确零假设,便可方便地按照第二种决策方式进行决策。

Ø事实上,所有的假设检验均是这样进行的。

例4.2利用下表格数据,进行列联表分析。

处理

愈合

未愈合

合计

呋喃硝胺

54

8

62

甲氰咪胍

44

20

64

合计

98

28

126

解:

由于此处给出的直接是频数表,因此在建立数据集时可以直接输入三个变量――行变量、列变量和指示每个格子中频数的变量,然后用WeightCases对话框指定频数变量,最后调用Crosstabs过程进行X2检验。

假设三个变量分别名为R、C和W,则数据集结构和命令如下:

R

C

W

1.00

1.00

54.00

1.00

2.00

44.00

2.00

1.00

8.00

2.00

2.00

20.00

1.Data==>WeightCases

2.WeightCasesby单选框:

选中

3.FreqencyVariable:

选入W

4.单击OK钮

5.Analyze==>DescriptiveStatistics==>Crosstabs

6.Rows框:

选入R

7.Columns框:

C

8.Statistics钮:

Chi-square复选框:

选中:

单击Continue钮

9.单击OK钮

从左到右为:

检验统计量值(Value)、自由度(df)、双侧近似概率(Asymp.Sig.2-sided)、双侧精确概率(ExactSig.2-sided)、单侧精确概率(ExactSig.1-sided);

从上到下为:

Pearson卡方(PearsonChi-Square即常用的卡方检验)、连续性校正的卡方值(ContinuityCorrection)、对数似然比方法计算的卡方(LikelihoodRatio)、Fisher‘s确切概率法(Fisher’sExactTest)、线性相关的卡方值(LinearbyLinearAssociation)、有效记录数(NofValidCases)。

另外,ContinuityCorrection和Pearson卡方值处分别标注有a和b,表格下方为相应的注解:

a.只为2*2表计算。

b.0%个格子的期望频数小于5,最小的期望频数为13.78。

因此,这里无须校正,直接采用第一行的检验结果,即X2=6.133,P=0.013,如给定显著性α为0.05,由于卡方的频率p值小于α,因此拒绝零假设,即认为两组方法治疗效果有差异。

如果交叉列联表中有20%以上单元格中的期望频数小于5,则一般不宜使用卡方检验。

在这种情况下,可以采用似然率卡方检验等方法进行修正。

例4.3以数据加工(职工数据).sav为例,检验职称和文化程度是否有关联?

1.Analyze==>DescriptiveStatistics==>Crosstabs;

2.如果进行二维列联表分析,将行变量职称(zc)选择到Row(s)框,将列变量文化程度(xl)选择到Column框中;

3.选择Displayclusteredbarcharts选项,指定绘制各变量交叉分组下频数分布柱形图,suppresstables表示不输出列联表,仅分析行列变量间关系;

4.单击Cell按钮指定列联表单元格中的输出内容;

5.单击Format按钮指定列联表各单元的输出排列顺序,SPSS默认以行变量取值的升序排列;

6.单击Statistics按钮指定用哪种方法分析行变量和列变量间的关系,一般选择Chi-Square卡方检验。

案例4:

利用居民储蓄调查表数据进行计算,实现以下两个目标:

目标一:

分析城镇储户和农村储户对“未来两年内收入状况的变化趋势”是否持相同的态度;

提示:

列联表的行变量为户口(a13),列变量为未来收入情况(a3),在列联表中输出各种百分比,期望频数、剩余、标准化剩余,同时显示各交叉分组下频数分布柱形图,并利用卡方检验方法,对城镇和农村储户对该问题的态度是否一致进行分析;

目标二:

分析城镇和农村储户对储蓄是否合算的认同是否一致。

提示:

该分析中列联表的行变量为户口(a13),列变量为什么合算(a1),在列联表的基础上进行卡方检验。

补充:

多选项分析

多选项分析是针对问卷调查中的多选项问题的。

对于多选项问题由于答案个数不止一个,如果仍按单选问题的方式设置SPSS变量,那么该变量虽然能够存储多个答案,但却无法直接支持对问题的分析。

即对一个多选项问题仅设置一个SPSS变量在数据处理和分析中是行不通的。

●将多选项问题分解;(前面已讲过)

●利用前面讲到的频数分析或交叉分组下的频数分析等方法进行分析。

多选项频数分析或多选项交叉分组下的频数分析

1、定义多项选择变量集

将多选项问题分解并设置成多个变量后,指定这些变量为一个集合。

1、选择菜单Analyze==>MultipleResponse==>Definesets;

2、从数值型变量中将进入多选项变量集的变量选择到Variablesinsets框中;

3、在variablesarecodedas框中指定多选项变量集中的变量是按照哪种方法分解的。

Dichotomies表示以多选项二分法分解,并在countedvalue中输入对哪组值进行分析。

Spss规定等于该值的样本为一组,其余样本为另一组;categories表示以多选项分类法分解,并在Range框和through框中输入变量取值的最小值和最大值。

4、为多选项变量集命名,系统会自动在该名字前加字符$;

5、单击Add按钮将定义好的多选项变量集加到MultResponseSets框中。

2、定义多项选择变量集

将多选项问题分解并设置成多个变量后,指定这些变量为一个集合。

选择菜单Analyze==>MultipleResponse==>Definesets

3、多选项频数分析操作或多选项交叉分组下的频数分析

选择菜单Analyze==>MultipleResponse==>Frequencies

或选择菜单Analyze==>MultipleResponse==>Crosstabs

与前Frequencies和Crosstabs操作类似。

案例5:

利用居民储蓄调查表数据进行分析,实现以下两个分析目标:

分析储户的储蓄目的;

提示:

即回答储蓄的最主要目的是什么,占到多少?

什么的比例最少?

分析不同年龄段储户的储蓄目的。

提示:

采用多选项交叉分组下的频数分析。

回答20岁以下储户中存钱主要是为了什么?

其他如20~35岁的储户,35~50岁的储户,50岁以上的储户他们存钱的最主要的目的又是什么呢?

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 经管营销 > 经济市场

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1