3描述性统计分析实习.docx

资源描述

3描述性统计分析实习.docx

《3描述性统计分析实习.docx》由会员分享，可在线阅读，更多相关《3描述性统计分析实习.docx（13页珍藏版）》请在冰豆网上搜索。

3描述性统计分析实习.docx

3描述性统计分析实习

描述性统计分析实习

一、实习目的

⏹统计分析的目的在于研究总体特征，而描述性统计分析是统计分析的第一步，做好这第一步是进行正确统计推断的先决条件。

通过描述性统计分析可以大致了解数据的分布类型和特点、数据分布的集中趋势和离散程度，或对数据进行初步的探索性分析（包括检查数据是否有错误，对数据分布特征和规律进行初步观察）。

⏹通过描述性统计分析的实习，使我们能利用正确的统计方法对数据进行适当的整理和显示，描述并探索出数据内在的数量规律性，掌握统计思想，为继续学习推论统计方法及应用各种统计方法解决实际问题打下必要而又坚实的基础。

二、实习原理：

⏹Descriptives描述统计量分析

通过平均数、算术和、最大值、最小值、全距和均值标准误差等统计量变量进行描述。

且可将原始数据转换成标准Z分值并存入数据库。

⏹Explore探索分析

用于对数据分布状况不清时的探索性分析。

探索分析的内容包括：

第一，检查数据是否有错误，过大或过小的数据均有可能是奇异值、影响点或是错误数据。

对这样的数据要找出并加以剔除，因为奇异值和错误数据往往对分析结果影响很大，导致不能真实掌握数据的总体特征。

第二，了解数据分布特征。

数据分布特征对统计分析的重要性很大，许多分析方法对数据的分布都有一定的要求，如某些分析方法要求样本数据来自正态总体，对两组数据均值差异性的比较分析，需要根据其方差是否相等来选择计算公式。

第三，对数据规律进行初步观察，如两个变量是否有某种相关性。

探索分析将提供在分组和不分组的情况下常用的统计量与图形，其结果一般以图形的方式将奇异值、非正常值、遗漏的数据以及数据自身的特点表示出来。

探索分析的过程也可以用于确定奇异值、遗漏值和进行假设检验。

三、实验内容

（一）使用Descriptives进行描述性统计分析

【例1】测量18台笔记本电脑重量如下表，对其进行描述性统计量分析。

1.操作步骤

按“Analyze（分析）→DescriptiveStatistics（描述统计）→Descriptives（描述统计分析）”顺序，如下图所示。

⏹打开Descriptives对话框，如下图所示。

将变量“重量”移入Variable（变量）栏中，作为待分析的变量。

选择SaveStandardizedvaluesasvariables（将标准化数值保存为变量）复选项，对变量进行标准化产生相应的Z分值，并作为新变量保存在当前数据窗口中。

其变量名为相应变量名加前缀Z。

如重量所对应的新变量名为Z重量。

⏹选择Option（选项）按钮，打开Option对话框，选择Mean、Sum、Std.deviation、Minimum、Maximum、Range、S.E.mean、Variablelist项，如图所示。

最后在主对话框中选中OK按钮，提交运行。

2.输出结果及分析

表中，可以看到各种统计量的值，包括观测量个数、全距、最大值、最小值、算术和、平均数、均值标准误、标准差、方差、偏度、峰度。

打开原数据窗口，可以看到多了一列“Z重量”，这是重量的Z分值，如图所示，可以将其保存起来作其他分析。

（二）使用Explore探索分析进行描述性统计分析

【例2】某健身俱乐部20位会员的身高数据如下表，对其做探索分析。

1.操作步骤

⏹按“Analyze（分析）→DescriptiveStatistics（描述统计）→Explore（探索分析）”顺序，如图所示。

⏹打开Explore对话框，如图所示。

选择“身高”变量移入DependentList（因变量列表）框，作为待分析的变量；选择“性别”变量移入FactorList（因子列表）框，作为分组变量。

在Display（显示）栏中，选择Both（两者）项，表示输出图形及描述统计量。

⏹选择Statistics（统计）按钮，打开Statistics对话框，如下图所示。

⏹选择Descriptives（描述）复选项，要求输出基本描述统计量如平均数、中位数、众数、5%的调整平均值、标准误、方差、标准差、最大值、最小值、全距、等距四分位数、峰度与偏度及它们的标准误；

⏹选择M-estimation（M-估计量）复选项，求出集中趋势的稳健估计，该统计量是利用迭代方法计算出来，一般来说受异常值影响要小的多。

如果该统计量离均数和中位数较远，则说明数据中可能存在异常值，此时宜用该估计值替代均数以反映集中趋势。

一共会输出Huber、Andrew、Hampel和Tukey四种M统计量，其中Huber法适用于数据接近正态分布的情况，另三种则适用于数据中有许多异常值时；

⏹选择Outliers（异常点）复选项，输出显示5个最大值与最小值，在输出窗口中它们被标明为极端值。

按Continue按钮，返回Explore对话框。

⏹在Explore对话框选择Plots（绘图）按钮，打开Plots对话框，如下图所示。

⏹Boxplots（箱图）单选框组是确定箱式图的绘制方式，选择Factorlevelstogether（因子水平一起）按组别分组绘制，当然你也可选择Dependentstogether不分组一起绘制，或者None不绘制；

⏹Descriptives（描述）复选框是选择绘制Stem-and-leaf茎叶图还是Histogram直方图，我们选择前者；

⏹Spreadvs.LevelwithLeveneTest（展布-水平图及Levene检验）单选框组，属于高级分析功能，当选入分组变量时可用，其目的是判断各组间的离散程度是否相同，并为此寻求一个比较合适的变量变换方法。

具体会输出分布——水平图，给出回归直线斜率，并进行稳健的Levene方差齐性检验。

⏹None（无）：

表示什么都不做，系统默认。

⏹Powerestimation（幂估计）：

用于帮助估计对原始数据应当进行指数为多少的幂函数变换才能使得各组间的方差最齐。

所做出的散点图横轴为各组中位数的自然对数，纵轴为各组四分位数间距的自然对数。

图形下方会给出相应的直线斜率和最佳转换幂次的估计值。

⏹Transformed（转换）：

提供了几种常用的幂函数变换方法，输出的散点图将按照变换后的数据来绘制，横轴是变换后的中位数，纵轴是变换后的四分位间距。

⏹Untransformed（不转换）：

不对数据进行转换，直接使用原始数据绘图，这相当于幂次为1的变换。

⏹我们选择Powerestimation（幂估计）项，按continue按钮返回Explore主对话框。

⏹在主对话框中，选中OK按钮，提交运行。

2.输出结果与分析

俱乐部20位会员基本数据表：

简要地说明了数据的基本情况，包括总数、有效值数目、缺失值数目。

身高变量的描述统计量表：

是按性别分组后的常用描述统计量表，上半部分是男生的，下半部分是女生的。

俱乐部20位会员按不同的方法分男女两组数据：

表下面的a、b、c、d分别表示四种加权常数，此表的结果是使用4种不同的方法计算出的M估计量的结果。

它们的值与身高变量的描述统计量表中的均值比较，发现均值（女性=158.6，男性=173.80）与M估计值大体一致，说明数据分布与正态分布基本无太大的偏差，平均值受影响不大。

身高变量的极端值：

显示了分组后会员身高的极端值分配，最大值和最小各取5个。

方差齐性检验：

上表是方差齐性检验，零假设是分组后的方差为相等的。

表中四行是依据不同的统计量得到的检验，分别是基本于平均数、中位数、中位数与调整后的自由度和调整后的平均数。

从中可看出，其显著性均大于0.05，不能拒绝零假设，即可以认为男职员和女职员的身高的方差是无差异的。

茎叶图：

⏹下图为茎叶图。

虽然通过直方图可以大体上看出一组数据的分布状况，但直方图没有给出具体的数值，而茎叶图既能给出数据的分布状况，又能给出每一个原始数值。

茎叶图由“茎”和“叶”两部分构成，其图形是由数字组成的。

茎叶图类似于横置的直方图，同时保留了原始数据的信息。

通过茎叶图，可以看出数据的分布形状及数据的离散状况，比如，分布是否对称，数据是否集中，是否有极端值等等。

⏹图中从左到右分为三部分：

频率、茎和叶。

茎是整数部分，叶是小数部分，Stemwidth表示茎宽。

身高变量分组箱形图：

上图箱形图，通过此图不仅可以反映出一组数据分布的特征，还可以进行多组数据分布特征的比较。

各部分的含义为：

⏹方箱是盒形图的主体，上下边为四分位数，中心粗线为中位数，变量的50%的观测值落在这一区域中。

⏹方箱上下两条纵向直线是触须线，触须线外的两端线为最大值与最小值（指除奇异值外的变量值）。

⏹奇异值用“o”表示。

⏹由图可以看出，女性平均身高要低于男性，女性与男性身高基本呈现对称分布。

散布-层次图

⏹图中显示出数据进行幂转换的幂值=1.000，即要使分组中的数据的方差相同，SPSS建议进行幂转换的幂值的大小。

两点的斜率为0.000。

四、作业

1、统计每天加工零件数的均值（Mean）、中位数（Median）、众数（Mode）、总和（Sum）、标准差（Std.Deviation）、方差（Variance）、极差（Range）、最小值（Minimum）、最大值（Maximum）、偏度（Skewness）和峰度（Kurtosis）等内容。

工人编号

加工零件数

工人编号

加工零件数

106

103

110

106

109

106

111

106

107

101

121

105

107

119

128

111

118

101

2、某公司38名职员情况的调查数据，如下表3-10所示，id表示职员编号，gender表示性别（女性Female男性Male），salary表示工资，利用Explore过程分析这38名职员工资的分布情况。

展开阅读全文