3描述性统计分析实习.docx-资源下载

3描述性统计分析实习.docx

1、3描述性统计分析实习描述性统计分析实习一、实习目的统计分析的目的在于研究总体特征，而描述性统计分析是统计分析的第一步，做好这第一步是进行正确统计推断的先决条件。通过描述性统计分析可以大致了解数据的分布类型和特点、数据分布的集中趋势和离散程度，或对数据进行初步的探索性分析（包括检查数据是否有错误，对数据分布特征和规律进行初步观察）。通过描述性统计分析的实习，使我们能利用正确的统计方法对数据进行适当的整理和显示，描述并探索出数据内在的数量规律性，掌握统计思想，为继续学习推论统计方法及应用各种统计方法解决实际问题打下必要而又坚实的基础。二、实习原理： Descriptives描述统计量分析通过

2、平均数、算术和、最大值、最小值、全距和均值标准误差等统计量变量进行描述。且可将原始数据转换成标准Z分值并存入数据库。 Explore探索分析用于对数据分布状况不清时的探索性分析。探索分析的内容包括：第一，检查数据是否有错误，过大或过小的数据均有可能是奇异值、影响点或是错误数据。对这样的数据要找出并加以剔除，因为奇异值和错误数据往往对分析结果影响很大，导致不能真实掌握数据的总体特征。第二，了解数据分布特征。数据分布特征对统计分析的重要性很大，许多分析方法对数据的分布都有一定的要求，如某些分析方法要求样本数据来自正态总体，对两组数据均值差异性的比较分析，需要根据其方差是否相等来选择计算公式

3、。第三，对数据规律进行初步观察，如两个变量是否有某种相关性。探索分析将提供在分组和不分组的情况下常用的统计量与图形，其结果一般以图形的方式将奇异值、非正常值、遗漏的数据以及数据自身的特点表示出来。探索分析的过程也可以用于确定奇异值、遗漏值和进行假设检验。三、实验内容（一）使用Descriptives进行描述性统计分析【例 1】测量18台笔记本电脑重量如下表，对其进行描述性统计量分析。1. 操作步骤按“Analyze(分析)Descriptive Statistics(描述统计)Descriptives(描述统计分析)”顺序，如下图所示。打开Descriptives对话框，如下图所示。将

4、变量“重量”移入Variable(变量)栏中，作为待分析的变量。选择Save Standardized values as variables(将标准化数值保存为变量)复选项，对变量进行标准化产生相应的Z分值，并作为新变量保存在当前数据窗口中。其变量名为相应变量名加前缀Z。如重量所对应的新变量名为Z重量。选择Option(选项)按钮，打开Option对话框，选择Mean、Sum、Std.deviation、Minimum、Maximum、Range、S.E.mean、Variable list项，如图所示。最后在主对话框中选中OK按钮，提交运行。 2. 输出结果及分析表中，可以看到各种统计量

5、的值，包括观测量个数、全距、最大值、最小值、算术和、平均数、均值标准误、标准差、方差、偏度、峰度。打开原数据窗口，可以看到多了一列“Z重量”，这是重量的Z分值，如图所示，可以将其保存起来作其他分析。（二）使用Explore探索分析进行描述性统计分析【例2 】某健身俱乐部20位会员的身高数据如下表，对其做探索分析。1. 操作步骤按“Analyze(分析)Descriptive Statistics (描述统计) Explore(探索分析)”顺序，如图所示。打开Explore对话框，如图所示。选择“身高”变量移入Dependent List(因变量列表)框，作为待分析的变量；选择“性别”变量

6、移入Factor List(因子列表)框，作为分组变量。在Display(显示)栏中，选择Both(两者)项，表示输出图形及描述统计量。选择Statistics(统计)按钮，打开Statistics对话框，如下图所示。选择Descriptives(描述)复选项，要求输出基本描述统计量如平均数、中位数、众数、5%的调整平均值、标准误、方差、标准差、最大值、最小值、全距、等距四分位数、峰度与偏度及它们的标准误；选择M-estimation(M-估计量)复选项，求出集中趋势的稳健估计，该统计量是利用迭代方法计算出来，一般来说受异常值影响要小的多。如果该统计量离均数和中位数较远，则说明数据中可能

7、存在异常值，此时宜用该估计值替代均数以反映集中趋势。一共会输出Huber、Andrew、Hampel和Tukey四种M统计量，其中Huber法适用于数据接近正态分布的情况，另三种则适用于数据中有许多异常值时；选择Outliers(异常点)复选项，输出显示5个最大值与最小值，在输出窗口中它们被标明为极端值。按Continue按钮，返回Explore对话框。在Explore对话框选择Plots(绘图)按钮，打开Plots对话框，如下图所示。 Boxplots(箱图)单选框组是确定箱式图的绘制方式，选择Factor levels together(因子水平一起)按组别分组绘制，当然你也可选择De

8、pendents together不分组一起绘制，或者None不绘制； Descriptives(描述)复选框是选择绘制Stem-and-leaf茎叶图还是Histogram直方图，我们选择前者； Spread vs. Level with Levene Test(展布-水平图及Levene检验)单选框组，属于高级分析功能，当选入分组变量时可用，其目的是判断各组间的离散程度是否相同，并为此寻求一个比较合适的变量变换方法。具体会输出分布水平图，给出回归直线斜率，并进行稳健的Levene方差齐性检验。 None(无)：表示什么都不做，系统默认。 Power estimation(幂估计)：用于帮助

9、估计对原始数据应当进行指数为多少的幂函数变换才能使得各组间的方差最齐。所做出的散点图横轴为各组中位数的自然对数，纵轴为各组四分位数间距的自然对数。图形下方会给出相应的直线斜率和最佳转换幂次的估计值。 Transformed(转换)：提供了几种常用的幂函数变换方法，输出的散点图将按照变换后的数据来绘制，横轴是变换后的中位数，纵轴是变换后的四分位间距。 Untransformed(不转换)：不对数据进行转换，直接使用原始数据绘图，这相当于幂次为1的变换。我们选择Power estimation (幂估计)项，按continue按钮返回Explore主对话框。在主对话框中，选中OK按钮，提交运行

10、。2. 输出结果与分析俱乐部20位会员基本数据表：简要地说明了数据的基本情况，包括总数、有效值数目、缺失值数目。身高变量的描述统计量表：是按性别分组后的常用描述统计量表，上半部分是男生的，下半部分是女生的。俱乐部20位会员按不同的方法分男女两组数据：表下面的a、b、c、d分别表示四种加权常数，此表的结果是使用4种不同的方法计算出的M估计量的结果。它们的值与身高变量的描述统计量表中的均值比较，发现均值（女性=158.6，男性=173.80）与M估计值大体一致，说明数据分布与正态分布基本无太大的偏差，平均值受影响不大。身高变量的极端值：显示了分组后会员身高的极端值分配，最大值和最小各取

11、5个。方差齐性检验：上表是方差齐性检验，零假设是分组后的方差为相等的。表中四行是依据不同的统计量得到的检验，分别是基本于平均数、中位数、中位数与调整后的自由度和调整后的平均数。从中可看出，其显著性均大于0.05，不能拒绝零假设，即可以认为男职员和女职员的身高的方差是无差异的。茎叶图：下图为茎叶图。虽然通过直方图可以大体上看出一组数据的分布状况，但直方图没有给出具体的数值，而茎叶图既能给出数据的分布状况，又能给出每一个原始数值。茎叶图由“茎”和“叶”两部分构成，其图形是由数字组成的。茎叶图类似于横置的直方图，同时保留了原始数据的信息。通过茎叶图，可以看出数据的分布形状及数据的离散状况，比如

12、，分布是否对称，数据是否集中，是否有极端值等等。图中从左到右分为三部分：频率、茎和叶。茎是整数部分，叶是小数部分，Stem width表示茎宽。身高变量分组箱形图：上图箱形图，通过此图不仅可以反映出一组数据分布的特征，还可以进行多组数据分布特征的比较。各部分的含义为：方箱是盒形图的主体，上下边为四分位数，中心粗线为中位数，变量的50%的观测值落在这一区域中。方箱上下两条纵向直线是触须线，触须线外的两端线为最大值与最小值（指除奇异值外的变量值）。奇异值用“o”表示。由图可以看出，女性平均身高要低于男性，女性与男性身高基本呈现对称分布。散布-层次图图中显示出数据进行幂转换的幂值=1

13、.000，即要使分组中的数据的方差相同，SPSS建议进行幂转换的幂值的大小。两点的斜率为0.000。四、作业1、统计每天加工零件数的均值(Mean)、中位数(Median)、众数(Mode)、总和(Sum)、标准差(Std.Deviation)、方差(Variance)、极差(Range)、最小值(Minimum)、最大值(Maximum)、偏度（Skewness）和峰度(Kurtosis)等内容。工人编号加工零件数工人编号加工零件数110616972841710331101810649119955109201066912185711122106810723101912124105101052596119926105129427107131192812814882911115118301012、某公司38名职员情况的调查数据，如下表3-10所示，id表示职员编号，gender表示性别（女性Female 男性Male），salary表示工资，利用Explore过程分析这38名职员工资的分布情况。

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？