spss第四章描述统计简介.ppt

资源描述

spss第四章描述统计简介.ppt

《spss第四章描述统计简介.ppt》由会员分享，可在线阅读，更多相关《spss第四章描述统计简介.ppt（53页珍藏版）》请在冰豆网上搜索。

spss第四章描述统计简介.ppt

2022/11/51第四章描述统计量简介2022/11/52第四章样本统计量描述一、样本数据位置特征的统计量二、样本分布特征的统计量三、样本数据离散程度特征的统计量调查杭州市居民收入情况，得到100个样本数据，根据这些数据，你最想得到哪些信息？

统计量：

用来描述样本特征的概括性数字度量调查顾客对产品的满意度情况，获得100个样本数据，能分析出哪些信息？

调查大学生群体中对手机品牌的偏好程度，你如何描述调查结果？

2022/11/53一、样本数据的位置特征对数据中心的描述样本众数（SampleMode）分类数据样本中位数（samplemedian）定序数据样本均值（Samplemean）定比数据2022/11/54

（一）分类数据集中趋势度量众数样本众数定义1：

样本数据集合中出现频次最高的那个样本值为众数。

众数单一众数复众数2022/11/55众数的计算可以简单地从频次统计表中查出（频次最大的样本值就是该样本数据集合的众数）。

也可以从条形图上看出（最高竖条所代表的样本值就是该样本数据集合的众数）。

如：

一次调查结果显示，大学生对垃圾分类行为的认识状况如下：

没必要，没必要，没必要，有必要，有必要，有必要，有必要，有必要，有必要，无所谓2022/11/562022/11/57样本众数定义样本众数定义22对于刻度级的样本数据集合，在对数据等区间分组的直方图中，最高的矩形所表示的数据区间，称为该数据集合的众数区间，简称众数。

众数区间也有单一众数与复众数之分。

如：

10个样本收入情况如下：

2000，2200，2300，2400，3000，3400，3400，4000，4500，4500。

2022/11/582022/11/59频次与频率：

描述样本数据结构的基本特征一、频次与频率的基本概念1.频次（Frequency）：

在有限的样本数据集合中，同样的数据值出现的次数。

2.频率（PercentageorRelativeFrequency）：

如果样本容量为n，那么，某个样本值出现的频率该样本值出现的频次/n2022/11/510分类数据或顺序数据描述频次与频率的图形方法v饼图（PieChart）#v条形图#2022/11/5112022/11/512图图.调查中不同受教育程度出现的频率调查中不同受教育程度出现的频率2022/11/513样本数据集合的基本特征的延伸：

累积频率样本数据集合的基本特征的延伸：

累积频率（CumulativePercentageCumulativePercentage）累积频率的概念与表格表示：

累积频率的概念与表格表示：

设设X1X2Xm,mn，n是样本数据集合中的样本值的总是样本数据集合中的样本值的总个数。

若把样本值小于等于某个样本数据个数。

若把样本值小于等于某个样本数据Xi的频率都累加起来，的频率都累加起来，就得到就得到“小于等于小于等于Xi”的累积频率。

的累积频率。

2022/11/514累积频率（累积频率（CumulativePercentageCumulativePercentage）的计算）的计算以例以例.为分析对象，按照上述原则，可以计算出小于等于各个为分析对象，按照上述原则，可以计算出小于等于各个Xi的累积频率，见表的累积频率，见表.表表3.1.8某品牌牙膏价格某品牌牙膏价格Xi的累积频率的累积频率价格9.939.959.969.979.989.991010.0110.0210.0310.0410.0510.06频次1112344423221频率3.333.333.336.671013.3313.3313.336.67106.676.673.33累积频率3.336.671016.6726.674053.3366.6773.3383.339096.67100注意：

只有顺序级以上的样本数据才存在累积频率的问题名义级样本数据不存在累计频率的问题2022/11/5152022/11/5162022/11/517频数分析过程的spss操作

（1）建立或打开一个数据文件，执行AnalyzeDescriptiveStatisticsFrequencies。

打开Frequencies对话框频数定类分析2022/11/518频数分析过程

（2）确定输出选择项单击Statistics按钮，打开统计量选择对话框选择PercentileValues栏中的选项，输出所选变量的百分值Dispersion（离差）栏，用于指定输出反映变量离散程度的统计量CentralTendency（集中趋势）栏，用于指定输出反映变量集中趋势的统计量Distribution（分布特征）栏，用于指定输出描述分布形状和特征的统计量2022/11/519频数分析过程（3）单击chart按钮。

打开统计图对话框，对图形类型进行设置。

（4）单击Format按钮，打开格式对话框Orderby排序组栏，用于指定频数表中变量的排序2022/11/520频数实习1：

打开数据文件：

“规划调查资料.sav”统计调查对象的基本信息，完成下表：

基本信息频数频率性别男性女性地区农村省会城市中小城市县镇所在年级大一大二大三大四2022/11/521频率分析实习2一家电脑公司为了对比不同品牌的电脑在一季度和二季度的销售情况，搜集到下列数据，试绘制图表比较不同品牌电脑的销售情况；不同季度电脑的销售情况。

电脑品牌一季度二季度联想256468IBM285397康柏247328戴尔5636882022/11/522频数实习3：

某行业管理局所属40个企业2002年的产品销售收入数据见数据文件：

40企业产品销售收入.sav1.如果按照规定：

销售收入在125万元以上为先进企业，115125万元为良好企业，10511万元为一般企业，105万元以下为落后企业，请按先进企业、良好企业、一般企业、落后企业进行分组并统计频率与累积频率。

并用饼状图表示。

2022/11/523

（二）定序数据集中趋势度量中位数定义：

设，对样本数据集合中的所有数据的排序结果为X1X2Xn，n为样本容量，则上述排序的序列中，处于“正中间位置”上的数据，称为样本中位数。

当n为奇数时：

正中间位置号码=（n+1）/2样本中位数=X（n+1）/2当n为偶数时：

正中间位置号码=（n+1）/2是小数，处于n/2与（n/2）+1之间。

样本中位数=（Xn/2+X（n/2）+1）/2如5位同学的学习成绩：

33，33，33，44，55。

中间位置是第三位，中位数：

3。

如果六位同学：

33，33，44，55，55，55。

中间位置是3与4位中间的位置，中位数为：

（45）/2=4.52022/11/524频数分析主对话框中点击statistics功能按钮2022/11/525Ststistic对话框2022/11/526（三）定比数据集中趋势度量（三）定比数据集中趋势度量均值均值样本均值仅适用于刻度级的数据计算公式为：

式中，xi，i1，2，n，是样本观察值（样本数据），所以样本均值是一个数值。

2022/11/527均值计算的spss操作Analyze主菜单下DescriptivestatisticsDescriptive。

打开Descriptive对话框定比2022/11/528点击options按钮，定义统计量选项2022/11/529Savestandardizedvalueasvariables选项:

将标准化值作为新变量保存。

标准化值给出了一组数据中各数值的相对位置，比如，如果某个数值的标准分数为1.5，表示该数值高于平均数的1.5倍的标准差。

标准分数只是将原始数据进行了线性变换，它并没有改变一个数据在该组数据中的位置，也没有改变该组数据分布的形状，而是将该组数据变为平均数为0，标准差为1。

2022/11/5302022/11/5312022/11/532二、描述样本分布特征的统计量二、描述样本分布特征的统计量n1.峰度：

描述某变量所有取值分布形态陡缓程度的统计量。

n峰度为0表示其数据分布与正态分布的陡缓程度相同；峰度大于0表示比正态分布高峰要更陡峭，为尖顶峰；峰度小于0表示比正态分布的高峰要平坦，为平顶峰。

2022/11/533二、描述样本分布特征的统计量二、描述样本分布特征的统计量n2.偏度：

描述某变量所有取值分布形态的对称性的统计量简称SK。

n偏度为0表示其数据分布形态与正态分布偏度相同，左右对称；偏度大于0表示正偏差数值较大，为正偏和称右偏，有一条长尾拖在右边；偏度小于0则相反。

nSK的绝对值大于1时，被称为高度偏态分布，当SK的绝对值大于0.5小于1时被称为中等偏态分布。

2022/11/5342022/11/5352022/11/536三三样本数据的离散特征样本数据的离散特征本部分应掌握的主要内容

（一）对样本数据离散特征的点状描述：

极值、四分点与百分位点

（二）对样本数据离散特征的区间描述：

极差、四分位距与离差（三）离散状况的统计描述：

样本方差2022/11/537

（一）

（一）样本数据的离散特征样本数据的离散特征离散特征点状描述区间描述极值四分点百分位点极差极差四分位距离差平方和样本离差2022/11/5381.1.对样本数据的离散特征点状描述对样本数据的离散特征点状描述1）极大值（Maximum）与极小值（Minmum）:

这两个样本值从一定视角反映了样本数据集合中样本值的离散状况。

2）下四分点（LowerQuartile）与上四分点（UpperQuartile）3）上下百分位点（Percentile）2022/11/539下四分点与上四分点下四分点与上四分点下四分位点：

下四分位点：

把排序后的样本数据集合分成左右两部分，使左面部分包含25%的样本总个数，右边部分包含75%的样本总个数。

下四分位点Q1的位置=（n+1）*0.25Q12022/11/540下四分点与上四分点下四分点与上四分点上上四四分分位位点点：

把排序后的样本数据集合分成左右两部分，使左面部分包含75%的样本总个数，右边部分包含25%的样本总个数。

上四分位点Q3的位置=（n+1）*0.75Q32022/11/541下四分点下四分点QQ11的值与上四分点的值与上四分点QQ33的值的值当当下下四四分分位位点点与与上上四四分分位位点点的的位位置置为为整整数数时时，相相应应整整数数位位置置上上的的样样本本值值就就是是QQ11,Q,Q33的的值值。

当当下下四四分分位位点点的的位位置置与与上上四四分分位位点点的的位置不为整数时，位置不为整数时，QQ11,Q,Q33的计算公式：

的计算公式：

QQ11=QQ11位位置置左左边边的的样样本本值值+（QQ11位位置置右右边边的的样样本值本值-Q-Q11位置左边的样本值）位置左边的样本值）*0.250.25QQ33=QQ33位位置置左左边边的的样样本本值值+（QQ33位位置置右右边边的的样样本值本值-Q-Q33位置左边的样本值）位置左边的样本值）*0.750.752022/11/542

（二）对样本数据离散特征的区间描述：

极差、四分位距与离差1.极差（range）:

极大值与极小值之差。

极差受到极端值的影响，只利用了一组数据两端的信息，不能反映出中间数据的分散情况，所以有一定的局限性。

2022/11/543顺序数据离散程度的度量3.四分位距（InterquartileRange）:

样本数据排序后的上四分位点与下四分位点之差。

四分位距反映了中间50数据的离散程度：

其数值越小，说明中间的数据越集中；数值越大，说明中间的数据越分散。

四分位距不受极值的影响。

2022/11/544Q3Q12022/11/545数值型数据离散程度的度量4.样本离差与离差平方和（SampleDeviationsOrSumofSquaredDeviations）2022/11/546（三）离散状况的统计值描述：

样本方差样本方差（SampleVariance）:

离差平方和与n-1的比值。

样本方

展开阅读全文