⏹递减排序:
可表示为:
x
(1)>x
(2)>…>x(n)
可以借助计算机来完成
第二步数据分组或分类
一、含义
二、分组标志的选择原则
三、统计分组的基本类型(方法)
(一)按品质标志分组——简单分组、复合分组
(二)按数量标志分组——单变量值分组、组距分组(等距或异距)
四、等距分组的步骤
从全部数据中找出最大值和最小值→计算全距R→确定组数K和组距d→确定组限的标记法
→确定各组组限
⏹Sturges(斯特格斯)经验公式
(其中:
K为组数,N为数据的个数)
第三步统计数据的计算、汇总
包括两方面内容:
一是确定相关指标
二是描述统计数据的分布特征
一、计算和汇总的常用指标
频数(又称次数)(freguency)
频率(又称比例、比重)(proportion)
比率(ratio)
累积频数、累积频率
二、描述分布特征
⏹三个方面:
⏹A.集中趋势的描述
⏹B.离散程度的描述
⏹C.分布形状(偏态与峰度)的描述
变量集中趋势分布特征的描述(第二节)
(一)集中趋势的内涵
1、集中趋势的含义(CentralTendency)
常用集中趋势指标分类——统计平均数
众数(Mode)
位置平均数中位数(Median)
四分位数(Quartile)
数值平均数算术平均数(Average)
几何平均数(Geomean)
调和平均数(Harmean)
2、集中趋势指标的特点
1)统计平均数是一个代表值
2)统计平均数是一个抽象了的数值
3、集中趋势指标的作用
(二)集中趋势指标的计算与运用
第一种类型——位置平均数
1、众数(mode)
1)含义:
是指一组数据中出现次数最多的变量值
2)众数的计算及运用
A.对于未分组数据资料,可以通过直接观察得到
分类数据的众数
顺序数据的众数
B.对于分组数据资料
分两种情况:
⏹根据单项式变量数列确定众数
⏹根据组距变量数列确定众数
⏹第一步,确定众数组
⏹第二步,利用公式确定众数值
3)众数的特点
优点:
A.是位置平均数,不受极端值和开口组数列的影响
B.主要用于分类数据,也可用于顺序数据和数值型数据
局限性:
A.具有不唯一性。
可能没有众数或有几个众数
B.缺乏敏感性。
2、中位数(median)
1)含义:
是指数据分布中的各数据按从小到大顺序排列后,处于中间位置上的数据(变量值)值
2)中位数的计算与运用
A.对于未分组数值型数据
第一步:
由小到大排序
第二步:
确定
第三步:
按公式计算中位数的具体数值置
B.对于分组数据资料
根据单项分组数据资料
分两步:
根据组距分组数据资料
分两步:
3)中位数的优点和局限性
优点:
⏹A.简单且容易理解
⏹B.具有稳健性或耐抗性
⏹C.对于定序数据,也可以采用中位数来代表其一般水平
⏹D.各变量值与中位数的离差绝对值之和最小
局限性:
A.粗略性B.计算麻烦
3.四分位数(quartile)
1)含义
⏹排序后处于25%和75%位置上的值
⏹(三个点等分全部数据);不受极端值的影响;主要用于顺序数据,也可用于数值型数据,但不能用于分类数据
2)四分位数的计算和应用
A.未分组数据资料
第一步,对数据排序
第二步,确定四分位数所在位置
未分组的数值型数据:
第三步,根据所对应的数据决定四分位数的具体数值(具体有三种情况)
a.特殊情况:
顺序数据的四分位数
b.数值型未分组数据的四分位数
c.数值型未分组数据的四分位数
B.对于分组数据资料
第一步,先确定四分位数的位置及所在的组
第二步,仿照中位数的计算公式确定四分位数的具体数值
第二种类型——数值平均数
4.均值(mean),又称算术平均数(Arithmeticaverage)
1)含义
A.集中趋势最主要的测度值
B.最常用、最主要的测度值
C.一组数据的均衡点所在
D.为总体标志总量与总体单位数之比
E.用于数值型数据,不能用于分类数据和顺序数据
注意事项:
⏹a.是一个具有计量单位的名数;
⏹b.分子、分母要具有可比性。
三种表现形式:
⏹简单均值
⏹加权均值
⏹调和均值
A.简单均值——适用于未分组数据或各组次数相等的分组数据资料(simplemean)(第26页公式2.3)
B.加权均值(weightedmean)——适用于分组数据资料(第27页公式2.4)
对于单项分组的数据资料
对于组距分组的数据资料
2)算术平均数的计算与运用
说明:
权数有两种形式:
⏹一种是以绝对数表示,称次数、频数
⏹二是以比重表示,称频率
⏹(第28页公式2.5)
3)均值的几个数学性质
(第28页公式)
A.各变量值与均值的离差之和等于零
B.各变量值与均值的离差平方和最小
C.均值是统计分布的均衡点(重心)
4)算术平均数的优点和局限性优点:
(1)确定严密
(2)反应灵敏
(3)简单且容易理解
局限性:
(1)易受极端值的影响
(2)若存在模糊不清数据时无法计算
5.一种特殊的均值——几何平均数(geometricmean,GEOMEAN)
1)含义:
A.n个变量值连乘积的n次方根
B.适用于对比率、速度数据的平均
C.主要用于计算平均增长率、平均增长速度
D.计算公式为(第29页公式2.6)
E.可看作是均值的一种变形
(第八章再具体学习)
6.切尾均值(教材)
【总结】
(一)众数、中位数和均值的关系
1.分布角度(第31--32页)
众数、中位数和均值的关系
2.数值上的关系角度(补充)
⏹众数与算术平均数的距离=中位数与算术平均数的距离的三倍,
⏹或众数与中位数的距离=均值与中位数的距离的两倍
(二)众数、中位数和均值的特点和应用
n众数
⏹不受极端值影响
⏹具有不唯一性
⏹数据分布偏斜程度较大时应用
⏹适用于任何类型的数据,主要适用于定类数据
n中位数
⏹不受极端值影响
⏹数据分布偏斜程度较大时应用
⏹主要适用于顺序数据
n平均数
⏹易受极端值影响
⏹数学性质优良
⏹数据对称分布或接近对称分布时应用
⏹适用于数值型数据
(三)数据类型与集中趋势测度值
数据类型和所适用的集中趋势测度值
数据类型
定类数据
定序数据
定距数据
定比数据
适
用
的
测
度
值
※众数
※中位数
※均值
※均值
—
四分位数
众数
调和平均数
—
众数
中位数
几何平均数
—
—
四分位数
中位数
—
—
—
四分位数
—
—
—
众数
B.数据离散程度的测度(教材第三节)
(一)离散趋势的概述
1、概念
1)数据分布的另一个重要特征
2)反映各变量值远离其中心值的趋势和程度(离中趋势),也称标志变动度
3)从另一个侧面说明了集中趋势测度值的代表程度
4)不同类型的数据有不同的离散程度测度值
5)常用的离中趋势指标
极差(全距)
异众比率
四分位差(内距)
平均差
方差及标准差
离散系数
2、离中趋势指标的作用
1)用来说明数据分布的离散程度
2)是衡量平均数代表性大小的尺度
3)是反映社会经济活动过程均衡性或节奏性的重要指标
4)可以用来确定统计推断的准确程度
(二)离中趋势指标的计算与运用
1、极差,又称全距(Range)
1)一组数据的最大值与最小值之差
2)离散程度的最简单测度值
3)易受极端值影响
4)未考虑数据的分布
5)计算公式为(第33页公式2.8)
R=max(xi)-min(xi)
或R=最大组的上限-最小组的下限
6)极差值的作用
7)极差的优点和局限性
优点:
计算方法简单
局限性:
A.是一种粗略的测定指标
B.受极端值的影响
【补充】2、异众比率.又称离异比率、变差比(Variationratio)
1)指非众数组的频数占总频数的比率
2)计算公式为
3)异众比率的作用:
用于衡量众数的代表性
异众比率的特点
A.主要用于测度定类数据的离散程度
B.可以对不同总体或样本的离散程度进行比较
3、内距(Inter-quartilerange),又称为四分位差或四分间距(Quartiledeviation)
1)指上四分位数与下四分位数之差
⏹(第33页公式2.9)
⏹QD=QU–QL或QD=Q3–Q1
2)反映了中间50%数据的离散程度
3)作用:
用于衡量四分位数的代表性
4)四分位差的特点
A.不受极端值的影响
B.有特定的适用范围,主要用于测度定序数据,但不适合于定类数据
【补充】4、平均差(Meandeviation)又称平均绝对差、平均离差
1)指各变量值与其均值离差绝对值的平均数
2)(未分组数据单项分组数据)简单平均差
(组距分组数据)加权平均差
平均差的特点
A.利用了全部数据,反映了全部数据平均的差异
B.以均值为中心,能全面准确地反映一组数据的离散程度
C.数学性质较差,实际中应用较少
5、方差和标准差(VarianceandStandarddeviation)
1)最常用的离散程度测度值
2)反映了各变量值与均值的平均差异
3)根据总体数据计算的,称为总体方差或标准差;
根据样本数据计算的,称为样本方差或标准差
4)方差:
各变量值与其均值离差平方的平均数
标准差(又称均方差):
方差的平方根
总体方差和标准差(了解)(populationvarianceandstandarddeviation)
【重点】样本方差和标准差(simplevarianceandstandarddeviation)
未分组数据:
简单样本方差
组距分组数据:
加权样本方差
未分组数据:
简单样本标准差
组距分组数据:
加权样本标准差
样本方差
自由度(degreeoffreedom)
A.一组数据中可以自由取值的数据个数
B.当样本数据的个数为n时,若样本均值`x确定后,只有n-1个数据可以自由取值,其中必有一个数据不能自由取值
C.样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差σ2时,它是σ2的无偏估计量
方差、标准差的特点
优点:
⏹A.确定严密、精确
⏹B.适合于代数运算
局限性:
⏹A.易受极端值的影响
⏹B.不适合于比较平均数相差较大或计量单位不同的不同组别数据的离散程度
6、离散系数(教材35—36页)(coefficientofvariation)
其中应用最广泛的——标准差系数
1)标准差与其相应的均值之比
2)对数据相对离散程度的测度
3)消除了数据水平高低和计量单位的影响
4)可以用于比较不同组别数据的离散程度
5)计算公式为(第36页:
公式2.15)
总体离散系数样本离散系数
小结:
数据类型与所适用的离散程度测度值
数据类型和所适用的离散程度测度值
数据类型
分类数据
顺序数据
数值型数据
适
用
的
测
度
值
※异众比率
※四分位差
※方差或标准差
—
异众比率
※离散系数(比较时用)
—
—
平均差
—
—
极差
—
—
四分位差
—
—
异众比率
偏态与峰态分布的形状
(一)偏态及其测度(skewness)
1、概念
1)是对数据分布偏斜程度的测度
2)偏态(偏度)系数=0时,为对称分布
⏹偏态(偏度)系数>0时,为右偏分布
⏹偏态(偏度)系数<0时,为左偏分布
2、偏态系数的计算(了解)(skewnesscoefficient)
1)根据未分组数据计算
2)根据分组数据计算(动差法)(P37公式2.15)
(二)峰态及其测度(kurtosis)
1、概念
•对数据分布扁平程度(平峰或尖峰)的测度
2、峰度系数的计算(kurtosiscoefficient)
1)根据未分组数据计算
2)根据分组数据计算(P39公式2.16)
判定准则:
峰度系数=0时,为正态分布
峰度系数<0,为平峰分布
峰度系数>0,为尖峰分布
公式二:
所以,比较标准也可以调整为:
峰态系数=3时,为正态分布
峰态系数<3,为平峰分布
峰态系数>3,为尖峰分布
第四步,统计数据的显示
设计统计表
(一)统计表的结构
(二)统计表的设计要求(教材40页)
•合理安排统计表的结构
•总标题内容应满足3W要求
•数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明
•表中的上下两条横线一般用粗线,其他线用细线
•通常情况下,统计表的左右两边不封口
•表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一
•对于没有数字的表格单元,一般用“—”表示
•必要时可在表的下方加上注释
制作统计图
分组数据的显示—直方图(histogram)
•用矩形的面积来表示各组的频数分布
•在直角坐标中,用横轴表示数据分组(矩形的宽度:
表示各组的组距),纵轴表示频数或频率(矩形的高度),各组与相应的频数就形成了一个矩形,即直方图
•直方图的各矩形通常是连续排列
•直方图下的总面积等于1
(教材19页图2.1)
茎叶图(stem-and-leafdisplay)
•用于显示未分组的原始数据的分布
•由“茎”和“叶”两部分构成,其图形是由数字组成的
•以该组数据的高位数值作树茎,低位数字作树叶
•树叶上只保留一位数字
•茎叶图类似于横置的直方图,但又有区别
⏹直方图:
可观察一组数据的分布状况,但没有给出具体的数值
⏹茎叶图:
既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息
扩展的茎叶图
箱线图(boxplot)
•用于显示未分组的原始数据的分布
•箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成
•箱线图的绘制方法
⏹首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)
⏹连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接
4.分为单批数据箱线图、多批数据箱线图
分布的形状与箱线图(43页)
不同分布的箱线图
本章小结
1.数据预处理的内容和目的
2.统计分组的主要类别和方法
3.掌握数据集中趋势、离散程度和分布形状的测度方法和指标
4.掌握分类和顺序、数值型数据的显示方法
5.合理使用统计表
6.用Excel作频数分布表和统计图形