经济应用统计学-第四章统计整理.pptx
《经济应用统计学-第四章统计整理.pptx》由会员分享,可在线阅读,更多相关《经济应用统计学-第四章统计整理.pptx(69页珍藏版)》请在冰豆网上搜索。
第四章统计整理,学习目标,明确统计资料整理的涵义和作用了解统计整理的内容和程序掌握分布数列的编制方法,本章主要内容,第一节统计整理的一般问题第二节统计汇总技术第三节统计汇总的质量控制第四节分布数列的编制,第一节统计整理的一般问题,第一节统计整理的一般问题,一、统计整理的概念二、统计整理的内容三、统计整理的程序,一、统计整理的概念,统计整理,将统计调查得到的原始资料进行科学的分组和汇总,使其系统化、条理化,成为能够反映总体特征及其发展变化情况的综合统计资料的工作过程,统计整理是统计调查的继续,统计分析的前提和基础,二、统计整理的内容,统计整理,统计汇总,统计分组,逐级汇总,集中汇总,优点:
满足各层次的需要;便于审核更正,缺点:
费时费力;易出错,优点:
速度快层次少,缺点:
有错不易查找;不能及时满足中间层次需要,三、统计整理的程序,1、设计和编制统计资料的汇总方案,2、对原始资料进行审核,3、对调查数据进行编码及录入,4、分组汇总原始资料,5、编制统计表和绘制统计图,第二节统计汇总技术,第二节统计汇总技术,利用计算机进行统计汇总主要包括:
审核、编码、录入、数据净化、逻辑检查运算以及编制和打印汇总表、统计图等。
一、编码,将调查表或调查问卷中的各个项目转化为数字符号的过程。
编码,事前编码,事后编码,适用封闭性问题,适用开放性问题,
(一)编码的常用方法,又称系列编码法。
只用一个标准对数据进行分类,并按照一定的顺序用连续数字或字母进行编码的方式。
1、顺序编码法,操作简便,但不便于进行分组处理,
(一)编码的常用方法,又称区间编码法,是根据调查数据的属性特点和处理要求,将具有一定位数的代码单元分成若干个组,每个组的数字均代表一定的意义。
例如:
在某项关于社会公众保险意识调查中,对被调查者个人的基本情况进行了调查,运用分组编码法对有关信息编码如下:
2、分组编码法,若某个被调查者为女性,居住于中等城市,家中有三口人,月收入为1000-1100则其回答信息为22310,
(一)编码的常用方法,把调查数据分成不同的组,给以一定的组码(数字区间)来进行编码的方法.,例如:
对某地市场上99种商品的价格变动进行调查,在运用信息组码编码法对调查的信息进行编码时,首先对99种商品分组,再给每个组分配一个组码:
3、信息组码编码法,组别百货组食品组家电组服装组其他组,名称码01-3031-5051-6566-8081-99,
(一)编码的常用方法,又称助忆编码法,它用数字符号等表明编码对象的属性,并依此方式对调查数据进行编码的方法.,例如:
用180BXJ表示容量为180升的进口电冰箱.其中180为冰箱的容量,BX表示冰箱.J表示进口.,4、表义式文字编码法,
(二)编码手册的编制,也称编码表,是用来进行数据编码的工作手册,包括四个项目:
问题顺序号,每个调查项目的预置代码位置,项目名称,内容说明.,1.您的职务?
(1)正高级
(2)副高级(3)中级(4)其他2.您的年龄_3.您从事的专业_4.您对自己工作情况的评价?
(1)已充分发挥积极性
(2)基本发挥了积极性(3)积极性有所发挥(4)完全没有发挥积极性5.目前,您是否有离开学校的想法?
(1)是
(2)否6.请您按投入精力的多少,将下列三项活动排序?
(1)校内工作
(2)校外兼职(3)生活琐事第一位_第二位_第三位_,案例:
对某高等学校教师的工作,生活状况的调查,一共有32个问题,我们摘录6个问题,来说明编码手册的编制.,若某份问卷的回答信息在答录卡上的前11为数字为:
23300112132则表示为?
二、录入,数据录入就是将问卷或编码表中的每一个项目对应的代码读到磁盘中,或通过键盘直接敲入计算机中的工作过程。
方式:
程序录入光电扫描录入,三、数据净化,数据净化指通过计算机处理错误的或不合理的数据以及进行一致性检验。
方式:
统计软件:
SPSS、SAS,第三节统计汇总的质量控制,全面性审核,一、资料审核,汇总前对统计资料进行审核是统计汇总质量控制的关键。
准确性审核,审核调查单位的全面性、审核调查项目的全面性,逻辑审核、计算技术审核,二、编码和录入的质量控制,编码工作的质量控制录入工作的质量控制,三、统计预处理,缺省数据的处理加权处理原始数据或变量的转换,统计预处理,1、缺省数据的处理,以样本统计量代替缺省值一般为平均值以统计模型计算的估计值代替缺省值回归模型等缺省值样本删除缺省值样本保留,仅在相应的分析中作必要删除,通过对调查数据进行加权,使样本更具代表性,或为了强调某些被访群体的重要性。
(例如:
P91),统计预处理,2、加权处理,变量类型的转化数学意义上的变量代换,统计预处理,3、原始数据或变量的转换,第四节分布数列的编制,第四节分布数列的编制,一、次数分布与分布数列的概念二、分布数列的种类三、累计分布数列四、次数分布图五、次数分布的类型,一、次数分布与分布数列的概念,1、次数分布:
在统计分组的基础上,将总体的所有单位按组归类整理,并按一定顺序排列,形成总体中各单位在各组间的分布,就叫做次数分布。
表示各组标志值对总体标志值所起作用的强度,频数(次数):
各组单位数。
频率:
各组单位数占总体单位数的比率。
反映统计总体内所有总体单位在各组间的分布。
同类总体不同的分布状况差异反映了它们的性质差异。
如各班成绩分布。
对某随机现象的重复观察,频率分布可以渐近反映其统计规律。
次数分布的作用,2、分布数列,分布数列:
将各组组别的名称与相应的频数和频率,依次排列起来形成的数列称为次数分布数列,简称分布数列。
也称分配数列或次数分配数列。
分布数列的意义:
分布数列是统计整理结果的一种表现形式,也是统计分析的一种方法。
不仅可以表明总体单位的分布特征和结构状况,而且可用以进一步研究总体单位某一标志的构成、平均水平及其变异程度。
作用:
反映总体中所有单位在各组的分布状态和分布特征。
分布数列的构成要素,总体所分各组的分组标志的具体体现,各组对应的总体单位数或频率。
某地人口的性别分布,学生的成绩分布,由于分组是次数分布的基础,因此有怎样的分组就形成怎样的次数分布。
综合上述各种分组类型,次数分布的类型,可归纳为:
二、分布数列的种类,按品质标志分组形成的分布数列称为品质分布数列,简称品质数列。
按数量标志分组形成的分布数列称为变量分布数列,简称变量数列。
二、,某地人口的性别分布,学生的成绩分布,变量数列,品质数列,每个组值只用一个具体的变量值表现的数列,同时具备,变量是离散变量变量的不同取值个数较少,编制条件:
分布数列的种类,单项式分布数列,【例】己知某车间有24名工人,他们的日产量(件)分别是:
20,23,20,24,23,21,22,25,26,20,21,21,22,22,23,22,22,24,25,21,22,21,24,23.要求根据以上资料编制变量数列。
分布数列的种类,单项式分布数列案例,每个组的变量值用一个区间来表现的变量数列,或者,变量是连续变量,编制条件:
分布数列的种类,组距式分布数列,总体单位数较多,变量不同取值个数也较多的离散变量,指每组两端表示各组界限的变量值,各组的最小值为下限,最大值为上限,组限,每组变量值变动区间的长度,为上下限之差,组距,每组变量取值范围的中点数值,组中值,分布数列的种类,组距式分布数列相关概念,某地区100个百货商店月销售额与流通费用情况,上组限U,下组限L,组距d=U-L=100-50=50(万元),组中值x=(U+L)/2=(100+200)/2=150(万元),分布数列的种类,组距式分布数列,变量值变动区间的长度相等,变量值变动区间的长度不完全相等,等距分布数列,异距分布数列,分布数列的种类,变量式分布数列,等距分组各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征和规律不等距分组各组频数的分布受组距大小不同的影响各组绝对频数的多少不能反映频数分布的实际状况需要用频数密度(频数密度频数/组距)反映频数分布的实际状况,以解决各组频率由于组距不同而不可比的问题。
分布数列的种类,等距分组与不等距分组的差异,分布数列的种类,将变量数列各组的频数(或频率)逐组累计相加而形成的数列,三、累计分布数列,从变量值低的组开始,将各组次数(频率)逐次向变量值高的组累计,说明某一组上限以下各组的累计次数(频率)。
从变量值高的组开始,将各组次数(频率)逐次向变量值低的组累计,说明某一组下限以上各组的累计次数(频率)。
分布数列的种类,分布数列的种类,分布数列的种类,117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121,【例】某生产车间50名工人日加工零件数如下(单位:
个)。
四、次数分布图,用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图直方图下的总面积等于1,次数分布图,分组数据直方图,频数(人),15,12,9,6,3,日加工零件数(个),某车间工人日加工零件数的直方图,我一眼就看出来了,大多数人的日加工零件数在120125之间!
次数分布图,分组数据直方图,遇到异距数列时,则通常按次数密度绘制直方图以表示分布直方图一般不用来表示累计次数的分布。
次数分布图,分组数据直方图,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义直方图的各矩形通常是连续排列,条形图则是分开排列,次数分布图,分组数据直方图,直方图与条形图的区别,R结果,折线图也称频数多边形图(Frequencypolygon)是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的,分组数据折线图,次数分布图,15,12,9,6,3,105,110,115,120,125,130,135,140,日加工零件数(个),频数(人),某车间工人日加工零件数的折线图,分组数据折线图,次数分布图,用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶茎叶图类似于横置的直方图,但又有区别直方图可大体上看出一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息,未分组数据茎叶图,次数分布图,树茎,树叶,788,022347778889,0012222333344466777889,0133445799,数据个数,某车间工人日加工零件数的茎叶图,未分组数据茎叶图,次数分布图,R绘制茎叶图的结果,用于显示未分组的原始数据或分组数据的分布箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成其绘制方法是:
首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接,未分组数据箱线图,次数分布图,未分组数据箱线图,次数分布图,作用:
可以看出分布类型是左偏、右偏还是对称,时间一般绘在横轴,指标数据绘在纵轴图形的长宽比例要适当,其长宽比例大致为10:
7一般情况下,纵轴数据下端应从“0”开始,以便于比较。
数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断,时间序列数据线图,次数分布图,【例】已知19911998年我国城乡居民家庭的人均收入数据如表。
试绘制线图,时间序列数据线图,次数分布图,时间序列数据线图,次数分布图,雷达图(RadarChart)是显示多个变量的常用图示方法在显示或对比各变量的数值总和时十分有用假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比可用于研究多个样本之间的相似程度,多变量数据雷达图,次数分布图,【例】1997年我国城乡居民家庭平均每人各项生活消费支出数据如表。
试绘制雷达图。
多变量数据雷达图,次数分布图,多变量数据雷达图,次数分布图,对称钟形分布,右偏钟形分布,左偏钟形分布,正J型分布,反J型分布,U型分布,五、次数分布类型,例:
不同年龄人口的死亡率分布,思考题,统计整理的概念和重要性。
统计整理的程序包括哪些方面?
什么是次数分布?
有什么作用?
次数分布数列的意义有哪些?
次数分布数列有哪两个基本要素?
次数分布数列有哪些种类?
常见的次数分布类型有哪几种?