1、统计方法统计方法第一章统计和数据第一节 统计学的含义一.什么是统计学统计学是一门研究数据的科学,按大百科全书的定义:统计学是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。统计分析数据分两种:描述统计和推断统计描述统计是研究数据搜集、处理和描述的统计学方法。其内容包括如何取得研究所需要的数据,如何用图表形式对数据进行处理和展示,如何通过对数据的综合、概括与分析,得出所关心的数据特征。统计描述是指对由实验或调查而得到的数据进行登记、审核、整理、归类、计算出各种能反映总体数量特征的综合指标,并加以分析,从中抽出有用的信息,用表格或图像把它表示出来。是统计研究的基础。它通过对分散无序的
2、原始资料的整理归纳,运用分组法和综合指标法得到现象总体的数量特征,揭露客观事物内在数量规律性,达到认识的目的。分组法是研究总体内部差异的重要方法,通过分组可以研究总体中不同类型的性质以及它们的分布情况综合指标法是指运用各种统计指标来反映和研究客观总体现象的一般数量特征和数量关系的方法统计模型法是综合指标法的扩展。它是根据一定的理论和假定条件,用数学方程去模拟现实客观现象相互关系的一种研究方法。推断统计则是研究如何利用样本数据来推断总体特征的统计学方法,内容包括参数估计和假设检验两大类。所谓统计推断就是以一定的置信标准要求,根据样本数据来判断总体数量特征的归纳推理的方法。统计推断是逻辑归纳法在统
3、计推理的应用,所以称为归纳推理的方法。(1)参数估计法:当总体的界限已划定,总体某一数量特征(如总体平均数、方差等)的数值就是唯一确定的,所以把总体的数量特征称为总体参数。但是总体参数通常不知道,这就需要通过样本数据计算样本统计量,并以此作为总体参数的估计量来估计总体参数的取值或取值区间,这种方法称之为参数估计法。(2)假设检验法:假设检验的特点是,由于对总体的变化情况不了解,不妨先对总体的状况作某种假设,然后根据样本实际观察的资料对所作假设进行检验,来判断这种假设的真伪,以决定行动的取舍。假设检验的方法是统计推断常用的方法。二统计的应用(一)统计的应用领域统计是适用于所有学科领域的通用数据分
4、析方法,是一种通用的数据分析语言。(二)统计的误用与滥用统计常常被人们有意或无意地滥用。如,错误的统计定义、错误的图表提示、一个不合理的样本、数据的遗漏或逻辑错误等。这些误用有些是常识性的,有些是技术性的,有些则是故意的。作为从数据中寻找事实的统计,却被有人变成了歪曲事实的工具。第二节 数据类型统计数据是对客观现象特征的反映,而由于客观现象的复杂性,在反映这些现象特征时,可以从不同的角度进行采集,从而得到不同类型的数据。一变量与数据变数或变量,是指没有固定的值,可以改变的数。变量的具体数值称为变量值,即数据。统计数据就是统计变量的具体表现。二数据类型(一)定性变量(数据)与定量变量(数据)1.
5、定性变量:反映“职业”、“教育程度”等现象的属性特点的变量,不能说明具体量的大小和差异。分类变量:没有量的特征,只有分类特征。这种只反映现象分类特征的变量又称分类变量。分类变量的观测结果就是分类数据。说明事物类别的一个名称。如“性别”就是一个分类变量。顺序变量:如果类别具有一定的顺序,如,“教育类别”,这样的变量称为顺序变量,相应的观察结果就是顺序数据。说明事物有序类别的一个名称,这类变量的具体表现就是顺序数据。2.数值(定量)变量:反映“天气温度”、“月收入”等变量可以用数值表示其观察结果,而且这些数值具有明确的数值含义,不仅能分类而且能测量出来具体大小和差异。这些变量就是定量变量也称数值变
6、量,定量变量的观察结果成为定量数据。说明事物数字特征的一个名称。分类变量没有数值特征,所以不能对其数据进行数学运算。分类数据只能用来区分事物,而不能用来表明实物之间的大小、优劣关系。顺序变量比分类变量向前进一步,它不仅能用来区分客观现象的不同类别,而且还可以表明现象之间的大小、高低、优劣关系。显然,顺序数据的功能比分类数据要强一些,对事物的划分也更精细一些。但顺序数据的数据之间虽然可以比较大小,却无法计算相互之间的大小、高低或优劣的距离。只是反映事物在性质上的差异,而不能用来反映事物在数量上的差异。因此,从本质上,顺序数据仍然是定性数据中的一种。数值型数据作为统计研究的主要资料,其特征在于它们
7、都是以数值的形式出现的,有些数值型数据只可以计算数据之间的绝对差,而有些数值型数据不仅可以计算数据之间的绝对差,还可以计算数据之间的相对差。其计量精度远远高于定性数据。在统计学研究中,对数值型数据的研究是定量分析的主要内容。从上述三种数据的基本特点可以看出,这三类数据对事物的描述是由定性到定量、由低级到高级,从粗略到精细。在统计研究中,需要明确各种数据所适用的统计方法,正确的选择和应用,这是正确进行统计研究的基本要求。(二)观测数据和实验数据按获取数据的方法不同,可分为观测数据和实验数据。观测数据可能是全面数据也可能是样本数据(局部),实验数据一般都是样本数据。1. 观测数据。观测数据是对客观
8、现象进行实地观测所取得的数据,在数据取得的过程中一般没有认为的控制和条件约束。在社会经济问题研究中,观测是取得数据最主要的方法。2. 实验数据。实验数据一般是在科学实验环境下取得的数据。在实验中,实验环境是受到严格控制的,数据的产生一定是某一约束条件下的结果。在自然科学研究中实验的方法应用非常普遍。 第三节 数据来源与搜集数据的方法一数据的来源从使用者的角度看,统计数据资料的来源主要有两种渠道:一种是通过直接的调查或实验获得的原始数据,这是统计数据的直接来源,一般称为原始或第一手统计数据;另一种是别人调查的数据,并将这些数据进行加工和汇总后公布的数据,通常称为次级数据或第二手间接的统计数据。一
9、切间接的统计数据都是从原始的、第一手数据过渡而来的。(一) 数据的直接来源原始数据搜集数据最基本的形式就是进行统计调查或进行实验活动,统计调查或进行实验就是统计数据的直接来源。1. 统计调查统计调查是指根据统计研究预定的目的、要求和任务,运用科学的方法,有计划、有组织地向客观实际搜集资料的过程。通过统计调查得到的数据,一般称为观测数据。2. 实验法实验法是直接获得统计数据的又一重要来源。通过实验法得到的数据就是实验数据。实验法不仅是一种搜集数据的方式,也是一种重要的研究方式。它是通过有意识地改变或控制某些输入变量,观察其他输出变量的变化,从而达到对事物本质或相互联系的认识。未来观察对输入变量的
10、控制是否导致了输出变量的改变,在实验中,往往需要将研究对象分为两个组,一个是实验组,一个是对照组,对实验组的输入变量加以控制或改变,而对照组则不加控制,根据两组的输出结果,可以看到输入变量对输出变量的影响。运用实验法要注意的是:首先,实验组和对照组的产生应当是随机的,研究对象的不同单位应当被随机地分配到实验组或对照组,而不应是经过有意识的挑选的。其次,实验组和对照组还应当匹配的,也就是研究对象的背景资料应当是大体相同的,至少不要差异太大。不论是统计调查还是实验,所搜集的数据都是原始数据,这是统计数据最基本的来源。(二)数据的间接来源次级数据虽然统计数据的搜集主要是指对原始数据的搜集,后面介绍的
11、统计调查的方法也是围绕搜集原始资料展开的,但数据的收集实际上不仅包括对原始数据的收集也包括对次级数据(第二手收据)的收集,在很多情况下,统计研究都是在掌握次级数据的基础上进行的。次级数据是指由其他人搜集和整理得到的统计数据。这种来自他人调查整理基础上的数据我们把它称为数据的间接来源。数据的间接来源有:(1)公开出版的统计数据,主要来自官方的统计部门和政府、组织、学校、科研机构。(2)尚未公开发表的统计数据,如各企业的经营报表数据、专业调查咨询机构为公开发布的调查结果数据。需注意的是,如果公开引用未公开发表的数据需要征得数据所有者的同意,同时要为自己发布的数据负责。恰当地运用间接数据在实际中往往
12、能够节约时间和费用,取得较好的成果和效益,因此,成为许多统计研究人员在进行实证分析时的首选数据来源。但在应用时要注意:(1)是否了解并正确理解了间接数据中变量的含义、计算口径、计算方法,以防止误用、错用他人的数据。(2)引用间接数据时要注明数据来源,尊重他人的劳动成果和知识产权。二搜集数据的方法统计调查是根据调查的目的与要求,运用科学的调查方法,有计划、有组织第搜集统计数据资料的过程。常用的统计调查种类有:(一) 普查普查:普查是专门组织一次性的全面调查,用来调查属于一定时点或时期内的社会经济现象的总量。它适用于搜集某些不能或不适宜于定期的全面统计报表搜集的统计资料,以摸清重大的国情、国力。如
13、,人口普查、农业普查、经济普查、全国第三产业普查等。普查的特点:它是一种全面调查,具有资料包括范围全面、详尽、系统的优点;它是一次性的专门调查,因为普查的工作量大,耗资也多,时间周期较长,一般不宜经常举行。普查要遵循以下几点:a确定普查的标准时间:普查的标准时间是指登记调查单位项目所依据的统计时点。所有的调查资料都必须是反映这一时点上的情况。例如,我国第四人口普查,1990年7月1日零时为普查登记的标准时点。凡是在这个时点以前死亡和这个时点以后出生的,都不能计入这次普查的人口数内。这样才可避免所登记重复或遗漏。b普查的登记工作应在整个普查范围内同时进行,以保证普查资料的实效性、准确性,避免资料
14、的搜集工作拖的太久c同类普查的内容和时间在历次普查中应尽可能保持连贯性。普查的组织形式有两种:一种是组织专门的普查机构,派专门的调查人员对被调查单位直接进行登记;另一种是利用一定的组织系统,由被调查单位根据本单位的原始记录和实际情况,填写调查表,然后上报。(二) 抽样调查抽样调查:抽样调查是按随机原则,从总体中抽取一部分单位作为样本来进行观察,并根据其观察的结果来推断总体数量特征的一种非全面调查方法。抽样调查具有的特点:第一,样本单位按随机原则抽取,排除了主观因素对选取样本单位的影响。第二,能够根据部分调查的实际资料对调查对象的总体的数量特征进行推断,从而达到对调查总体的认识。第三,在抽样调查
15、中会存在抽样误差,但是这个误差可以事先计算并加以控制。随机抽样一般是指每个总体单位都有同等被抽中的机会,但是在实际调查中,并不完全是这种情况。通常采用的抽样组织形式主要有以下几种:a.简单随机抽样:又称纯随机抽样,它是指对总体不作任何处理,不进行分类也不进行排除,而是完全按随机的原则,直接从总体中抽取样本单位加以观察。从理论上说,是最符合抽样调查的随机原则,是抽样调查的最基本形式。具体方法有:直接抽选法、抽签法和随机数表法。b分层抽样:又称类型抽样或分类抽样。是先将总体各单位按主要标志加以分层,而后在各层中按随机的原则抽取若干样本单位,由各层的样本单位组成一个样本。c等距抽样:又称机械抽样或系
16、统抽样。它是将总体全部单位按某一标志排队,而后按固定的顺序和相等间隔在总体中抽取若干样本单位,构成一个容量为n的样本。d整群抽样:是将总体各单位划分为若干群,然后以群为单元,从总体中随机抽取一部分群,对被抽中的群内所有单位进行全面调查。整群抽样对总体划分群的基本要求是:第一,群与群之间不重叠,即总体中的任一单位只能属于某个群;第二,全部总体单位毫无遗漏,即总体中的任一单位必须属于某个群。e多阶段抽样:当总体很大时,可把抽样过程分成几个过渡阶段,到最后才具体抽到样本单位。(三) 统计报表统计报表制度:它是按照国家统一规定的调查要求与文件(指标、表格形式、计算方法等)自下而上的提供统计资料的一种报
17、表制度。在官方统计的经常调查中目前依然发挥着一定的作用。按照报送范围,统计报表分为全面报表和非全面报表。按报送周期,统计报表主要有月报、季报、年报组成,月报内容简单,时效性强,年报则内容比较全面。统计报表的内容包括表式和填表说明。对于大型、国有企业来说,利用统计报表搜集数据,具有时间快、成本低的优点,但对于大量的小型、非国有经济单位,则难以全面采用统计报表调查。(四) 重点调查重点调查:是一种非全面调查,它是在调查对象中选择一部分对全局具有决定性作用的重点单位进行调查。适用于调查任务只要求掌握调查总体的基本情况,调查标志比较单一,调查标志表现在数量上集中于少数单位,而这些少数单位的标志值之和在
18、总体中又占绝对优势的情况。重点调查组织方式有两种:一是专门组织的一次性调查;另一种是利用定期统计报表经常性地对一些重点单位进行调查。其优点是花费较少人力、物力,在较少时间内及时取得有关的基本情况。(五) 典型调查典型调查:根据调查的目的与要求,在对被调查对象进行全面分析的基础上,有意识地选择若干具有典型意义的或有代表性的单位进行调查,主要作用是:第一,补充全面调查的不足;第二,在一定条件下可以验证全面调查数据的真实性。其优点是灵活机动、通过少数典型即可取得深入详实的统计资料,缺点是受“有意识地选出若干有代表性”的限制,易受人们主观认识上的影响,必须同其他调查结合起来使用,才能避免出现片面性。表
19、一 各类统计调查方法的特点调查范围调查时间收集资料的方法普查全面一次采访、报告或空间遥感抽样调查非全面经常或一次直接观察或采访统计报表全面或非全面经常报告重点调查非全面经常或一次报告典型调查非全面一次采访统计方法 第二章数据描述第一节 用图表展示定性数据本节主要介绍定性数据的图表展示方法。定性数据包括分类数据和顺序数据,它们的图表展示方法基本相同。通常可以用频数分布表和图形来描述。一.生成频数分布表定性数据本身是对事物的一种分类,因此,只要先把所有的类别都列出来,然后统计出每一类别的频数,就是一张频数分布表。频数分布表中落在某一特定类别的数据个数称为频数。频数分布包含了很多有用的信息,通过它可
20、以观察不同类型数据的分别情况。二定性数据的图形表示定性数据(分类数据和顺序数据)可以描绘出它们各类的比例,常用饼图和条形图表示。(一) 饼图饼图又称圆饼图、圆形图等,它是利用圆形及圆内扇形面积来表示数值大小的图形。饼图主要用于总体中各组成部分所占比重的研究。(二) 条形图条形图是用宽度相同的条形的高度或长度来表述数据多少的图形,用于观察不同类别数据的多少或分布情况。绘制时,各类别可以放在纵轴,也可以放在横轴。(三) 环形图饼图只能显示一个变量(如年龄变量)各部分所占的比重。如果我们想比较不同变量之间的结构差异,就可以通过环形图来实现。首先,利用产生频数表的方法先做出分性别的年龄分布表然后,根据
21、上表再绘制出环形图。 第二节 用图表展示定量数据定性数据的图示表示方法,也都适用于定量数据。但定量数据还有一些特定的图示方法,它们并不适用于定性数据。一生成频数分别表生成定量数据的频数分布表时,首先是将数据进行分组,然后再统计出各组别的数据频数即可。首先,要对数据进行分组,一般的分组个数在515之间。其次,要确定组距。所谓组距是指每个组变量值中的最大值与最小值之差。每组最大值称为该组上限,最小值称为该组下限。则组距等于上限与下限之差,即组距=上限-下限在确定组距是,一般应掌握的原则:一是要考虑各组的划分是否能区分总体内部各个组成部分的性质差别。如果不能正确反映各部分质的差异,必须重新分组。二是
22、要能准确地清晰地反映总体单位的分布特征。在确定组距时,在研究的现象变动比较均匀的情况下,可以采用等距分组;而当研究的现象变动很不均匀时,例如急剧的增长或急剧的下降,波动的幅度很大时,则一般采用不等距分组。在实际工作中,要结合实际情况确定各组的组距。最后,统计出各组的频数及频数分布表。在统计各组频数时,恰好等于某一组的组限时,则采取上限不在内的原则,即将该频数计算在与下限相同的组内。二定量数据的图形表示常用来表述定量数据统计图形有:直方图、折线图和散点图。(一) 直方图对于一个定量数据,直方图是一个常见的而且非常重要的图形。它的横坐标代表变量分组,纵指标代表各变量值出现的频数,这样,各组与相应的
23、频数就形成了一个矩形,即直方图。(二) 折线图折线图是利用线段的升降来说明现象变动的一种统计图,它主要用于表示现象的分配情况、现象在时间上的变化和两个现象之间的依存关系等。(三) 散点图散点图能反映两个变量的关系,判断其变化的方向是否相同应特别注意各种图表的生成方式和运用。第三节 用统计表来表示数据统计表和统计图是显示统计数据的两种方式。在现实生活中,统计表和统计图形一样充斥在我们的生活总。它通过对枯燥数据的整理,利用一些简单的表格,让我们一目了然地了解某些事物的现象。统计表是一种用密集的形式归纳数据的方法,它主要利用行和列中的数据来表述现象特征。人们利用统计表的主要目的有:一是在文章中使用它
24、以支持自己的观点;二是利用它组织数据。把整理汇总得出的统计数据资料,按照一定的结构和顺序,有系统地排列在一定的表格内,就形成一张统计表。统计表的主要优点是:能使统计资料条理化、系统化,能清晰的表达统计资料的内容,且简明易懂、节省篇幅,便于对表中资料进行对比,并易于检查数字的完整性和正确性。(1) 统计表的结构统计表一般由五个部分组成,即表头、行标题、列标题、数字资料和表外附加构成。总标题:统计表的名称。简明扼要,一般放在表格上方中间位置横行标题和纵栏标题:纵栏:表明标志和指标的名称,一般置于表格上方;横行标题:表明调查单位和分组的名称,一般置于表格左边。统计数字(指标数值)。主词栏:表中资料所
25、说明的对象,位于表的左边;宾词栏:各种指标,位于表的右侧。(2)统计表的种类按用途不同分类a. 调查表:用来搜集统计资料的表格;b. 整理表:用于汇总或整理调查资料,以及表现统计汇总或整理结果的表格;c. 分析表:用于对整理所得的统计资料进行定量分析的表格。按总体分组不同分类a. 简单表:对总体未经任何分组,仅是简单地列出统计资料所属时间或单位的表格。b. 简单分组表:对总体仅按一个标志进行分组的统计表。c. 复合分组表:对总体按两个或两个以上标志进行层叠分组。按统计资料的时间和空间分类a. 空间数列表:指同一时间条件下,不同空间范围的统计表。它说明在静态条件下,客观社会经济现象在不同空间范围
26、的分布状况。b. 时间数列表:指同一空间条件下,不同时间范围的统计表。它说明在动态条件下,客观社会经济现象发展变动状况。c. 时空结合表:是同时反映社会经济现象在不同空间和不同时间内的数量分布的统计表。(3)统计表的设计总的要求:简练、明确、实用、美观,便于比较。统计表设计应注意事项a. 统计表应设计成由纵横交叉线条组成的长方形表格,长与宽之间保持适当的比例。b. 线条绘制。表的上下端应以粗线绘制,表内纵横线以细线绘制。表格左右两端一般不划线,采用“开口式”。c. 合计栏的设置。统计表各纵列若须合计时,一般应将合计列在最后一行,各横行若须要合计时,可将合计列在最前一栏或最后一栏。d. 栏数的编
27、号。如果栏数较多,应当按顺序编号,习惯上主词栏以“甲、乙、丙、丁”为序号,宾词栏编以(1)、(2)、(3)、(4)为序号。统计表内容设计应注意事项a. 标题设计:标题简明扼要。b. 指标数值:数字填写整齐,对准位数。当数字因小可略而不计时,可写上“0”;当缺某项数字资料时,可用“”表示;不应有数字时用符号“”表示。c. 计量单位:当全表只有一种计量单位时,可以把它写在表头的右上方。如果表中各栏的指标数值计量单位不同,可以横行标题后添一列计量单位。d. 注解或资料来源。 第四节 用数字来概括数据针对一组数据的分布特征,我们可以从两个方面来考查它:一是该组数据的集中趋势,即该组数据的数值向其中心值
28、的靠拢程度。二是该组数据的离散程度,它反映的是该组数据的各个数值远离其中心的趋势和程度。一定性数据的数字特征由于定性数据主要是计数,比较简单,对定性数据的集中趋势常用的方法就是计算比例、百分比、中位数和众数。中位数是将总体各单位标志值按大小顺序排列,处于中间位置的那个数(如果样本量为奇数),或者中间两个数目的平均(如果样本量为偶数)。众数就是数据中出现次数或出现频率最多的数值。在定性数据中,由于记录的是频数,因此众数用得多些。二定量数据的数字特征反映定量数据特征的统计量常用的有:反映数据集中趋势的水平度量:平均数、中位数、众数和分位数等反映数据离散程度的差异度量:极差、四分位差、标准差和方差(
29、一) 水平的度量1. 平均数平均数也称为均值,是把某一组数据进行算术平均,用以表述某一事物的平均水平,它在统计中叫做均值。简单平均数:把一个变量的所有观测值相加再除以观测值的数目加权平均数:如果原始数据为分组数据,则采用加权平均数公式计算,其中的权数f为各组的频数。2. 中位数数字按顺序排列后,处于中间位置的数即是。如总位数为奇数,中间数即是;若为偶数,则是中间两位数的平均值。3. 众数数组中出现次数最多的数。4. 用哪个值代表一组数据平均数、中位数和众数是描述数据水平的三个主要统计量,要合理使用则需要了解它们的不同特点和应用场合。平均数易为多数人理解和接受,实际中用的也较多,但主要缺点是更容
30、易受少数极端数值的影响,对于严重偏态分布的数据,平均数的代表性较差。中位数和众数提供的信息不像平均数那样多,但它们也有优点,比如不受极端值的影响,具有统计上的稳健性,当数据为偏态分布,特别是偏斜程度较大时,可以考虑选择中位数和众数,这时它们的代表性要比平均数好。(二) 差异的度量对社会经济现象不仅需要对现象的集中趋势进行分析(平均数、中位数、众数),而且还需要进行差异程度分析即离散程度分析。研究事物现象的差异性,从差异性的事物现象中,寻求解决差异性的一些方法。1. 极差( Range)极差又称全距,是最简单的离散指标,它是一组数据中的最大值和最小值之差。计算极差非常简单,含义也很直观。但是,它仅仅受最大值和最小值的影响,不能反映一组数据分布的情况,而且它非常容易受数据中极端值的影响。因此,它不能准确地描述数据的分散程度。2. 方差和标准差为了反映数据中的每一个观察值与平均水平的差异程度就必须引入方程和标准差的概念。方差:将各个变量值和其均值离差平方的平均数,作为样本数据,它反映了样本中各个观测值到其
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1