第四部分 统计.docx
《第四部分 统计.docx》由会员分享,可在线阅读,更多相关《第四部分 统计.docx(18页珍藏版)》请在冰豆网上搜索。
第四部分统计
第四部分统计
二十二、统计与统计数据
1、统计学:
关于收集、整理、分析数据和从数据中得出结论的科学。
是帮助我们认识周围世界的工具。
统计学分支:
描述统计和推断统计。
描述统计:
研究数据收集、整理和描述的统计学方法。
取得所需数据,用图表或数学方法对数据整理和展示,描述数据的一般性特征。
推断统计:
研究如何利用样本数据来推断总体特征的统计学方法。
包括参数估计和假设检验。
参数估计是利用样本信息推断总体特征,假设检验是利用样本判断对总体的假设是否成立。
2、变量和数据
①变量:
研究对象的属性或特征,相对常数而言的,可以有两个或更多个可能的值。
当变量取值是数量的时候,称为定量变量或数量变量;当变量取值是类别的时候,称为分类变量;当变量取值是类别且有一定的顺序时,称为顺序变量。
分类变量和顺序变量称为定性变量。
②数据:
是对变量进行测量、观测的结果。
数据的类型:
按照所采用的计量尺度,可以将统计数据分为分类数据、顺序数据、数值型数据。
类型
定义
特征
分类数据
由定类尺度计量形成的,表现为类别,通常用文字表述,也可用数值代码表示,但不区分顺序。
不能用数值表示,其结果表现为类别,统称为定性数据或品质数据
顺序数据
由定序尺度计量形成的,表现为类别,通常用文字表述,也可用数值代码表示,但有顺序。
数值型数据
由定距尺度和定比尺度计量形成的
说明的是现象的数量特征,通常用数值来表现,也可称为定量数据或数量数据。
3、数据的来源
①观测数据:
通过直接调查或测量而收集到的数据;
②实验数据:
通过在实验中控制实验对象以及所处的实验环境收集到的数据。
(大部分自然科学数据都是)
③一手数据:
直接的调查和科学实验(两个方法:
一是调查或观察,二是实验);
④二手数据:
别人的调查或实验数据。
4、统计调查的概念:
按照预定的目的和任务,运用科学的统计调查方法有计划有组织地搜集数据信息资料的过程。
5、统计调查的种类
①按调查对象的范围不同,分为全面调查和非全面调查。
全面调查,对构成调查对象的所有单位进行逐一的、无一遗漏的调查,包括全面统计报表和普查。
非全面调查,对调查对象中的一部分单位进行调查,包括非全面统计报表、抽样调查、重点调查、典型调查等。
②按调查登记的时间是否连续,分为连续调查和不连续调查。
连续调查,是为也观察总体现象在一定时期内(通常一年内)的数量变化,它要求随着调查对象的发展变化,连续地进行调查登记。
如工厂的产品生产、人口的出生、死亡。
说明现象的发展过程。
不连续调查,是间隔一个相当长的时间(通常一年以上)所作的调查,一般是为了对总体现象在一定时点的状态进行研究。
如生产设备拥有数、耕地面积等。
6、统计调查的方式
我国常用的统计调查方式:
统计报表、普查、抽样调查、重点调查、典型调查。
类型
定义
特点(掌握)
统计报表
我国目前收集统计数据的一种重要方式,统计报表是按照国家有关法规的规定,自上而下地统一布置、自下而上地逐级提供基本统计数据的一种调查方式。
统计报表要以一定的原始数据为基础,按照统一的表式、统一的指标、统一的报送时间和报送程序进行填报。
按调查对象范围的不同可分为全面报表和非全面报表。
目前大多都是全面报表,按报送周期长短不同可分为日报、月报、季报、年报;按报表内容和实施范围不同可分为国家的、部门的、地方的统计报表。
普查
为某一特定目的而专门组织的一次性全面调查,如人口普查、经济普查等。
普查是适合特定目的、特定对象的一种调查方式,主要用于收集处于某一时点状态上的社会经济现象的基本全貌,为国家制定有关政策提供依据。
1)普查通常是一次性的或周期性的。
普查涉及面广、调查单位多,需要耗费大量的人力、物力和财力,通常需要间隔较长的时间。
2)普查一般需要规定统一的标准调查时间,以避免调查数据的重复或遗漏,保证普查结果的准确性。
3)普查的数据一般比较准确,规范化程度也较高;
4)普查的使用范围比较小,只能调查一些最基本及特定的现象。
抽样调查
实际中应用最广泛的一种调查方式和方法,它是从调查对象的总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种非全面调查。
抽样方法主要有:
概率抽样、非概率抽样。
概率抽样是最理想、最科学的抽样方法。
概率抽样形式:
①简单随机抽样;②分层抽样;分层抽样可以有效降低估计误差。
③整群抽样;④等距抽样,又称系统抽样。
非概率抽样容易实施,成本较低,但不适于推断总体的项目。
非概率抽样的形式:
①主要由调查人员自由选择被调查者的非随机选样;②通过某些条件过滤选择某些被调查者参与调查的判断抽样法;③大多数种类的研究—产品测试、街坊、座谈会。
1)经济性。
这是抽样调查的一个最显著优点。
2)时效性强。
3)适应面广。
抽样调查适用于对各个领域、各种问题的调查。
4)准确性高。
了解:
①总体,调查研究的事物或现象的全体;②个体,组成总体的每个元素或成员;③总体容量,一个总体中所含的个体的数量;④抽样,从总体中按一定抽样技术抽取若干个体的抽到过程;⑤样本,所抽到的部分个体;⑥样本容量,样本中含个体的数量。
重点调查
从调查对象的全部单位中选择一部分重点单位进行调查。
是一种非全面调查。
典型调查
是从调查对象的全部单位中选择一个或几个有代表性的单位进行全面深入的调查。
典型调查主要是一种定性调查研究,必须同其他调查结合起来使用,才能避免出现片面性。
典型调查的作用:
①弥补全面调查的不足;②在一定条件下可以验证全面调查数据的真实性。
典型调查不在于反映现象的总量数据特征,在于了解与统计数字有关的生动的具体情况,做到定性分析和定量分析相结合。
二十三、描述统计
1、在描述统计中,可以通过统计量描述数据的分布特征。
对数据分布特征的测度:
①分布的集中趋势(反应向中心值的聚集程度);②分布的离散程度(反应各数据的差异程度,和中心数据的代表程度);③分布的偏态(反应数据分布的不对称性)。
2、集中趋势的测度
集中趋势,是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值。
集中趋势的测度
概念
优点
缺点
适用范围
均值(数值平均数)
平均数,集中趋势最主要的测度值,数据的重心,解释了数据的平均水平。
能充分利用数据全部信息,受到每个观测值的影响,较稳定
易受极端值的影响。
适用于定量变量,数值型数据,不适用与分类和顺序数据。
中位数(位置平均数)
把一组数据按从小到大的顺序进行排列,位置居中的数值叫做中位数。
不受极值个影响,抗干扰性强。
没有充分利用数据的全部信息,稳定性差于均值,优于众数。
适用于顺序数据和数值型数据,不适用于分类数据。
尤其适用分布不对称的数值型数据。
众数(位置平均数)
一组数据中出现次数或频数最多的变量值。
不受极值影响。
没有充分利用数据的全部信息,缺乏稳定性,而且可能不唯一。
适用于分类和顺序变量,不适用于定量变量。
3、离散程度的测度
离散程度,是指数据之间的差异程度或频数分布的分散程度。
离散程度的测度,主要包括极差、方差和标准差、离散系数等。
适用于数值型数据。
①极差,极差是最简单的变异指标,是总体或分布中最大的标志值与最小的标志值之差,又称全距,用R表示。
极差反映的是变量分布的变异范围或离散幅度,在总体中任何两个单位的标志值之差都不可能超过极差。
极差仅仅取决于两个极端值的水平,不能反映其间的变量分布情况,同时易受极端值的影响。
②方差:
数据组中各数值与其均值离差平方的平均数,是实际中用的最广泛的离散程度测度值,越小则均值代表性越好。
总体方差:
或
样本方差:
(n-1)表示的是样本能自由选择的程度(当选到只剩一个时,它不可能再有自由了,所以自由度是n-1).具体什么时候用哪个做分母。
③标准差,总体所有单位标志值与其平均数离差之平方的平均数的平方根。
公式:
标准差与方差是应用最广泛的统计离散程度的测度方法,只适用于数值型数据,对极端值也很敏感。
、
④离散系数
极差、标准差和方差等都是反映数据分散程度的绝对值。
为消除变量值水平高低和计量单位不同对离散程度测定值的影响,需要计算离散系数。
离散系数,也称变异系数或标准差系数,它是一组数据的标准差与其相应的算术平均数之比,是测度数据离散程度的相对指标,用CV表示,其计算公式为:
CV=S/
离散系数主要是用于比较不同组别数据的离散程度。
离散系数大的说明数据的离散程度也就大,离散系数小的说明数据的离散程度也就小。
4、分布形态的测度
①偏态系数:
测度数据分布偏度的统计量,取决于离差三次方的平均数与标准差的三次方比值,公式为:
SK=0,分布对称;0<SK≤0.5,轻度右偏;0.5<SK≤1,中度右偏;SK>1,严重右偏。
SK为负值,与正值相对应,不过是左偏。
②标准分数:
数值减去均值所得的差除以标准差。
也称为Z分数,平均数为0,标准差为1。
公式为:
当数据成钟型分布的时候,经验法表面,68%的数据与平均数距离在1个标准差内;95%的数据与平均数距离在2个标准差内;99%的数据与平均数距离在3个标准差内。
5、变量间的相关分析
①变量间相关关系的分类:
按相关程度分:
完全相关,不完全相关,不相关。
按相关方向分:
正相关,负相关。
按相关形式分:
线性相关(不一定是直线,曲线也可以),非线性相关。
相关关系并不等同于因果关系,即有相关关系的变量之间,并不一定一方由另一方引起。
②散点图:
可以表示两个变量之间的关系。
6、相关系数
相关系数是度量两个变量间相关关系的统计量。
最常用的相关系数是Pearson相关系数,度量的两个变量间的线性相关关系。
假设分别可得到两个变量X和Y的n组观测值,即
和
,i=1,2,3,……n,观测值一一对应,得到Pearson相关系数r的计算公式为:
r的区间范围:
-1≤r≤1。
r>0表示正线性相关,r<0表示负线性相关;r=1表示完全正线性相关,r=-1表示完全负线性相关;r=0表示不存在线性相关关系,但并不表示没有任何关系。
|r|≥0.8,表示高度相关;0.5≤|r|<0.8,表示中度相关;0.3≤|r|<0.5,表示低度相关;|r|<0.3,相关程度极弱,可视为无线性相关关系。
二十四、抽样调查
1、基本概念
①总体与样本
②总体参数与样本统计量
总体参数是抽样调查中想要了解的,是未知常数;
样本统计量又称估计量,是一个随机变量,与样本选取及设计有关,是对总体参数的估计。
③抽样框
是供抽样所用的所有抽样单元的名单,是抽样总体的具体表现。
常用有名录框,如企业名录、电话簿、人员名册。
抽样中的单位必须有序,高质量的抽样框应当提供被调查单位更多的信息,并且没有重复和遗漏。
2、概率抽样和非概率抽样
①概率抽样:
又称随机抽样,依据随机原则,按照事先设计的程序,从总体中抽取部分单元;
特点:
按一定的概率以随机原则抽取样本;抽中概率可计算;考虑每个样本单元被抽中的概率。
②非概率抽样:
调查者根据自己的方便或主管判断抽取样本的方法,不依随机原则。
如判断抽样(主观判断),方便抽样(如拦截式),自愿样本(如网上调查),配额抽样。
3、抽样调查的一般步骤
确定调查问题→调查方案设计→实施调查过程→数据处理分析→撰写调查报告。
4、抽样调查中的误差
①抽样误差:
由于抽样的随机性造成的,样本不同,对总体的估计也会不同;
②非抽样误差:
抽样框误差,无回答误差,计量误差。
抽样框误差:
抽样框不完整造成数据的遗漏,抽样框更新不及时产生无效数据等等;
无回答误差:
随机因素如恰好不在,造成方差增大;非随机因素如不愿意回答,造成方差增大、估计偏差。
计量误差:
数据与真值不一致造成的误差。
5、抽样的种类:
简单随机抽样、分层抽样、系统抽样、整群抽样、多阶段抽样
6、简单随机抽样
分类:
不放回简单随机抽样;放回简单随机抽样。
最基本的随机抽样方法。
问题:
效率不高,分布分散。
适用条件:
抽样框中没有更多的可利用辅助信息;调查对象的分布范围不广;个体间的差异不是很大。
7、分层抽样
先把总体分为不同的层,再在不同层内独立、随机地抽取样本。
要有足够的辅助信息,使得同一层差异小,不同层差异大。
特点:
不仅可以估计总体参数,也可估计各层参数;便于抽样工作的组织;降低抽样误差。
样本量在各层的分配方法:
等比例分配,不等比例分配。
8、系统抽样
按序排列,确定初始单元,等间隔抽取数据。
分为按无关标识排列和按有关标识排列,后者精度更高。
方差估计比较复杂,给抽样误差带来一定困难。
9、整群抽样
步骤:
划分为互不重叠的群体,抽样时直接抽取群,抽中的群调查全部,未抽中的群不调查。
如果群内差异小,群间差异大,抽样误差会比较大;如果群内差异大,群间差异小,误差低于简单随机抽样,适合此类群体的抽样调查。
10、多阶段抽样
是指将抽样过程分阶段进行,每个阶段使用的抽样方法往往不同,即将各种抽样方法结合使用,在大规模调查中常用。
其实施过程为,先从总体中抽取范围较大的单元,称为一级抽样单元,再从每个抽得的一级单元中抽取范围更小的二级单元,依此类推,最后抽取其中范围更小的单元作为调查单位。
多阶段抽样与分层抽样、整群抽样的关系:
将总体分为若干个一阶单元,如果在每一个一阶单元中,都随机抽取部分二阶单元,由这些二阶单元中的总体基本单元组成的样本,在抽样的方式上,就相当于分层抽样;如果在全部的一阶单元中,只抽取了部分一阶单元,并对抽中的一阶单元中的所有的基本单元都做全面调查,这就是整群抽样。
分层抽样实际是第一阶抽样比为100%时的一种特殊的两阶抽样;而整群抽样实际上是第二阶抽样比为100%时的一种特殊的两阶抽样,故也称单级整群抽样。
11、估计量
①估计量的性质:
无偏性(对不放回简单随机抽样,所有可能样本均值取值的平均值等于总体均值),有效性(方差越小越有效),一致性(随着样本量的增大,估计量稳定于总体参数的真值,则有一致性)。
12、抽样误差的估计
不放回简单随机抽样的估计量方差公式:
(因实践中S²未知,公式以s²替代S²)
公式的意义:
①样本差异越大,s²越大,则误差越大;②样本量n越大,则误差越小。
13、样本量的影响因素
①调查的精度:
精度越大,样本量越大;
②总体的离散程度:
离散程度越大,样本量越大;
③总体的规模:
对小规模总体而言,总体规模越大,样本量越大,大规模不受影响;
④无回答的情况:
无回答率越高,样本量越大;
⑤经费的制约:
样本量是调查经费与调查精度之间的折中和平衡。
二十五、回归分析
1、回归分析的概念
所谓回归分析,就是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的依赖关系。
回归分析和相关分析,联系密切,有共同研究对象,在具体应用时,也常常需要互相补充。
相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。
只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。
相关分析研究变量之间相关的方向和相关的程度;回归分析研究变量之间相互关系的具体形式。
回归分析过程:
确定因变量X,自变量Y,用X来表示Y。
2、一元线性回归模型
一元线性回归方程:
反映了由于自变量X的变化而引起的因变量Y的线性变化。
表示线性关系之外的随机因素,是个随机变量。
因变量Y的期望E(Y)依赖自变量X的方程:
3、最小二乘法
用样本代替总体参数,得到的估计的回归方程:
i=1,2,3,4,……n
最小二乘法就是使得因变量的观测值
与估计值
之间的离差(又称残差)平方和最小来估计参数
和
的方法。
4、模型的检验和预测
①模型的检验:
决定系数,可以测度回归直线对样本数据的拟合程度,计算公式如下:
决定系数的取值在0到1之间。
越接近1,拟合效果越好,越接近0,拟合效果越差。
②模型的预测:
回归分析的一个重要应用就是预测,即利用估计的回归模型预估因变量数值。
二十六、时间序列分析
1、时间序列及其分类
时间序列,也称动态数列,是将某一统计指标在各个不同时间上的数值按时间先后顺序编制形成的序列。
①时间序列由两个基本因素构成:
1)被研究现象所属时间;
2)反映该现象一定时间条件下数量特征的指标值。
同一时间序列中,各指标值的时间单位一般要求相等。
②时间序列按照其构成要素中统计指标值的表现形式,分为绝对数时间序列、相对数时间序列和平均数时间序列三种类型。
绝对数时间序列,是由绝对数指标值按时间先后顺序排列后形成的序列。
依据指标值的时间特点,绝对数时间序列又分为时期序列、时点序列。
时期序列,每一指标值反映现象在一段时期内发展的结果,即“过程总量”如国内生产总值。
时点序列,每一指标值反映现象在一定时点上的瞬间水平,如年底总人口数。
由绝对数时间序列可以派生出相对数时间序列、平均数时间序列。
它们是由同类相对数或平均数指标值按时间先后顺序排列后形成的序列。
前者如城镇人口比重,后者如人均国内生产总值。
2、时间序列的水平分析分为:
发展水平、平均发展水平、增长量与平均增长量。
3、发展水平,时间序列中对应于具体时间的指标数值。
时间序列中第一项的指标值称为最初水平,最末项的指标值称为最末水平,处于二者之间的各期指标值称为中间水平。
根据各期指标值在计算动态分析指标时的作用来划分,又可以分为基期水平、报告期水平。
4、平均发展水平,也称序时平均数或动态平均数,是对时间序列中各时期发展水平计算的平均数,它可以概括性描述现象在一段时期内所达到的一般水平。
时间序列类型不同,计算方法也不同。
5、绝对数时间序列序时平均数的计算
①由时期序列计算序时平均数。
对于时期序列,序时平均数计算公式为:
②由时点序列计算序时平均数
第一种情况,由连续时点计算。
又分为两种情形。
一种是资料逐日登记且逐日排列,可采用简单算术平均数方法计算,计算公式同上:
另一种情形是,资料登记的时间单位仍然是l天,但实际上只在指标值发生变动时才记录一次。
此时需采用加权算术平均数的方法计算序时平均数;权数是每一指标值的持续天数。
计算公式为:
③由间断时点计算。
又分为两种情形。
一种情形,是每隔一定的时间登记一次,每次登记的间隔相等。
间隔相等的间断时点序列序时平均数的计算公式为:
即间隔相等的间断时点序列序时平均数的计算思想是“两次平均”:
先求各个时间间隔内的平均数,再对这些平均数进行简单算术平均。
另一种情形,是每隔一定的时间登记一次,每次登记的间隔不相等。
间隔不相等的间断时点序列序时平均数的计算公式为:
间隔不相等的间断时点序列序时平均数的计算也采用“两次平均”的思路,且第一次的平均计算与间隔相等的间断序列相同;进行第二次平均时,由于各间隔不相等,所以应当用间隔长度作为权数,计算加权算术平均数。
6、相对数或平均数时间序列序时平均数的计算
相对数或平均数时间序列是派生数列,要计算相对数或平均数时间序列的序时平均数,不能就序列中的相对数或平均数直接进行平均计算;而必须分别求出分子指标和分母指标时间序列的序时平均数,然后再进行对比。
用公式表示:
总结:
计算方法
绝对数时间序列序时平均数的计算
时期
序列
——
时点
序列
连续时点
资料逐日登记且逐日排列,即已掌握了整段考察时期内连续性的时点数据
资料登记单位仍是1天,但实际上只是在指标值发生变动时才记录一次
间
断
时
点
间隔相等
间隔不等
相对数或平均数时间序列序时平均数
7、增长量与平均增长量
①增长量。
报告期发展水平与基期发展水平之差,反映报告期比基期增加(减少)的绝对数量。
用公式表示为:
增长量=报告期水平-基期水平
根据基期的不同确定方法,增长量可分为逐期增长量、累计增长量。
1)逐期增长量,报告期水平与前一期水平之差。
它表明现象逐期增加(减少)的绝对数量。
2)累计增长量,报告期水平与某一固定时期水平(通常是时间序列最初水平)之差,它表明报告期比该固定时期增加(减少)的绝对数量。
同一时间序列中,累计增长量等于相应时期逐期增长量之和。
②平均增长量,时间序列中逐期增长量的序时平均数,它表明现象在一定时段内平均每期增加(减少)的数量。
其计算公式为:
(i=1,2……n)
根据逐期增长量与累计增长量之间的数量关系,平均增长量还可以用下式表现:
一定要注意分母是(时间序列项数-1)
8、时间序列的速度分析,主要有发展速度与增长速度、平均发展速度与平均增长速度。
9、发展速度与增长速度
①发展速度,是以相对数形式表示的两个不同时期发展水平的比值。
计算公式为:
发展速度=报告期水平/基期水平
由于基期选择的不同,发展速度有定基与环比之分。
1)定基发展速度,是报告期水平与某一固定时期水平(通常是最初水平)的比值,用
表示
它说明社会经济现象相对于某个基础水平,在一定时期内总的发展速度。
2)环比发展速度,是报告期水平与其前一期水平的比值,用
表示
它说明所研究现象相邻两个时期(逐期)发展变化的程度。
定基发展速度与环比发展速度的数量依存关系:
(掌握)
1)定基发展速度等于相应时期内各环比发展速度的连乘积。
2)两个相邻时期定基发展速度的比率等于相应时期的环比发展速度。
②增长速度,报告期增长量与基期水平的比值。
计算公式为:
增长速度=报告期增长量/基期水平,由于基期选择的不同,增长速度也有定基与环比之分。
1)定基增长速度,用
表示。
定基增长速度=累计增长量/某一固定时期水平=定基发展速度-1
2)环比增长速度,用Bi表示。
环比增长速度=逐期增长量/前一期水平=环比发展速度-1
发展速度与增长速度应用中要注意的问题是:
定基增长速度与环比增长速度不能像定基发展速度与环比发展速度那样互相推算。
定基增长速度与环比增长速度之间的推算,必须通过定基发展速度和环比发展速度才能进行。
10、平均发展速度与平均增长速度
平均发展速度,反映现象在一定时期内逐期发展变化的一般程度,平均增长速度则反映现象在一定时期内逐期增长(降低)变化的一般程度。
平均增长速度与平均发展速度之间的数量关系:
平均增长速度=平均发展速度-l。
目前计算平均发展速度通常采用几何平均法(也称水平法)。
平均发展速度的计算公式:
10、速度的分析与应用
①当时间序列中的指标值出现0或负数时,不宜计算速度。
在这种情况下,适宜直接用绝对数进行分析。
②速度指标的数值与基数的大小有密切关系,“增长1%的绝对值”,是进行这一分析的指标。
它反映同样的增长速度,在不同时间条件下所包含的绝对水平。
计算公式为:
增长1%的绝对值=逐期增长量/环比增长速度
时间序列的水平分析和速度分析
类别
具体指标
关系
水平分析
发展水平
时间序列中对应于具体时间的指标数值,可以分为基期水平、报告期水平
平均发展水平
对时间序列中各时期发展水平计算的平均数
增长量与平均增长量
增长量是报告期发展水平与基期发