中级经济师经济基础四统计_精品文档.docx
《中级经济师经济基础四统计_精品文档.docx》由会员分享,可在线阅读,更多相关《中级经济师经济基础四统计_精品文档.docx(9页珍藏版)》请在冰豆网上搜索。
第二十三章统计与统计数据
1、统计学是关于收集、整理、分析数据和从数据中得出结论的科学。
统计学有两个分支:
描述统计和推断统计。
描述统计是研究数据收集、整理和描述的统计学方法。
内容包括如何取得所需要的数据,如何用图表或数学方法对数据进行整理和展示,如何描述数据的一般性特征。
推断统计是研究如何利用样本数据来推断总体的统计学方法,内容包括参数估计和假设检验两大类。
参数估计是利用样本信息推断总体特征;假设检验是利用样本信息判断对总体的假设是否成立。
统计学是帮助我们认识周围世界的工具,描述统计和推断统计可以一起发挥作用,具体使用哪种方法取决于要解决的问题。
2、变量:
是研究对象的属性或特征,它是相对于常数而言的。
常数只有一个固定取值,而变量可以有两个或更多个可能的取值。
当变量的取值是数量是,该变量被称为定量变量或数量变量。
例如企业销售额、注册员工数量等。
当变量的取值表现为类别时则被称为分类变量,比如企业所属行业。
(定性变量)
当变量的取值表现为类别且具有一定顺序时被称为顺序变量,比如员工受教育水平。
(定性变量)
3、数据是对变量进行测量、观测的结果。
数据根据需要可以是数值、文字或者图像等形式。
分类变量的观测结果称为分类数据,表现为类别,一般用文字来表述,也可以用数值代码表示;数值型数据是对定量变量的观测结果,其取值表现为具体的表示大小或多少数值。
4、统计数据,按其收集方法,可以分为观测数据(通过直接调查或测量而收集到的数据,是在没有对事物施加任何人为控制因素的条件下得到的,几乎所有与社会经济现象有关的统计数据,如GDP、CPI、房价等)和实验数据(通过在实验中控制实验对象以及其所处的实验环境收集到的数据)。
5、统计数据的来源(2种):
①直接的调查和科学实验,称为直接数据或一手数据;一手数据的来源调查或观察、实验,在社会经济领域,统计调查是获得数据的主要方法,也是获得一手数据的重要方式。
②别人的调查或实验的数据,称为间接数据或二手数据。
6、统计调查是按照预定的目的和任务,运用科学的统计调查方法,有计划有组织地搜集数据信息资料的过程。
特征(2个):
调查是一种有计划、有方法、有程序的活动;调查的结果表现为搜集到的数据。
统计调查的分类(2个):
①按调查对象的范围不同,分为全面调查和非全面调查。
全面调查是对构成调查对象的所有单位进行逐一的、无一遗漏的调查,包括全面统计报表和普查。
非全面调查是对调查对象中的一部分单位进行调查,包括非全面统计报表、抽样调查、重点调查和典型调查等。
②按调查登记的时间是否连续,分为连续调查和不连续调查。
连续调查是为了观察总体现象在一定时期内(通常是一年内)的数量变化,它要求随着调查对象的发展变化,连续地进行调查登记。
不连续调查是间隔一个相当长的时间(通常是一年以上)所做的调查,一般是为了对总体现象在一定时点上的状态进行研究。
7、统计调查的方式(5个):
①统计报表:
是我国目前搜集统计数据的一种重要方式。
是按照国家有关法规的规定,自上而下地统一布置、自下而上地逐级提供基本统计数据的一种调查方式。
统计报表要以一定的原始数据为基础,按照统一的表式、统一的指标、统一的报送时间和报送程序进行填报。
种类(2种):
⑴全面统计报表要求调查对象中的每一个单位都填报;⑵非全面统计报表只要求调查对象中的一部分单位填报。
②普查:
是为某一特定目的而专门组织的一次性全面调查,如人口普查、经济普查、农业普查等。
特点(4个):
⑴普查通常是一次性的或周期性的,经济普查每10年2次,在尾数3、8的年份实施;人口普查逢“0”的年份进行;农业普查逢“6”的年份进行。
⑵普查一般需要规定统一的标准调查时间,以避免调查数据的重复或遗漏,保证普查结果的准确性。
第五和第六次人口普查的标准时间为11月1日0时,农业普查的标准时间为1月1日0时。
⑶普查的数据一般比较准确,规范化程度也较高,因此他可以为抽样调查或其他调查提供基本依据;⑷普查的使用范围比较窄,职能调查一些最基本及特定的现象。
③抽样调查:
是从调查对象的总体中抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种非全面调查。
特点(4个):
经济性;时效性强,适应面广;准确性高。
④重点调查:
是一种非全面调查,它是在所要调查的总体中选择一部分重点单位进行的调查。
⑤典型调查:
是一种非全面调查,它是根据调查的目的与要求,在对被调查对象进行全面分析的基础上,有意识地选择若干具有典型意义的或有代表性的单位进行的调查。
作用(2个):
弥补全面调查的不足;在一定条件下可以验证全面调查数据的真实性。
优点:
灵活机动、通过少数典型单位即可深入翔实的统计资料。
缺点:
受主观认识的影响。
第二十四章描述统计
1、对于数据分布特征的测度主要分(3个方面):
①分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;②分布的离散程度,反映各数据之间的差异程度,也能反映中心值对数据的代表程度;③分布的偏态,反映数据分布的不对称性。
对于两个定量变量之间的相关分析,经常采用的描述方法是散点图和相关系数统计数量。
2、集中趋势:
是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。
集中趋势的测度也就是寻找数据水平的代表值或中心值。
①均值:
也叫作平均数,就是数据组中所有数值的总和除以该组数字的个数。
均值是集中趋势最主要的测度值,它是一组数据的重心所在,解释了一组数据的平均水平。
它主要适用于数据型诗句,但不适用分类和顺序数据。
②中位数:
是把一组数据按从小到大或从大到小的顺序进行排列,位置居中的数值,如果为偶数的话,是居中两位数值的平均值。
中位数是一个位置代表值,主要用于顺序数据和数值型数据,但不适用于分类数据。
③众数:
是指一组数据中出现次数(频数)最多的变量值。
众数适用于描述分类数据和顺序数据的集中趋势。
而在定量数据中,可能出现多众数和无众数的情况,因此众数不适于描述定量数据的集中位置。
均值、中位数和众数的比较及适用范围。
①均值适于定量变量。
优点:
能够充分利用数据的全部信息,均值大小受到每个观测值的营销,比较稳定;缺点:
易受极端值的影响,如果观测值种有明显的极端值,则均值的代表性比较差。
②中位数不适于分类变量,适于顺序变量和定量变量,特别是分布不对称的数据。
优点:
不受极端值的影响;缺点:
没有充分利用数据的全部信息,稳定性差于均值,优于众数。
③众数不适用于定量变量,主要适用于分类和顺序变量。
优点:
不受极端值影响,尤其是分布明显呈偏态时,众数的代表性更好。
缺点:
没有充分利用数据的全部信息,确定稳定性,而且可能不唯一。
3、离散程度:
反映的是数据之间的差异程度。
集中趋势的测度值是对数据水平的一个概括性的度量,它对一组数据的代表程度,取决于该组数据的离散水平。
数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差,离散程度越小,其代表性越好。
①方差:
是数据组中各数值与其均值离差平方的平均数,它能较好的反应出数据的离散程度,是实际中应用最广泛的离散程度测度值。
方差越小,说明数据值与均值的平均距离越小,均值的代表性越好。
②标准差,用来测度数据的离散程度,标准差即方差的平方根,对于样本数据。
标准差不仅能度量数值与均值的平均距离,还与原始数据具有相同的计量单位。
标准差与方差计算比较简单,又具有比较好的数学性质,是应用最广泛的统计离散程度的测度方法。
方差与标准差只适用于数值型数据。
③离散系数:
也称为变异系数或标准差系数,即标准差与均值的比值,主要用于不同类别数据离散程度的比较,记为CV。
CV=sX标准差的大小不仅与数据的测度单位有关,也与观测值的均值大小有关,不能直接用标准差比较不同变量的离散程度。
离散系数消除了测度单位和观测值水平不同的影响,因为可以直接用来比较变量的离散程度。
4、偏度:
是指数据分布的偏斜方向和程度,描述的是数据分布对称程度。
偏态系数:
是测度数据分布偏度的统计量。
SK=nn-1(n-2)i=1n(Xi-Xs)3
偏态系数取决于离差三次方的平均数与标准差三次方的比值。
如果偏态系数=0,则说明数据的分布是对称的;如果偏态系数为正值,说明分布为右偏,取值0-0.5之间轻度右偏,取值0.5-1之间中度右偏,>1严重右偏;如果偏态系数为负值,说明分布左偏,(-0.5)-0之间轻度左偏,(-0.5)-(-1)之间中中度左偏,<(-1)严重左偏。
偏态系数的绝对值越大,说明数据分布的偏斜程度越大。
5、标准分数:
在统计上,均值和标准差不同时,不同变量的数值是不能比较的。
标准分数可以给出数值距离均值的相对位置,计算方法是用数值减去均值所得的差除以标准差,计算公式:
Zi=Xi-Xs
标准分数也称为Z分数,是统计上常用的一种标准化方法。
6、变量间的相关关系(3种):
①按相关的程度可分为完全相关、不完全相关和不相关。
⑴完全相关:
当一个变量的取值变化完全由另一个变量的取值变化所确定时;⑵不相关:
当两个变量的取值变化彼此互不影响;⑶不完全相关:
当两个变量之间的关系介于完全相关和不相关之间。
②按相关的方向可分为正相关和负相关。
⑴正相关:
当一个变量的取值由小变大,另一个变量的取值也相应由小变大;⑵负相关:
当一个变量的取值由小变大,而另一个变量的取值相反的由大变小。
③按相关的形式可分为线性相关和非线性相关。
⑴线性相关:
是指两个相关变量之间的关系大致呈现为线性关系;⑵非线性相关:
是指两个相关变量之间,并不表现为直线的关系,而是近似于某种曲线方程的关系。
7、散点图:
两个变量间的关系可以用散点图来展示。
在散点图种,每个点代表一个观测值,横纵坐标值分别代表两个变量相应的观测值。
8、相关系数:
是度量两个变量间相关关系的统计量。
Pearson相关系数(最常用):
度量的是两个变量间的线性相关关系。
Pearson相关系数的取值范围在+1和-1之间,即-1≤r≤1。
若0<r≤1,正线性相关关系;
若-1≤r<0,则负线性相关关系;
若r=1,完全正线性相关;
若r=-1,完全负线性相关;
若r=0,不存在线性相关关系,并不是没有任何关系。
若r=1,变量Y的取值完全依赖于X。
第二十五章抽样调查
1、抽样调查(使用频率最高):
是指按照某种原则和程序,从总体中抽取一部分单位,通过对这一部分单位进行调查得到的信息,以达到对总体情况的了解,或者对总体的有关参数进行估计。
(3个概念):
①总体与样本:
总体即调查对象的主体,样本是总体的一部分,它由从总体中按一定原则或程序抽出的部分个体所组成;
②总体参数与样本统计量:
总体参数是我们所关心变量的数字特征,它是根据总体中所有的单位的数值计算的,也可以说是总体指标值,它是未知的常数,常用的有总体总量、总体均值、总体比例、总体方差等;样本统计量是根据样本中各单位的数值计算的,是对总体参数的估计,因此也称为估计量,是一个随机变量,它取决于样本设计和正好被选入样本的单元特定组合,常用的有样本均值、样本比例、样本方差等。
③抽样框:
是供抽样所用的所有抽样单元的名单,是抽样总体的具体表现,常用的有名录框(企业名录、电话簿、人员名册)、一张地图或其他适当形式。
2、抽样的类别(2种):
①概率抽样:
也称随机抽样,是指依据随机原则,按照某种事先设计的程序,从总体中抽取部分单元的方法。
特点:
⑴按一定的概率以随机原则抽取样本;⑵总体中每个单元被抽中的概率是已知的或者是可以计算出来的;⑶当采用样本对总体参数进行估计时,要考虑到每个样本单元被抽中的概率;
②非概率抽样