统计学总复习提纲.docx
《统计学总复习提纲.docx》由会员分享,可在线阅读,更多相关《统计学总复习提纲.docx(27页珍藏版)》请在冰豆网上搜索。
统计学总复习提纲
统计学总复习提纲
统计学复习提纲
第一章:
绪论
1、
1)统计的含义:
统计一词有统计工作、统计资料、统计科学三种含义,但最基本的还是统计工作。
没有统计工作就不会有统计资料,没有丰富的统计实践经验就不会产生统计科学。
2)统计的研究对象:
统计学的研究对象是统计工作的规律,即搜集、整理和分析统计数据的方法,是一门方法论科学。
3)统计的特点:
数量性、具体性、综合性
2、统计学的基本概念
1)总体:
总体是指在某种共性的基础上由许多个别事物结合起来的整体。
总体有三方面特征:
同质性、大量性、差异性
总体可分为有限总体和无限总体
2)总体单位:
构成总体的个别事物叫总体单位。
总体和总体单位是根据统计研究的目的来确定的。
3)标志:
标志是指说明总体单位特征的名称。
标志可分为数量标志(用数字回答问题)和品质标志(用文字回答问题)。
标志还可分为不变标志和可变标志。
不变标志:
所有总体单位共同具有的特征。
它是构成总体的必要条件和确定总体范围的标准。
可变标志:
在总体各单位之间必然存在差异的标志。
4)变量:
可变标志中既有品质标志也有数量标志。
可变的数量标志就叫变量。
变量的具体数值叫变量值。
凡变量值只能以整数出现的变量,叫离散变量。
凡变量值可作无限分割的变量,叫连续变量。
5)指标与指标体系:
指标:
说明总体数量特征的概念。
指标体系:
以共同的研究目的为纽带而相互联系的一系列统计指标。
6)指标与标志的区别与联系
区别有二:
第一,指标说明总体的特征;而标志说明总体单位的特征。
第二,指标只反映总体的数量特征,所有指标都要用数字来回答;标志则既有反映总体单位的数量特征(用数字回答),也有反映总体单位的品质特征(用文字回答)。
二者联系:
主要表现:
许多标志的数值都是由总体各单位的数量标志的标志值汇总而得来的。
品质标志虽然本身不具有数值,但有些指标是按品质标志分组分组计算得出。
由于总体和总体单位可随统计研究的目的而易位,故指标和数量标志在一定的条件下可以变换。
第二章:
统计调查
1、统计调查:
是指根据统计研究的目的,有组织、有计划地搜集统计资料的过程。
2、统计调查的基本原则:
1)要实事求是,如实反映情况
2)要及时反映,及时预报
3)要数字与情况相结合
3、统计调查的组织形式:
1)普查:
普查是指为搜集某种社会经济现象在某时某地的情况而专门组织的一次性全面调查。
2)随机抽样调查:
又叫概率抽样,是指按随机原则(机会均等原则)从总体中抽取部分单位进行调查,并借以对端和认识总体的一种统计方法。
它是各种非全面调查方法中最科学的一种方法。
(抽样调查即非全面调查。
按抽选调查单位方法的不同,它分为随机抽样和非随机抽样两类。
)
3)非随机抽样调查:
是指调查者有意识地或随意而非随机地从总体中抽取部分单位进行调查的统计方法。
非随机抽样不遵循随机原则,不能事先计算和控制抽样误差,一般也不用于推算总体指标。
4)定期统计报表:
A.是指按国家同一规定的指标体系、表格形式、报送程序和报送时间,定期地自下而上地向国家和上级主管部门报送统计资料的一中统计调查形式。
它是国家取得经常性的基本统计资料的手段。
它即可用于全面调查,也可用于非全面调查。
B.
按内容的不同,可分为基本统计报表和专业统计报表。
按报告周期的不同,可分为日报、旬报、月报、季报、半年报和年报。
按报告形式的不同,可分为电讯报和表式报。
4、非随机抽样的类型
1)重点抽样:
是指只对总体中为数不多但影响颇大(其标志值在总体标志总量中所占比重较大)的重点单位进行研究的一种非全面调查。
它适用于分布比较集中的事物。
特点:
以较少的人力、物力和财力,几时地掌握总体的基本状况及其发展变化的基本趋势。
2)典型抽样:
是指根据对调查对象的初步了解,有意识地从中挑选有代表性的单位进行研究的一种非全面调查。
特点:
灵活方便,反应迅速,省时省力,深入具体,可以把数字和情况结合起来。
作用:
a.“解剖麻雀”,推论一般,指导全局。
b.研究新事物,推广新鲜经验,促进新生事物的发展。
c.有利于全局与典型、数字与情况的结合,促进统计研究的深化。
3)任意抽样:
又叫方便抽样或随意抽样(不是随机抽样)。
是指调查者随意抽取调查单位进行调查的一种方法,但不保证每个单位都有相等的中选机会。
4)配额抽样:
配额抽样就是在对总体作若干种分类和样本总容量既定的情况下,按配额(按一定要求给定的样板单位数)从总体各部分抽取调查单位进行调查的方法。
5、调查误差的概念和种类
概念:
是指调查所得的统计数字与调查对象的实际数量之间的差异,即调查所得的数量大于或小于调查对象的实际数量之差。
种类:
1)工作误差:
由于调查工作中的食物所造成的误差。
2)代表性误差:
以部分推断总体时必然存在的误差。
第三章:
统计整理
统计整理的程序-审核,分组,汇总,制表
统计分组的种类:
按作用目的分:
类型分组,结构分组,分析分组;按标志的多少和分组形式分:
简单分组,复合分组,并列分组;按指标的性质分:
品质分组,数量分组。
(P43)
1.统计分组(根据社会经济现象的特点和统计研究的目的要求,按照某种重要指标把总体分为若干部分的科学分类)
1.1.组数(即将总体分为几组)
品质分组的组数确定主要取决于两个因素-(PPT)统计研究的要求(书:
统计研究的任务)与(PPT)事物本身的属性(书:
事物的特点).
数量分组的组数直接取决于两个因素-总体的标志变异全距;组距
在等距分组的条件下,组数等于全距/组距。
全距=最大指标值-最小指标值
1.2.组距
组距=各组的最大指标值(上限)-各组最小指标值(下限)
组数组距确定的斯特杰斯经验公式:
n=1+lg(N)/lg
(2)或是n=1+1.33lg(N)
d=R/n=(Xmax-Xmin)/1+1.33lg(n)
n:
数组;N:
总体单位数;d:
组距;R:
全距
Xmax:
最大变量值;Xmin:
最小变量值
1.3.组限(每组两端的数值)
每组的起点数值(最小值)为下限;终点数值(最大值)为上限。
组限的形式:
重合式:
相邻两组中,前一组的上限与后一组的下限数值相重。
一般用与连续变量。
组距=本组上限-本组下限
不重合式:
前一组的上限与后一组的下限,两值紧密相连而又不相重复。
一般用于离散变量。
组距=下组下限-本组下限=本组上限-上组上限
1.4.组中值
重合式:
组中值=(上限+下限)/2=下限+组距/2=上限-组距/2
不重合:
组中值=(本组下限+下组下限)/2=本组下限+组距/2=下组下限-组距/2
组距式分组中,常常遇到首末两组“开口”的情况,即有第一组上限无下限,最后一组由下限无上限,此时,组中值=上限-邻组组距/2=下限+邻组组距/2
2.分布数列及其种类
2.1.分布数列:
指反映总体单位在各组的分布状况的一系列数字,又叫次数分布或是次数分配。
其包含两要素:
一是组的名称;二是各组的次数(也称频数)或是频率。
2.2.分布数列的种类(以下数列见表p54-57)
2.2.1.按分组指标分:
品质数列(由各组名称和各组单位数构成);变量数列(由变量和次数两个要素构成)
2.2.2.按分组形式分:
单项式数列(各组都由一个具体的变量值(单项)来表示的数列);组距式数列(指各组都由两个变量值界定的变量区间(组距)来表示的数列,它又分为等距数列和不等距数列)。
注:
它们都属于变量数列。
2.2.3.按次数分布的特征分:
钟形分布数列(其中包括正态分布,偏态分布-右偏分布,左偏分布),U形分布数列,J形分布数列(包括J形,倒J形)
第四章总量指标和相对指标
1.总量指标和种类
1.1.总量指标:
指反映社会经济现象在一定时间,地点条件下所达到的总规模,总水平或工作总量的综合指标。
也称为绝对指标。
表现形式:
绝对数,增量。
1.2.总量指标的种类
1.2.1.按总量指标的总体内容分
总体总量即总体单位数,它是由每个总体单位加总而得到的。
标志总量是指总体各单位某一数量标志值得总和。
1.2.2.按其时间状态分
时期指标也称为时期数。
其特点:
时期指标可以累计相加;时期指标数值的大小与时期的长短密切相关。
时点指标也称为时点数。
其特点:
各时点指标不能累计相加;时点指标数值的大小与时期长短无直接的关系。
1.2.3.按计量单位分;
实物指标是指以实物单位计量的总量指标,即以事物的物理属性或自然属性为计量单位的指标。
实物单位分为:
自然单位;度量衡单位;专用单位;复合单位;标准实物单位。
例见(P79)
价值指标是以货币为计量单位的总量指标。
劳动量指标是以劳动量单位计量,即以劳动时间为计量单位的指标。
相对指标和种类及各种相对指标的计算
1.3.相对指标(指两个有联系的统计指标进行对比的比值,也称为相对数)
其表现形式:
无名数;有名数。
无名数是抽象化的数值,表现形式:
成数,系数,倍数,百分数,千分数等。
(P81)
有名数是指有具体内容的计量单位的数值。
其有单名数和复名数之分。
(p82)
1.4.计划完成相对数及其派生公式
1.4.1.其指计划期内实际完成数与计划数之比。
其考核、反映计划完成的程度(进度)。
计划完成相对数=实际完成数/计划完成数×100%(分子分母位置不能互换)。
超额完成(或未完成)绝对数=实际完成数-计划数
1.4.2.派生公式:
(1)产量,产值增长百分数:
计划完成相对数=(100%+实际增长%)/(100%+计划增长%)×100%
(2)产品成本降低百分数:
计划完成相对数=(100%-实际降低%)/(100%-计划规定降低%)×100%
1.5.结构相对数(部分占全体的比例,反映事物的内部构成、性质、质量及其变化。
)
结构相对数=总体某部分数值/总体数值×100%
特点:
同一总体的结构相对数之和应为100%,且分子分母位置不能互换。
1.6.比例相对数(指同一总体某一部分数值与另一部分数值对比的比值。
反映总体各部分间的内在联系与比例关系。
(同一总体不同部分比较))
比例相对数=总体中某一部分数值/同一总体另一部分数值
特点:
分子分母可互换,且属于同一个总体。
1.7.比较相对数(同一时间的同类指标在不同空间对比的比值。
反映同类现象在不同空间的数量差异。
)
比较相对数=甲地区(单位)某指标数值/乙地区(单位)同一指标数值
特点:
用百分数或倍数表示,分子分母可替换
1.8.动态相对数(某一社会经济现象在不同时期两个数值对比的比率。
又称发展速度或指数。
反映事物发展变化的方向与程度。
)
动态相对数=报告期数值/基期数值×100%
其中:
报告期又称计算期,是研究或计算时期。
基期是作为比较基础的时期。
特点:
分子与分母的位置一般不能互换。
常用百分数、倍数、千分数表示。
1.9.强度相对数(是指两个性质不同而又相互联系指标之比。
①反映一国一地的发展水平、力量强弱。
②反映事物存在的密度、普遍程度、运动强度、负担强度。
③反映经济效益的高低。
)
强度相对数=某一指标数值/另一有联系的指标数值
特点:
有些指标分子与分母可互换,形成正指标和逆指标两种计算方法,数值大小与强度成正比为正指标,反之为逆指标。
计量单位常用复名数。
第五章:
平均指标
1、平均指标及其种类;
平均指标概念:
平均指标是指同质总体各单位某一数量标志在一定时间、地点、条件下所达到的一般水平。
是总体的代表值。
它也是描述分布数列集中趋势的指标。
种类:
算数平均数、调和平均数、几何平均数、众数和中位数
2、各种平均指标的计算:
算术平均数:
简单和加权
简单算数平均数公式:
加权算数平均数:
交替标志平均数;
调和平均数:
简单和加权
几何平均数:
简单和加权
简单几何平均计算公式:
加权集合平均计算公式:
众数:
指总体中出现次数最多的标志值(不唯一)
中位数:
如果将总体各单位标志值按大小顺序排列,局域中点位置那个标志值就是中位数。
(奇数个数据:
(n+1)/2,偶数个数据n/2)
3、算术平均数、众数和中位数的关系:
(1)在正态分布的情况下,算数平均数、中位数和众数三者完全相等
(2)在偏态分布的情况下,变量数列是右偏时,就有众数<中位数<算数平均值
(3)在偏态分布的情况下,变量数列是左偏时,就有算术平均数<中位数<众数
算术平均数、调和平均数和几何平均数的关系:
算术平均数、调和平均数、几何平均数是三种不同形式的平均数,分别有各自的应用条件。
进行统计研究时,若适宜采用算数平均数,就不能用调和平均数或几何平均数;若适宜用调和平均数,就不能才有其他两种平均数。
但从数量关系上来考虑,如果用同一资料(变量各值不相等)计算以上三种平均数,其结果则是:
算数平均数大于几何平均数,而几何平均数又大于调和平均数。
当所有的变量值都相等时,这三种平均数则相等。
第六章:
变异度指标
1、变异度指标的概念和种类
变异度指标的概念:
指综合反映总体各单位标志值及其分布的差异度的指标也称标志变动度指标。
变异度指标的种类:
(1)全距和四分位差
(2)平均差、标准差和方差
(3)偏度和峰度
2、各种变异度指标的计算:
全距和四分位差
全距R=最大值xmax-最小值xmin
四分位差Q=第三个四分位数Q3—第一个四分位数Q1
(Q3的位置=3(n+1)/4,Q1的位置=(n+1)/4)
平均差、标准差和方差(总方差、组间方差和组内方差P147)
简单平均差:
加权平均差
标准差:
变异系数(平均差系数、标准差系数)
平均差系数=平均差与算术平均数对比的比值
标准差系数=标准差与算术平均数对比的比值
3、偏度和峰度:
了解含义;能根据偏度和峰度系数判断分布的特点。
偏度:
反映总体次数分布偏斜方向和程度的指标
偏态系数=0为对称分布
偏态系数>0为右偏分布
偏态系数<0为左偏分布
峰度:
峰度是指统计学中描述分布曲线峰顶尖峭程度的指标。
峰态系数=0扁平峰度适中
峰态系数<0为扁平分布
峰态系数>0为尖峰分布
第七章:
抽样调查
1、了解几种常用分布的特点:
二项分布、泊松分布、超几何分布和(标准)正态分布。
P175
二项分布:
是指只有两种可能结果的重复随机试验的概率分布。
泊松分布:
是指在λ=np恒定的情况下,当n趋于无穷大,p趋于0时,二项分布趋于泊松分布的概率分布。
超几何分布:
是指只有两种可能结果的不重复试验的概率分布。
2、了解大数定理、中心极限定理的的含义
(一)大数定理是指大量随机变量的平均结果具有稳定性的一系列定理的总称,也称大数法则。
(1).贝努里大数定理
设是n次独立试验中事件A发生的次数,P是事件A在每次试验中发生的概率,则对于任意正数,有:
limp{|m/n-p|<ε}=1
这一定理表明,当试验在不变的条件下重复进行很多次时,随机事件出现的频率在它的概率附近摆动;并且只要试验次数n足够大,事件出现的频率就趋于其概率。
(2).契比雪夫大数定理
契比雪夫不等式:
契比雪夫定理:
设独立随机变量序列X(i),分别有数学期望E(Xi)和方差D(xi),并且有一致的上限,即存在某一常数K使得D(xi)<=k(i=1,2,..,n)。
则对于任意的正数ε,恒有:
(二)中心极限定理P184
中心极限定理是指随机变量序列的极限分布渐近于正态分布的一系列定理的总称。
(1)独立同分布中心极限定理:
即当样本容量n趋于无穷大时,随机变量的数学期望趋于平均值、方差为σ2/n的正态分布。
(2)棣莫弗—拉普拉斯中心极限定理:
即当n趋于无穷大时,样本成数p趋于总体成数P、方差为
的正态分布。
3、抽样调查的基本原理:
P187
1)基本概念:
总体和样本;总体指标和样本指标
总体:
指调查研究对象的全体。
样本:
指从总体中按随机原则抽取的那部分调查单位所构成的总体。
总体指标:
是根据总体某种属性计算的综合指标.(唯一确定,定植,例如:
总体平均数,总体标准差)
样本指标:
根据样本某种属性计算的综合指标。
(不是唯一确定,随机变量,例如:
样本平均数,样本方差)
2)重复抽样和不重复抽样
重复抽样:
指从总体中随机抽选一个样本登记后,还需要把它在放回,下一次仍然从总体所有单位中抽取,如此进行下去,知道抽够预定的样本单位数n为止。
不重复抽样:
从总体中随机抽选一个样本等级之后,不再把它放回,下一次只从剩余总体单位中抽选,如此进行下去,直到抽够预定的样本单位数n为止。
3)抽样误差:
实际误差、平均误差和极限误差。
抽样实际误差:
是指一次抽样中,由随机因素引起的样本指标与全及指标之间的离差。
抽样平均误差:
是指样本平均数(或样本成数)的标准差,它反映了所有抽样结果所得的样本指标值与全及指标值的平均离差。
抽样极限误差:
是指样本指标与全及指标之间的可能误差范围。
由于样本指标是围绕全及指标上下波动的随机变量,其变动幅度或大或小,取值或正或负,这种变动范围的绝对值就是抽样极限误差。
4、了解抽样调查的几种组织形式及其特点:
简单随机抽样、类型抽样、等距抽样、整群抽样和多级抽样。
简单随机抽样:
又称纯随机抽样,它是根据随机原则直接从总体中抽取样本单位的一种抽样方法。
从理论上讲,简单随机抽样最符合抽样的随机原则.
(特点:
主要适用于总体单位数较少、范围较狭窄的情况)
类型抽样:
又称分层抽样或分类抽样,它是指对总体各单位先按主要标志加以分类,然后再从各类中按随机原则抽选一定单位构成样本的抽样组织形式。
(特点:
类型抽样通过对总体各单位分类后,可以使总体单位标志值比较接近的单位归为一类,使各类的分布比较均匀,在样本量一定的条件下,可以缩小抽样平均差距,提高抽样调查的效率。
)
等距抽样:
又称为机械抽样或系统抽样,是将总体全部单位按照某一标志排列,而后按固定顺序和间隔来抽选样本单位的抽样组织形式。
(特点:
随机性表现在抽取第一个样本单位,当第一个单位确定后,其余的各个单位也就确定了。
)
整群抽样;讲总体各单位划分成若干群,然后以群为单位从中随机抽取一些群,对抽中群的所有单位都进行调查的抽样组织形式。
(特点:
组织方便,节省人力财力时间;调查单位相对集中,在总体中分布不均匀,抽样误差较大,抽样估计精度也较低。
)
多级抽样:
又称多阶段抽样,它把抽取样本单位分为n个步骤进行,即先从总体中抽取一级单位,然后再从抽中的一级单位中抽取二级单位,知道抽取最终单位。
(特点;调查的总体范围分布广,节省人财物,灵活方便)
第八章:
参数估计和假设检验
1、点估计和区间估计
点估计:
区间估计:
2、假设检验的含义和步骤;
假设检验:
假设检验是利用样本的实际统计量,去检验事先对总体某些数量特征所作的假设是否可信,进而为决策取舍提供依据的一种统计分析方法。
步骤:
(1)建立假设;
(2)决定检验的显著性水平α;
(3)确定检验统计量;
(4)将实际求得的检验统计量取值与临界值进行比较,作出拒绝或接受原假设的决策。
3、原假设、备择假设;
原假设:
又称零假设、虚无假设,一般用H0表示
备择假设:
又称择一假设,即原假设被否定之后而采取的逻辑对立的假设。
4、基本概念:
显著性水平、置信水平、置信区间、P值;
双侧检验和单侧检验;z检验、t检验
显著性水平:
显著性水平α——是指在进行假设检验时,事先规定的、作为判断界限的一个小概率的标准。
置信水平:
置信区间:
P值:
是一个概率值;如果原假设为真,P-值是抽样分布中大于或小于样本统计量的概率;被称为观察到的(或实测的)显著性水平。
双侧检验:
检验样本平均数(成数)与总体平均数(成数)有没有显著性差异,不问差异的方向是正差还是负差时,用双侧检验。
单侧检验:
左单侧检验——检验总体平均数或成数是否低于预先假设,应该用左侧检验。
检验总体平均数或成数是否超过预先假设,应该用右侧检验。
Z检验:
从一般非正态分布总体中抽取容量为n的样本,当容量很大时,样本平均数也趋近于正态分布,而统计量Z趋近于标准正态分布。
t检验:
假定样本样本取自正态总体并且样本平均数x和抽样标准差相互独立的一种分布。
5、总体均值检验、总体成数(比例)检验、总体方差检验(卡方检验)
总体均值检验:
检验当前总体平均数是够和事先假设的总体平均数存在显著性差异。
总体成数(比例)检验:
1.假定条件
⏹有两类结果
⏹总体服从二项分布
⏹可用正态分布来近似
2.比例检验的Z统计量
(π0为假设的总体比例)
总体方差(卡方)检验:
1.检验一个总体的方差或标准差
2.假设总体近似服从正态分布
3.检验统计量
6、假设检验的两类错误及其关系。
1)第一类错误(弃真错误)
⏹原假设为真时拒绝原假设
⏹会产生一系列后果
⏹第一类错误的概率为a
●被称为显著性水平
2)第二类错误(取伪错误)
⏹原假设为假时接受原假设
⏹第二类错误的概率为b(Beta)
关系:
a小b就大,a大b就小
第九章:
相关和回归
1、区分函数关系和相关关系
函数关系所反映的现象之间的具体关系值固定,自变量与因变量在数量上一一对应;而相关关系所反映的现象之间的具体关系值不固定,有关现象变动在数量上不是一一对应的,具有一定的随机性。
2、相关关系的种类、相关系数
种类:
⏹变量多少:
单相关和复相关;
⏹相关形式:
线性相关和非线性相关;
⏹相关方向:
正相关和负相关;
⏹相关程度:
完全相关、不完全相关和不相关;
⏹相关性质:
真实相关和虚假相关。
相关系数R:
它是直线相关分析中用来衡量两个变量之间相关程度的重要指标。
1、当︱R︱=1,称完全相关;
2、当R=0,称零相关;
3、当0<︱R︱<1,称普通相关。
其中:
当R>0.8高度相关;
当0.3≤R≤0.8中度相关;
当R<0.3低度相关
3、熟悉回归的含义和种类;
含义:
回归是研究自变量与因变量之间的关系形式的分析方法
种类:
1)按变量的多少分——一元回归方程和多元回归方程;
2)按是否线性分——线性回归方程和非线性回归方程;
3)按是否有滞后关系分——自身回归方程和无自身回归方程;
4)按是否带虚拟变量分——普通回归方程和带虚拟变量回归方程。
4、相关分析和回归分析的区别和联系;
区别:
相关分析研究的都是随机变量,不分自变量与因变量;回归分析研究的变量要定出自变量(确定的变量)与因变量(随机变量)。
联系:
它们是研究现象之间相互依存关系的两个不可分割的方面。
5、简单直线回归的原理:
最小平方法的中心思想
原理:
在相关图的分析的基础上,可以选择一定的回归方程式进行定量分析。
对两个具有线性关系的变量,配合线性回归方程,并根据自变量的变动来测定因变量平均发展趋势。
中心思想;是通过数学模型,配合一条较为理想的趋势线。
这条趋势线必须满足下列两点要求:
(1)原数列的观察值与模型的估计值的离差平方和为最小;
(2)原数列的观察值与模型的估计值的离差总和为零。
6、总平方和;反映因变量的n个观察值与其均值的总离差
回归平方和:
反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和.
残差平方