统计总复习资料 打印4份.docx
《统计总复习资料 打印4份.docx》由会员分享,可在线阅读,更多相关《统计总复习资料 打印4份.docx(37页珍藏版)》请在冰豆网上搜索。
统计总复习资料打印4份
绪论(客观题)
重点:
统计学的定义与分类,分支
基本概念(总体、总体单位、样本、标志)
一、统计学
1统计是人们认识客观世界总体数量变动关系和变动规律的活动的总称,是认识客观世界的有力工具。
2统计的研究对象的特点:
a)数量性。
统计数据是客观事物量的反映。
b)总体性。
统计的数量研究是对现象总体中各单位普遍存在的事实进行大量观察和综合分析。
c)变异性。
总体各单位的特征表现存在着差异,而且这些差异并不是事先可以预知的。
3统计学是关于数据的科学,研究如何收集、分析、表述数据,并通过数据得出基本结论。
4统计分为描述统计,推断统计、核算统计、理论统计、应用统计
描述统计:
汇总的表、图和数值。
包括搜集数据、整理数据、展示数据
推断统计:
用样本数据对总体性质进行估计,检验
核算统计:
对国家或地区经济运行过程及各类总量进行描述和分析
二、统计学中的几个主要概念
1.总体:
根据一定目的确定的所要研究的事物的全体。
它是由客观存在的、具有某种共同性质的许多个别事物构成的整体。
总体单位(简称单位)是组成总体的各个个体。
根据研究目的的不同,单位可以是人、物、机构等实物单位,也可以是一种现象或活动等非实物单位。
根据总体所包含的单位数量,总体可以分为有限总体和无限总体两类。
2.样本:
由总体的部分单位组成的集合
样本容量:
样本所包含的总体单位数
3.标志(变量):
总体各单位普遍具有的属性或特征。
标志的分类:
品质标志:
单位属性方面的特征。
品质标志的表现只能用文字、语言来描述
四种计量尺度的比较
定类尺度
定序尺度
定距尺度
定比尺度
分类(=,≠)
排序(<,>)
间距(+,-)
比值(×,÷)
√
√
√
√
√
√
√
√
√
√
数量标志:
单位数量方面的特征。
数量标志可以用数值来表现
三、几种常用的统计软件
SASSPSSMINITABSTATISTICAExcel
数据(选择,判断,简答)
重点:
1.数据及其相关概念2.品质数据与数量数据
3.数据的计量尺度4.统计调查方式
5.调查误差6.数据分组
一、数据及其相关概念
1.数据:
所收集、分析、汇总表述和解释的事实及数字
数据是进行统计分析研究的基础
数据是统计学研究对象的特征,是客观事实
数据不仅仅局限于数字范畴,包括非数字形式的其他信息
2.个体——总体单位:
收集数据的实体,也就是数据的承载者
变量:
个体的特征或者属性
变量值:
个体在变量上的具体表现
指标亦称统计指标,是说明总体的综合数量特征的。
标志:
总体各单位普遍具有的属性或特征
指标与标志的区别:
标志是说明总体单位特征的,而指标是说明总体特征的。
指标都能用数值表示,而标志中的品质标志不能用数值表示,是用属性表示的。
二、品质数据与数量数据
1.品质数据:
不能用数字来表述的特征。
如人的性别,民族,宗教信仰等
2.数量数据:
用数字能够表述的特征,数值型特征,如人的身高,体重等
3.区别:
数量数据总是以数字形式表现,品质数据可以是数值型,也可以是非数值型。
只有数量数据可以进行数学运算
三、数据的计量尺度
1.数据的计量尺度分为定类尺度、定序尺度、定距尺度、定比尺度
2.定类变量:
“名义型变量”,值只能用文字表述
计量层次最低,对事物进行平行的分类,地位平等,没有高低优劣之分
各类别可以指定数字代码表示
使用时必须符合类别穷尽和互斥的要求,数据表现为“类别”
具有=或的数学特性,如性别,民族,党派
3.定序变量:
“顺序型”变量,变量值只能用文字表述
对事物分类的同时给出各类别的顺序
比定类尺度精确,但未测量出类别之间的准确差值
数据表现为“类别”,但有顺序性
具有>或<的数学特性,如优秀,良好,及格,不及格
4.定距变量:
变量值为数值型
对事物的准确测度,比定序尺度精确,没有绝对零点
具有+或-的数学特性,如温度,公元纪年等极少数现象属于定距变量
5.定比变量:
数据表现为“数值”
对事物的准确测度,与定距尺度处于同一层次,有绝对零点
具有或的数学特性,可以进行任何形式的计算
6.四种计量尺度的比较
四、统计调查方式
1.统计调查方式有普查、抽样调查、典型调查、重点调查
2.普查:
为特定目的专门组织的非经常性全面调查
通常是一次性或周期性的;一般需要规定统一的标准调查时间
应用范围比较狭窄,如人口普查,工业普查
3.抽样调查:
从总体中随机抽取一部分单位(样本)进行调查
分重复抽样和不重复抽样
目的是推断总体的未知数字特征
遵循随机性原则;存在调查误差,并且可以加以控制
具有经济性、时效性强、适应面广、准确性高等特点
4.典型调查:
从调查对象的全部单位中选择少数典型单位进行调查
目的是描述和揭示事物的本质特征和规律
调查结果不能用于推断总体
5.重点调查:
从调查对象的全部单位中选择少数重点单位进行调查
调查结果不能用于推断总体
优点在于调查单位少,可以调查较多的项目和指标,了解较详细的情况。
即用较少的人力和时间,取得较好的效果。
组织重点调查的关键问题是确定重点单位。
五、调查误差
1.调查误差:
收集的数据资料与真实情况之间的差距
调查误差本身不确定,或者说是未知量
表2某车间50名工人日加工零件数分组表
零件数
(个)
频数
(人)
零件数
(个)
频数
(人)
零件数
(个)
频数
(人)
107
108
110
112
113
114
115
117
118
1
2
1
2
1
1
1
3
3
119
120
121
122
123
124
125
126
127
1
2
1
4
4
3
2
2
3
128
129
130
131
133
134
135
137
139
2
1
1
1
2
2
1
1
2
2.调查误差的种类:
登记性误差和代表性误差
登记性误差:
由于调查者或被调查者的人为因素所造成的误差。
理论上讲可以消除
代表性误差:
用样本数据进行推断时所产生的误差。
通常无法消除,但事先可以进行控制和计算
六、调查分组
1.分组方法:
单变量值分组和组距分组(等距分组和异距分组)
2.单变量值分组:
将一个变量值作为一组
适合于离散变量和变量值较少的情况
单变量值分组表:
3.组距分组:
将变量值的一个区间作为一组
适合于连续变量和变量值较多的情况
必须遵循“不重不漏”的原则
可采用等距分组,也可采用不等距分组
4.组距分组步骤:
(1)确定组数:
组数的确定没有专门的规定,应以能够显示数据的分布特征和规律为目的。
建议组数:
5-20组
(2)组限:
变量值区间两端的值,上限和下限
(3)确定各组组距:
组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定
注意:
开口组只有一个组限,无法计算组距,开口组以相邻一组的组距作为其组距
(4)根据分组整理成频数分布表
编制频数分布表的步骤:
确定组数——确定组距——计算频数——编制表格
5.下限:
一个组的最小值
上限:
一个组的最大值
组距:
上限与下限之差
组距=(最大值-最小值)÷组数
组中值:
下限与上限之间的中点值
组中值=(下限值+上限值)/2
6.等距分组表(使用开口组)
表5某车间50名工人日加工零件数分组表
按零件数分组
频数(人)
频率(%)
110以下
110~114
115~119
120~124
125~129
130~134
135以上
3
5
8
14
10
6
4
6
10
16
28
20
12
8
第三章单变量描述统计(计算,客观题)
重点:
1.频数与累计频数2.集中趋势的度量
3.离散程度的度量4.偏态与峰度的测度
一、频数与累计频数
1.频数——次数:
对总体经过分组后形成各组单位数在各组间的分布。
也就是各类别中的数据个数。
2.累计频数(P62表3-3)
向上累计:
将各组次数和比率,由变量值低的组向变量值高的组逐组累计。
向下累计:
将各组次数和比率,由变量值高的组向变量值低的组逐组累计。
二、集中趋势
1.定类数据:
众数(M0)
众数:
出现次数最多的变量值。
不受极端值的影响,可能没有众数或有几个众数
主要用于定类数据,也可用于定序数据和数值型数据
对单项式分组数列确定众数:
出现次数最多的标准值就是众数(书P63例3.2)
对组距数列确定众数:
出现次数最多的组作为众数所在组
2.定序数据:
中位数和分位数
a.中位数(Me):
排序后处于中间位置上的值.
不受极端值的影响
主要用于定序数据,也可用数值型数据,但不能用于定类数据
中位数位置的确定:
(看书P65例3.4)
未分组数据:
组距分组数据:
(根据向上/下累计法确定中位数)
未分组数据的中位数的计算公式:
b.四分位数:
把数据分为4部分,处在分位点的数值
第1个四分位数为下四分位数(QL),第3个为上四分位数(QU),间为QM=Me
不受极端值的影响
主要用于定序数据,也可用于数值型数据,但不能用于定类数据
四分位数位置的确定:
未分组数据:
下四分位数位置=(N+1)/4
上四分位数位置=3*(N+1)/4
组距分组数据:
下四分位数位置=N/4
上四分位数位置=3N/4
c.百分位数
P百分位数:
p%据项的值小于等于P百分位数
(100-p)%的数据项的值大于等于P百分位数
3.定距和定比数据:
均值(P69例3.10)
a.值易受极端值的影响
用于数值型数据,不能用于定类数据和定序数据
简单均值的计算公式为
权均值的计算公式为
各变量值与均值的离差之和等于零
各变量值与均值的离差平方和最小
b.调和平均数:
于定比数据,能用于定类数据和定序数据
计算公式:
=∑Xf/∑f=∑Xf/∑(1/X)*XF=∑m/∑(1/X)*m
4.众数、中位数和均值的比较
对称分布:
均值=中位数=众数
左偏分布:
均值<中位数<众数
右偏分布:
均值>中位数>众数
三、离散趋势及其测度
1.离中趋势:
反映各变量值远离其中心值的程度。
2.定类数据:
异众比率(P76例3.14)
异众比率:
数组的频数占总频数的比率
计算公式为
越大代表性越不好,反之越少代表性越好
3.定序数据:
四分位差(QD)
上四分位数与下四分位数之差:
QD=QU-QL
反映了中间50%数据的离散程度(越少越好)
4.定距和定比数据:
方差及标准差
a.极差(全距):
组数据的最大值与最小值之差
计算公式为:
未分组数据R=max(Xi)-min(Xi)
组距分组数据R最高组上限-最低组下限
b.平均差(A.D):
各变量值与其均值离差绝对值的平均数.P78例3.17)
计算公式为:
未分组数据
组距分组数据
c.方差和标准差
总体方差和标准差的计算公式:
未分组数据:
组距分组数据:
样本方差和标准差的计算公式:
未分组数据:
组距分组数据:
5.相对离散程度:
离散系数(P82例3.19)
离散系数:
用于对不同组别数据离散程度的比较
标准差系数:
平均差系数:
四、偏态与峰度
1.偏态:
数据分布偏斜程度的测度。
(P88例3.21)
计算公式为:
偏态系数=0为对称分布
偏态系数>0为右偏分布
偏态系数<0为左偏分布
2.峰度:
次数分布曲线顶峰尖削程度的综合分布。
(P89例3.22)
计算公式为:
峰度系数=3,扁平程度适中,正态分布。
扁平分布:
偏态系数<3,变量值的次数在众数周围分布分散。
尖峰分布:
偏态系数>3,变量值的次数在众数周围分布集中。
课后练习P97(2,3,5,6)
2.解:
(1)
=(300*80+310*180+320*230+330*340+
340*320+350*160+360*90)/(80+180+230+340+320+160+90)=330.57
中位数的位次=(∑f+1)/2=(1400+1)/2=700.5
根据向上累计次数可得,前3项累计次数为490<700.5,到第4项累计次数为830>700.5,所以Me=330M0=330
(2)全距=极差=360-300=60(其他自己代入公式就可以了)
3.解:
(1)
=∑Xf/∑f=(12.4*5+3.8*5+4.4*5+3.0*5)
/(5+5+5+5)
(2)
H=(5+5+5+5)/(5/12.4+5/3.8+5/4.4+5/3.0)
第四章两变量描述统计(选择,判断,简答)
重点:
1.相对指标2.协方差和相关分析
相对指标
1.相对指标:
两个有联系的指标数值对比得到的综合指标
2.相对指标的表现形式:
无名数和有名数
无名数:
抽象掉分子和分母的计量单位。
表现为百分数,千分数,倍数,系数
有名数:
保留分子和分母的计量单位。
表现:
密度
3.相对指标的具体形式(6种)
结构相对数=(各部分比重和为1)
比例相对数=(三个或三个以上的连比)
比较相对数=(横向比较,静态)
动态相对数=(随时间发展的变化,动态)
强度相对数=
(两个性质不同但有一定联系的总量指标之比,有名数)
计划完成程度相对数=(计划完成的程度)
例根据相对数来计算计划完成相对数
某企业生产某产品,上年度实际成本为420元/吨,本年度计划单位成本
降低6%,实际降低7.6%,则:
比计划多完成1.71%;
本题也可换算成绝对数计算:
计划-6%~394.8元/吨[(1-6%)×420]
实际–7.6%~388.08元/吨[(1-7.6%)×420]
二、协方差和相关分析
1.样本协方差公式:
总体协方差公式:
协方差是一个绝对指标
2.总体相关系数(总体相关系数记为)
样本相关系数
(样本相关系数记为r)
3.r的取值范围是[-1,1]
|r|=1,为完全相关r=1,为完全正相关
r=-1,为完全负正相关r=0,不存在线性相关关系
-1r<0,为负相关0|r|的数值愈接近于1,x与y直线相关程度愈高
|r|的数值愈接近于0,x与y直线相关程度愈低
4.相关程度评价标准:
|r|<0.3称为微弱相关
0.3≤|r|<0.5称为低度相关
0.5≤|r|<0.8称为显著相关
0.8≤|r|<1称为高度相关或强相关。
第五章概率与概率分布(选择,判断,)
重点:
1.正态分布2.中心极限定理(了解就可以了)
一、正态分布
1.正态分布的概率密度函数
f(x)=随机变量X的频数
=总体方差
=3.14159;e=2.71828
x=随机变量的取值(-=总体均值
2.正态分布函数的性质
概率密度函数在x轴的上方,即f(x)>0
正态曲线的最高点在均值,它也是分布的中位数和众数
正态分布是一个分布族,每一特定正态分布通过均值的标准差来区分。
决定曲线的高度,同时决定曲线的平缓程度,即宽度
曲线f(x)相对于均值对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交
正态曲线下的总面积等于1
3.正态分布的概率
P(a≤x≤b)=∫abf(x)dx
4.标准正态分布函数
任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布
标准正态分布的概率密度函数
标准正态分布的分布函数
5.标准正态分布表的使用
将一个一般的转换为标准正态分布,计算概率时,查标准正态概率分布表
对于负的x,可由(-x)x得到
对于标准正态分布,即X~N(0,1),有
P(aXb)ba
P(|X|a)2a1
对于一般正态分布,即X~N(,),有
例1设X~N(0,1),求以下概率:
(1)P(X<1.5);
(2)P(X>2);
(3)P(-1解:
(1)P(X<1.5)=(1.5)=1-0.0668=0.9332
(2)P(X>2)=1-P(X2)=1-0.9973=0.0228
(3)P(-1(1)]=0.9987-(1-0.8413)=0.8354
(4)P(|X|2)=P(-2X|2)=
(2)-(-2)
=
(2)-[1-
(2)]=2
(2)-1=0.9544
例2设X~N(5,32),求以下概率
(1)P(X10);
(2)P(2解:
(1)
二、中心极限定理
1.中心极限定理:
设从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。
中心极限定理:
第九章抽样调查(计算题和客观题)
重点:
1.抽样调查的基本问题2.成数的概念和计算
3.抽样误差(主要是平均误差)
4.区间估计(总体均值得区间估计)
一、抽样调查的基本问题:
1.抽样调查的意义:
按照随机原则从总体中抽取一部分单位进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为代表,对总体作出数量上的推断分析。
2.抽样总体:
抽取出来调查观察的单位。
抽样总体的单位数用n表示
n≥30大样本
n<30小样本
3.总体参数和样本统计量符号
总体参数
样本统计量
总体容量:
N
总体平均数:
μ
总体成数:
P
总体方差:
σ2
总体标准差:
σ
样本容量:
n
样本平均数:
样本成数:
p
样本方差:
S2
样本标准差:
S
二、简单随机抽样调查
1.简单随机抽样调查通常有以下四种组织形式:
直接抽选法、抽签法、随机数表法、计算机模拟法
2.总体和样本的平均数
总体和样本的方差和标准差,分有偏(n>30)和无偏(n≤30)
(公式见书P239-240)
3.有偏样本方差和标准差是总体方差和标准差的一致、有效估计量,但不是无偏估计量
无偏样本方差和标准差是总体方差和标准差的一致、有效、无偏估计量
三、成数(看P243例9.2)
1.总体成数(P)
每个总体单位标志值设为0或1
1:
具有某种属性的总体单位标志值
0:
不具有某种属性的总体单位标志值
成数总体方差:
P(1-P)
样本成数(p)
p=n1/n(n是总体容量,n1是具有某种属性的样本数)
样本成数的方差和标准差
样本成数的无偏方差(n<=30)
标准差=方差开平方
样本成数的有偏方差(n>30)
样本成数的性质:
成数是一种特殊的平均数
总体中具有某个属性的单位占全体单位的比重
样本成数p是总体成熟P的无偏、一致、有效估计量
样本成数的无偏方差是成数总体方差的无偏估计量
四、抽样平均误差
1.重复简单随机抽样:
不重复简单随机抽样:
为总体方差为不重复抽样的修正因子
2.样本成数的抽样平均误差
重复抽样条件下:
不重复抽样条件下:
例1
五、区间估计(P249例9.3)
1.设总体参数为,由样本确定的两个统计量,对于给定的,有
则称为参数的置信度为的置信区间,该区间的两个端点分别称为置信下限和置信上限,统称为置信限。
为显著性水平,则称为置信度。
2.总体未知参数落在区间内的概率,表示为(1-%)a
a为显著性水平,是总体参数未在区间内的概率
常用的置信水平值有99%,95%,90%,相应的a为0.01,0.05,0.10
3.如果总体服从正态分布,且总体方差(2)已知
如果不是正态分布,可以由正态分布来近似(n³30)
那么总体均值在1-置信水平下的置信区间为
例2:
某种零件长度服从正态分布,从该批产品中随机抽取9件,测得其平均长度为21.4mm。
已知总体标准差=0.15mm,试建立该种零件平均长度的置信区间,给定置信水平为0.95。
解:
已知x~N(,0.152),x=2.14,n=9,1-=0.95,Z/2=1.96,总体均值的置信区间为
结论:
我们可以95%的概率保证该种零件的平均长度在
21.302~21.498mm之间
4.样本容量n
与总体方差成正比
与允许误差成反比
与可靠性系数成正比
书P2805.解:
(1)
=
=215,因为样本均值是总体均值的一致、有效估计量
=根号(202/50*(1-50/800))
(3)=(215-1.96*20/根号50,215+1.96*20/根号50)
第十章时间序列分析(计算题,客观题)
重点:
1.时间序列的定义与分类
2.水平分析(序时平均数的计算)
3.速度分析(发展速度,增长速度,增长1%的绝对值)
一、时间序列及其分类
1.时间序列:
同一现象在不同时间上的相继观察值排列而成的数列
2.时间序列的分类
3.时间序列的特点:
序列
特点
时点
不可加性—不同时期资料不可加
无关联性—与时间的长短无关联
间断登记—资料的收集登记
时期
可加性、关联性、连续登记
相对
派生性—由绝对数列派生而得
不可加性
平均
二、时间序列的水平分析
1.时间序列的水平指标:
1.发展水平
2.平均发展水平
序时(动态)平均数
3.增长水平
逐期增长量
累计增长量
平均增长量
2.序时平均数的计算
总量指标时期数列的序时平均数——算术平均
连续时点数列的序时平均数——算术平均
连续时点间隔不相等时——加权算术平
间断时点数列的序时平均数
时期序列:
间隔相等时,采用首末折半法计算(例:
(月末+月初)/2)
间隔不相等时,采用时间间隔长度加权平均∑yifi/∑fi(fi是权数)
3.逐期增长量:
报告期水平与前一期水平之差
人均国内生产总值速度计算表
年份
2005
2006
2007
2008
2009
人均国内生产总值
14185.0
16500.0
20169.0
23708.0
25575.0
发展速度
(%)
环比
定基
—
100
116.3
116.3
122.2
142.2
117.5
167.1
107.9
180.3
增长速度
(%)
环比
定基
—
—
16.3
16.3
22.2
42.2
17.5
67.1