统计学章节整理Word文档下载推荐.docx
《统计学章节整理Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《统计学章节整理Word文档下载推荐.docx(27页珍藏版)》请在冰豆网上搜索。
将总体中若干个单位合并为组,这样的组称为群,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。
4)系统抽样:
将总体中的所有单位按一定顺序排列,按照拟抽样数,将其划分成相同的段,然后在每一段中的固定位置抽取一个调查单位。
5)多阶段抽样:
先按整群抽样的方法,抽取群,再从选中的群中随机抽取若干单位进行调查,这是二阶段抽样。
多阶段抽样以此类推。
非概率抽样
方便抽样
容易实施、自行确定、成本低
判断抽样
根据经验、判断、对研究对象的了解抽样
自愿样本
自愿参加
滚雪球抽样
针对特定稀少群体的研究
配额抽样
先分类,在每类中用方便抽样或判断抽样选取样本
概率抽样
●不依据随机原则
●样本无法对总体估计,不计算估计误差、置信区间……
●操作简便●时效快●成本低●前期发现问题
★随机原则
★样本可以对总体进行估计,计算估计误差、置信区间……
★技术含量高★成本较高
★适合用于验证问题作进一步的数量分析
搜集数据的基本方法:
自填式,面访式,电话式
数据的误差:
(1)抽样误差:
由于抽样的随机性引起的样本结果与总体真值之间的误差只在概率抽样中
(2)非抽样误差:
除抽样误差之外的,由于其他原因引起的样本观察结果与总体真值之间的差异。
存在于任何抽样或调查中
第三章数据的图标展示
3.1数据的预处理:
是在队数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等。
1.数据审核(发现数据中的错误)2.数据筛选(找出符合条件的数据)3.数据排序(发现数据基本特征、升序和降序)
分类数据的排序:
字母型数据,排序有升序降序之分,但习惯上用升序
汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分
数值型数据的排序:
(1)递增排序:
设一组数据为X1,X2,…,XN,递增排序后可表示为:
X
(1)<
X
(2)<
…<
X(N)
(2)递减排序可表示为:
X
(1)>
X
(2)>
…>
数据透视表功能:
简化数据分析人员的工作量,使其能快速准确地从各个角度查看数据。
※在利用数据透视表时,数据表的首行必须有列标题。
3.2品质数据的整理与展示
3.2.1分类数据的整理与图示
1.列出各类别2.计算各类别的频数3.制作频数分布表4.用图形展示
分类数据中需要计算的指标
1频数:
落在各类别中的数据个数
频数分布:
把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来。
2.比例:
某一类别数据占全部数据的比值
3.百分比:
将对比的基数作为100而计算的比值
4.比率:
不同类别数值的比值如何利用Excel计算频数(插入——函数——countif)
分类数据的图示
条形图:
条形图是用宽度相同的条形的高度或长短来表示数据多少的图形
★各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图
★对比条形图——显示分类变量在不同时间或不同空间上的差异或变化
饼图:
用圆形及圆内扇形的面积来表示数值大小的图形。
主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用,在绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度,是按各部分百分比占3600的相应比例确定的
3.2.2顺序数据的整理与图示
1.累积频数:
将各有序类别的频数逐级累加起来得到的频数。
向上累积:
从类别顺序的开始一方,向类别顺序的最后一方累加频数;
向下累积:
从类别顺序的最后一方,向类别顺序的开始一方累加频数。
2.累积频率:
将各类别的百分比逐级累加
3.3数值型数据的整理与显示
3.3.1数据的分组:
单变量值分组&
组距分组(等距分组&
异距分组)
单变量值分组(要点)★适合于离散变量★适合于变量值较少的情况
步骤:
1.排序2将一个变量值作为一组
组距分组(要点):
1.适合于连续变量,适合于变量值较多的情况;
2.将变量值的一个区间作为一组;
3.必须遵循“不重不漏”的原则;
4.可采用等距分组,也可采用不等距分组
1.下限:
一个组的最小值2.上限:
一个组的最大值
3.组距:
上限与下限之差4.组中值:
下限与上限之间的中点值
下限值+上限值
组中值=
组距分组(步骤)
第1步:
排序,确定组数(K)5≤K≤15能够显示数据的分布特征和规律
第2步:
确定组距组距=(最大值-最小值)÷
组数★组距宜取5或10的倍数
第3步:
根据分组整理成频数分布表
等距分组与不等距分组
1.等距分组各组频数的分布不受组距大小的影响
可直接根据绝对频数来观察频数分布的特征和规律
2.不等距分组各组频数的分布受组距大小不同的影响
各组绝对频数的多少不能反映频数分布的实际状况
需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况
分组数据—直方图
1.用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布
2.在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram)
直方图与条形图的区别
1.条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的。
2.直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。
3.直方图的各矩形通常是连续排列,条形图则是分开排列。
第4章数据的概括性度量
数据分布特征的测度
◆集中趋势的度量——反映数据向其中心值靠拢或聚集的程度
◆离散程度的度量——反映数据远离其中心值的趋势
◆分布的形状——反映数据分布的偏态和峰态
4.1集中趋势:
是指一组数据向其中心值靠拢的倾向和程度,它反映了一组数据中心点的位置所在。
*测度集中趋势就是寻找数据一般水平的代表值或中心值;
*不同类型的数据用不同的集中趋势测度值
分类数据——众数顺序数据——中位数和分位数数值型数据——平均数
4.1.1分类数据:
众数
众数(MODE):
一组数据中出现次数最多的变量值,用Mo表示;
(1)主要用于测度分类数据的集中趋势,也可用于顺序数据和数值型数据;
(2)众数是位置代表值,不受极端值影响;
(3)可能没有众数、有一个众数或几个众数
●数值型分组数据的众数
1.众数的值与相邻两组频数的分布有关
2.相邻两组的频数相等时,众数组的组中值即为众数
3.相邻两组的频数不相等时,众数采用下列近似公式计算
(L为众数组的下限值,i为众数组的组距,f为众数组的频数,f-1为众数组前一组的频数,f+1为众数组后一组的频数。
4.1.2顺序数据:
中位数和分位数
中位数:
是一组数据排序后处于中间位置上的变量值,用Me表示
★排序后处于中间位置上的变量值★不受极端值的影响★主要用于顺序数据,也可用数值型数据,但不能用于分类数据
计算中位数的步骤
1.排序2.确定中位数的位置:
(N为数据的个数)
●数值型分组数据的中位数
1.计算累积频数
2.确定中位数所在组
3.采用下列近似公式计算:
(L为中位数所在组的下限值,N为数据的个数;
Sm-1为中位数所在组以前各组的累积频数,fm为中位数所在组的频数,i为中位数所在组的组距)
四分位数:
也称四分位点,他是一组数据排序后处于25%和75%位置上的值。
(1)排序后处于25%和75%位置上的值
(2)不受极端值的影响
(3)主要用于顺序数据,也可用于数值型数据,但不能用于分类数据
四分位数的计算
1.排序
2.确定四分位数的位置下四分位数为QL,上四分位数为QU,公式为:
QL位置=n/4QU位置=3n/4
*如果位置是整数,四分位数就是该位置对应的值;
*如果是在0.5位置上,则取该位置两侧值的平均数;
*如果是在0.25或0.75的位置上,则取该位置的下侧值加上按比例分摊位置两侧数值的差值
4.1.3数值型数据:
平均数
平均数(均值):
它是一组数据相加后除以数据的个数得到的结果。
1.平均数是一组数据相加后除以数据个数得到的结果。
2.集中趋势的最主要测度值
3.易受极端值的影响
4.用于数值型数据,不能用于分类数据和顺序数据。
简单平均数(对未分组数据计算的平均数)
公式为:
加权平均数:
对分组数据计算的平均数,设原始数据被分成k组,各组的组中值为M1,M2,…,Mk,各组频数为f1,f2,…,fk,则加权平均数为,
X
★简单平均数,其数值的大小只与变量值的大小有关;
★加权平均数,其数值的大小不仅受各组变量值大小的影响,而且受各组变量值出现的频数即权数(fi)大小的影响。
如果某一组的权数较大,说明该组的数据较多,那么该组数据的大小对均值的影响就越大,反之则越小。
几何平均数:
N个变量值乘积的N次方根,用GM表示
其计算公式为:
2.主要用于计算平均比率和平均发展速度
●众数、中位数和平均数的比较p94
1.众数、中位数和平均数的关系
1.如果数据分布是对称的,则Mo=Me=x
2.如果数据是左偏分布,则x<
Me<
Mo
3.如果数据是右偏分布,则Mo<
x
4.2离散程度的测度
离散程度:
它反映的是各变量值远离其中心值的程度。
离散程度越大,表示集中趋势的测度值对数据的代表性越差;
离散程度越小,表示集中趋势的测度值对数据的代表性越好。
分类数据——异众比率顺序数据——四分位差数值型数据——方差和标准差
4.2.1分类数据:
异众比率:
是离散程度的测度值之一,非众数组的频数占总频数的比率,其计算公式为
,用于衡量众数的代表性。
4.2.2顺序数据:
四分位差
1.离散程度的测度值之一2.也称为内距或四分间距
3.上四分位数与下四分位数之差QD=QU-QL
4.反映了中间50%数据的离散程度
5.不受极端值的影响6.用于衡量中位数的代表性
4.2.3数值型数据:
方差和标准差
极差平均差※方差※标准差
极差(range):
.一组数据的最大值与最小值之差,用R表示
1.计算公式:
未分组数据R=max(Xi)-min(Xi)
组距分组数据R=最高组上限-最低组下限
2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布
平均差(Md):
也称平均绝对离差,他是各变量值与其平均数离差绝对值的平均数。
1.以平均数为中心,反映每个数据与平均数的平均差异程度,能全面准确地反映一组数据的离散程度。
2平均差越大,离散程度越大;
平均差越小,离散程度越小。
●方差:
各变量值与其均值离差平方的平均数。
●标准差:
方差的平方根
1.反映了各变量值与均值的平均差异
2.反映出数据的分布状况
3.最常用的离散程度测度值
4.根据总体数据计算的,称为总体方差或标准差;
根据样本数据计算的,称为样本方差或标准差
总体方差和标准差
方差的计算公式标准差的计算公式
未分组数据未分组数据
分组数据分组数据
—————————————————————————————————————————————
样本方差和标准差
自由度(degreeoffreedom)
1.一组数据中可以自由取值的数据的个数
2.当样本数据的个数为n时,若样本均值x确定后,则附加给n个观测值1个约束条件,只有n-1个数据可以自由取值,其中必有一个数据不能自由取值。
●标准分数:
变量值与其平均数的离差除以标准差后的值,也称标准分数或z分数。
.计算公式为
.
1)给出某一个值在一组数据中的相对位置
2)可用于判断一组数据是否有离群点
3)用于对变量的标准化处理
●经验法则:
当一组数据对称分布时,经验法则表明:
约有68%的数据在平均数±
1个标准差的范围之内
约有95%的数据在平均数±
2个标准差的范围之内,
约有99%的数据在平均数±
3个标准差的范围之内(离群点:
在3个标准差范围之外的数据)
●切比雪夫不等式(适用于任何分布形状的数据)
根据切比雪夫不等式,至少有(1-1/k2)的数据落在k个标准差之内,k是大于1的任意值。
约有75%的数据在平均数±
2个标准差的范围之内
约有89%的数据在平均数±
3个标准差的范围之内
约有94%的数据在平均数±
4个标准差的范围之内
离散系数(变异系数):
标准差与其相应的平均数之比
1.消除了数据水平高低和计量单位的影响
2.计算公式为
3.测度了数据的相对离散程度
4.用于对不同组别数据离散程度的比较
4.3偏态与峰态的度量——对分布形状的测度
偏态:
数据分布偏斜程度的测度
偏态系数(SK)——测度偏态的统计量
(1)偏态系数=0为对称分布
(2)偏态系数>
0为右偏分布(3)偏态系数<
0为左偏分布
峰态:
对数据分布平峰或尖峰程度的测度。
峰态系数(K)——测度峰态的统计量
(1)K=0时,为正态分布
(2)K>
0时,为尖峰分布(3)K<
0时,为扁平分布
第5章概率与概率分布
5.1随机事件及其概率
1.试验:
在相同条件下,对事物或现象所进行的观察或实验。
2.事件:
随机试验的每一个可能结果。
3.随机事件:
在同一组条件下,每次试验可能出现也可能不出现的事件。
4.概率:
是某一事件在试验中出现的可能性大小的一种度量。
5.2概率的性质与运算法则
(1)0≤P(A)≤1
(2)必然事件的概率为1,不可能事件的概率为0,P(Ω)=1,P(Φ)=0
(3)若A与B互斥,则P(A∪B)=P(A)+P(B)对于任意两个随机事件P(A∪B)=P(A)+P(B)-P(A∩B)
◆条件概率:
在事件B已经发生的条件下,求事件A发生的概率,称这种概率为事件B发生条件下事件
A发生的条件概率,记为
◆乘法公式:
P(AB)=P(B)P(A|B)或P(AB)=P(A)P(B|A)
事件的独立性:
1.一个事件的发生与否并不影响另一个事件发生的概率,则称两个事件独立
2.若事件A与B独立,则P(B|A)=P(B),P(A|B)=P(A)
3.概率的乘法公式可简化为P(AB)=P(A)·
P(B)推广到n个独立事件,有P(A1A2…An)=P(A1)P(A2)…P(An)
全概率公式和贝叶斯公式
设事件A1,A2,¡
,An两两互斥,A1+A2+¡
+An=(满足这两个条件的事件组称为一个完备事件组),且P(Ai)>
0(i=1,2,¡
n),则对任意事件B,有
贝叶斯公式(逆概率公式)
→与全概公式解决的问题相反,贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因
→设n个事件A1,A2,…,An两两互斥,A1+A2+…+An=(满足这两个条件的事件组称为一个完备事件组),且P(Ai)>
0(i=1,2,…,n),则
随机变量及其分布
一、随机变量的概念二、离散型随机变量的概率分布三、连续型随机变量的概率分布
随机变量1.一次试验的结果的数值性描述
2.一般用X、Y、Z来表示
3.在同一组条件下,把每次试验的结果都列举出来,即把X所有可能值x1,x2,…,xn都列举出来,其有确定概率P(x1),P(x2),…,P(xn)。
则X称为P(X)的随机变量,P(X)称为随机变量X的概率函数。
4.根据取值情况不同,分为离散型随机变量和连续型随机变量
离散型随机变量的概率分布
1.列出离散型随机变量X的所有可能取值
2.列出随机变量取这些值的概率
3.通常用下面的表格来表示
X=xi
x1,x2,…,xn
P(X=xi)=pi
p1,p2,…,pn
4.P(X=xi)=pi称为离散型随机变量的概率函数(pi0
)
0—1分布:
离散型随机变量X只可能取0和1两个值。
均匀分布:
一个离散型随机变量取各个值的概率相同
离散型随机变量的数字特征
(1)数学期望:
在离散型随机变量X的一切可能取值的完备组中,各可能取值xi与其取相对应的概率pi乘积之和
描述离散型随机变量取值的集中程度
(2)方差与标准差
方差:
随机变量X的每一个取值与期望值的离差平方和的数学期望,记为D(X)
标准差:
随机变量方差的平方根
期望值或平均数衡量平均回报率或收益率
方差或标准差反映每一个可能出现的回报率与平均回报率的平均差异
方差或标准差越大,回报率的变化越大,风险越高;
方差或标准差越小,回报率的变化越小,风险越低;
当投资回报率相等时,风险较小的项目为最佳选择当投资回报率不相等时,通过离散系数来衡量风险。
常见的离散型概率分布
二项分布
泊松分布:
用于描述在一指定时间范围内或在一定的长度、面积、体积之内某一事件出现次数的分布。
Eg一个城市在一个月内发生的交通事故次数&
消费者协会一个星期内收到的消费者投诉次数
泊松分布的公式为
●—给定的时间间隔、长度、面积、体积内“成功”的平均数
●e=2.71828
●x—给定的时间间隔、长度、面积、体积内“成功”的次数
泊松分布的期望和方差E(X)=D(X)=
泊松分布(作为二项分布的近似)
1当试验的次数n很大,成功的概率p很小时,可用泊松分布来近似地计算二项分布的概率,即
2实际应用中,当P0.25,n>
20,np5时,近似效果良好
连续型随机变量的概率分布:
如果对于随机变量X的分布函数F(x),存在非负函数f(x),使得对于任意实数x有
则称X为连续型随机变量,其中函数f(x)为X的概率密度函数。
概率密度函数
1.概率密度函数具有以下性质:
(3)
(4)若f(x)在点x处连续
2.概率密度函数f(x)表示X的所有取值x及其频数f(x)
3.在平面直角坐标系中画出f(x)的图形,则对于任何实数a<
b,P(a<
Xb)是该曲线下从a到b的面积
★密度函数曲线下的面积等于
★分布函数F(x0)是曲线下小于x0的面积
连续型随机变量的期望和方差
1.连续型随机变量的数学期望为
2.方差为
连续型随机变量的概率分布
均匀分布
1.若随机变量X的概率密度函数为
称X在区间[a,b]上均匀分布
2.数学期望和方差分别为
正态分布:
如果随机变量X的概率密度为
则称X服从正态分布,记作X~N(μ,σ2)f(x)=随机变量,X的频数=总体方差,=3.14159;
e=2.71828,x=随机变量的取值(-<
x<
)
=总体均值(◆最重要的一种连续型分布;
◆在实际中应用广泛)
正态分布函数的性质
f(x)≥0,即概率密度曲线在x轴的上方正态曲线的最高点在均值,它也是分布的中位数和众数每一特定正态分布通过均值和标准差来区分。
决定曲线的中心位置,决定曲线的陡缓程度。
曲线f(x)相对于均值对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交
随机变量的概率由曲线下的面积给出
标准正态分布函数
1.任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布
2.标准正态分布的概率密度函数
3.标准正态分布的分布函数
标准正态分布
将一般正态分布转换为标准正态分布,再查表
对于负的x,可由(-x)x得到
对于标准正态分布,即X~N(0,1),有P(aXb)baP(|X|a)2a1
对于一般正态分布,即X~N(,),有
二项分布的正态近似
1.当n很大时,二项随机变量X近似服从正态分布N{np,np(1-p)}(通常是当np和nq都大于5时)
2.对于一个二项随机变量X,当n很大时,求P(x1Xx2)时可用正态分布近似为
第六章统计量及其抽样分布
6.1统计量
2.统计量是样本X1,X2¡
¡
Xn的一个函数
3.统计量不依赖任何未知参数
4.将一组样本的具体观测值代入统计量函数,可以计算出一个具体的统计量值。
6.2样本均值的抽样分布和中心极限定理
1.所有样本指标(如均值、比例、方差等)所形成的分布称为抽样分布。
2.当总体是个数为N的有限总体时,其均值和方差分别为
设X1,X2,…,Xn是取自总体X的样本,样本均值
,所有可能样本的均值
构的概率分布即为样本均值的抽样分布。
●样本均值的分布:
当总体服从正态分布N~(μ,σ2)时,来自该总体的所有容量为n的样本的均值X也服从正态分布,X的数学期望为μ,方差为σ2/n。
即X~N(μ,σ2/n)
●中心极限定理:
设从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。
当样本容量足够大时(n≥30),样本均值的抽样分布逐渐趋于正态分布
标准误差
抽样误差:
样本统计量与总体参数之间的平均差异
1.所有可