统计学知识点含计算.docx
《统计学知识点含计算.docx》由会员分享,可在线阅读,更多相关《统计学知识点含计算.docx(20页珍藏版)》请在冰豆网上搜索。
统计学知识点含计算
1.组数:
一般为5-15
2.确定组距:
组距(ClassWidth)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即
组距=(最大值-最小值)÷组数
3.统计出各组的频数并整理成频数分布表
下限(lowerlimit):
一个组的最小值
2.上限(upperlimit):
一个组的最大值
3.组距(classwidth):
上限与下限之差
4.组中值(classmidpoint):
下限与上限之间的中点值
封闭式组距数列:
a)组距=上限-下限
b)组中值=(上限+下限)/2
c)缺下限开口组组中值=上限-1/2邻组组距
d)缺上限开口组组中值=下限+1/2邻组组距
样本平均数
总体用µ
总体方差(标准差),记为s2(s);根据样本数据计算的,称为样本方差(标准差),记为s2(s)
方差未分组
分组
经验法则表明:
当一组数据对称分布时
约有68%的数据在平均数加减1个标准差的范围之内
约有95%的数据在平均数加减2个标准差的范围之内
约有99%的数据在平均数加减3个标准差的范围之内
切比雪夫不等式
1.如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用
2.切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”
3.对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2的数据落在平均数加减k个标准差之内。
其中k是大于1的任意值,但不一定是整数
对于k=2,3,4,该不等式的含义是
1.至少有75%的数据落在平均数加减2个标准差的范围之内
2.至少有89%的数据落在平均数加减3个标准差的范围之内
3.至少有94%的数据落在平均数加减4个标准差的范围之内
离散系数标准差与其相应的均值之比计算公式为
统计量
设X1,X2,…,Xn是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X1,X2,…,Xn),不依赖于任何未知参数,则称函数T(X1,X2,…,Xn)是一个统计量
样本均值、样本比例、样本方差等都是统计量统计量是样本的一个函数
统计量的分布称为抽样分布。
1.样本统计量的概率分布,是一种理论分布
在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布
2.随机变量是样本统计量样本均值,样本比例,样本方差等
3.结果来自容量相同的所有可能样本
4.提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据几种常用的抽样分布:
(正态分布中的几种统计量的分布)把
分布(z),
分布,
分布,
点估计用样本的估计量的某个取值直接作为总体参数的估计值
例如:
用样本均值直接作为总体均值的估计;
区间估计在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到
1.置信水平表示为(1-α)为是总体参数未在区间内的比例
3.常用的置信水平值有99%,95%,90%相应的α为0.01,0.05,0.10
假定条件
总体服从正态分布,且方差(s2)已知
如果不是正态分布,可由正态分布来近似(n³30)
2.使用正态分布统计量z
3.总体均值m在1-a置信水平下的置信区间为
置信水平
a
a/2
Za/2
90%
0.1
0.05
1.645
95%
0.05
0.025
1.96
假定条件
(小样本)总体服从正态分布,但方差(s2)未知(n<30)用t分布统计量
总体比例p在1-a置信水平下的置信区间为
假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。
其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断
假设检验的流程
提出假设确定适当的检验统计量规定显著性水平计算检验统计量的值作出统计决策
几种常见假设检验
考虑下面三种类型的假设检验:
(4.12)
(1)
(双边检验)
(2)
(右侧单边检验)
(3)
(左侧单边检验)
1、提出检验假设(又称无效假设,符号是H0))和备择假设(符号是H1)。
备择假设与原假设对立的假设
H0:
样本与总体或样本与样本间的差异是由抽样误差引起的;
H1:
样本与总体或样本与样本间存在本质差异;
预先设定的检验水准为0.05;当检验假设为真,但被错误地拒绝的概率,记作α,通常取α=0.05或α=0.01。
2、选定统计方法,由样本观察值按相应的公式计算出统计量的大小,如X2值、t值等。
根据资料的类型和特点,可分别选用Z检验,T检验,秩和检验和卡方检验等。
3、根据统计量的大小及其分布确定检验假设成立的可能性P的大小并判断结果。
若P>α,结论为按α所取水准不显著,不拒绝H0,即认为差别很可能是由于抽样误差造成的,在统计上不成立;如果P≤α,结论为按所取α水准显著,拒绝H0,接受H1,则认为此差别不大可能仅由抽样误差所致,很可能是实验因素不同造成的,故在统计上成立。
P值的大小一般可通过查阅相应的界值表得到。
1.P值是一个概率值
2.如果原假设为真,P-值是抽样分布中大于或小于样本统计量的概率
左侧检验时,P-值为曲线上方小于等于检验统计量部分的面积
右侧检验时,P-值为曲线上方大于等于检验统计量部分的面积
3.被称为观察到的(或实测的)显著性水平
H0能被拒绝的最小值
方差分析通过检验各总体均值是否相等来判断分类型自变量对数值型因变量的是否有显著影响用于两个及两个以上样本均数差别的显著性检验。
方差分析的基本假定1.每个总体都应服从正态分布
对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本
(1)每个总体都服从正态分布
(2)观察值相互独立
(3)各个总体样本方差必须相同
1、建立检验假设;
H0:
多个样本总体均数相等;
H1:
多个样本总体均数不相等或不全等。
检验水准为0.05。
2、计算检验统计量F值;
3、确定P值并作出推断结果。
SST=SSA+SSE
SST的自由度为n-1,其中n为全部观察值的个数
SSA的自由度为k-1,其中k为因素水平(总体)的个数
SSE的自由度为n-k
组内方差
组间方差
误差来源
平方和(SS)
自由度(df)
均方(MS)
F值
P值
F临界值
组间(因素影响)
SSA组建平方和
k-1
MSA组间方差
MSA/MSE
组内(误差)
SSE组内平方和
n-k
MSE组内方差
总和
SST总平方和
n-1
双因素方差分析分析两个因素(行因素Row和列因素Column)对试验结果的影响
行平均值列平均值总平均值
计算平方和(SS)
行因素误差平方和SSR
列因素误差平方和SSC
随机误差项平方和SSE总误差平方和SST
SST=SSR+SSC+SSE
计算均方(MS)
§误差平方和除以相应的自由度
§三个平方和的自由度分别是
•总误差平方和SST的自由度为kr-1
•行因素平方和SSR的自由度为k-1
•列因素平方和SSC的自由度为r-1
•误差项平方和SSE的自由度为(k-1)×(r-1)
行因素的均方MSR
,列因素的均方MSC,误差项的均方MSE,
将统计量的值F与给定的显著性水平a的临界值Fa进行比较,作出对原假设H0的决策
§根据给定的显著性水平a在F分布表中查找相应的临界值Fa
§若FR>Fa,拒绝原假设H0,表明均值之间的差异是显著的,即所检验的行因素对观察值有显著影响
§若FC>Fa,拒绝原假设H0,表明均值之间有显著差异,即所检验的列因素对观察值有显著影响
行因素的统计量列因素的统计量
误差来源
平方和(SS)
自由度(df)
均方(MS)
=ss/df
F值
P值
F值临界值
行因素
SSR
k-1
MSR
MSR/MSE
于a=0.05比较
查表
列因素
SSC
r-1
MSC
MSC/MSE
小于a拒绝,大于不拒绝
F大于Fa拒绝显著
小于不拒绝不显著
误差
SSE
(k-1)(r-1)
MSE
总和
SSTSST=SSR+SSC+SSE
kr-1
1.一元线性回归模型描述因变量y如何依赖于自变量x和误差项e的方程称为回归模型
2.一元线性回归模型可表示为
y=b0+b1x+e
ny是x的线性函数(部分)加上误差项
n线性部分反映了由于x的变化而引起的y的变化
n误差项e是随机变量
l反映了除x和y之间的线性关系之外的随机因素对y的影响
l是不能由x和y之间的线性关系所解释的变异性
nb0和b1称为模型的参数
误差平方和
1.总平方和(SST—totalsumofsquares)
n反映因变量的n个观察值与其均值的总误差
2.回归平方和(SSR—sumofsquaresofregression)
n反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和
3.残差平方和(SSE—sumofsquaresoferror)
n反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和
1.总平方和(SST—totalsumofsquares)
n反映因变量的n个观察值与其均值的总误差
2.回归平方和(SSR—sumofsquaresofregression)
n反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和
3.残差平方和(SSE—sumofsquaresoferror)
n反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和
判定系数R2回归平方和占总误差平方和的比例
2.反映回归直线的拟合程度
3.取值范围在[0,1]之间
4.R2®1,说明回归方程拟合的越好;R2®0,说明回归方程拟合的越差
5.判定系数等于相关系数的平方,即R2=r2
1.统计量 P156根据样本量构造出来的一个函数
2.抽样分布 P160
3.点估计 P176
4.区间估计 P176
5.假设检验P值的含义 P214
6.利用P值进行检验 单侧检验 P>α 不拒绝H0 P<α 拒绝H0
双侧检验 P>(α/2) 不拒绝H0 P<(α/2) 不拒绝H0
7.方差分析基本假设 P268
简答题:
一.点估计
1.就是用样本统计量的某个取值直接作为总体参数的估计值。
2.无法给出估计值接近总体参数程度的信息。
二.统计量:
设X1,X2,…Xn是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X1,X2,…Xn),不依赖于任何未知参数,则称函数T(X1,X2,…Xn)是一个统计量。
三.区间估计
1.是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。
2.根据样本统计量的抽样分布,能够对样本统计量与总体参数的接近程度给出一个概率度量
四.方差分析:
方差分析是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
五.假设检验中P值的含义:
当原假设为真时所得到的样本观察结果或更极端结果出现的概率,如果P值小,说明这种情况发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由就越充分。
六.一元线性回归的基本假设:
1.因变量y与自变量之间具有线性关系。
2.在重复抽样中,自变量x的取值是固定的,即假定x是非随机的。
3.误差项是一个期望值为0的随机变量,即E()=0
4.对于所有的x值,的方差都相同。
5.误差项是一个服从正态分布的随机变量,且独立,即
七.抽样分布
60以下
2
60-70
7
70-80
9
80-90
7
90以上
5
30
1.画直方图
2.求均值与方差
3.求离散系数
分组
f
m
m*f
均值x
(m-x)^2*f
60以下
2
55
110
77
968
60-70
7
65
455
77
1008
70-80
9
75
675
77
36
80-90
7
85
595
77
448
90以上
5
95
475
77
1620
求和
30
2310
4080
组数
6
组距
10
平均数
77
方差
140.6897
标准差
70.34483
离散系数
0.913569
4.
第二大题:
标准重量100克,
96-98
2
98-100
3
100-102
34
102-104
7
104-106
4
50
1.求均值和方差
2.平均重量95%的置信区间
3.规定重量是否符合标准(假设检验)
Ho:
u=100;H1≠100.
=(101.4-100)*50^0.5/1.829=5.4125
=0.95,
=
=1.96双边假设
|z|>|
|拒绝Ho.不符合标准
7.11某企业生产的袋装食品采用自动打包机包装,每袋标准重量为l00g。
现从某天生产的一批产品中按重复抽样随机抽取50包进行检查,测得每包重量(单位:
g)如下:
每包重量(g)
包数
96~98
98~100
100~102
102~104
104~106
2
3
34
7
4
合计
50
已知食品包重量服从正态分布,要求:
(1)确定该种食品平均重量的95%的置信区间。
解:
大样本,总体方差未知,用z统计量
样本均值=101.4,样本标准差s=1.829
置信区间:
=0.95,
=
=1.96
=
=(100.89,101.91)
(2)如果规定食品重量低于l00g属于不合格,确定该批食品合格率的95%的置信区间。
解:
总体比率的估计
大样本,总体方差未知,用z统计量
样本比率=(50-5)/50=0.9
置信区间:
=0.95,
=
=1.96
=
=(0.8168,0.9832)
上网的那个,225个样本,均值=6.5S=2.5n=225(这个没抄全)
1.以95%的置信水平建立样本区间估计
2.20岁以下90个人,20岁以下上网比例用户区间
同7.11第二问
大样本,总体方差已知,用z统计量
p=90/225=0.4
=0.95,
=
=1.96
置信区间:
0.4±1.96*{0.4*(1-0.4)/225}^0.5
0.4±0.064013332
(1.464,0.336)
样本30个,
1.销售价格
2.各地区年均收入
因变量:
地区产品销售额
线性回归列出方程,解释费用人均收入对费用的影响
P357判定系数
11.9某汽车生产商欲了解广告费用(x)对销售量(y)的影响,收集了过去12年的有关数据。
通过计算得到下面的有关结果:
方差分析表
变差来源
df
SS
MS
F
SignificanceF
回归
1
1602708.6
1602708.6
399.1000065
2.17E—09
残差
10
40158.07
4015.807
—
—
总计
11
1642866.67
—
—
—
参数估计表
Coefficients
标准误差
tStat
P—value
Intercept
363.6891
62.45529
5.823191
0.000168
XVariable1
1.420211
0.071091
19.97749
2.17E—09
要求:
(1)完成上面的方差分析表。
(2)汽车销售量的变差中有多少是由于广告费用的变动引起的?
(3)销售量与广告费用之间的相关系数是多少?
(4)写出估计的回归方程并解释回归系数的实际意义。
(5)检验线性关系的显著性(a=0.05)。
解:
(2)R2=0.9756,汽车销售量的变差中有97.56%是由于广告费用的变动引起的。
(3)r=0.9877。
(4)y=363.6891+1.1420211x
回归系数的意义:
广告费用每增加一个单位,汽车销量就增加1.42个单位。
(5)回归系数的检验:
p=2.17E—09<α,回归系数不等于0,显著。
回归直线的检验:
p=2.17E—09<α,回归直线显著。
12.4一家电器销售公司的管理人员认为,每月的销售额是广告费用的函数,并想通过广告费用对月销售额作出估计。
下面是近8个月的销售额与广告费用数据:
月销售收入y(万元)
电视广告费用工:
x1(万元)
报纸广告费用x2(万元)
96
90
95
92
95
94
94
94
5.0
2.0
4.0
2.5
3.0
3.5
2.5
3.0
1.5
2.0
1.5
2.5
3.3
2.3
4.2
2.5
要求:
(1)用电视广告费用作自变量,月销售额作因变量,建立估计的回归方程。
(2)用电视广告费用和报纸广告费用作自变量,月销售额作因变量,建立估计的回归方程。
(3)上述
(1)和
(2)所建立的估计方程,电视广告费用的系数是否相同?
对其回归系数分别进行解释。
(4)根据问题
(2)所建立的估计方程,在销售收入的总变差中,被估计的回归方程所解释的比例是多少?
(5)根据问题
(2)所建立的估计方程,检验回归系数是否显著(a=0.05)。
SUMMARYOUTPUT
回归统计
MultipleR
0.958663444
RSquare
0.9190356
AdjustedRSquare
0.88664984
标准误差
0.642587303
观测值
8
方差分析
df
SS
MS
F
SignificanceF
回归分析
2
23.43541
11.7177
28.37777
0.00186524
残差
5
2.064592
0.412918
总计
7
25.5
Coefficients
标准误差
tStat
P-value
Lower95%
Upper95%
下限95.0%
上限95.0%
Intercept
83.23009169
1.573869
52.88248
4.57E-08
79.1843394
87.27584
79.18434
87.27584
电视广告费用工:
x1(万元)
2.290183621
0.304065
7.531899
0.000653
1.50856207
3.071805
1.508562
3.071805
报纸广告费用x2(万元)
1.300989098
0.320702
4.056697
0.009761
0.47660075
2.125377
0.476601
2.125377
解:
(1)回归方程为:
(2)回归方程为:
(3)不相同,
(1)中表明电视广告费用增加1万元,月销售额增加1.6万元;
(2)中表明,在报纸广告费用不变的情况下,电视广告费用增加1万元,月销售额增加2.29万元。
(4)判定系数R2=0.919,调整的
=0.8866,比例为88.66%。
(5)回归系数的显著性检验:
Coefficients
标准误差
tStat
P-value
Lower95%
Upper95%
下限95.0%
上限95.0%
Intercept
83.23009
1.573869
52.88248
4.57E-08
79.18433
87.27585
79.18433
87.27585
电视广告费用工:
x1(万元)
2.290184
0.304065
7.531899
0.000653
1.508561
3.071806
1.508561
3.071806
报纸广告费用x2(万元)
1.300989
0.320702
4.056697
0.009761
0.476599
2.125379
0.476599
2.125379
假设:
H0:
=0H1:
≠0
t=
=
=7.53
=2.57,
>
,认为y与x1线性关系显著。
(3)回归系数的显著性检验:
假设:
H0:
=0H1:
≠0
t=
=
=4.05
=2.57,
>
,认为y与x2线性关系显著。