第40讲 统计Word文件下载.docx
《第40讲 统计Word文件下载.docx》由会员分享,可在线阅读,更多相关《第40讲 统计Word文件下载.docx(17页珍藏版)》请在冰豆网上搜索。
二.命题走向
统计案例
本部分内容主要包括回归分析的基本思想及其初步应用和独立性检验的基本思想和初步应用,是教材新增内容,估计高考中比重不会过大。
预测07年的高考主要有以下几种情况:
(1)知识点将会考察回归分析的基本思想方法,用独立性检验判断A与B间的关系,及2×
2列联表;
(2)考查的形式主要以选择、填空题为主,但不会涉及很多;
随机变量的分布列
本部分内容主要包括随机变量的概念及其分布列,离散性随机变量的均值和方差,正态分布,从近几年的高考观察,这部分内容有加强命题的趋势。
预测07年的高考对本部分内容的考查有以下情况:
(1)考查的重点将以随机变量及其分布列的概念和基本计算为主,题型以选择、填空为主,有时也以解答题形式出现;
(2)预计07年高考还是实际情景为主,建立合适的分布列,通过均值和方差解释实际问题;
三.要点精讲
1.相关系数
相关系数是因果统计学家皮尔逊提出的,对于变量y与x的一组观测值,把
叫做变量y与x之间的样本相关系数,简称相关系数,用它来衡量两个变量之间的线性相关程度。
相关系数的性质:
≤1,且越接近1,相关程度越大;
且越接近0,相关程度越小。
显著性水平:
显著性水平是统计假设检验中的一个概念,它是公认的小概率事件的概率值。
它必须在每一次统计检验之前确定。
显著性检验:
(相关系数检验的步骤)由显著性水平和自由度查表得出临界值,显著性水平一般取0.01和0.05,自由度为n-2,其中n是数据的个数在“相关系数检验的临界值表”查出与显著性水平0.05或0.01及自由度n-2(n为观测值组数)相应的相关数临界值r005或r001;
例如n=7时,r0.05=0.754,r0.01=0.874求得的相关系数r和临界值r0.05比较,若r>r0.05,上面y与x是线性相关的,当≤r0.05或r0.01,认为线性关系不显著。
结论:
讨论若干变量是否线性相关,必须先进行相关性检验,在确认线性相关后,再求回归直线;
通过两个变量是否线性相关的估计,实际上就是把非确定性问题转化成确定性问题来研究;
我们研究的对象是两个变量的线性相关关系,还可以研究多个变量的相关问题,这在今后的学习中会进一步学到。
2.卡方检验
统计中有一个有用的(读做“卡方”)统计量,它的表达式是:
,经过对统计量分布的研究,已经得到了两个临界值:
3.841与6.635。
当根据具体的数据算出的k>
3.841时,有95%的把握说事件A与B有关;
当k>
6.635时,有99%的把握说事件A与B有关;
当k3.841时,认为事件A与B是无关的。
随机变量
1.随机变量的概念
如果随机试验的结果可以用一个变量来表示,那么这样的变量叫做随机变量。
随机变量常用希腊字母ξ、η等表示。
对于随机变量可能取的值,我们可以按一定次序一一列出,这样的随机变量叫做离散型随机变量。
注:
随机变量ξ是关于试验结果的函数,即每一个试验结果对应着一个实数;
随机变量ξ的线性组合η=aξ+b(a、b是常数)也是随机变量。
2.离散性随机变量的分布列
一般地,设离散型随机变量可能取得值为:
X1,X2,…,X3,…,
取每一个值Xi(I=1,2,…)的概率为P(,则称表
X1
X2
…
xi
P
P1
P2
Pi
为随机变量的概率分布,简称的分布列。
两条基本性质:
①…);
②P1+P2+…=1。
3.独立
相互独立事件:
事件A(或B)是否发生对事件B(或A)发生的概率没有影响.这样的两个事件叫做相互独立事件。
独立重复试验:
若n次重复试验中,每次试验结果的概率都不依赖于其他各次试验的结果,则称这n次试验是独立的。
公式
(1)两个相互独立事件同时发生的概率,等于每个事件发生的概率的积,即P(A·
B)=P(A)·
P(B);
推广:
若事件A1,A2,…,An相互独立,则P(A1·
A2…An)=P(A1)·
P(A2)·
…·
P(n)。
(2)如果在一次试验中某事件发生的概率为P,那么在n次独立重复试验中这个事件恰好发生k次的概率:
Pn(k)=CPk(1-P)n-k。
4.随机变量的均值和方差
(1)随机变量的均值
…;
反映随机变量取值的平均水平。
(2)离散型随机变量的方差:
……;
反映随机变量取值的稳定与波动,集中与离散的程度。
基本性质:
;
。
5.几种特殊的分布列
(1)两点分步
两点分布:
对于一个随机试验,如果它的结果只有两种情况,则我们可用随机变量,来描述这个随机试验的结果。
如果甲结果发生的概率为P,则乙结果发生的概率必定为1-P,所以两点分布的分布列为:
1
1-p
均值为E=p,方差为D=p(1-p)。
(2)超几何分布
重复进行独立试验,每次试验只有成功、失败两种可能,如果每次试验成功的概率为p,重复试验直到出现一次成功为止,则需要的试验次数是一个随机变量,用ξ表示,因此事件{ξ=n}表示“第n次试验成功且前n-1次试验均失败”。
所以,其分布列为:
ξ
2
n
p
p(1-p)
(3)二项分布
如果我们设在每次试验中成功的概率都为P,则在n次重复试验中,试验成功的次数是一个随机变量,用ξ来表示,则ξ服从二项分布.则在n次试验中恰好成功k次的概率为:
二项分布的分布列为:
记ε是n次独立重复试验某事件发生的次数,则ε~B(n,p);
其概率…。
期望Eε=np,方差Dε=npq。
6.正态分布
正态分布密度函数:
,均值为Eε=μ,方差为。
正态曲线具有以下性质:
(1)曲线在x轴的上方,与x轴不相交。
(2)曲线关于直线x=μ对称。
(3)曲线在x=μ时位于最高点。
(4)当x<
μ时,曲线上升;
当x>
μ时,曲线下降。
并且当曲线向左、右两边无限延伸时,以x轴为渐近线,向它无限靠近。
(5)当μ一定时,曲线的形状由σ确定。
σ越大,曲线越“矮胖”,表示总体越分散;
σ越小,曲线越“瘦高”,表示总体的分布越集中。
从理论上讲,服从正态分布的随机变量的取值范围是R,但实际上取区间(μ-3σ,μ+3σ)外的数值的可能性微乎其微,在实际问题中常常认为它是不会发生的。
因此,往往认为它的取值是个有限区间,即区间(μ-3σ,μ+3σ),这即实用中的三倍标准差规则,也叫3σ规则。
在企业管理中,经常应用这个规则进行产品质量检查和工艺生产过程控制。
四.典例解析
题型1:
线性相关性检验
例1.一个工厂在某年里每月产品的总成本y(万元)与该月产量x(万件)之间由如下一组数据:
x
1.08
1.12
1.19
1.28
1.36
1.48
1.59
1.68
1.80
1.87
1.98
2.07
y
2.25
2.37
2.40
2.55
2.64
2.75
2.92
3.03
3.14
3.26
3.36
3.50
1)画出散点图;
2)检验相关系数r的显著性水平;
3)求月总成本y与月产量x之间的回归直线方程.
解析:
i
3
4
5
6
7
8
9
10
11
12
yi
xiyi
2.43
2.264
2.856
3.264
3.590
4.07
4.643
5.090
5.652
6.096
6.653
7.245
=,==2.8475,=29.808,=99.2081,=54.243
1)画出散点图:
2)
r=
=
在“相关系数检验的临界值表”查出与显著性水平0.05及自由度12-2=10相应的相关数临界值r0.05=0.576<
0.997891,这说明每月产品的总成本y(万元)与该月产量x(万件)之间存在线性相关关系。
3)设回归直线方程,
利用
,
计算a,b,得b≈1.215,a=≈0.974,
∴回归直线方程为:
例2.在7块并排、形状大小相同的试验田上进行施化肥量对水稻产量影响的试验,得数据如下(单位:
kg)
施化肥量x
15
20
25
30
35
40
45
水稻产量y
330
345
365
405
445
450
455
3)求月总成本y与月产量x之间的回归直线方程。
1)画出散点图如下:
2)检验相关系数r的显著性水平:
i
4950
6950
9125
12150
15575
18000
20475
=30,=399.3,=7000,=1132725,=87175
r==≈0.9733,在“相关系数检验的临界值表”查出与显著性水平0.05及自由度7-2=5相应的相关数临界值r0.05=0.754<0.9733,这说明水稻产量与施化肥量之间存在线性相关关系。
3)设回归直线方程,利用
计算a,b,得b=
a=399.3-4.75×
30≈257,则回归直线方程
题型2:
独立性检验
例3.为了探究患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如下表所示:
患慢性气管炎
未患慢性气管炎
合计
吸烟
43
162
205
不吸烟
13
121
134
56
283
339