高考复习正态分布与线性回归.doc
《高考复习正态分布与线性回归.doc》由会员分享,可在线阅读,更多相关《高考复习正态分布与线性回归.doc(14页珍藏版)》请在冰豆网上搜索。
正态分布专题训练
㈠知识点回顾:
(1)正态分布概念:
若连续型随机变量的概率密度函数为,其中为常数,且,则称服从正态分布,简记为~。
的图象称为正态曲线。
(2)、正态分布的期望与方差:
若~,则
标准正态分布曲线
(3)、正态曲线的性质:
①曲线在x轴的上方,与x轴不相交.
②曲线关于直线x=μ对称.
③曲线在x=μ时位于最高点.
④当x<μ时,曲线上升;当x>μ时,曲线下降.并且当曲线向左、右两边无限延伸时,以x轴为渐进线,向它无限靠近.
⑤当μ一定时,曲线的形状由σ确定.σ越大,曲线越“矮胖”,表示总体的分布越分散;σ越小,曲线越“瘦高”,表示总体的分布越集中.
(4)、在标准正态分布表中相应于的值是指总体取值小于的概率即
时,则的值可在标准正态分布表中查到
时,可利用其图象的对称性获得来求出,
(5)两个重要公式:
① ②
x
y
O
(6)、与的关系:
①若~,则~,有
②若~,则
小概率事件的含义:
发生概率一般不超过5%的事件,即事件在一次试验中几乎不可能发生
假设检验方法的基本思想:
首先,假设总体应是或近似为正态总体,然后,依照小概率事件几乎不可能在一次试验中发生的原理对试验结果进行分析
假设检验方法的操作程序,即“三步曲”
一是提出统计假设,教科书中的统计假设总体是正态总体;
二是确定一次试验中的a值是否落入(μ-3σ,μ+3σ);
三是作出判断
相关关系:
当自变量一定时,因变量的取值带有一定的随机性的两个变量之间的关系称为相关关系
相关关系与函数关系的异同点如下:
相同点:
均是指两个变量的关系
不同点:
函数关系是一种确定的关系;而相关关系是一种非确定关系;函数关系是自变量与因变量之间的关系,这种关系是两个非随机变量的关系;而相关关系是非随机变量与随机变量的关系.
回归分析一元线性回归分析:
对具有相关关系的两个变量进行统计分析的方法叫做回归分析通俗地讲,回归分析是寻找相关关系中非确定性关系的某种确定性
对于线性回归分析,我们要注意以下几个方面:
(1)回归分析是对具有相关关系的两个变量进行统计分析的方法。
两个变量具有相关关系是回归分析的前提。
(2)散点图是定义在具有相关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析。
(3)求回归直线方程,首先应注意到,只有在散点图大至呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义。
散点图:
表示具有相关关系的两个变量的一组数据的图形叫做散点图.散点图形象地反映了各对数据的密切程度粗略地看,散点分布具有一定的规律
回归直线
设所求的直线方程为,其中a、b是待定系数.
, ,
相应的直线叫做回归直线,对两个变量所进行的上述统计分析叫做回归分析
相关系数:
相关系数是因果统计学家皮尔逊提出的,对于变量y与x的一组观测值,把
=
叫做变量y与x之间的样本相关系数,简称相关系数,用它来衡量两个变量之间的线性相关程度.
相关系数的性质:
≤1,且越接近1,相关程度越大;且越接近0,相关程度越小.
显著性水平:
显著性水平是统计假设检验中的一个概念,它是公认的小概率事件的概率值它必须在每一次统计检验之前确定
显著性检验:
(相关系数检验的步骤)由显著性水平和自由度查表得出临界值,显著性水平一般取0.01和0.05,自由度为n-2,其中n是数据的个数在“相关系数检验的临界值表”查出与显著性水平0.05或0.01及自由度n-2(n为观测值组数)相应的相关数临界值r005或r001;例如n=7时,r0.05=0.754,r0.01=0.874求得的相关系数r和临界值r0.05比较,若r>r0.05,上面y与x是线性相关的,当≤r005或r001,认为线性关系不显著
讨论若干变量是否线性相关,必须先进行相关性检验,在确认线性相关后,再求回归直线;通过两个变量是否线性相关的估计,实际上就是把非确定性问题转化成确定性问题来研究;我们研究的对象是两个变量的线性相关关系,还可以研究多个变量的相关问题,这在今后的学习中会进一步学到
题型讲解
例1已知连续型随机变量ζ的概率密度函数
,且f(x)≥0,求常数k的值,并计算概率P(1.5≤<2.5)。
分析:
凡是计算连续型随机变量的密度函数f(x)中的参数、概率P(a≤≤b)都需要通过求面积来转化而求得。
若f(x)≥0且在[a,b]上为线性,那么P(a≤≤b)的值等于以b-a为高,f(a)与f(b)为上、下底的直角梯形的面积,即。
解:
∵
∴;
∴。
例2设,且总体密度曲线的函数表达式为:
,x∈R。
(1)求μ,σ;
(2)求及的值。
分析:
根据表示正态曲线函数的结构特征,对照已知函数求出μ和σ。
利用一般正态总体与标准正态总体N(0,1)概率间的关系,将一般正态总体划归为标准正态总体来解决。
解:
(1)由于,
根据一般正态分布的函数表达形式,可知μ=1,,故X~N(1,2)。
(2)
。
又
。
点评:
在解决数学问题的过程中,将未知的,不熟悉的问题转化为已知的、熟悉的、已解决了的问题,是我们常用的手段与思考问题的出发点。
通过本例我们还可以看出一般正态分布与标准正态分布间的内在关联。
例3某中学有1000人参加并且高考数学成绩近似地服从正态分布,求此校数学成绩在120分以上的考生人数。
(ф
(2)≈0.977)
解:
用表示此中学数学高考成绩,则
120分以上的考生人数为1000×0.023=23
点评:
通过公式转化成标准正态总体,然后查标准正态分布表即可
例4将温度调节器放置在贮存着某种液体的容器内,调节器设定在d℃,液体的温度ξ(单位:
℃)是一个随机变量,且ξ~N(d,0.52).
(1)若d=90°,求ξ<89的概率;
(2)若要保持液体的温度至少为80℃的概率不低于0.99,问d至少是多少?
(其中若η~N(0,1),则Φ
(2)=P(η<2)=0.9772,Φ(-2.327)=P(η<-2.327)=0.01).
分析:
(1)要求P(ξ<89)=F(89),
∵ξ~N(d,0.5)不是标准正态分布,而给出的是Φ
(2),Φ(-2.327),故需转化为标准正态分布的数值.
(2)转化为标准正态分布下的数值求概率p,再利用p≥0.99,解d.
解:
(1)P(ξ<89)=F(89)=Φ()
=Φ(-2)=1-Φ
(2)=1-0.9772=0.0228.
(2)由已知d满足0.99≤P(ξ≥80),
即1-P(ξ<80)≥1-0.01,∴P(ξ<80)≤0.01.
∴Φ()≤0.01=Φ(-2.327).
∴≤-2.327.
∴d≤81.1635.
故d至少为81.1635.
点评:
(1)若ξ~N(0,1),则η=~N(0,1).
(2)标准正态分布的密度函数f(x)是偶函数,x<0时,f(x)为增函数,x>0时,f(x)为减函数.
例5在实际生活中,常用统计中假设检验的思想检验产品是否合格,方法是:
(1)提出统计假设:
某种指标服从正态分布N(μ,σ2);
(2)确定一次试验中的取值a;
(3)作出统计推断:
若a∈(μ-3σ,μ+3σ),则接受假设,若a(μ-3σ,μ+3σ),则拒绝假设.
某砖瓦厂生产的砖的“抗断强度”ξ服从正态分布N(30,0.8),质检人员从该厂某一天生产的1000块砖中随机抽查一块,测得它的抗断强度为27.5kg/cm2,你认为该厂这天生产的这批砖是否合格?
为什么?
解:
由于在一次试验中ξ落在区间(μ-3σ,μ+3σ)内的概率为0.997,故ξ几乎必然落在上述区间内.
于是把μ=30,σ=0.8代入,
算出区间(μ-3σ,μ+3σ)=(27.6,32.4),
而27.5(27.6,32.4)
.∴据此认为这批砖不合格.
例6已知测量误差ξ~N(2,100)(cm),必须进行多少次测量,才能使至少有一次测量误差的绝对值不超过8cm的频率大于0.9?
解:
设η表示n次测量中绝对误差不超过8cm的次数,则η~B(n,p).
其中P=P(|ξ|<8)=Φ()-Φ()=Φ(0.6)-1+Φ
(1)=0.7258-1+0.8413=0.5671.
由题意,∵P(η≥1)>0.9,n应满足P(η≥1)=1-P(η=0)=1-(1-p)n>0.9,
∴n>==2.75.
因此,至少要进行3次测量,才能使至少有一次误差的绝对值不超过8cm的概率大于0.9.
例7已知某地每单位面积菜地年平均使用氮肥量xkg与每单位面积蔬菜年平均产量yt之间的关系有如下数据:
年份
1985
1986
1987
1988
1989
1990
1991
1992
x(kg)
70
74
80
78
85
92
90
95
y(t)
5.1
6.0
6.8
7.8
9.0
10.2
10.0
12.0
年份
1993
1994
1995
1996
1997
1998
1999
x(kg)
92
108
115
123
130
138
145
y(t)
11.5
11.0
11.8
12.2
12.5
12.8
13.0
(1)求x与y之间的相关系数,并检验是否线性相关;
(2)若线性相关,求蔬菜产量y与使用氮肥量之间的回归直线方程,并估计每单位面积施肥150kg时,每单位面积蔬菜的年平均产量。
分析:
(1)使用样本相关系数计算公式来完成;
(2)查表得出显著性水平0.05与自由度15-2相应的相关系数临界比较,若则线性相关,否则不线性相关。
解:
(1)列出下表,并用科学计算器进行有关计算:
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
70
74
80
78
85
92
90
95
92
108
115
123
130
138
145
5.1
6.0
6.8
7.8
9.0
10.2
10.0
12.0
11.5
11.0
11.8
12.2
12.5
12.8
13.0
357
444
544
608.4
765
938.4
900
1140
1058
1188
1357
1500.6
1625
1766.4
1885
,,
,,。
故蔬菜产量与放用氮肥量的相关系数
。
由于n=15,故自由度15-2=13。
由相关系数检验的临界值表查出与显著水平0.05及自由度13相关系数临界值,则,
从而说明蔬菜产量与氮肥量之间存在着线性相关关系。
(2)设所求的回归直线方程为,则,
,
∴回归直线方程为。
点评:
求解两个变量的相关系数及它们的回归直线方程的计算量较大,需要细心、谨慎地计算。
如果会使用含统计的科学计算器,能简单得到,,,,这些量,也就无需有制表这一步,直接算出结果就行了。
另外,利用计算机中有关应用程序也可以对这些数据进行处理。
例8假设关于某设备的使用年限x和所支出的维修费用y(万元),有如下的统计资料:
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7.0
若由资料可知y对x呈线性相关关系。
试求:
(1)线性回归方程;
(2)估计使用年