高考数学二轮复习第1部分重点强化专题专题3概率与统计突破点8独立性检验与回归分析学案.docx
《高考数学二轮复习第1部分重点强化专题专题3概率与统计突破点8独立性检验与回归分析学案.docx》由会员分享,可在线阅读,更多相关《高考数学二轮复习第1部分重点强化专题专题3概率与统计突破点8独立性检验与回归分析学案.docx(13页珍藏版)》请在冰豆网上搜索。
![高考数学二轮复习第1部分重点强化专题专题3概率与统计突破点8独立性检验与回归分析学案.docx](https://file1.bdocx.com/fileroot1/2022-10/27/d968f4b1-1a68-4eaf-a624-32082dde4e2e/d968f4b1-1a68-4eaf-a624-32082dde4e2e1.gif)
高考数学二轮复习第1部分重点强化专题专题3概率与统计突破点8独立性检验与回归分析学案
突破点8 独立性检验与回归分析
[核心知识提炼]
提炼1变量的相关性
(1)正相关:
在散点图中,点散布在从左下角到右上角的区域.
(2)负相关:
在散点图中,点散布在从左上角到右下角的区域.
(3)相关系数r:
当r>0时,两变量正相关;当r<0时,两变量负相关;当|r|≤1且|r|越接近于1,相关程度越高,当|r|≤1且|r|越接近于0,相关程度越低.
提炼2线性回归方程
方程=x+称为线性回归方程,其中=,=-.回归直线恒过样本中心(,).
提炼3独立性检验
(1)确定分类变量,获取样本频数,得到2×2列联表.
(2)求观测值:
k=.
(3)根据临界值表,作出正确判断.如果k≥kα,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”.
[高考真题回访]
回访1 变量的相关性
1.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:
万吨)柱形图,以下结论中不正确的是( )
图81
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
D [对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,故选D.]
2.(2012·全国卷)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0
C. D.1
D [样本点都在直线上时,其数据的估计值与真实值是相等的,即yi=i,代入相关系数公式r==1.]
3.(2017·全国卷Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30min从该生产线上随机抽取一个零件,并测量其尺寸(单位:
cm).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次序
1
2
3
4
5
6
7
8
零件尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).
(2)一天内抽检零件中,如果出现了尺寸在(-3s,+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(ⅱ)在(-3s,+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
附:
样本(xi,yi)(i=1,2,…,n)的相关系数r=
[解]
(1)由样本数据得(xi,i)(i=1,2,…,16)的相关系数
r=≈≈-0.18.2分
由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.4分
(2)(ⅰ)由于=9.97,s≈0.212,因此由样本数据可以看出抽取的第13个零件的尺寸在(-3s,+3s)以外,因此需对当天的生产过程进行检查.6分
(ⅱ)剔除离群值,即第13个数据,剩下数据的平均数为
(16×9.97-9.22)=10.02,
这条生产线当天生产的零件尺寸的均值的估计值为10.02.8分
x≈16×0.2122+16×9.972≈1591.134,10分
剔除第13个数据,剩下数据的样本方差为
(1591.134-9.222-15×10.022)≈0.008,
这条生产线当天生产的零件尺寸的标准差的估计值为≈0.09.12分
回访2 独立性检验
4.(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:
kg),其频率分布直方图如下:
图82
(1)记A表示事件“旧养殖法的箱产量低于50kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;
箱产量<50kg
箱产量≥50kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.
附:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
K2=.
[解]
(1)旧养殖法的箱产量低于50kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62.
因此,事件A的概率估计值为0.62.3分
(2)根据箱产量的频率分布直方图得列联表
箱产量<50kg
箱产量≥50kg
旧养殖法
62
38
新养殖法
34
66
5分
K2的观测值k=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.8分
(3)箱产量的频率分布直方图表明:
新养殖法的箱产量平均值(或中位数)在50kg到55kg之间,旧养殖法的箱产量平均值(或中位数)在45kg到50kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.12分
热点题型1 回归分析
题型分析:
高考命题常以实际生活为背景,重在考查回归分析中散点图的作用、回归方程的求法和应用,难度中等.
【例1】 在一次抽样调查中测得样本的5组数据,得到一个变量y关于x的回归方程模型,其对应的数值如下表:
x
0.25
0.5
1
2
4
y
16
12
5
2
1
(1)试作出散点图,根据散点图判断,y=a+bx与y=+m哪一个适宜作为变量y关于x的回归方程模型?
(给出判断即可,不必说明理由)
(2)根据
(1)的判断结果及表中数据,建立变量y关于x的回归方程;
(3)根据
(2)中所求的变量y关于x的回归方程预测:
当x=3时,对应的y值为多少?
(保留四位有效数字)
[解]
(1)作出变量y与x之间的散点图,如图所示,
2分
由图可知变量y与x近似地呈反比例函数关系,
那么y=+m适宜作为变量y关于x的回归方程模型.4分
(2)由
(1)知y=+m适宜作为变量y关于x的回归方程模型,令t=,则y=kt+m,由y与x的数据表可得y与t的数据表如下:
t
4
2
1
0.5
0.25
y
16
12
5
2
1
6分
作出y与t的散点图,如图所示.
8分
由图可知y与t近似地呈线性相关关系.
又=1.55,=7.2,iyi=94.25,=21.3125,
所以k==≈4.1344,m=-k=7.2-4.1344×1.55≈0.8,
所以y=4.1344t+0.8,
所以y关于x的回归方程为y=+0.8.10分
(3)由
(2)得y关于x的回归方程是y=+0.8,
当x=3时,可得y=+0.8≈2.178.12分
[方法指津]
1.正确理解计算,的公式和准确的计算,是求线性回归方程的关键.其中回归直线必过样本中心(,).
2.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.
[变式训练1] 二手车经销商小王对其所经营的A型号二手汽车的使用年数x与销售价格y(单位:
万元/辆)进行整理,得到如下数据:
使用年数x
2
3
4
5
6
7
售价y
20
12
8
6.4
4.4
3
z=lny
3.00
2.48
2.08
1.86
1.48
1.10
下面是z关于x的折线图:
图83
(1)由折线图可以看出,可以用线性回归模型拟合z与x的关系,请用相关系数加以说明;
(2)求y关于x的回归方程,并预测某辆A型号二手车当使用年数为9年时售价约为多少;(,小数点后保留两位数字)
(3)基于成本的考虑,该型号二手车的售价不得低于7118元,请根据
(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年.
参考公式:
==,=-,r=.
参考数据:
xiyi=187.4,xizi=47.64,x=139,
=4.18,
=13.96,
=1.53,ln1.46≈0.38,ln0.7118≈-0.34.
[解]
(1)由题意,知=×(2+3+4+5+6+7)=4.5,1分
=×(3.00+2.48+2.08+1.86+1.48+1.10)=2,2分
又xizi=47.64,
=4.18,
=1.53,
∴r=
=-≈-0.99,
∴z与x的相关系数大约为-0.99,说明z与x的线性相关程度很高.4分
(2)=
=-≈-0.36,5分
∴=-=2+0.36×4.5=3.62,
∴z与x的线性回归方程是=-0.36x+3.62,6分
又z=lny,
∴y关于x的回归方程是=e-0.36x+3.62.7分
令x=9,
得=e-0.36×9+3.62=e0.38,∵ln1.46≈0.38,∴=1.46,
即预测某辆A型号二手车当使用年数为9年时售价约为1.46万元.8分
(3)当≥0.7118,
即e-0.36x+3.62≥0.7118=eln0.7118=e-0.34时,
则有-0.36x+3.62≥-0.34,
解得x≤11,
因此,预测在收购该型号二手车时车辆的使用年数不得超过11年.12分
热点题型2 独立性检验
题型分析:
尽管全国卷Ⅰ在近几年未在该点命题,但其极易与分层抽样、古典概型等知识交汇,是潜在的命题点之一,需引起足够的重视.
【例2】 (2017·长沙二模)某学校的特长班有50名学生,其中有体育生20名,艺术生30名,在学校组织的一次体检中,该班所有学生进行了心率测试,心率全部介于50次/分到75次/分之间,现将数据分成五组,第一组[50,55),第二组[55,60),……,第五组[70,75],按上述分组方法得到的频率分布直方图如图84所示,已知图中从左到右的前三组的频率之比为a∶4∶10.
图84
(1)求a的值,并求这50名学生心率的平均值;
(2)因为学习专业的原因,体育生常年进行系统的身体锻炼,艺术生则很少进行系统的身体锻炼,若从第一组和第二组的学生中随机抽取1名,该学生是体育生的概率为0.8,请将下面的