新人教A版版高考数学大一轮复习第九章统计第3节变量间的相关关系与统计案例讲义理.docx
《新人教A版版高考数学大一轮复习第九章统计第3节变量间的相关关系与统计案例讲义理.docx》由会员分享,可在线阅读,更多相关《新人教A版版高考数学大一轮复习第九章统计第3节变量间的相关关系与统计案例讲义理.docx(25页珍藏版)》请在冰豆网上搜索。
新人教A版版高考数学大一轮复习第九章统计第3节变量间的相关关系与统计案例讲义理
考试要求 1.了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系,会通过相关系数比较多组成对数据的相关性;2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件,会用一元线性回归模型进行预测;3.理解2×2列联表的统计意义,了解2×2列联表独立性检验及其应用.
知识梳理
1.相关关系与回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:
散点图;统计量有相关系数与相关指数.
(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.
2.线性回归方程
(1)最小二乘法:
使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程:
两个具有线性相关关系的变量的一组数据:
(x1,y1),(x2,y2),…,(xn,yn),其回归方程为=x+,则==,=-.其中,是回归方程的斜率,是在y轴上的截距.
回归直线一定过样本点的中心(,).
3.回归分析
(1)定义:
对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心:
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(,)称为样本点的中心.
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.
r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
(4)相关指数:
R2=1-.其中(yi-i)2是残差平方和,其值越小,则R2越大(接近1),模型的拟合效果越好.
4.独立性检验
(1)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
(2)列联表:
列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)为
y1
y2
总计
x1
A
b
a+b
x2
C
d
c+d
总计
a+c
b+d
a+b+c+d
则随机变量K2=,其中n=a+b+c+d为样本容量.
[微点提醒]
1.求解回归方程的关键是确定回归系数,,应充分利用回归直线过样本中心点(,).
2.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.
3.根据回归方程计算的值,仅是一个预报值,不是真实发生的值.
基础自测
1.判断下列结论正误(在括号内打“√”或“×”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )
(2)通过回归直线方程=x+可以估计预报变量的取值和变化趋势.( )
(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( )
(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.( )
答案
(1)√
(2)√ (3)× (4)√
2.(选修2-3P91探究改编)为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )
A.回归分析B.均值与方差
C.独立性检验D.概率
解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.
答案 C
3.(选修2-3P85讲解改编)两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是( )
A.模型1的相关指数R2为0.98
B.模型2的相关指数R2为0.80
C.模型3的相关指数R2为0.50
D.模型4的相关指数R2为0.25
解析 在两个变量y与x的回归模型中,它们的相关指数R2越近于1,模拟效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.
答案 A
4.(2019·临沂模拟)已知变量x和y的统计数据如下表:
x
3
4
5
6
7
y
2.5
3
4
4.5
6
根据上表可得回归直线方程为=x-0.25,据此可以预测当x=8时,=( )
A.6.4B.6.25C.6.55D.6.45
解析 由题意知==5,
==4,
将点(5,4)代入=x-0.25,解得=0.85,
则=0.85x-0.25,
所以当x=8时,=0.85×8-0.25=6.55,故选C.
答案 C
5.(2015·全国Ⅱ卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:
万吨)柱形图,以下结论不正确的是( )
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
解析 对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D不正确.
答案 D
6.(2019·天津和平区检测)某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用2×2列联表进行独立性检验,经计算K2=6.705,则所得到的统计学结论是:
有________的把握认为“学生性别与支持该活动没有关系”.( )
P(K2≥k0)
0.100
0.050
0.025
0.010
0.001
k0
2.706
3.841
5.024
6.635
10.828
A.99.9%B.99%C.1%D.0.1%
解析 因为6.635<6.705<10.828,因此有1%的把握认为“学生性别与支持该活动没有关系”,故选C.
答案 C
考点一 相关关系的判断
【例1】
(1)观察下列各图形,
其中两个变量x,y具有相关关系的图是( )
A.①②B.①④
C.③④D.②③
(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
m
106
115
124
103
则哪位同学的试验结果体现A,B两变量有更强的线性相关性( )
A.甲B.乙C.丙D.丁
解析
(1)由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线附近,所以③④中的两个变量具有相关关系.
(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.
答案
(1)C
(2)D
规律方法 1.散点图中如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.
2.利用相关系数判定,当|r|越趋近于1相关性越强.当残差平方和越小,相关指数R2越大,相关性越强.若r>0,则正相关;r<0时,则负相关.
3.线性回归直线方程中:
>0时,正相关;<0时,负相关.
【训练1】
(1)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.
①x,y是负相关关系;
②在该相关关系中,若用y=c1ec2x拟合时的相关指数为R,用=x+拟合时的相关指数为R,则R>R;
③x,y之间不能建立线性回归方程.
解析
(1)由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关.
(2)在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1ec2x拟合比用=x+拟合效果要好,则R>R,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.
答案
(1)C
(2)①②
考点二 线性回归方程及应用
【例2】(2019·日照调研)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:
年份x
2013
2014
2015
2016
2017
储蓄存款y(千亿元)
5
6
7
8
10
表1
为了研究计算的方便,工作人员将上表的数据进行了处理,t=x-2012,z=y-5得到下表2:
时间代号t
1
2
3
4
5
Z
0
1
2
3
5
表2
(1)求z关于t的线性回归方程;
(2)通过
(1)中的方程,求出y关于x的回归方程;
(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?
(附:
对于线性回归方程=x+,
其中=,=-)
解
(1)=3,=2.2,tizi=45,t=55,
==1.2,
=-=2.2-3×1.2=-1.4,
所以=1.2t-1.4.
(2)将t=x-2012,z=y-5,代入=1.2t-1.4,
得y-5=1.2(x-2012)-1.4,即=1.2x-2410.8.
(3)因为=1.2×2022-2410.8=15.6,
所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.
规律方法 1.
(1)正确理解计算,的公式和准确的计算是求线性回归方程的关键.
(2)回归直线方程=x+必过样本点中心(,).
2.
(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.
(2)对于非线性回归分析问题,应先进行变量代换,求出代换后的回归直线方程,再求非线性回归方程.
【训练2】(2018·全国Ⅱ卷)如图是某地区2000年至2016年环境基础设施投资额y(单位:
亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:
=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:
=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?
并说明理由.
解
(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为
=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分.
考点三 独立性检验
【例3】(2019·湖南长沙雅礼中学、河南省实验中学联考)环境问题是当今世界共同关注的问题,我国环保总局根据空气污染指数PM2.5浓度,制定了空气质量标准:
空气污染指数
(0,50]
(50,100]
(100,150]
(150,200]
(200,300]
(300,+∞)
空气质量等级
优
良
轻度污染
中度污染
重度污染
严重污染
某市政府为了打造美丽城市,节能减排,从2010年开始考察了连续六年11月份的空气污染指数,绘制了频率分布直方图,经过分析研究,决定从2016年11月1日起在空气质量重度污染和严重污染的日子对机动车辆限号出行,即车牌尾号为单号的车辆单号出行,车牌尾号为双号的车辆双号出行(尾号是字母的,前13个视为单号,后13个视为双号).王先生有一辆车,若11月份被限行的概率为0.05.
(1)求频率分布直方图中m的值;
(2)若按分层抽样的方法,从空气质量良好与中度污染的天气中抽取6天,再从这6天中随机抽取2天,求至少有一天空气质量是中度污染的概率;
(3)该市环保局为了调查汽车尾气排放对空气质量的影响,对限行两年来的11月份共60天的空气质量进行统计,其结果如下表:
空气质量
优
良
轻度污染
中度污染
重度污染
严重污染
天数
11
27
11
7
3
1
根据限行前6年180天与限行后60天的数据,计算并填写2×2列联表,并回答是否有90%的把握认为空气质量的优良与汽车尾气的排放有关.
空气质量优、良
空气质量污染
总计
限行前
限行后
总计
参考数据:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
k0
2.072
2.706
3.841
5.024
6.635
7.879
参考公式:
K2=,其中n=a+b+c+d.
解
(1)因为限行分单双号,王先生的车被限行的概率为0.05,
所以空气重度污染和严重污染的概率应为0.05×2=0.1,
由频率分布直方图可知(0.004+0.006+0.005+m)×50+0.1=1,解得m=0.003.
(2)因为空气质量良好与中度污染的天气的概率之比为0.3∶0.15=2∶1,
按分层抽样的方法从中抽取6天,则空气质量良好的天气被抽取的有4天,记作A1,A2,A3,A4,
空气中度污染的天气被抽取的有2天,记作B1,B2,
从这6天中随机抽取2天,所包含的基本事件有(A1,A2),(A1,A3),(A1,A4),(A1,B1),(A1,B2),(A2,A3),(A2,A4),(A2,B1),(A2,B2),(A3,A4),(A3,B1),(A3,B2),(A4,B1),(A4,B2),(B1,B2),共15个,
记事件A为“至少有一天空气质量是中度污染”,则事件A所包含的事件有(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(A4,B1),(A4,B2),(B1,B2),共9个,
故P(A)==,即至少有一天空气质量是中度污染的概率为.
(3)2×2列联表如下:
空气质量优、良
空气质量污染
总计
限行前
90
90
180
限行后
38
22
60
总计
128
112
240
由表中数据可得,K2=≈3.214>2.706,所以有90%的把握认为空气质量的优良与汽车尾气的排放有关.
规律方法 1.在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.
2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表:
(2)根据公式K2=计算K2的观测值k;
(3)比较观测值k与临界值的大小关系,作统计推断.
【训练3】为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
男
13
10
女
7
20
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=≈4.844.则认为选修文科与性别有关系出错的可能性为________.
解析 K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.
答案 5%
[思维升华]
1.求回归方程,关键在于正确求出系数a^,b^,由于a^,b^的计算量大,计算时应仔细谨慎,分步进行,避免因计算而产生错误.
2.回归分析是处理变量相关关系的一种数学方法.主要解决:
(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;
(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.
[易错防范]
1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.
2.独立性检验中统计量K2的观测值k0的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.
基础巩固题组
(建议用时:
40分钟)
一、选择题
1.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
A.r2C.r4解析 由散点图知图
(1)与图(3)是正相关,故r1>0,r3>0,图
(2)与图(4)是负相关,故r2<0,r4<0,且图
(1)与图
(2)的样本点集中在一条直线附近,因此r2答案 A
2.有下列说法:
①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适.②用相关指数R2来刻画回归的效果,R2值越接近于1,说明模型的拟合效果越好.③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.正确的是( )
A.①②B.②③C.①③D.①②③
答案 D
3.在一次对性别与说谎是否相关的调查中,得到如下数据:
说谎
不说谎
总计
男
6
7
13
女
8
9
17
总计
14
16
30
根据表中数据,得到如下结论正确的一项是( )
A.在此次调查中有95%的把握认为是否说谎与性别有关
B.在此次调查中有99%的把握认为是否说谎与性别有关
C.在此次调查中有99.5%的把握认为是否说谎与性别有关
D.在此调查中没有充分的证据显示说谎与性别有关
解析 由已知得k=≈0.002<0.455,所以在犯错误的概率不超过50%的情况下,认为说谎与性别无关,也就是说,在此调查中没有充分的证据显示说谎与性别有关.
答案 D
4.(2019·衡水中学调研)已知变量x,y之间的线性回归方程为=-0.7x+10.3,且变量x,y之间的一组相关数据如下表所示,则下列说法错误的是( )
x
6
8
10
12
y
6
m
3
2
A.变量x,y之间呈负相关关系
B.可以预测,当x=20时,=-3.7
C.m=4
D.该回归直线必过点(9,4)
解析 由-0.7<0,得变量x,y之间呈负相关关系,故A正确;当x=20时,=-0.7×20+10.3=-3.7,故B正确;由表格数据可知=×(6+8+10+12)=9,=(6+m+3+2)=,则=-0.7×9+10.3,解得m=5,故C错;由m=5,得==4,所以该回归直线必过点(9,4),故D正确.故选C.
答案 C
5.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
K2=算得,
K2=≈7.8.
得到的正确结论是( )
A.有99%以上的把握认为“爱好该项运动与性别有关”
B.有99%以上的把握认为“爱好该项运动与性别无关”
C.有95%以上的把握认为“爱好该项运动与性别有关”
D.有95%以上的把握认为“爱好该项运动与性别无关”
解析 根据独立性检验的定义,由K2≈7.8>6.635,可知我们有99%的把握认为“爱好该项运动与性别有关”.
答案 A
二、填空题
6.某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:
气温(℃)
18
13
10
-1
用电量(度)
24
34
38
64
由表中数据得回归直线方程=x+中的=-2,预测当气温为-4℃时,用电量约为________度.
解析 根据题意知==10,==40.所以=40-(-2)×10=60,=-2x+60.所以当x=-4时,y=(-2)×(-4)+60=68,所以用电量约为68度.
答案 68
7.(2019·济南调研)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:
(单位:
人)
几何题
代数题
总计
男同学
22
8
30
女同学
8
12
20
总计
30
20
50
根据上述数据,推断视觉和空间想象能力与性别有关系,则这种推断犯错误的概率不超过________.
附表:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
解析 由列联表计算K2的观测值k=≈5.5