2022-2023学年高二下数学:成对数据的统计分析(附答案).docx
《2022-2023学年高二下数学:成对数据的统计分析(附答案).docx》由会员分享,可在线阅读,更多相关《2022-2023学年高二下数学:成对数据的统计分析(附答案).docx(21页珍藏版)》请在冰豆网上搜索。
2022-2023学年高二下数学:
成对数据的统计分析
一.选择题(共8小题)
1.(2021秋•兴庆区校级期末)设两个变量x与y之间具有线性相关关系,相关系数为r,
回归方程为y=a+bx,那么必有(
)
A.b与r符号相同
C.b与r符号相反
B.a与r符号相同
D.a与r符号相反
2.(2021春•兰州期中)对两个变量y和x进行回归分析,则下列说法中不正确的是( )
A.由样本数据得到的回归方程必过样本点的中心(,)
B.残差平方和越小的模型,拟合的效果越好
C.用相关指数R2来刻画回归效果,R2的值越小,说明模型的拟合效果越好
D.回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法
3.(2021春•昌吉州期中)已知某种商品的广告费支出x(单位:
万元)与销售额y(单位:
万元)之间有如下对应数据:
x
2
4
5
6
8
y
30
40
50
60
70
根据上表可得回归方程=x+,计算得 ,则当投入12万元广告费时,销售额的预报值为( )
A.75万元 B.85万元 C.99万元 D.105万元
4.(2021春•河西区期中)如表是2×2列联表,则表中的a、b的值分别为( )
y1
y
合计
x1
a
8
35
x
11
34
45
合计
b
42
80
A.27、38
B.28、38
C.27、37
D.28、37
5.(2021春•运城期中)某学校食堂对高三学生偏爱蔬菜还是肉类与性别的关系进行了一次调查,根据独立性检验原理,处理所得数据之后发现,有97.5%的把握但没有99%的把握认为偏爱蔬菜还是肉类与性别有关,则K2的观测值可能为( )
第21页(共21页)
P(K2≥k0)
0.10
0.05
0.025
0.010
0.005
0.001
k
2.706
3.841
5.024
6.635
7.879
10.828
A.K2=3.206
B.K2=6.625
C.K2=7.869
D.K2=11.208
6.(2021春•道里区校级期中)在一组样本数据(x1,y1),(x2,y2),⋯,(xn,yn),(n≥2,
x1,x2,…,xn不相等)的散点图中,若所有样本点(xi,yi)(i=1,2,⋯,n)都在直
线上,则这组样本数据的样本相关系数为( )
A.﹣1 B.C.D.1
7.(2021•淄博三模)某个国家某种病毒传播的中期,感染人数y和时间x(单位:
天)在
18天里的散点图如图所示,下面四个回归方程类型中最适宜作为感染人数y和时间x的回归方程的是( )
A.y=a+bx B.y=a+bex C.y=a+blnx D.
8.(2021春•武汉期中)对于一组具有线性相关关系的样本数据(xi,yi)(i=1,2,⋯,n),
其样本中心为 ,回归方程为,则相应于样本点(xi,yi)的残差为( )
A. B.
C. D.
二.填空题(共4小题)
9.(2021春•昌吉州期中)甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m,如表:
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
m
106
115
124
103
则 同学的试验结果体现A,B两变量有更强的线性相关性.
10.(2021春•玉林期中)为了对x,y两个变量进行统计分析,现根据两种线性模型分别计算出甲模型的相关指数为,乙模型的相关指数为,则
(填“甲”或“乙”)模型拟合的效果更好.
11.(2021春•沈阳期中)某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未用血清的人一年中的感冒记录作比较,提出假设H0:
“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查对临界值表知P
(K2≥3.841)≈0.05.则下列结论中,正确结论的序号是.
①在犯错误的概率不超过5%的前提个认为“这种血清能起到预防感冒的作用”;
②若某人未使用该血清,则他在一年中有95%的可能性得感冒;
③这种血清预防感冒的有效率为95%;
④有95%的把握认为这种血清不能起到预防感冒的作用.
12.(2020春•正定县校级月考)下列说法:
①分类变量A与B的随机变量K2越大,说明“A与B有关系”的可信度越大,②以模型y=cekx去拟合一组数据时,为了求出回归方程,设z=lny,将其变换后得到线性方程z=0.3x+4,则c,k的值分别是e4和0.3,③在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,④若变量x和y满足关系y=﹣0.1x+1,且变量y与z正相关,则x与z也正相关,正确的个数是 .
三.解答题(共4小题)
13.(2022•盐城一模)佩戴头盔是一项对家庭与社会负责的表现,某市对此不断进行安全教育.如表1是该市某主干路口连续4年监控设备抓拍到的驾驶员不戴头盔的统计数据:
表1:
年度
2018
2019
2020
2021
年度序号x
1
2
3
4
不戴头盔人数y
1250
1050
1000
900
(1)请利用所给数据求不戴头盔人数y与年度序号x之间的回归直线方程ŷ=x+,并估算该路口2022年不戴头盔的人数;
(2)交警统计2018~2021年通过该路口的开电瓶车出事故的50人,分析不戴头盔行为与事故是否伤亡的关系,得到表2,能否有95%的把握认为不戴头盔行为与事故伤亡有
关?
表2:
不戴头盔
戴头盔
伤亡
7
3
不伤亡
13
27
参考公式:
= = ,=﹣ .
P(K2≥k)
0.10
0.05
0.025
0.010
0.005
k
2.706
3.841
5.024
6.635
7.879
K2= ,其中n=a+b+c+d.
14.(2020•新课标Ⅲ)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:
天):
锻炼人次
[0,200]
(200,400]
(400,600]
空气质量等级
1(优)
2
16
25
2(良)
5
10
12
3(轻度污染)
6
7
8
4(中度污染)
7
2
0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
人次≤400
人次>400
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
空气质量好空气质量不好
附:
K2=
15.(2021•兴宁区校级模拟)中国茶文化博大精深,已知茶水的口感与茶叶类型以及水温有关.经验表明,某种绿茶用85℃的水泡制,再等到茶水温度降至60℃时饮用,可以产生最佳口感.某学习研究小组通过测量,得到了下面表格中的数据(室温是20℃).
泡制时间x/min
0
1
2
3
4
水温y/℃
85
79
74
71
65
ln(y﹣20)
4.2
4.1
4.0
3.9
3.8
(1)小组成员根据上面表格中的数据绘制散点图,并根据散点图分布情况,考虑到茶水温度降到室温(即20℃)就不能再降的事实,决定选择函数模型y=kcx+20(x≥0)来刻画.
①令z=ln(y﹣20),求出z关于x的线性回归方程;
②利用①的结论,求出y=kcx+20(x≥0,c>0)中的k与c.
(2)你认为该品种绿茶用85℃的水大约泡制多久后饮用,可以产生最佳口感?
参考数据:
.
参考公式:
=x+,= ,=﹣ .
16.(2017•新课标Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30min从该生产线上随机抽取一个零件,并测量其尺寸(单位:
cm).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次
1
2
3
4
5
6
7
8
序
零件尺
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
寸
抽取次
9
10
11
12
13
14
15
16
序
零件尺
10.26
9.91
10.13 10.02
9.22
10.04 10.05
9.95
寸
经计算得=xi=9.97,s= = ≈0.212,
≈18.439,(xi﹣)(i﹣8.5)=﹣2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.
(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).
(2)一天内抽检零件中,如果出现了尺寸在(﹣3s,+3s)之外的零件,就认为这条
生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(ⅱ)在(﹣3s,+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
附:
样本(xi,yi)(i=1,2,…,n)的相关系数r= ,
≈0.09.
2022-2023学年高二下数学:
成对数据的统计分析
参考答案与试题解析
一.选择题(共8小题)
1.(2021秋•兴庆区校级期末)设两个变量x与y之间具有线性相关关系,相关系数为r,
回归方程为y=a+bx,那么必有(
)
A.b与r符号相同
C.b与r符号相反
B.a与r符号相同
D.a与r符号相反
【考点】变量间的相关关系.
【专题】概率与统计.
【分析】根据相关系数知相关系数的性质:
|r|≤1,且|r|越接近1,相关程度越大;且|r|
越接近0,相关程度越小.r为正,表示正相关,回归直线方程上升.
【解答】解:
∵相关系数r为正,表示正相关,回归直线方程上升,
r为负,表示负相关,回归直线方程下降,
∴b与r的符号相同.故选:
A.
【点评】本题考查用相关系数来衡量两个变量之间相关关系的方法,当相关系数为正时,表示两个变量正相关.
2.(2021春•兰州期中)对两个变量y和x进行回归分析,则下列说法中不正确的是( )
A.由样本数据得到的回归方程必过样本点的中心(,)
B.残差平方和越小的模型,拟合的效果越好
C.用相关指数R2来刻画回归效果,R2的值越小,说明模型的拟合效果越好
D.回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法
【考点】线性回归方程.
【专题】转化思想;定义法;概率与统计;逻辑推理.
【分析】利用回归分析的相关知识,对四个选项逐一分析判断即可.
【解答】解:
对于A,由样本数据得到的回归方程 必过样本点的中心(,),故选项A正确;
对于B,残差平方和越小的模型,拟合的效果越好,故选项B正确;
对于C,用相关指数R2来刻画回归效果,R2的值越大,说明模型的拟合效果越好,故选项C错误;
对于D,回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,故选项D正确.
故选:
C.
【点评】本题考查了回归分析的理解与应用,回归方程的理解与应用,残差平方和、相关指数R2的含义,考查了逻辑推理能力,属于基础题.
3.(2021春•昌吉州期中)已知某种商品的广告费支出x(单位:
万元)与销售额y(单位:
万元)之间有如下对应数据:
x
2
4
5
6
8
y
30
40
50
60
70
根据上表可得回归方程=x+,计算得 ,则当投入12万元广告费时,销售额的预报值为( )
A.75万元 B.85万元 C.99万元 D.105万元
【考点】线性回归方程.
【专题】方程思想;定义法;概率与统计;逻辑推理;数学运算.
【分析】先求出样本中心,利用样本中心在回归方程上,求出,从而得到回归方程,将
x=12代入求解即可.
【解答】解:
由题意可得, ,,因为样本中心(5,50)在回归方程=7x+上,
则50=7×5+,解得=15,所以回归方程为=7x+15,
当x=12时,=7×12+15=99,
所以当投入12万元广告费时,销售额的预报值为99万元.故选:
C.
【点评】本题考查了线性回归方程的求解与应用,要掌握线性回归方程必过样本中心这
一知识点,考查了逻辑推理能力与运算能力,属于中档题.
4.(2021春•河西区期中)如表是2×2列联表,则表中的a、b的值分别为( )
y1
y
合计
x1
a
8
35
x
11
34
45
合计
b
42
80
A.27、38
B.28、38
C.27、37
D.28、37
【考点】独立性检验.
【专题】方程思想;数学模型法;概率与统计;数学运算.
【分析】由列联表中数据的关系求得.
【解答】解:
a=35﹣8=27,b=a+11=27+11=38.故选:
A.
【点评】本题考查了列联表的做法,属于基础题.
5.(2021春•运城期中)某学校食堂对高三学生偏爱蔬菜还是肉类与性别的关系进行了一次
调查,根据独立性检验原理,处理所得数据之后发现,有97.5%的把握但没有99%的把握认为偏爱蔬菜还是肉类与性别有关,则K2的观测值可能为( )
P(K2≥k0)
0.10
0.05
0.025
0.010
0.005
0.001
k
2.706
3.841
5.024
6.635
7.879
10.828
A.K2=3.206
B.K2=6.625
C.K2=7.869
D.K2=11.208
【考点】独立性检验.
【专题】转化思想;转化法;概率与统计;数学运算.
【分析】根据已知条件,结合独立性检验公式,即可求解.
【解答】解:
∵有97.5%的把握但没有99%的把握认为偏爱蔬菜还是肉类与性别有关,
∴5.024≤K2<6.635,故B选项符合题意.故选:
B.
【点评】本题主要考查独立性检验的应用,属于基础题.
6.(2021春•道里区校级期中)在一组样本数据(x1,y1),(x2,y2),⋯,(xn,yn),(n≥2,
x1,x2,…,xn不相等)的散点图中,若所有样本点(xi,yi)(i=1,2,⋯,n)都在直
线 上,则这组样本数据的样本相关系数为( )
A.﹣1 B.C.D.1
【考点】相关系数.
【专题】对应思想;定义法;概率与统计;数据分析.
【分析】根据题意知这组样本数据完全负相关,其相关系数为﹣1.
【解答】解:
因为所有样本数据点(xn,yn)都在直线上,所以这组样本数据完全负相关,其相关系数为﹣1.
故选:
A.
【点评】本题考查了相关系数的定义与应用问题,是基础题.
7.(2021•淄博三模)某个国家某种病毒传播的中期,感染人数y和时间x(单位:
天)在
18天里的散点图如图所示,下面四个回归方程类型中最适宜作为感染人数y和时间x的回归方程的是( )
A.y=a+bx B.y=a+bex C.y=a+blnx D.
【考点】线性回归方程.
【专题】数形结合;分析法;概率与统计;直观想象.
【分析】由图象结合四个选项中函数的单调性即可得结论.
【解答】解:
由图可知,图象随着x的增大而增高,且增长速度越来越快,结合选项,可判断y=a+bex最适宜作为感染人数y和时间x的回归方程.故选:
B.
【点评】本题考查回归方程的求法,考查数形结合思想,是基础题.
8.(2021春•武汉期中)对于一组具有线性相关关系的样本数据(xi,yi)(i=1,2,⋯,n),
其样本中心为,回归方程为 ,则相应于样本点(xi,yi)的残差为( )
A. B.
C. D.
【考点】线性回归方程.
【专题】对应思想;定义法;概率与统计;数学运算.
【分析】根据残差的定义与计算方法,即可得解.
【解答】解:
因为残差是实际观察值与估计值(拟合值)之间的差,
所以样本点(xi,yi)的残差为yi﹣(xi+).故选:
C.
【点评】本题考查残差的定义与计算方法,属于基础题.二.填空题(共4小题)
9.(2021春•昌吉州期中)甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做
试验,并用回归分析方法分别求得相关系数r与残差平方和m,如表:
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
m
106
115
124
103
则 丁同学的试验结果体现A,B两变量有更强的线性相关性.
【考点】变量间的相关关系.
【专题】计算题;对应思想;定义法;概率与统计;数学运算.
【分析】】根据相关系数的绝对值越接近于1,相关性越强,且残差平方和越小,相关性也越强,判断即可.
【解答】解:
在验证两个变量之间的线性相关关系中,
相关系数的绝对值越接近于1,相关性越强,且残差平方和越小,相关性越强,在表中只有丁的相关系数最大,丁的残差平方和最小,
∴丁中试验结果体现x、y两变量有更强的线性相关性.故答案为:
丁.
【点评】本题考查了两个变量的线性相关性判断问题,是基础题.
10.(2021春•玉林期中)为了对x,y两个变量进行统计分析,现根据两种线性模型分别计
算出甲模型的相关指数为,乙模型的相关指数为,则 甲(填
“甲”或“乙”)模型拟合的效果更好.
【考点】相关系数.
【专题】转化思想;转化法;概率与统计;数学运算.
【分析】根据已知条件,结合相关系数的性质,即可求解.
【解答】解:
∵>,
又∵相关系数的绝对值越接近1,表明拟合效果越好,
∴甲模型拟合的效果更好.故答案为:
甲.
【点评】本题主要考查相关系数的性质,属于基础题.
11.(2021春•沈阳期中)某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未用血清的人一年中的感冒记录作比较,提出假设H0:
“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查对临界值表知P
(K2≥3.841)≈0.05.则下列结论中,正确结论的序号是① .
①在犯错误的概率不超过5%的前提个认为“这种血清能起到预防感冒的作用”;
②若某人未使用该血清,则他在一年中有95%的可能性得感冒;
③这种血清预防感冒的有效率为95%;
④有95%的把握认为这种血清不能起到预防感冒的作用.
【考点】独立性检验.
【专题】对应思想;数学模型法;概率与统计;数据分析.
【分析】根据题意,利用观测值与临界值的关系,判断选项中的命题是否正确即可.
【解答】解:
计算K2≈3.918,由P(K2≥3.841)≈0.05;
对于①,在犯错误的概率不超过5%的前提个认为“这种血清能起到预防感冒的作用”,
①正确;
对于②,若某人未使用该血清,不能说“他在一年中有95%的可能性得感冒”,②错误;对于③,这种血清有95%的可能性预防感冒,不是有效率为95%,③错误;
对于④,有95%的把握认为这种血清能起到预防感冒的作用,所以④错误.故答案为:
①.
【点评】本题考查了独立性检验的应用问题,也考查了分析与判断能力,是基础题.
12.(2020春•正定县校级月考)下列说法:
①分类变量A与B的随机变量K2越大,说明“A与B有关系”的可信度越大,②以模型y=cekx去拟合一组数据时,为了求出回归方程,设z=lny,将其变换后得到线性方程z=0.3x+4,则c,k的值分别是e4和0.3,③在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,④若变量x和y满足关系y=﹣0.1x+1,且变量y与z正相关,则x与z也正相关,正确的个数是3 .
【考点】变量间的相关关系.
【专题】对应思想;数学模型法;概率与统计;数据分析.
【分析】①中,根据独立性原理判断①正确;
②中,根据回归模型和对数的运算性质,得出②正确;
③中,利用残差图的知识,判断③正确;
④中,由线性回归方程判断变量x和y负相关,由变量y与z正相关,得x与z是负相关.
【解答】解:
对于①,根据独立性原理知,分类变量A与B的随机变量K2越大,说明
“A与B有关系”的可信度越大,①正确;
对于②,根据回归模型和对数的运算性质知,以模型y=cekx去拟合一组数据时,为了求出回归方程,
设z=lny,将其变换后得到线性方程z=0.3x+4,则c,k的值分别是e4和0.3,所以②正确;
对于③,利用残差分析模型拟合效果时,在残差图中,残差点分布的带状区域的宽度越狭窄,
其模型拟合的精度越高,所以③正确;
对于④,若变量x和y满足关系y=﹣0.1x+1,且变量y与z正相关,则x与z是负相关,所以④错误.
综上知,正确命题的序号是①②③,共3个.故答案为:
3.
【点评】本题考查了独立性检验原理和线性回归分析与残差图的应用问题,也考查了分析问题的能力,是基础题.
三.解答题(共4小题)
13.(2022•盐城一模)佩戴头盔是一项对家庭与社会负责的表现,某市对此不断进行安全教
育.如表1是该市某主干路口连续4年监控设备抓拍到的驾驶员不戴头盔的统计数据:
表1:
年度
2018
2019
2020
2021
年度序号x
1
2
3
4
不戴头盔人数y
1250
1050