高考数学理一轮复习讲义 第11章 112 随机抽样用样本估计总体.docx
《高考数学理一轮复习讲义 第11章 112 随机抽样用样本估计总体.docx》由会员分享,可在线阅读,更多相关《高考数学理一轮复习讲义 第11章 112 随机抽样用样本估计总体.docx(20页珍藏版)》请在冰豆网上搜索。
高考数学理一轮复习讲义第11章112随机抽样用样本估计总体
§11.2 随机抽样、用样本估计总体
最新考纲
考情考向分析
1.理解随机抽样的必要性和重要性,会用简单随机抽样方法从总体中抽取样本,了解分层抽样和系统抽样的方法.
2.了解分布的意义和作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.
3.理解样本数据标准差的意义和作用,会计算数据标准差.
4.能从样本数据中提取基本的数字特征(如平均数,标准差),并作出合理的解释.
5.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.
6.会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.
1.在抽样方法中,系统抽样、分层抽样是考查的重点.
2.考查平均数、方差的计算及茎叶图与频率分布直方图的简单应用.
3.题型以选择题、填空题为主,出现解答题时常与概率结合.
1.随机抽样
(1)简单随机抽样:
一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.
(2)系统抽样:
当总体中的个体数目较多时,可将总体分成均衡的几个部分,然后按照事先定出的规则,从每一部分抽取一个个体得到所需要的样本,这种抽样方法叫做系统抽样.
(3)分层抽样:
一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.
2.用样本的频率分布估计总体分布
(1)在频率分布直方图中,纵轴表示频率/组距,数据落在各小组内的频率用各小长方形的面积表示.各小长方形的面积总和等于1.
(2)频率分布折线图和总体密度曲线
①频率分布折线图:
连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.
②总体密度曲线:
随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,即总体密度曲线.
(3)茎叶图
茎是指中间的一列数,叶是从茎的旁边生长出来的数.
3.用样本的数字特征估计总体的数字特征
(1)众数:
一组数据中出现次数最多的数.
(2)中位数:
将数据从小到大排列,若有奇数个数,则最中间的数是中位数;若有偶数个数,则中间两数的平均数是中位数.
(3)平均数:
=
,反映了一组数据的平均水平.
(4)标准差:
是样本数据到平均数的一种平均距离,s=
.
(5)方差:
s2=
[(x1-
)2+(x2-
)2+…+(xn-
)2](xn是样本数据,n是样本容量,
是样本平均数).
概念方法微思考
1.三种抽样方法有什么共同点和联系?
提示
(1)抽样过程中每个个体被抽取的机会均等.
(2)系统抽样中在起始部分抽样时采用简单随机抽样;分层抽样中各层抽样时采用简单随机抽样或系统抽样.
2.平均数、标准差与方差反映了数据的哪些特征?
提示 平均数反映了数据取值的平均水平,标准差、方差反映了数据对平均数的波动情况,即标准差、方差越大,数据的离散程度越大,越不稳定;反之离散程度越小,越稳定.
题组一 思考辨析
1.判断下列结论是否正确(请在括号中打“√”或“×”)
(1)简单随机抽样每个个体被抽到的机会不一样,与先后有关.( × )
(2)系统抽样在第1段抽样时采用简单随机抽样.( √ )
(3)一组数据的众数可以是一个或几个,那么中位数也具有相同的结论.( × )
(4)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.( √ )
题组二 教材改编
2.某公司有员工500人,其中不到35岁的有125人,35~49岁的有280人,50岁以上的有95人,为了调查员工的身体健康状况,从中抽取100名员工,则应在这三个年龄段分别抽取人数为( )
A.33,34,33B.25,56,19
C.20,40,30D.30,50,20
答案 B
解析 设在不到35岁的员工抽取x人,则
=
,所以x=25,同理可得这三个年龄段抽取人数分别为25,56,19.
3.若某校高一年级8个班参加合唱比赛的得分如茎叶图所示,则这组数据的中位数和平均数分别是( )
A.91.5和91.5B.91.5和92
C.91和91.5D.92和92
答案 A
解析 ∵这组数据由小到大排列为87,89,90,91,92,93,94,96,∴中位数是
=91.5,
平均数
=
=91.5.
4.如图是100位居民月均用水量的频率分布直方图,则月均用水量在[2,2.5)范围内的居民有______人.
答案 25
解析 0.5×0.5×100=25.
题组三 易错自纠
5.从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射实验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是( )
A.5,10,15,20,25B.3,13,23,33,43
C.1,2,3,4,5D.2,4,6,16,32
答案 B
解析 间隔距离为10,故可能的编号是3,13,23,33,43.
6.若数据x1,x2,x3,…,xn的平均数
=5,方差s2=2,则数据3x1+1,3x2+1,3x3+1,…,3xn+1的平均数和方差分别为________.
答案 16,18
解析 ∵x1,x2,x3,…,xn的平均数为5,
∴
=5,
∴
+1=3×5+1=16,
∵x1,x2,x3,…,xn的方差为2,
∴3x1+1,3x2+1,3x3+1,…,3xn+1的方差是32×2=18.
抽样方法
1.用简单随机抽样的方法从含有10个个体的总体中,抽取一个容量为3的样本,其中某一个体a“第一次被抽到”的可能性与“第二次被抽到”的可能性分别是( )
A.
,
B.
,
C.
,
D.
,
答案 A
解析 方法一 在抽样过程中,个体a每一次被抽中的概率是相等的,因为总体容量为10,故个体a“第一次被抽到”的可能性与“第二次被抽到”的可能性均为
.故选A.
方法二 第一次被抽到,显然为
;第二次被抽到,首先第一次不能被抽到,第二次抽才被抽到.可能性为
·
=
.故选A.
2.(2019·海口调研)某校三个年级共有24个班,学校为了了解同学们的心理状况,将每个班编号,依次为1到24,现用系统抽样法,抽取4个班进行调查,若抽到的最小编号为3,则抽取的最大编号为( )
A.15B.18C.21D.22
答案 C
解析 由已知得间隔数为k=
=6,则抽取的最大编号为3+(4-1)×6=21.
3.(2019·安徽毛坦厂中学模拟)某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40种,10种,30种,20种,现从中抽取一个容量为20的样本进行食品安全检测,若采用分层抽样的方法抽取样本,则抽取的植物油类与果疏类食品种数之和是________.
答案 6
解析 本题主要考查对分层抽样的理解.抽样比为
=
,则抽取的植物油类种数是10×
=2,抽取的果蔬类食品种数是20×
=4,所以抽取的植物油类与果蔬类食品种数之和是2+4=6.
思维升华
(1)简单随机抽样是系统抽样和分层抽样的基础,是一种等概率的抽样,由定义应抓住以下特点:
①它要求总体个数较少;②它是从总体中逐个抽取的;③它是一种不放回抽样.
(2)系统抽样又称等距抽样,号码序列一确定,样本即确定了,但要求总体中不能含有一定的周期性,否则其样本的代表性是不可靠的,甚至会导致明显的偏向.(3)分层抽样适用于总体中个体差异较大的情况.(4)抽样方法经常交叉使用,比如系统抽样中的第一均衡部分,可采用简单随机抽样,分层抽样中,若每层中个体数量仍很大时,则可辅之以系统抽样.
统计图表及应用
命题点1 扇形图
例1 (2018·全国Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:
则下面结论中不正确的是( )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
答案 A
解析 设新农村建设前,农村的经济收入为a,则新农村建设后,农村的经济收入为2a.新农村建设前后,各项收入的对比如下表:
新农村
建设前
新农村
建设后
新农村建设
后变化情况
结论
种植收入
60%a
37%×2a=74%a
增加
A错
其他收入
4%a
5%×2a=10%a
增加了一倍以上
B对
养殖收入
30%a
30%×2a=60%a
增加了一倍
C对
养殖收入
+第三产
业收入
(30%+6%)a
=36%a
(30%+28%)
×2a=116%a
超过经济收入
2a的一半
D对
故选A.
命题点2 折线图
例2 (2017·全国Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:
万人)的数据,绘制了下面的折线图.
根据该折线图,下列结论错误的是( )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
答案 A
解析 对于选项A,由图易知月接待游客量每年7,8月份明显高于12月份,故A错;
对于选项B,观察折线图的变化趋势可知年接待游客量逐年增加,故B正确;
对于选项C,D,由图可知显然正确.
故选A.
命题点3 茎叶图
例3 如图所示的茎叶图记录了甲,乙两组各5名工人某日的产量数据(单位:
件).若这两组数据的中位数相等,且平均数也相等,则x和y的值分别为( )
A.3,5B.5,5C.3,7D.5,7
答案 A
解析 甲组数据的中位数为65,由甲,乙两组数据的中位数相等,得y=5.又甲、乙两组数据的平均数相等,
∴
×(56+65+62+74+70+x)=
×(59+61+67+65+78),∴x=3.故选A.
命题点4 频率分布直方图
例4 (2019·南昌调研)从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图.
(1)直方图中x的值为________;
(2)在这些用户中,月用电量落在区间[100,250)内的户数为________.
答案
(1)0.0044
(2)70
解析
(1)由频率分布直方图知数据落在[200,250)内的频率为1-(0.0024+0.0036+0.0060+0.0024+0.0012)×50=0.22,于是x=
=0.0044.
(2)因为数据落在[100,250)内的频率为(0.0036+0.0060+0.0044)×50=0.7,所以所求户数为0.7×100=70.
思维升华
(1)通过扇形统计图可以很清楚的表示出各部分数量同总数之间的关系.
(2)折线图可以显示随时间(根据常用比例放置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势.
(3)由茎叶图可以清晰地看到数据的分布情况,这一点同频率分布直方图类似.它优于频率分布直方图的第一点是从茎叶图中能看到原始数据,没有任何信息损失,第二点是茎叶图便于记录和表示.其缺点是当样本容量较大时,作图较烦琐.
(4)准确理解频率分布直方图的数据特点:
①频率分布直方图中纵轴上的数据是各组的频率除以组距的结果,不要误以为纵轴上的数据是各组的频率,不要和条形图混淆.
②频率分布直方图中各小长方形的面积之和为1,这是解题的关键,常利用频率分布直方图估计总体分布.
跟踪训练
(1)(2019·洛阳模拟)已知某地区中小学生人数和近视情况分别如图①和图②所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )
A.200,20B.100,20
C.200,10D.100,10
答案 A
解析 由图①得样本容量为(3500+2000+4500)×2%=10000×2%=200,
抽取的高中生人数为2000×2%=40(人),
则近视人数为40×0.5=20(人),
故选A.
(2)(2019·昆明质检)“搜索指数”是网民通过搜索引擎,以每天搜索关键词的次数为基础所得到的统计指标.搜索指数越大,表示网民搜索该关键词的次数越多,对该关键词相关的信息关注度也越高.如图是2017年9月到2018年2月这半年来,某个关键词的搜索指数变化的统计图.
根据该统计图判断,下列结论正确的是( )
A.这半年来,网民对该关键词相关的信息关注度呈周期性变化
B.这半年来,网民对该关键词相关的信息关注度不断减弱
C.从该关键词的搜索指数来看,2017年10月的方差小于11月的方差
D.从该关键词的搜索指数来看,2017年12月的平均值大于2018年1月的平均值
答案 D
解析 由统计图可知,这半年来,该关键词的搜索指数变化的周期性并不显著,排除A;由统计图可知,这半年来,该关键词的搜索指数的整体减弱趋势不显著,排除B;由统计图可知,2017年10月该关键词的搜索指数波动较大,11月的波动较小,所以2017年10月的方差大于11月的方差,排除C;由统计图可知,2017年12月该关键词的搜索指数大多高于10000,该月平均值大于10000,2018年1月该关键词的搜索指数大多低于10000,该月平均值小于10000,选D.
(3)(2020·成都模拟)如图是某赛季甲、乙两名篮球运动员9场比赛所得分数的茎叶图,则下列说法错误的是( )
A.甲所得分数的极差为22B.乙所得分数的中位数为18
C.两人所得分数的众数相等D.甲所得分数的平均数低于乙所得分数的平均数
答案 D
解析 甲所得分数的极差为33-11=22,A正确;乙所得分数的中位数为18,B正确;甲所得分数的众数为22,乙所得分数的众数为22,C正确,故选D.
(4)(2019·昆明模拟)为了解学生“阳光体育”活动的情况,随机统计了n名学生的“阳光体育”活动时间(单位:
分钟),所得数据都在区间[10,110]内,其频率分布直方图如图所示.已知活动时间在[10,35)内的频数为80,则n的值为( )
A.700B.800C.850D.900
答案 B
解析 根据频率分布直方图,知组距为25,所以活动时间在[10,35)内的频率为0.1,因为活动时间在[10,35)内的频数为80,所以n=
=800.
用样本的数字特征估计总体的数字特征
1.(2019·全国Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )
A.中位数B.平均数
C.方差D.极差
答案 A
解析 记9个原始评分分别为a,b,c,d,e,f,g,h,i(按从小到大的顺序排列),易知e为7个有效评分与9个原始评分的中位数,故不变的数字特征是中位数,故选A.
2.某项测试成绩满分为10分,现随机抽取30名学生参加测试,得分情况如图所示,假设得分值的中位数为me,平均数为
,众数为m0,则( )
A.me=m0=
B.me=m0<
C.meD.m0答案 D
解析 由图知m0=5.
由中位数的定义知应该是第15个数与第16个数的平均值,由图知将数据从小到大排,第15个数是5,第16个数是6,所以me=
=5.5.
=
≈5.97>5.5,
所以m0.
3.(2019·全国Ⅱ)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为________.
答案 0.98
解析 经停该站高铁列车所有车次的平均正点率的估计值为
=0.98.
4.甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:
环):
甲
10
8
9
9
9
乙
10
10
7
9
9
如果甲、乙两人中只有1人入选,则入选的最佳人选应是________.
答案 甲
解析 由题可得
甲=
乙=9,
又∵s
=
×[(9-10)2+(9-8)2+(9-9)2+(9-9)2+(9-9)2]=
,
s
=
×[(9-10)2+(9-10)2+(9-7)2+(9-9)2+(9-9)2]=
>s
,∴甲更稳定,故最佳人选应是甲.
思维升华
(1)用样本估计总体时,样本的平均数、标准差只是总体的平均数、标准差的近似值.实际应用时,需先计算样本数据的平均数,分析平均水平,再计算方差(标准差)分析稳定情况.
(2)若给出图形,一方面可以由图形得到相应的样本数据,再计算平均数、方差(标准差);另一方面,可以从图形直观分析样本数据的分布情况,大致判断平均数的范围,并利用数据的波动性大小比较方差(标准差)的大小.
1.某工厂平均每天生产某种机器零件10000件,要求产品检验员每天抽取50件零件,检查其质量状况,采用系统抽样方法抽取,将零件编号为0000,0001,0002,…,9999,若抽取的第一组中的号码为0010,则第三组抽取的号码为( )
A.0210B.0410
C.0610D.0810
答案 B
解析 将零件分成50段,分段间隔为200,因此,第三组抽取的号码为0010+2×200=0410,故选B.
2.某中学有高中生3500人,初中生1500人,为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n的样本,已知从高中生中抽取70人,则n为( )
A.100B.150C.200D.250
答案 A
解析 方法一 由题意可得
=
,解得n=100.
方法二 由题意,得抽样比为
=
,总体容量为3500+1500=5000,故n=5000×
=100.
3.(2020·临川一中模拟)如图为某省高考数学(理)卷近三年难易程度的对比图(图中数据为分值).根据对比图,给出正面三个结论:
①近三年容易题分值逐年增加;②近三年中档题分值所占比例最高的年份是2017年;③2018年的容易题与中档题的分值之和占总分的90%以上.其中正确结论的个数为( )
A.0B.1C.2D.3
答案 C
解析 根据对比图得,2016年,2017年,2018年容易题分值分别为40,55,96,逐年增加,①正确;近三年中档题分值所占比例最高的年份是2016年,②错误;2018年的容易题与中档题的分值之和为96+42=138,
=0.92>90%,③正确.故选C.
4.(2019·全国Ⅲ)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( )
A.0.5B.0.6C.0.7D.0.8
答案 C
解析 根据题意阅读过《红楼梦》《西游记》的人数用韦恩图表示如下:
所以该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为
=0.7.
5.如图是某样本数据的茎叶图,则该样本的中位数、众数、极差分别是( )
A.32 34 32
B.33 45 35
C.34 45 32
D.33 36 35
答案 B
解析 从茎叶图中知共16个数据,按照从小到大排序后中间的两个数据为32,34,所以这组数据的中位数为33;
45出现的次数最多,所以这组数据的众数为45;
最大值是47,最小值是12,故极差是35.
6.(2020·惠州调研)某高校调查了320名学生每周的自习时间(单位:
小时)制成了下图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20],(20,22.5],(22.5,25],(25,27.5],(27.5,30].根据频率分布直方图,这320名学生中每周的自习时间不足22.5小时的人数是( )
A.70B.72C.248D.200
答案 B
解析 由频率分布直方图可得,320名学生中每周的自习时间不足22.5小时的人数是320×(0.02+0.07)×2.5=72(人).故选B.
7.若数据x1,x2,…,xn的平均数为
,方差为s2,则2x1+3,2x2+3,…,2xn+3的平均数和方差分别为( )
A.
和s2B.2
+3和4s2
C.2
+3和s2D.2
+3和4s2+12s+9
答案 B
解析 方法一 平均数为
(2x1+3+2x2+3+…+2xn+3)=
[2(x1+x2+…+xn)+3n]=2
+3;方差为
{[(2x1+3)-(2
+3)]2+[(2x2+3)-(2
+3)]2+…+[(2xn+3)-(2
+3)]2}=
[4(x1-
)2+4(x2-
)2+…+4(xn-
)2]=4s2.
方法二 原数据乘以2加上3得到一组新数据,则由平均数、方差的性质可知得到的新数据的平均数和方差分别是2
+3和4s2.
8.(2019·揭阳模拟)为了考察某校各班参加课外书法小组的人数,从全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据.已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为( )
A.9B.10C.11D.13
答案 B
解析 不妨设样本数据x1,x2,x3,x4,x5,且x19.(2019·江苏)已知一组数据6,7,8,8,9,10,则该组数据的方差是________.
答案
解析 数据6,7,8,8,9,10的平均数是
=8,则方差是
=
.
10.(2019·衡水中学调研)衡水中学高三
(2)班现有64名学生,随机编号为0,1,2,…,63,依编号顺序平均分成8组,组号依次为1,2,3,…,8.现用系统抽样方法抽取一个容量为8的样本,若在第一组中随机抽取的号码为5,则在第6组中抽取的号码为________.
答案