艺体冲刺d第4讲 随机抽样和样本估计总体学生.docx
《艺体冲刺d第4讲 随机抽样和样本估计总体学生.docx》由会员分享,可在线阅读,更多相关《艺体冲刺d第4讲 随机抽样和样本估计总体学生.docx(11页珍藏版)》请在冰豆网上搜索。
艺体冲刺d第4讲随机抽样和样本估计总体学生
第4讲随机抽样和样本估计总体
[玩前必备]
1.简单随机抽样
(1)定义:
一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.
(2)最常用的简单随机抽样方法有两种——抽签法和随机数法.
(3)应用范围:
总体个体数较少.
2.系统抽样的步骤
一般地,假设要从容量为N的总体中抽取容量为n的样本.
(1)先将总体的N个个体编号;
(2)确定分段间隔k,对编号进行分段.当(n是样本容量)是整数时,取k=;
(3)在第1段用简单随机抽样确定第一个个体编号l(l≤k);
(4)按照一定的规则抽取样本.通常是将l加上间隔k得到第2个个体编号(l+k),再加k得到第3个个体编号(l+2k),依次进行下去,直到获取整个样本.
3.分层抽样
(1)定义:
一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.
(2)分层抽样的应用范围:
当总体是由差异明显的几个部分组成时,往往选用分层抽样的方法.
4.频率分布表
(1)含义:
把反映总体频率分布的表格称为频率分布表.
(2)频率分布表的画法步骤:
第一步:
求极差,决定组数和组距,组距=;
第二步:
分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;
第三步:
登记频数,计算频率,列出频率分布表.
5.频率分布直方图
利用直方图反映样本的频率分布规律,这样的直方图称为频率分布直方图.
(1)作频率分布直方图的方法
①先制作频率分布表,然后作直角坐标系.
②把横轴分成若干段,每一线段对应一个组的组距,然后以此线段为底作一矩形,它的高等于该组的,这样得出一系列的矩形.
③每个矩形的面积恰好是该组的频率,这些矩形就构成了频率分布直方图.
(2)频率分布直方图的特征
①直方图中各小长方形的面积之和为1.
②直方图中纵轴表示,故每组样本的频率为组距×,即矩形的面积.
③直方图中每组样本的频数为频率×总体数.
6.茎叶图
茎相同者共用一个茎(如两位数中的十位数),茎按从小到大的顺序从上向下列出,共茎的叶(如两位数中的个位数),一般按从小到大(或从大到小)的顺序同行列出.这样将样本数据有条理地列出来的图形叫做茎叶图.其优点是当样本数据较少时,茎叶图可以保留样本数据的所有信息,直观反映出数据的水平状况、稳定程度,且便于记录和表示;缺点是对差异不大的两组数据不易分析,且样本数据很多时效果不好.
茎叶图的画法步骤
第一步:
将每个数据分为茎(高位)和叶(低位)两部分;
第二步:
将最小茎与最大茎之间的数按大小次序排成一列;
第三步:
将各个数据的叶依次写在其茎的两侧.
7.样本的数字特征:
众数、中位数、平均数、方差、标准差
(1)众数:
一组数据中出现次数最多的那个数据,叫做这组数据的众数.
(2)中位数:
把n个数据按大小顺序排列,处于最中间位置的一个数据叫做这组数据的中位数.
在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.
(3)平均数:
样本数据的算术平均数,即=(x1+x2+…+xn).
(4)标准差与方差:
设一组数据x1,x2,x3,…,xn的平均数为x,则这组数据的标准差和方差分别是
s=,
s2=[(x1-)2+(x2-)2+…+(xn-)2]
标准差是反映总体波动大小的特征数,样本方差是标准差的平方.通常用样本方差估计总体方差,当样本容量接近总体容量时,样本方差很接近总体方差.
(5)标准差和方差的一些结论
若取值x1,x2,…,xn的频率分别为p1,p2,…,pn,则其平均值为x1p1+x2p2+…+xnpn;若x1,x2,…,xn的平均数为,方差为s2,则ax1+b,ax2+b,…,axn+b的平均数为a+b,方差为a2s2.
[玩转典例]
题型一随机抽样
例1 (高考江西卷)总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )
7816 6572 0802 6314 0702 4369 9728 0198
3204 9234 4935 8200 3623 4869 6938 7481
A.08 B.07C.02D.01
例2 为了检查某超市货架上的奶粉是否含有三聚氰胺,要从编号依次为1到50的袋装奶粉中抽取5袋进行检验,用系统抽样方法确定所选取的5袋奶粉的编号可能是________.(填序号)
15,10,15,20,25;②2,4,8,16,32;③1,2,3,4,5;④7,17,27,37,47.
例3 某高级中学共有学生3000名,各年级男、女生人数如下表:
高一年级
高二年级
高三年级
女生
523
x
y
男生
487
490
z
已知在全校学生中随机抽取1名,抽到高二年级女生的概率是0.17.若现需对各年级用分层抽样的方法在全校抽取300名学生,则应在高三年级抽取的学生人数为________.
[玩转跟踪]
1.(广东,6)为了解1000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( )
A.50B.40C.25D.20
2.从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射实验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是( )
A.5,10,15,20,25 B.3,13,23,33,43C.1,2,3,4,5 D.2,4,6,16,32
3.(2017·江苏)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件,为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.
4.(四川)某学校为了了解三年级、六年级、九年级这三个年级之间的学生视力是否存在显著差异,拟从这三个年级中按人数比例抽取部分学生进行调查,则最合理的抽样方法是( )
A.抽签法B.系统抽样法C.分层抽样法D.随机数法
题型二频率分布直方图
例4(山东,8)为了研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:
kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,…,第五组,如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( )
A.6 B.8C.12D.18
例5在如图所示的茎叶图中,甲、乙两组数据的中位数分别是________,________.
例6(2017·全国Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:
万人)的数据,绘制了下面的折线图.
根据该折线图,下列结论错误的是( )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
[玩转跟踪]
1.(山东)某高校调查了200名学生每周的自习时间(单位:
小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )
A.56B.60C.120D.140
2.(重庆)重庆市2013年各月的平均气温(℃)数据的茎叶图如下:
则这组数据的中位数是( )
A.19B.20C.21.5D.23
3.某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15℃,B点表示四月的平均最低气温约为5℃.下面叙述不正确的是( )
A.各月的平均最低气温都在0℃以上
B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同
D.平均最高气温高于20℃的月份有5个
题型三用样本的数字特征估计总体的数字特征
例7某公司10位员工的月工资(单位:
元)为x1,x2,…,x10,其均值和方差分别为和s2,若从下月起每位员工的月工资增加100元,则这10位员工下月工资的均值和方差分别为( )
A.,s2+1002B.+100,s2+1002C.,s2D.+100,s2
[玩转跟踪]
1.如图所示的茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:
分),已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为( )
A.2,5B.5,5C.5,8D.8,8
2.(安徽)若样本数据x1,x2,…,x10的标准差为8,则数据2x1-1,2x2-1,…,2x10-1的标准差为( )
A.8B.15C.16D.32
3.对某商店一个月内每天的顾客人数进行了统计,得到样本的茎叶图(如图所示),则该样本的中位数、众数、极差分别是( )
1 2 5
20 2 3 3
31 2 4 4 8 9
45 5 5 7 7 8 8 9
50 0 1 1 4 7 9
61 7 8
A.46,45,56 B.46,45,53C.47,45,56D.45,47,53
题型四综合应用
例8(新课标全国Ⅰ,18)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:
质量指标值分组
[75,85)
[85,95)
[95,105)
[105,115)
[115,125)
频数
6
26
38
22
8
(1)在下表中作出这些数据的频率分布直方图:
(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);
(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?
[玩转跟踪]
1.(2015·广东,17)某城市100户居民的月平均用电量(单位:
度),以[160,180),[180,200),
[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.
(1)求直方图中x的值;
(2)求月平均用电量的众数和中位数;
(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?
[玩转练习]
1(2019全国II理5)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是
A.中位数B.平均数
C.方差D.极差
2(2019全国II理13)我国高铁发展迅速,技术先进.