北师大 数学必修3统计同步讲义 第32节 分层抽样与系统抽样.docx
《北师大 数学必修3统计同步讲义 第32节 分层抽样与系统抽样.docx》由会员分享,可在线阅读,更多相关《北师大 数学必修3统计同步讲义 第32节 分层抽样与系统抽样.docx(19页珍藏版)》请在冰豆网上搜索。
北师大数学必修3统计同步讲义第32节分层抽样与系统抽样
3.2分层抽样与系统抽样
2003年高血压防治指南中,对正常血压和正常高值血压人群
进行危险因素的分层,并分出了高危和极高危,欧洲指南对危险因素的
分层,得到了国际高血压协会(ISH)认可,也代表了国际高血压防
治组织的意见.请问上述分层的意义是什么?
如图所示的是急性心肌梗死发病的24小时周期节律统计图表,这个
表能反映所有的心肌病变病人的规律吗?
这个抽样合理吗?
在随机抽样中,
面对庞大的总体,我们的抽签法和随机数表法还能继续发挥它的功效吗?
还有什么抽样方法可以更为科学地进行调查取样呢?
❶研习教材重难点
研习点1:
分层抽样
1.分层抽样的概念
有很多抽样问题,其总体的差异较为明显,如若仍用简单随机抽样,则抽到的样本数据很可能不能真实地反映情况(如例1),误差很大,为了避免这种情况,可以采用分层抽样的方法.
将总体按其属性特征分成若干类型(有时称作层),然后在每个类型中随机抽取一定的样本,这种抽样方法通常叫做分层抽样,有时也称为类型抽样.
【联想·质疑】什么样的抽样类型适用于分层抽样?
以例2为例,显然不同类型的农田之间的产量有较大差异,也就是说,总体由差异明显的几部分组成,采用分层抽样的方法,对不同类型的农田按其总数的比例来抽取.假设本例中共有农田500亩,山地、丘陵、平原和洼地各占农田总数的10%、20%、40%和30%,欲抽取50亩进行产量调查,则应抽取5亩山地、10亩丘陵、20亩平原和15亩洼地.
2.分层抽样的步骤
分层抽样的步骤:
①先求出样本容量与总体的个数的比值;即不同层次所选取的样本数=抽取样本总数×该层所占总体的比例.如1000名员工中抽取100名员工时,其抽取比例应当为10%.
②按比例分配各层所要抽取的个体数.但应注意有时计算出的个体数可能是一个近似数,这并不影响样本的容量.
③当各层抽取的个体数确定后,每层中的样本抽取仍然用随机抽样法取样,此时可以用抽签法或随机数表法来抽样.
【知识·链接】分层抽样是公平的
分层抽样是将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分中抽取一个个体,得到所需要的样本的抽样方法,在分层抽样的过程中每个个体被抽到的可能性是相同的,与层数及分层无关.
如果总体的个数是
为样本容量,
是第
层中的个体数,则第
层中所要抽取的个体数为
,而每一个个体被抽取的可能性是
,与层数无关,所以对所有个体而言,其入样的可能性是相同的.
也就是说,分层抽样是公平的.
典例1:
分层抽样又称类型抽样,即将相似的个体归入一类(层),然后每层抽取若干个体构成样本,所以分层抽样为保证每个个体等可能入样,必须进行()
A、每层等可能抽样
B、每层不等可能抽样
C、所有层按同一抽样比等可能抽样
[研析]显然答案应当在AB中选择一个,分层抽样时每一个个体被抽入样是等可能的,故应选A.
典例2:
一个地区共有5个乡镇,人口3万人,其中人口比例为3:
2:
5:
2:
3,从3万人中抽取一个300人的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法?
并写出具体过程
[研析]由于这种疾病与不同的地理位置及水土有关,决定采用分层抽样的方法进行抽取.因为样本容量与总体个数的比为300∶30000=1∶100,5个乡镇按人口比3:
2:
5:
2:
3的人数分别为6000人、4000人、10000人、4000人、6000人,所以在各镇按1:
100抽取的各层人数分别为60人、40人、100人、40人、60人,各个镇进行单独抽取时,可采用简单随机抽样,将各镇抽取的个体合在一起,就是所要抽取的样本.
研习点2:
系统抽样
1.系统抽样的概念
当总体个体数太大,又无明显的层次差异时,不能采用简单随机抽样和分层抽样.如教材中的例4,可以采用系统抽样的方法:
将总体的个体进行编号,按照简单随机抽样抽取第一个样本,然后按照相同的间隔(称为抽样距)抽取其他样本,这种抽样方法有时也叫等距抽样或机械抽样.
【思考·提示】系统抽样中什么叫做抽样距?
系统抽样是将总体的个体按一定的规则进行编号,按照简单随机抽样抽取第一个样本,然后按相同的间隔进行抽样,这里相同的间隔就是抽样距.
抽样距不是随意决这的,而是由总体数与样本书所确定的,一般来说,抽样距应于总体数与样本数的商.
如为了了解参加某种知识竞赛的1000名学生的成绩,打算从中抽一个容量为50的样本.假定这1000名学生的编号是1,2,…,1000,由于50∶1000=1∶20,将总体分成50个部分,其中每一部分包括20个个体,例如第一部分的编号是1,2,3,…,20,然后在第一部分随机抽取一个号码,比如它是18号,那么可以从第18号起,每隔20个抽取一个号码,它们的号码分别是:
18,38,58,…,978,998.这里面的20即是抽样距(1000∶50=20).
2.系统抽样的步骤
系统抽样的一般步骤如下:
第一步,确定分段情况,所抽取样本数就是需要分的段数,如教材例4中的分段数应为50;确定抽样距,抽样距=总体个体数/抽取样本数=10000/50=200;教材例5,出现了与例4的不同的问题,总体个体数不能被样本总数整除,这时可把商作为抽样距,余数得通过简单随机抽样从总体中剔除,对剩余进行编号,其余完全同例4.
第二步,按顺序进行编号;在利用系统抽样进行抽样时,要注意总体的排列有没有明显的周期性,这时抽样距的选取要恰当,要打乱周期性;如果总体事先排好序,要先打乱顺序,再抽样,以达到抽取的样本具有广泛的代表性.
第三步,采用简单随机抽样从第一个时间段抽取第一个样本;在确定第一个样本编号时,一定要采用简单随机抽样,并且一定要在第一段内抽取,否则无法保证等距抽样.
第四步,等距抽样,顺序抽取相应编号的样本.
说明:
当总体中的个体数不能被样本容量整除时,可先用简单随机抽样从总体中剔除几个个体,使剩下的个体数能被样本容量整除,然后再按系统抽样进行。
这时在整个抽样过程中每个个体被抽取的可能性仍然相等。
试举一例说明:
以从个体数为1003的总体中抽取一个容量为50的样本为例,从总体中剔除3个个体时,其中每个个体不被剔除的可能性是
,对剩下的1000个个体采用系统抽样时,每个个体被抽取的可能性是是
。
因此,在整个抽样过程中,每个个体被抽取的可能性还应当是:
即每个个体被抽入样的可能性仍是相同的.
思考与交流(P20)在抽样时,如果总体的排列存在明显的周期性或者事先是排好序的,那么利用系统抽样进行抽样时将会产生明显的偏差,因为这样抽取的样本不具有代表性.
第一个问题中,抽取的样本不具备代表性,身体偏高;
第二个问题中,采取这样的抽样方法,只对周一的交通流量进行了统计,无法代表一个月的状况,只要改变抽样距,如抽样距改为6,就可以了.
3.系统抽样的公平性
在系统抽样中,如果总体中的个体数正好能被样本容量整除,则可用它们的比值作为进行系统抽样的间隔.如果不能被整除,则可用简单随机抽样的方法从总体中剔除若干个个体,其个数为总体中的个体数除以样本容量所得的余数.然后再编号、分段、确定第1段的起始号,继而确定整个样本.
在上述过程中,因为总体中的每个个体被剔除的可能性相等,也就是每个个体不被剔除的可能性相等,所以在整个抽样过程中每个个体被抽取的可能性仍然相等.
典例3.从N个编号中要抽取n个号码入样,若采用系统抽样方法抽取,则分段间隔应为
A.
B.nC.[
]D.[
]+1(提示:
[x]为不大于x的最大整数)
[研析]当
不是整数时,通过从总体中随机剔除一些个体使剩余个体数N′能被n整除,这时k=
,故应选C.
研习点3:
三种抽样方法的比较
[辨析·比较]三种抽样方法的比较
类别
共同点
各自特点
相互联系
适用范围
简单随机抽样
抽样过程中每个个体被抽取的概率相等
从总体中逐个抽取
总体中的个体数较少
分层抽样
将总体分成几层,分层进行抽取
各层抽样时,采用简单随机抽样
总体由差异明显的几部分组成
系统抽样
按简单随机抽样抽取第一个样本,然后按相同的间隔抽取其他样本
抽取第一个样本时,采用简单随机抽样
总体中的个体数较多
典例4:
下列说法正确的个数是
①总体的个体数不多时宜用简单随机抽样法
②在总体均分后的每一部分进行抽样时,采用的是简单随机抽样
③百货商场的抓奖活动是抽签法
④整个抽样过程中,每个个体被抽取的机率相等(有剔除时例外)
A.1B.2C.3D.4
[研析]总体的个体数不多时宜用简单随机抽样法;在总体均分后的每一部分进行抽样时,采用的是简单随机抽样;商场的抓奖活动,由于其特定的环境固用的是抽签法,因而①②③正确.
系统抽样无论有无剔除都是等机率抽样,因而④不正确.故应选C.
探究解题新思路
▲基础思维探究
题型1分层抽样
典例1:
对某单位1000名职工进行某项专门调查,调查的项目与职工任职年限有关,人事部门提供了如下资料:
任职年限
5年以下
5年至10年
10年以上
人数
300
500
200
为了了解不同工作年限职工的对单位的具体想法和意见,以便决定如何对单位提出整改意见,打算从中抽选100人开职工代表大会,为使样本更具有代表性,每类中各应抽选出多少份?
[研析]首先确定抽取比例,然后再根据各层份数确定各层要抽取的份数.
∵
=
,∴
=30,
=50,
=20,.
故三个层次的职工应分别抽取30、50、20人开职工代表大会.
误点警示分层抽样方法的特点是按比例抽样.在计算每层数据比值时,由于数据过多,常会出现一些“比错位”现象,导致各层次之间的份数算错,在求得各层应抽样本容量后,应当将其求和,检验一下与总共所需抽样的容易是否相符.
【拓展·变式】
1.某单位有老年人28人,中年人54人,青年人81人,为了调查他们的身体情况,需从他们中抽取一个容量为36的样本,则适合的抽取方法是()
A.简单随机抽样B.系统抽样C.分层抽样D.先从老人中剔除1人,然后再分层抽样
题型2系统抽样
典例2:
某电子机械厂每天大约生产1000台DVD,要求质检员每天抽取30台,检查其质量状况.假设一天的生产时间中生产DVD的台数是均匀的,请你设计一个调查方案.
[研析]由于总体数较大,一般不宜采取简单随机抽样;其又无明显层次差异,也不宜采取分层抽样,故采用系统抽样.可按下面的步骤设计方案.
第一步,把一天生产的DVD分成30个组,由于
的商是33,余数是10,所以每个组有33台DVD,还剩10台,这时,抽样距为33;
第二步,先用简单随机抽样的方法从总体中抽取10台DVD,不进行检验;
第三步,将剩下的DVD进行编号,编号分别为0,1,2,…,989;
第四步,从第一组(编号为0,1,2,3,…,32)的DVD中按照简单随机抽样的方法,抽取1台DVD,比如说其编号为k;
第五步,顺序地抽取编号分别为下面数字的DVD:
k+33,k+66,k+99,…,k+29×33,这样总共抽取了30个样本,对这30个样本进行检验..
【拓展·变式】
2.有10003个有机会中奖的号码,有关部门按照随机抽取的方式确定后两位数字为13的号码为中奖号码,这是运用哪种抽样方法来确定中奖号码的?
这样的中奖号码有多少个?
依次写出这些中奖号码.
▲综合思维探究
题型1学科内综合题
典例3.某网站欲调查网民对当前网页的满意程度,在登录的所有网民中,收回有效帖子共50000份,其中持各种态度的份数如下表所示.
很满意
满意
一般
不满意
10800
12400
15600
11200
为了了解网民的具体想法和意见,以便决定如何更改才能使网页更完美,打算从中抽选500份,为使样本更具有代表性,每类中各应抽选出多少份?
[研析]首先确定抽取比例,然后再根据各层份数确定各层要抽取的份数.
∵
=
,∴
=108,
=124,
=156,
=112.
故四种态度应分别抽取108、124、156、112份进行调查.
积累活用分层抽样适用于总体由差异明显的几部分组成的情况.分层抽样时,分层所抽取的个体数等于该层个体总数与抽样比的乘积,抽样比=
对于多余的总体数据可以先用简单随机抽样的方法去除掉.
【拓展·变式】
3.体育老师要调查高一全体学生的平均身高,问应采取什么方法会又省力又合理,应注意什么问题?
题型3实际应用题
典例4.为了了解全校学生的身高情况,小明、小华、小宸三个同学分别设计了三个方案:
小明测量出全班每个同学身高,以推算出全校学生的身高.
小华在校医室里发现了2004年全校各班的体检表,从中摘取了全校的身高情况.
小宸在全校每个年级的二班中,抽取了学号为5的倍数的10名学生,记录他们的身高情况.
这三种做法哪一个比较好,为什么?
[研析]小宸的方案比较好,因为小明的方案只代表这个年级学生的身高情况,不代表其他年级的身高情况,小华的方案调查的是2年前学生的身高情况,用以说明目前的情况误差比较大,小宸的方案从全校中系统地抽取了各年级的学生,随机地抽取部分学生,这样的调查有代表性.
知识归纳常用抽样方法有简单随机抽样、分层抽样、系统抽样.1.简单随机抽样:
简便易行,一般适用于总体的个体数较少的情况.2.分层抽样:
主要适用于总体由明显差异的几部分组成的情形.3.系统抽样:
主要适用于总体无明显差异的几部分组成并且总体中的个体数较多的情况.
【拓展·变式】
4.在抽样过程中,每次抽取的个体不再放回总体的为不放回抽样,那么分层抽样、系统抽样、简单随机抽样三种抽样中,为不放回抽样的有( )
A.0个B.1个C.2个D.3个
题型4阅读理解题
典例5.下列抽样中不是系统抽样的是
A.从标有1~15号的15个球中,任选三个作样本,按从小号到大号排序,随机选起点
,以后选
(超过15则从1再数起)号入样
B.工厂生产的产品,用传送带将产品送入包装车间前,检验人员从传送带上每隔五分钟抽一件产品进行检验
C.搞某一市场调查,规定在商场门口随机抽一个人进行询问调查,直到调查到事先规定的调查人数为止
D.在报告厅对与会听众进行调查,通知每排(每排人数相等)座位号为14的观众留下来座谈
【研析】C不是系统抽样,因事先不知道总体,抽样方法不能保证每个个体按事先规定的等可能性入样.答案是C.
方法探究
体会系统抽样的概念,其中关键因素是“分组”,否则不是系统抽样!
系统抽样适用于总体中的个体数较多时,因为这时应用简单随机抽样显得不方便
【拓展·变式】
5.人们打牌时,在洗好的扑克牌(52张)中,随机确定一张为起始牌,这时,开始按次序起牌,对任何一家来说,都是从52张总体中抽取一个13张的样本,问这种抽样方法是否为简单随机抽样?
.
▲创新思维探究
题型1开放探究题
典例6.某学校有职工140人,其中教师91人,教辅行政人员28人,总务后勤人员21人.为了解职工的某种情况,要从中抽取一个容量为20的样本.以下的抽样方法中,依随机抽样、系统抽样、分层抽样顺序的是
方法1:
将140人从1~140编号,然后制作出有编号1~140的140个形状、大小相同的号签,并将号签放入同一箱子里进行均匀搅拌,然后从中抽取20个号签,编号与签号相同的20个人被选出.
方法2:
将140人分成20组,每组7人,并将每组7人按1~7编号,在第一组采用抽签法抽出k号(1≤k≤7),则其余各组k号也被抽到,20个人被选出.
方法3:
按20∶140=1∶7的比例,从教师中抽取13人,从教辅行政人员中抽取4人,从总务后勤人员中抽取3人,从各类人员中抽取所需人员时,均采用随机数表法,可抽到20个人.
A.方法2,方法1,方法3B.方法2,方法3,方法1
C.方法1,方法2,方法3D.方法3,方法1,方法2
[研析]根据随机抽样、系统抽样、分层抽样各自的特征及其适用条件可以得答案C.
误点警示本题中常犯的错误不在于抽样方法的选择,由于各种抽样方法的特点及说明中有明确的提出,故一般不会出现抽样判定错误,但选择支与抽样方法的一一对应的对号入座问题上容易出错,应当小心谨慎.
【拓展·变式】
6.问题:
①有1000个乒乓球分别装在3个箱子内,其中红色箱子内有500个,蓝色箱子内有200个,黄色箱子内有300个,现从中抽取一个容量为100的样本;
②从20名学生中选出3名参加座谈会.
方法:
Ⅰ.随机抽样法Ⅱ.系统抽样法Ⅲ.分层抽样法.其中问题与方法能配对的是
A.①Ⅰ,②ⅡB.①Ⅲ,②ⅠC.①Ⅱ,②ⅢD.①Ⅲ,②Ⅱ
题型2课标创新题
典例7.十运会圆满结束了,为了解这次运动会在一所高校师生员工中产生的影响,分别在全校500名教职员工、3000名大二学生、4000名大一新生中作问卷调查,如果要在所有答卷中抽出120份用于评估.
(1)应如何抽取才能得到比较客观的评价结论?
(2)要从3000份大二学生的答卷中抽取一个容量为48的样本,如果采用简单的随机抽样,应如何操作?
(3)为了从4000份大一新生的答卷中抽取一个容量为64的样本,如何使用系统抽样抽取到所需的样本?
[研析]
(1)应当采取分层抽样的方法进行抽样.因为样本容量=120,总体个数=7500,由:
120∶7500=2∶125,可知应取
500×
=8,3000×
=48,4000×
=64,
所以在教职员工、大二学生、大一新生中抽取的个体数分别是8、48、64.然后采用简单随机抽样的方式在教职员工的500份答卷中抽取8份,在初中生3000份答卷中抽取48份,在高中生4000份答卷中抽取64份,得到容量为120的样本,这样便完成了整个抽样过程,就能得到比较客观的评价结论.
(2)由于简单的随机抽样有两种方法,为了保证操作过程中个体的抽取是等概率的,可选择使用抽签法或随机数表法.
方法一:
将3000份答卷都编上号码:
0001,0002,0003,…,3000,然后做3000个形状、大小相同的号签,如用小球、卡片、纸条都可制作,然后将这些号签放在同一个袋子里均匀搅拌,每次从中抽出一个号签,连续抽取48次,就可得到一个容量为48的样本.
方法二:
将3000份答卷都编上号码:
0001,0002,0003,…,3000,然后在随机数表上随机选取一个起始位置,向右连续取数字,以4个数为一组,碰到右边线时接下一行左边线继续向右连续取数,如从第3行第8列开始取,所得数字如下:
7665,6502,6710,7329,0797,8531,3553,8585,9889,7541,4101,2568,5992,6969,6682,7310,5037,2931,5571,2101,4218,8264,9817,….
所取录的4位数如果小于或等于3000,则对应此号的答卷就是被抽取的个体;如果所取的4位数大于3000而小于或等于6000,则将其减去3000所得差数就是被抽取的号码;如果所取之数大于6000而小于或等于9000,则减去6000后便为所取的号码,依次类推.如果遇到相同号码则只取一个而其余舍去,经过这样的过程得到所取号码分别为1665,0502,0710,1329,0797,2531,0553,2585,0889,1541,1101,2568,2992,0969,0682,1310,2037,2931,2571,2101,1218,2264,0817,0555,0563,2643,2548,2462,2316,…,一直到取满48个号码为止.
(3)由于4000÷64=62.5不是整数,则应先使用简单随机抽样法从4000个个体组成的整体中剔除32个个体,再将剩余的3968个个体进行编号:
1,2,…,3698,然后将整体分为64个部分,其中每个部分中含有62个个体,如第1部分个体的编号为1,2,…,62.从中随机抽取一个号码,如若抽取的是23,则从第23号开始,每隔62个抽取一个,这样得到容量为64的样本:
23,85,147,209,271,333,395,457,…,3929.
辨析比较当总体是由差异明显的几个部分组成时,一般用分层抽样抽取样本,这样能使得到的结论比较客观,分层时要注意用比例问题解题,用系统抽样,当总体容量÷样本容量不是整除时,要先从总体中剔除一部分个体..
【拓展·变式】
7..北京故宫博物院某天接待游客10000人,如果要从这些游客中随机选出10名幸运游客,请用选用一种合适的抽样的方法给出幸运游客的编号.
题型3奇思妙解题
典例8.某批零件共160个,其中一级品有48个,二级品64个,三级品32个,等外品16个.从中抽取一个容量为20的样本.请说明分别用简单随机抽样、系统抽样、分层抽样法抽取时总体中的每个个体被取到的概率相同.
【研析】
(1)简单随机抽样法:
可采用抽签法,将160个零件按1~160编号,相应地制做1~160号的160个签,从中随机抽20个.显然每个个体被抽到的概率为
.
(2)系统抽样法:
将160个零件按1~160编号,按编号顺序分成20组,每组8个.先在第一组用抽签法抽得
号
,则在其余组中分别抽得第
号,此时每个个体被抽到的概率为
.
(3)分层抽样法:
按比例
,分别在一级品,二级品,三级品,等外品,是抽取
个,
个,
个,
个.每个个体被抽到的概率分别为
,
,
,
,即都是
.
综上所述,无论采取哪种抽样,总体和每个个体被抽到的概率都是
.
辨析比较
采用随机抽样法对总体量少进行抽样时简单易操作;采用系统抽样法,是为了减少工作量,提高其可操作性,减少人为的导向和误差;采用分层抽样法,可以使层次分明的总体,取得的样本更为科学合理.
【拓展·变式】
8.人们打桥牌时,将洗好的扑克牌(52张)随机确定一张为起始牌,这时,开始按次序搬牌,对任何一家来说,都是从52张总体抽取一个13张的样本.问这种抽样方法是()
A.系统抽样B.分层抽样
C.简单随机抽样D.非以上三种抽样方法
▲高考思维探究
典例9.(05·湖北)某初级中学有学生270人,其中一年级108人,二、三年级各81人,现要利用抽样方法抽取10人参加某项调查,考虑选用简单随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按一、二、三年级依次统一编号为1,2,…,270;使用系统抽样时,将学生统一随机编号为1,2,…,270,并将整个编号依次分为10段,如果抽得号码有下列四种情况:
①7,34,61,88,115,142,169,223,250;
②5,9,100,107,111,121,180,195,200,265;
③11,38,65,92,119,146,173,200,227,254;
④30,57,84,111,138,165,192,219,246,270.
关于上述样本的下列结论中,正确的是
A.②、③都不能为系统抽样B.②、④都不能为分层抽样
C.①、④都可能为系统抽样D.①、③都可能为分层抽样
【研析】④30,57,84,111,138,165,192,219,246,270.是等距离的抽样系统抽样.
①7,34,61,88,115,142,169,223,250;③11,38,65,92,119,146,173,200,227,254;这两组数据是按分层抽样的顺序进行的抽样.
②5,9,100,107,111,121,180,195,200,265