简单随机抽样97347143.pptx
《简单随机抽样97347143.pptx》由会员分享,可在线阅读,更多相关《简单随机抽样97347143.pptx(67页珍藏版)》请在冰豆网上搜索。
第三章简单随机抽样,1,本章要点,简单随机抽样是抽样中最基本、最成熟、也是最简单的抽样设计方式,是所有概率抽样方法发展、比较的基础。
要求通过学习熟练掌握简单随机抽样的抽样方式和样本抽选方法;熟知总体均值、总体总值和总体比例的简单估计;掌握样本量的确定;了解子总体的估计。
2,第一节抽样方式,3,简单随机抽样也称纯随机抽样。
对于大小为的总体,抽取样本量为的样本,若全部可能的样本被抽中的概率都相等,则称这样的抽样为简单随机抽样。
根据抽样单位是否放回可分为放回简单随机抽样和不放回简单随机抽样。
(一)放回简单随机抽样,
(二)不放回简单随机抽样,(三)不放回与放回简单随机抽样的比较,一、什么是简单随机抽样,4,
(一)放回简单随机抽样,如果抽样是有放回的,那么每次抽取都都是从个总体单位中抽取,这时可能的样本为个(考虑样本单位的顺序)或个(不考虑样本单位的顺序),每个样本被抽中的概率为或,这种抽样方式就是放回简单随机抽样,所得的样本称为放回的简单随机样本。
考虑与不考虑样本单位顺序的放回简单随机抽样,有一个共同的特点,即同一个单位有可能在同一个样本中重复出现。
但是他们也有明显的区别:
一是可能的样本数不同;二是样本的概率分布不同,由此会导致估计量的概率分布不同。
5,可以证明,不考虑顺序的放回简单随机抽样的估计量的方差大于等于考虑顺序的放回简单随机抽样的估计量的方差,因此在抽样实践中,若用到放回简单随机抽样这种方式,也只讨论和使用考虑顺序的情形。
6,
(二)不放回简单随机抽样,如果抽样是无放回的,即同一个单位不能在样本中重复出现,那么,若考虑样本单位的顺序,则可能的样本为个,每个样本被抽中的概率为;若不考虑样本单位的顺序,则可能的样本为个,每个样本被抽中的概率为。
这样的抽样方式就是不放回简单随机抽样,所得的样本称为不放回简单随机样本。
7,考虑样本单位顺序与不考虑样本单位顺序的不放回简单随机抽样,除了单位不可能在同一个样本中重复出现这一共同特点外,还有一个共同点,即虽然他们的可能样本数不同,考虑顺序是不考虑顺序的倍,但是它们的样本却有相同的概率分布。
由此会导致依据样本构造的估计量的概率分布也是相同的。
由于这一共同点的存在,加之不考虑顺序的放回简单随机抽样的工作量更小,所以抽样实践中对于不放回简单随机抽样,只讨论和使用不考虑顺序不放回简单随机抽样这种方式。
8,(三)不放回与放回简单随机抽样的比较,1、每次抽取样本单位面对的总体结构不同。
这是二者的主要不同之处。
这一点使得前者的数学处理相对简单。
2、样本提供的信息量不同。
显然,在样本量一定的条件下,由于后者提供的信息量大于前者,其抽样效率更高。
在实践中,一般多采用不考虑顺序的不放回简单随机抽样,所以以下讨论如无特别说明,都指这一类简单随机抽样。
9,二、简单随机样本的抽选方法,简单随机样本的抽选,首先要将总体个单位从1到编号,每个单位对应一个号;然后从所编的号中抽号,如果抽到某个号,则对应的那个单位入样,直到抽够个单位为止。
(一)抽签法
(二)随机数法,10,
(一)抽签法,当总体不大时,可分别采用两种方法抽取。
一种是全样本抽选法,另一种是逐个抽选法,按这两种方法抽到的个单位的样本是等价的,每个被抽到的样本的概率都等于。
11,
(二)随机数法,当总体较大时,抽签法实施起来比较困难,这时可以利用随机数表、随机数骰子、摇奖机、计算机产生的伪随机数进行抽样。
1、利用随机数表进行抽选。
随机数表是一张由0,1,2,9这十个数字组成的,一般常用的是五位数的随机数字表,10个数字在表中出现的顺序是随机的,每个数字都有同样的机会被抽中。
12,用随机数表抽选简单随机样本时,一般可根据总体大小的位数决定在随机数表中随机抽取几列,比如=768,要从中抽取=10的简单随机样本,则在随机数表中随机抽取相邻的3列,顺序往下(或往上),选出前10个001到768之间的互不相同的数,如果这3列随机数字不够,可另选其他3列继续,直到抽够个单位为止。
13,用此种方法,当的最高位数较小,比如小于5,且不小时,由于读到的随机数被舍弃不用的比例较大,抽选效率较差。
此时采用下面的方法。
在随机数表中随机抽取3列,顺序往下,如果得到的随机数大于247,小于989(因为247的4倍为988,因此000及989到999的数字应舍弃),则用这个数除以247,得到的余数入样,显然这种方法效率要高得多。
随机数表的起始页和起始点都应用随机数产生。
14,3、利用摇奖机进行抽选。
4、利用计算机产生的伪随机数进行抽选。
通常产生的伪随机数有循环周期。
因此在有条件的情况下,一般不建议使用此种方法。
2、利用随机数骰子进行抽选。
15,
(一)简单随机抽样在抽样理论中的地位它是抽样中最容易掌握的技术、也是发展最成熟的技术,建立了最完备的理论。
简单随机抽样也是比较其他抽样设计方法优劣的基础。
其他抽样方法技术都是在它的理论技术基础上,针对它的局限发展起来的。
三、简单随机抽样在抽样理论中的地位与局限性,16,若总体单位数很大时,编制抽样框困难;抽样框中即使有辅助信息也不加利用,使得估计的统计效率较其他利用辅助信息的抽样设计方法低;由于样本在总体中的地理分布范围较广,如果采取面访,则费时、费钱、费力,困难较大;可能得到一个“差”的简单随机样本;若不用计算机,而用随机数表或随机数骰子抽取一个大样本,比较劳神单调。
(二)简单随机抽样的局限性,17,四、有关指标与符号,18,第二节总体均值与总体总值的简单估计,19,
(一)简单估计量的定义,(三)简单估计量的方差,(四)简单估计量的方差的无偏估计,
(二)简单估计量的无偏性,(五)放回简单随机抽样的简单估计,(六)设计效应,(七)影响估计量精度的因素,一、总体均值的简单估计,20,
(一)简单估计量的定义,对于简单随机抽样,最简单的估计是利用样本均值作为总体均值的估计,即总体均值的简单估计量为:
也就是说,样本均值是总体均值的简单估计量。
21,
(二)简单估计量的无偏性,对于简单随机抽样,是的无偏估计,即有,证明:
这就是对称性论证法。
由于总体中每一个单位的入样概率都相等,所以不放回简单随机抽样是一种等概率抽样。
22,(三)简单估计量的方差,式中,抽样比;为有限总体校正系数。
证明:
根据对称性论证法,有,23,因此有,24,(四)简单估计量的方差的无偏估计,的无偏估计是:
式中为样本方差。
证明:
25,根据对称性论证法及的表达式,有,由此可得:
26,(五)放回简单随机抽样的简单估计,现实中有许多情况下,抽样必须是放回的,即从总体中抽中的单位每次都要放回总体中去。
例如在城市中对行人、车辆的调查,对超市顾客、影剧院观众的调查等抽样都是有放回的,从而,有可能重复抽中某些单位。
对于每次抽到的结果(视为随机变量)都有,27,由此可以证明:
注意到,28,因此样本方差,是无限总体方差的无偏估计量。
方差的一个无偏估计是:
考虑样本单位顺序的放回简单随机抽样也是等概率抽样。
29,这说明除非=1,否则在相同的样本量下,放回简单随机抽样的方差总是大于不放回的方差,即它的抽样效率一般比不放回简单随机抽样的低。
根据抽样设计效应定义:
放回简单随机抽样的为:
30,【例3-3】为调查某大学学生的电信消费水平,在全校=15230名学生中,用简单随机抽样的方法抽得一个=36的样本。
对每个抽中的学生调查其上个月的电信支出金额(如表3-6所示)。
试以95%的置信度估计该校大学生该月电信消费的平均支出额。
31,,。
因此,对该校大学生某月的电信消费的人均支出额的估计为53.64(元),由于置信度95%对应的=1.96,所以,可以以95%的把握说该校大学生该月的电信消费的人均支出额大约在53.641.966.1355,即41.6165.67元之间。
若采取放回简单随机抽样,则:
,以95%的把握估计该校大学生该月的电信消费的人均支出额大约在53.641.966.1428,即41.6065.68元之间。
计算结果说明,不放回比放回简单随机抽样估计的置信区间略小一些。
由于总体较大而抽样比较小,所以两者之间相差很小。
解:
依据题意和表中数据,可计算得:
32,总体总值为总体均值的倍,即,
(一)简单估计量的定义N倍的样本均值是总体总值的简单估计量,即,二、总体总值的简单估计,只要我们有了总体均值的估计结果,就可以很容易地推出总体总值的估计结果。
33,由于总体总值是总体均值的N倍,其简单估计量也是总体均值估计量的N倍,而N是固定常数,所以总体总值的简单估计量的性质由总体均值的简单估计量的性质来决定。
容易证明,的无偏估计为,
(二)简单估计量的性质,34,【例3.4】试以95%的置信度估计例3.3中该校大学生该月电信消费的总支出额。
解:
依题意,N=15230,根据例3.3计算的结果,可估计该校大学生该月电信消费的总支出额为(元)。
在不放回简单随机抽样下,=1523037.6444=1523037.6444=8731727749(元),(元),以95%的把握估计该校大学生该月电信消费的总支出额为:
816937.21.9693443.71元即在633787.531000086.87元之间。
若为放回简单随机抽样,则可得:
1523037.7336=8752417947(元),(元),以95%的把握估计该校大学生该月电信消费的总支出额为816937.21.9693554.36元,即在633570.651000303.75元之间。
35,第三节总体比例的简单估计,36,规定,设总体中有个单位,具有某种属性的单位数为;不具有该种属性的单位数为。
具有某种属性的单位比例为:
不具有该种属性的单位的比例为:
因此对总体比例的估计就是对总体均值的估计,对总体中具有某种属性单位的总个数的估计是对总体总值估计的一个特例。
一、问题的提法,37,
(一)简单估计量的定义,二、总体比例的简单估计量及其性质,根据调查要求,利用简单随机抽样的方式随机抽取个单位组成样本,其中个具有某种属性,则样本比例(样本均值)就是总体比例的简单估计量;就是总体中具有某种属性单位的总个数的简单估计量。
38,
(二)估计量的性质,1、是的无偏估计。
即有:
2、的方差为:
3、的无偏估计量是,即,39,当都比较大时,我们以正态分布给出及的近似置信区间(置信度为)为:
修正后的与的置信区间分别为:
40,【例3.5】试以95%的置信度估计例3.3中该校大学生该月电信消费支出超出80元的人数及其比例。
解:
根据例3.3所给的资料可知,=15230,=36,7,=1.96。
由此可计算得:
于是的95%的置信区间为的95%的置信区间为(0.0496,0.3392)=(755,5166)。
=(0.0496,0.3392),41,第四节样本量的确定,42,在抽样调查的理论方法研究中,样本量的确定既有重要的理论意义,又有现实的实用价值。
样本量过大,不符合抽样调查的宗旨;过小,则抽样误差偏大,无法保证估计精度的要求。
样本量的确定主要受两个方面因素的影响和制约:
一是对抽样估计量精度的要求。
对于一个确定的抽样设计,估计量的精度要求高意味着要求的抽样误差小,而要想抽样误差小,就必须样本量大。
而总体单位调查标志的变异程度、总体的大小、样本设计和所使用的估计量、回答率等都是影响估计精度的因素,从而也是影响样本量的因素。
一、确定样本量主要考虑的因素,43,二是实际调查运作的限制。
调查的经费能支持多大的样本?
允许调查持续的时间有多长?
需要多少调查人员?
虽然有些限制因素在样本量的计算公式中还无法体现,但是在确定最终所需的样本量时必须加以考虑。
实践中样本量的确定是在多种约束条件下进行的折衷过程。
由于大部分限制约束条件不便于量化,确定样本量的计算公式时往往只在抽样精度与调查费用两者之间权衡。
采用两种不同的方式来确定:
一种是在总费用一定的条件下使精度最高;另一种是在满足一定精度要求的条件下使费用最小。
44,给定绝对误差限、相对误差限和变异系数的允许上限的样本量确定公式,即分别有:
二、估计总体均值(总值)的样本确定,45,由于总体方差和总体均值未知,因此在利用上述公式时,必须事先对它们做出估计。
实际工作中,可以通过以往对同类问题调查积累的经验来估计,也可以通过预调查来估计,或通过其他调查方法和定性分析方法获得。
对于复杂抽样设计方法,由于确定样本量的公式比较复杂,常常难于计算。
在同样精度要求的条件下,简单随机抽样的样本量相对容易获得,这时可以利用(3.21)式先计算复杂抽样设计的设计效应,然后再间接推算复杂抽样设计方法所需要的样本量,即有:
46,【例3.6】在例3.3中,如果要求以95%的置信度估计该校大学生该月人均电信消费支出的绝对允许误差不超过5元,样本量应确定为多少?
解:
依据所给条件:
=15230,=5,置信度95%对应的标准正态分布表的上侧分位数为1.96,且=1358.41,据此可计算得:
=,也就是说,至少应抽取一个样本量为206的简单随机样本,才能满足95%置信度条件下绝对误差不超过5元的精度要求。
47,根据样本比例的方差公式可以推得:
其中,同样可求得给定绝对误差限、相对误差限和变异系数的允许上限的样本量确定公式,即分别有:
在无限总体或放回抽样情形下,即为所确定的样本量。
三、估计总体比例的样本量确定,48,【例3.7】在例3.5中,如果要求以95%的置信度估计该校大学生该月电信消费支出超出80元的人数比例的相对允许误差不超过10%,样本量至少应为多少?
解:
根据例3.5所给的资料和计算的结果可知:
=15230,=36,7,=1.96。
,由此可计算得:
计算结果说明,至少应抽取一个样本量为1442的简单随机样本,才能满足95%置信度条件下相对允许误差不超过10%的精度要求。
49,四、逆抽样法,现实中有这样一种情况,即总体中具有所考虑属性的单位数很少,也就是说值很小。
对于此类稀有事件的比例估计问题,利用前面给出的公式确定样本量有困难。
霍丹(Haldane)1945年提出一种称为逆抽样的方法,专门用于此类小比例的抽样。
50,第五节子总体估计,51,一、问题的提出,我们把总体中具有某种共同属性特征的单位的集合称为子总体。
对子总体的处理有多种方法:
若每个子总体在编制抽样框时就可以区分开,可以采用分层抽样方法进行估计;若事先不能将各个子总体区分开来,但是事先可以知道各个子总体的单位数,则可采用事后分层的方法进行估计;还有一种情况是,既不能事先将各个子总体区分开来,又无法事先知道各个子总体的单位数。
本节的讨论仅限于后一类子总体的估计。
52,二、子总体均值的估计,样本均值,是子总体均值,的无偏估计量,53,式中为第个子总体的抽样比,子总体的方差未知,可用其样本方差,其方差为,来估计。
至此我们的问题并没有解决,因为未知,所以也是未知的。
54,我们可以将单位是否属于第个子总体看作是总体单位的一个属性特征,那么就是总体的比例,而就是其样本的比例,是的无偏估计,因此有,因为和都是固定的,所以,因此可用来估计,据此我们可得到的无偏估计量为,55,上一小节解决了子总体均值的估计问题,但是由于未知,子总体总值的估计问题依然没有得到解决。
定义,记,它们可以分别用,进行估计。
三、子总体总值的估计,56,于是有,57,总体总值(也就是子总体总值)的一个简单无偏估计为,它的方差为,58,而样本方差,因此的一个无偏估计为,59,编号为奇数的习题答案,3.1判断以下抽取方式是否为等概率抽样:
(1)是
(2)否(3)是(4)否,60,3.3为调查某中学学生的每月购书支出水平,在全校名学生中,用不放回简单随机抽样的方法抽得一个的样本。
对每个抽中的学生调查其上个月的购书支出金额(如表1所示)。
(1)在95%的置信度下估计该校学生该月平均购书支出额;
(2)试估计该校学生该月购书支出超出70元的人数;(3)如果要求相对误差限不超过10%,以95%的置信度估计该校学生该月购书支出超出70元的人数比例,样本量至少应为多少。
61,表130名学生某月购书支出金额的样本数据,62,3.3解:
(1)依据题意和表1的数据,有:
因此,对该校学生某月的人均购书支出额的估计为56.07(元),由于置信度95%对应的所以,可以以95%的把握说该学生该月的人均购书支出额大约在56.071.965.115,即50.9661.19元之间。
,,63,
(2)易知,N=1750,n=30,,的95%的置信区间为:
的95%的置信区间为:
(159,776),64,(3)N=1750,n=30,,由此可计算得:
计算结果说明,至少应抽取一个样本量为1237的简单随机样本,才能满足95%置信度条件下相对误差不超过10%的精度要求。
65,3.5要调查甲乙两种疾病的发病率,从历史资料得知,甲种疾病的发病率为8,乙种疾病的发病率为5,求:
(1)要得到相同的标准差0.05,采用简单随机抽样各需要多大的样本量?
(2)要得到相同的变异系数0.05,又各需要多大的样本量?
66,3.5解:
(1)已知,,,由,得:
由,得:
(2),67,