第三章简单随机抽样(抽样调查理论与方法-北京商学院,.pptx

上传人:j*** 文档编号:30840965 上传时间:2024-01-31 格式:PPTX 页数:33 大小:579.65KB
下载 相关 举报
第三章简单随机抽样(抽样调查理论与方法-北京商学院,.pptx_第1页
第1页 / 共33页
第三章简单随机抽样(抽样调查理论与方法-北京商学院,.pptx_第2页
第2页 / 共33页
第三章简单随机抽样(抽样调查理论与方法-北京商学院,.pptx_第3页
第3页 / 共33页
第三章简单随机抽样(抽样调查理论与方法-北京商学院,.pptx_第4页
第4页 / 共33页
第三章简单随机抽样(抽样调查理论与方法-北京商学院,.pptx_第5页
第5页 / 共33页
点击查看更多>>
下载资源
资源描述

第三章简单随机抽样(抽样调查理论与方法-北京商学院,.pptx

《第三章简单随机抽样(抽样调查理论与方法-北京商学院,.pptx》由会员分享,可在线阅读,更多相关《第三章简单随机抽样(抽样调查理论与方法-北京商学院,.pptx(33页珍藏版)》请在冰豆网上搜索。

第三章简单随机抽样(抽样调查理论与方法-北京商学院,.pptx

1简单随机抽样及实施方法,简单随机抽样就是从装有N张票子的盒子里随机无放回地摸取n张票子,它可以有两种摸取方法:

第三章简单随机抽样,

(1)从盒子中一次摸取n张票。

这样摸取共有种可能性,每种可能的概率为。

抽到的样本称为简单随机样本。

(2)从盒子中随机摸取1张票,相应该票的单元入样后,票并不放回盒子,从余下的票中再随机摸取1张票,相应此票的单元也入样且票也不返回盒子;依此实施,直到第n个样本入样。

这两种方法都使用了随机的方法,而且样本并不重复,那么这两种方法是否都算是简单随机抽样呢?

要检验一下这两种方法中每一单元的入样概率是否相等。

只要验证第二种方法中总体的每n个单元一组的样本入样的可能性等于第一种方法中的即可。

利用条件概率即可得到验证。

也就是说,两种操作方法是等价的。

都是简单随机抽样但由于N、n一般都很大,第二种操作方案较方便。

现在介绍一下具体实施简单随机抽样的做法:

首先将N个总体元素编号为:

1,2,N,每一单元对应一个号码,若抽到某号,则相应单元入样。

(1)抽签法:

实际上就是一个盒子模型,将编号为1N的N个形状与质地完全相同的纸签放在盒子里,用上述两种方法之一从盒子中摸出n张签。

(2)随机数法:

设想N相当大,你会做那么多的签放在盒子里以供抽取吗?

随机数法用来解决这个困难。

利用随机数表、随机数骰子或计算机可以获得随机数。

随机数表:

本书最后附有随机数表,它应当被看成09数字随机地横竖排列,我们可以随机地从某行某列的数字开始如果需要一至二位数字,则从该数字开始从左向右接连地截取,该行不够则换下一行开始;如果需要三位或三位以上数字,则从开头数字开始向右取三位或三位以上的数从该数纵向往下接连获取其它随机数,不够可另换列执行,直到取到我们所需要的个数n,当然这中间应该去掉可能发生重复的数以及超出N的数字。

利用计算机产生随机数:

不少现成的统计软件都可提供此类服务。

但必须指出,这样产生的随机数一般不能保证其随机性,称为“伪随机数”。

因此,提倡前述方法产生随机数。

随机数骰子:

随机数骰子是由均质材料制成的正二十面体面上标有09数字各两个。

如图所示。

通常用36个随机骰子,视所需要的随机数的位数而定。

骰子用不同的颜色染成可事先规定好哪种颜色的骰子产生个位数,哪种颜色的骰子产生十位数,依次下去。

将所需骰子在盒内摇匀等稳定后揭盖读取朝上面的数字,即获取一组随机数。

所摇的骰子数m通常取决于总体单元个数N,满足。

记m个骰子按约定颜色而确定的顺序读得随机数,若,则此即为一次合格的随机数;否则予以放弃,重新摇取,直到取到n个合格的随机数为止。

2总体平均数与总和的估计,设总体元素为,为来自该总体的简单随机样本,有时也记样本为为中的某个组合。

在后者的表示中随机性体现在下标上。

样本是总体的一个有代表性的剖面。

总体平均数的估计为:

总体总和的估计自然为:

由于这两个估计之间仅差一个常数因子N,因而只要重点研究的估计量的若干性质即可。

是样本平均数,由于样本的随机性,样本平均值也是随机变量,理论上的平均值,即数学期望为:

其中表示对中所有组合求和,对于中的每个元素,比如,它与其它元素构成样本的可能次数显然为,因此,乃至在中出现的次数均为,于是,即是的无偏估计。

同样也是总体总量的无偏估计,例3.1某班第一小组10人的数学考试成绩分别为:

100,95,92,88,83,75,71,62,60,50平均分为77.6。

先从中任选3个为一组样本,其选法共有120种每种选法都有概率1/120。

以4组样本为例(100,95,92),(100,83,50),(88,83,62),(62,60,50)它们的样本平均数分别为95.67,77.67,77.67,57.33。

从抽样调查的角度来看,我们希望抽到第二或第三组样本,根据它们来估计总体平均数相当准确。

而第一和第四组样本的估计相当糟糕。

但它们入样与第二第三组具有同样的可能性,这是否与的无偏性相矛盾呢?

其实并不相矛盾。

我们关心的是,尽管每一组样本入样的概率相同,像第二第三组这样的“良好”情况就大体而言是否会多于像第一第四那样的“糟糕”情况呢?

如果肯定的话,那么就能指望在一次随机抽样中发生的估计误差较小。

该问题的解决将由下一节的讨论给出。

3估计量的方差及其估计,下面求的无偏估计的方差,其中表示对中所有组合求和,(或),(3.6),对随机有放回抽样,由于各次抽取是相互独立的,由概率论的知识可以求得,此时:

(或),(3.7),比较(3.6)式与(3.7)式,发现同样用样本平均数来估计总体平均数,它们都是无偏估计,但随机无放回时的方差小于随机有放回时的方差。

的方差表示新盒子的离散程度,也就是表示了取值范围的大小,方差小表明取值远离中心的可能性较小,这样随机的一组样本得到的实现值距很近的可能性就较大,这正是我们所期望的。

因此,在实际抽样中我们采用无放回抽样方式。

(3.6)式中的因子(Nn)/(N1),称为随机无放回的校正系数,它是对随机有放回情况的校正。

如果N相当的大,则总体可视为无限总体,由(3.7)式,,即为的方差,这是无限总体情况样本平均数的方差。

而有限总体的的方差为:

因此称1f为有限总体校正系数,其中f=n/N,称为抽样比,抽样比就是样本所占总体的比例。

f越大,越接近1,则样本越接近总体,与的随机误差就越小;当f=1时,抽样变成全面普查,此时误差消失。

一般情况下f比较小,由于N是固定的,也就意味着n相当小,此时(3.6)式告诉我们的方差将随着n的减少而增大,此时1f在1附近,对的影响不大。

事实上,抽取样本越少,抽样误差越大。

当然,影响的方差的另一个重要因素是或。

设想,当相当大时,原盒子中的数据相当地分散,从一个很分散的盒子中随机取一样本来代替总体,你不可能指望误差很小。

对于的方差,n的影响是可以由人们主观控制的,只要多花费一些,多抽取一些就能适当降低误差,当然这只能控制在一定范围内。

可见实际抽样调查中用估计所产生的随机误差,也即的方差,主要受到样本容量n的影响,因子1f的影响几乎可以忽略。

的影响是客观存在的,盒子中数据越分散,总体就变得越难捉摸。

实际上,本身就是一个待估参数,必须对的大小给出估计,不估计就无法评价所产生的误差可能有多大。

设为来自总体的样本,既然它是总体的一个缩影,那么这些值的离散程度应该反映了盒子的离散程度,因此采用统计量(样本方差):

来估计。

为了研究统计量的性质,将改写为:

用作为的估计,利用正态近似理论可以建立的置信区间,当N,n,Nn相当大时,的分布近似可用正态曲线表示,由于,所以,取置信水平为(),注意到标准正态曲线关于0点的对称性,我们有,其中是标准正态曲线的分位点,任何一本概率统计的书上都提供有标准正态分布表以供查取分位点。

这样,的置信区间为:

其中为未知参数,用其无偏估计来代替,则得置信区间,或,例3.2某镇有3250名职工,为调查该镇职工收入情况,用简单随机抽样方式从中抽取30名,调查结果如教材53页表31。

试估计该镇职工的平均月收入,并求置信水平为95的近似置信区间。

解:

N3250,n30,查标准正态分布表得分位点:

于是该镇职工月平均收入的估计值为672.23元,它的95近似置信区间为:

本节主要介绍了估计的随机误差以及置信区间的估计,对于总体总和的情况,从平均数的情况很容易导出有关结果。

4百分数的估计及其误差,在介绍盒子模型时已经指出,对于总体中具有某种特性的单元所占比例的抽样调查,可建立01盒子模型。

即个具有某种特性的单元相应的票上全标上1,其余全标上0。

10,是未知数。

盒子中1所占的比例是待估参数:

由于该参数恰为01盒子的平均数,在简单随机抽样理论中自然地采用这个无偏估计。

为与参数记号相配,记:

由第二章第七节的讨论可知,盒子的方差为:

因此:

其中PQ为未知参数的乘积,只有对进行估计才有可能获得P的置信区间。

尽管P,Q各有它们的无偏估计但它们的乘积并非PQ的无偏估计。

这里需要借助于的无偏估计,并且容易计算得:

这样可得的无偏估计为:

(或写为),其实当N比较大时,样本中1的个数服从二项分布,因此当n不是很大时,近似置信区间(3.26)会发生一定差错,应当考虑必要的修正。

p的修正置信区间为:

(3.26),(3.27),例3.4某地区有30587人,为调查其中吸烟者所占比例而从中随机无放回抽取2000人进行访问,得知其中烟民785人。

试估计该地区吸烟者比例,并给出吸烟比例的置信水平为90的近似置信区间。

解:

N30587,n2000,置信水平为90,则,查表得,又,故置近似信区间为,(37.52,40.98),5样本容量n的确定,抽样调查理论中,样本容量n的确定具有实实在在的意义。

n过大,违背抽样调查的宗旨,n过小,则抽样误差偏大,无法作出精确的估计。

一般情况,总费用是固定的,在固定的费用下尽量提高精度或在必需的精度下使费用尽可能减少,是我们确定n的基本原则。

下面主要研究简单随机抽样下如何确定n。

设选取n个样本,访问每个单元所需的平均费用为,另外除了样本调查所需的费用以外,还需要一笔基本费用,例如办公费、设计问卷的费用等,用表示。

这样总费用为,我们主要考虑n与精度的关系:

精度要求主要涉及到估计的方差(或相应的标准差),或估计量与参数的绝对误差或相对误差。

若记为基于简单随机样本的关于参数的估计量。

是一个随机变量,要使此绝对误差控制在一定数之内,只能以概率加以描述,假设置信水平为,那么:

同样,若以相对误差r作为标准,则有,假设n相当大时,可以利用正态近似,我们有,再利用正态近似的手段,得:

这里我们定义:

我们称之为统计量的变异系数,它在抽样调查中也是一个比较重要的量,尤其是在评价统计量的精度时常常用到。

将(3.31)式中的取为为例,如果调查时有一定要求,那么由(3.31)式以及额定的,只要已知,我们完全可以求得n的值。

如果是未知的,我们可以先作少量抽样以估计,然后再确定n,当然这个确定的n比少量抽样的容量通常要大。

如果问题是估计总体的具有某种特征的子总体所占的百分数P,那么,代入(3.31)式,并解得:

(3.35),由于P未知,仍然必须事先利用少量抽样加以估计。

但在实际操作中,当时,PQ很接近P=0.5时的最大值,,以P=0.5代入,此时,得到n约为,如果调查对有一定要求,自然也能得到n的大约数值。

(3.36),以(3.36)式确定n,建立在P不大不小的基础之上。

这种信息有时在抽样之前事先感觉得到。

有时事先也可能感觉P相当小(或Q相当小)。

例如,要估计流水线上生产一批精密元件的废品率,此时废品率往往很小,P0.1是最起码的。

对此废品率的抽样调查所需的n就不能用(3.36)式了。

这种场合下如何确定n呢?

一个可供选择的方法就是逆抽样。

思路很简单,我们事先估计P很小,此时确定的n次抽样中必须含有废品,否则很难估计P。

于是逆抽样方法建议我们事先确定一个大于1的整数m,从总体中随机逐次抽取样本,直到出现第m个“废品”(或具有某种特征的单元)为止。

此时,我们实际抽取的样本容量n是一个随机变量,我们使用:

来估计P。

逆抽样的特点是n为随机变量,与P及m有相当的关系,的精度就与m有密切的关系。

我们的问题是根据调查的需要去确定事先指定的“废品”数m。

(3.37),一般地,由于欲估计的P相当小,因此可以认为Q几乎为1。

运用概率论知识可求得的变异系数的一个上界:

如果对有一定要求(这实际上就是精度要求),那么可以求得m的大致值。

例如,那么,,那么,理论上是P的无偏估计,因此当P很小时,由(3.37)可知,n应相当大。

本章习题解答,习题3.1,总体总和的估计为:

故为的无偏估计,这样,的置信区间为:

即:

由,可得,或,亦即:

习题3.2,以印刷错误的个数为标准,可以使用简单随机抽样来检查一本700页的书的印刷质量。

将每一页作为一个单元,单元标志值为该页错误数,随机抽取n页,检查这n页中每页的错误数,计算得到平均每页的错误数样本平均数作为总体平均数(即估计参数该书平均每页的错误数)的估计。

为抽样估计误差,其中为样本方差,习题3.3,N=10000n=425k=4,为这批电视机合格率的估计,置信水平,置信水平为95的置信区间为:

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 经管营销 > 经济市场

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1