七抽样调查.pptx

资源描述

七抽样调查.pptx

《七抽样调查.pptx》由会员分享，可在线阅读，更多相关《七抽样调查.pptx（100页珍藏版）》请在冰豆网上搜索。

七抽样调查.pptx

第七章抽样调查,第七章抽样调查,7.1总体和样本7.2抽样调查的数理基础7.3总体参数估计7.4抽样设计7.5统计假设检验,第一节总体和样本,一、抽样调查概述,抽样调查是一种科学的非全面调查。

它是按照随机原则从调查对象的总体中抽取部分单位进行调查，并根据这部分单位的调查结果推断总体的数量特征。

抽样调查,抽样调查的特点,随机抽取样本单位；用部分信息推断总体数量特征；抽样推断具有一定的概率保证程度；抽样误差可以事先计算并控制。

作用,应用,经济性：

节省人力、物力、财力和时间时效性：

可用较短的时间搜集到所需资料适应性：

适用于各领域，各种问题的调查准确性：

受人为干扰的可能性较小，调查资料的准确性较高,能解决全面调查无法或难以解决的问题可以补充和订正全面调查的结果应用于生产过程上产品质量的检查和控制,二、有关抽样的几个基本概念,全及总体和样本总体,1、全及总体全及总体又称总体或母体，是指研究对象的全体，它是由许多个性质相同的调查单位组成的，总体单位数通常用N表示。

例如：

全部职工、全部学生、全部产品,2、抽样框抽样框是指用以代表总体，并从中抽选样本的一个框架，抽样框的主要形式有三种：

名单抽样框区域抽样框时间表抽样框,对于抽样调查来说，样本的代表性如何，抽样调查最终推算的估计值真实性如何，首先取决于抽样框的质量。

抽样框在抽样调查中处于基础地位，是抽样调查必不可少的部分，其对于推断总体具有相当大的影响。

全及总体和样本总体,3、样本总体样本总体，又叫子样，简称样本。

它是从全及总体中随机抽取出来，用来代表全及总体的那部分单位构成的总体。

样本总体的单位数用小写字母n表示，称为样本容量。

从某个城市职工家庭中随机抽取1000户进行调查，则这1000户组成的小总体即为样本，样本容量n=1000。

例如：

全及总体和样本总体,对于给定的研究对象，全及总体是唯一确定的，而样本总体不是唯一的，它是随机的。

4、抽样比抽样比是指在抽选样本时，所抽取的样本单位数n与总体单位数N之比。

一般地讲，n30为大样本，n30为小样本。

研究社会经济现象时，通常采用大样本进行抽样调查。

全及总体和样本总体,二、有关抽样的几个基本概念,总体指标和样本指标,1、总体指标总体指标是根据全及总体所有单位的标志值计算出来的，反映总体的数量特征。

为与样本指标区分，用大写字母表示总体指标。

包括：

总体平均数总体成数总体方差总体标准差,总体指标和样本指标,2、样本指标样本指标又称抽样指标，它是根据样本总体计算的统计指标，反映样本总体的数量特征，样本指标用小写字母表示。

包括：

样本平均数样本成数样本方差样本标准差,二、有关抽样的几个基本概念,抽样方法和样本可能数目,1、重复抽样重复抽样也叫重置抽样，是指每次抽取一个单位记录其标志表现后又放回，重新参加下一次的抽选。

全及总体单位数始终保持不变，每个总体单位都有被重复抽中的可能。

重复抽样通常要考虑单位排列顺序，其样本可能数目为,抽样方法和样本可能数目,2、不重复抽样不重复抽样也叫不重置抽样，是指每次从总体中抽取一个单位记录其标志表现后不再放回，从剩余的单位中抽取下一个单位。

全及总体单位数在不断减少，每个总体单位不可能被重复抽中。

不重复抽样通常不考虑样本单位排列顺序，其样本可能数目为,第二节抽样调查的数理基础,抽样调查数理基础,抽样分布,大数定律,正态分布,中心极限定理,抽样分布的形成过程,总体,计算样本统计量如：

样本均值、成数、方差,样本,样本统计量的概率分布,大数定律,第二节抽样调查的数理基础,在对某一现象观察过程中，由大量相互独立的随机变量构成的总体，由于受偶然因素的影响，每次所得到的结果不同，但经过大量观察并加以综合平均后，消除了偶然因素引起的差异，而接近于总体的平均值，使现象总体某一方面的规律在数量上、质量上显示出来。

例如：

抛硬币实验,通常以平均数或成数的形式表现,1.独立同分布大数定律,独立同分布的随机变量：

，设它们的平均数为，方差为，则对任意小的正数，有：

2.贝努力大数定律,设m是n次独立随机试验中事件A发生的次数，p是事件A发生的概率，则对于任意小的正数，有,大数定理从理论上揭示了样本和总体之间的内在联系，即随着抽样单位数n的增大，样本平均数有接近总体平均数的趋势，样本成数有接近总体成数的趋势。

注意：

第一、抽样必须遵循随机原则。

第二、抽样必须遵循大量原则。

正态分布,例如：

人类的身高、产品的寿命、加工零件的尺寸等。

正态分布基本指这样的分布：

在总体平均数及其附近，总体单位数最多；相反地，越远离总体平均数，总体单位数越少。

也就是说，越接近总体平均数的变量值出现的次数越多，概率也就越大；反之，越远离总体平均数的变量值出现的次数就越少，概率也就越小。

第二节抽样调查的数理基础,正态分布的特征,1、正态分布是钟型对称分布，对称线为总体平均数，整个曲线下的面积等于1。

总体平均数将分布曲线截为两段互为镜像的曲线，两段曲线下的面积相等，各为1/2。

2、在总体平均数处，正态分布的概率密度最大，当远离总体平均数时，概率密度的值随着距离的增加而递减。

X,f（x）,3、在距离总体平均数一个标准差的位置上，即时，曲线有两个拐点。

4、正态分布的位置及形状由总体平均数和总体标准差决定，总体平均数决定正态分布中心的位置；,4、总体标准差决定正态分布的宽窄的形状。

0,当被抽样总体服从正态分布时，样本平均数的抽样分布具有下列重要性质：

样本平均数的分布仍然是正态分布；样本平均数分布的平均值等于总体平均数；样本平均数分布的方差等于总体方差除以样本容量。

中心极限定理,第二节抽样调查的数理基础,从具有任意分布形式的总体中抽出一个容量是n的样本，如果总体的平均数是，方差是，则当n充分大时，样本平均数趋于正态分布。

样本平均数所服从的正态分布的中心仍是，标准差是抽样平均误差。

当样本容量很大时，样本成数近似地服从正态分布，分布中心为总体成数,第三节总体参数估计,一、参数估计的优良标准,1、无偏性无偏性是指样本指标的平均数等于被估计的总体指标数值。

这时称样本指标是总体指标的无偏估计量，否则就是有偏估计量。

根据中心极限定理，当样本容量n很大时，样本平均数等于总体平均数，样本成数的平均数等于总体成数，因此样本平均数和样本成数是总体平均数和成数的无偏估计量。

2、有效性有效性是指样本指标的标准差越小，越有效。

总体指标的无偏估计量往往不止一个，采用的标准在于选择有效的样本指标。

总体平均数的无偏估计量,样本平均数,样本中位数,样本众数,标准差最小,理论证明，样本平均数和样本成数均满足有效性。

3、一致性一致性是指随着样本容量n的增大，样本指标与被估计的总体指标的偏差越来越小。

根据大数定律,随着样本容量n的增加，样本平均数（样本成数）有接近于总体平均数（总体成数）的趋势。

因此，样本平均数（样本成数）是总体平均数（总体成数）的一致估计量。

4、充分性在计算样本指标时，若能把包含在样本中有关总体的信息完全提取出来，那么该样本指标就是总体指标的充分估计量。

即在计算样本指标时，尽量使样本中含有的总体信息损失得少一些，损失越少，说明越充分。

样本平均数和样本成数均满足以上四个标准，因此，可以用样本平均数估计总体平均数，用样本成数估计总体成数。

第三节总体参数估计,二、抽样误差,1.抽样误差的概念抽样调查过程中的误差根据其来源大体上可以归纳为两类：

一类是登记性误差，另一类是代表性误差。

在调查时对样本各单位观察、测量、登记过程中出线的差错及汇总样本、计算样本指标等工作产生的误差。

代表性误差,是指用样本指标推断相应的总体指标时，因样本结构与总体结构不同，致使样本不能完全代表总体而产生的误差。

包括系统误差和随机误差。

是由于抽样调查时没有按照随机原则，而是人为的、有意地抽取样本所产生的误差，也叫偏差。

例如：

对某乡稻田产量进行抽样调查，调查人员抽取样本时有意多抽产量高（或低）的稻田,随机误差,即通常所说的抽样误差。

是指由于随机抽样引起的样本结构不同于总体而产生的样本估计值与总体参数真值之间的离差。

登记性误差和系统误差是人为的，在抽样调查的过程中应尽量避免；而抽样误差（随机误差）是抽样调查固有的，不可避免，但可以事先计算并加以控制。

2.影响抽样误差的因素,总体变异度抽样误差与总体方差或标准差成正比样本容量抽样误差与样本容量成反比抽样方法不重复抽样的误差小于重复抽样的误差抽样组织方式,3.抽样平均误差,所有可能样本的估计值与所要估计参数离差的平均数。

表明样本平均数（或成数）与总体平均数（或成数）的平均误差程度。

理论公式：

抽样平均误差实质是样本估计量即样本平均数（或成数）的标准差,（M为样本个数）,式中：

为平均数的抽样平均误差；为总体方差；为样本容量；为总体单位数。

样本平均数的抽样平均误差,3.抽样平均误差,重复抽样,不重复抽样,式中：

为成数的抽样平均误差；为总体成数；为是非标志的方差；为样本容量；为总体单位数。

样本成数的抽样平均误差,3.抽样平均误差,重复抽样,不重复抽样,3.抽样平均误差,不重复抽样的修正系数,在实际抽样调查时，总体单位数N往往很大，（N1）近似的等于N，所以修正系数可以转化为：

对于无限总体或N很大时，或当抽样比很小时，有，则重复抽样和不重复抽样的抽样平均误差几乎相等。

实际工作中，经常采用不重复抽样方法进行抽样，而采用重复抽样的抽样误差公式计算抽样误差，以简化计算。

3.抽样平均误差,不重复抽样的修正系数,【例】欲了解某村2800户农民的年收入情况，随机抽取140户调查，平均每户年收入为5965元，标准差为104.8元，试求抽样平均误差。

解：

若采取重复抽样方法，则有,已知条件缺少总体标准差，用样本标准差代替，则,若采取不重复抽样方法，则有,4.抽样极限误差,在一次抽样中允许的最大误差范围称为抽样极限误差。

是变动的样本指标与唯一确定的但又是未知的总体指标之间的离差可能范围。

样本指标在总体指标的附近变动，抽样误差范围是以总体平均数（或成数）为中心的两个距离。

概率度,抽样极限误差通常需要以抽样平均误差为标准单位来加以衡量，把抽样极限误差除以相应的抽样平均误差，表明抽样极限误差是抽样平均误差的多少倍，这个倍数称为概率度，用字母Z表示。

抽样极限误差的理解,z值越大，允许的误差范围越大，样本指标落在以总体指标为中心的两个距离的可能性（概率）越大。

z值越大，总体指标落在以样本指标为中心的两个距离的可能性（概率）越大。

对于一定的概率度z就有对应的概率P。

常用的有以下五对,概率度z与概率P的对应关系,抽样极限误差的实质，就是在一定的概率保证程度要求下，估计量误差的可能范围。

第三节总体参数估计,三、抽样估计的置信度,置信度,抽样估计时总体参数落在某个区间的概率保证程度称为抽样估计的置信度。

用P或表示。

抽样估计的置信度和抽样极限误差有着密切联系。

当抽样极限误差范围增大时，抽样估计的置信度也随之有规律地增大，抽样估计的精确程度则随之有规律地降低，反之亦然。

第三节总体参数估计,四、参数估计的方法,点估计,以样本指标的计算结果作为总体参数估计的结果，即用样本指标值直接作为全及总体指标的代表值。

即用去估计，用去估计。

优点：

简单、具体，能给出一个明确的值缺点：

没有考虑抽样误差，不能给出推断结果的把握程度。

可在对总体指标准确性要求不高时使用。

区间估计,根据样本估计量以一定可靠程度推断总体参数所在的区间范围。

即用去估计的可能范围，用去估计的可能范围。

对总体平均数的区间估计为,对总体成数的区间估计为,若给定的置信度，则,1.估计值2.估计值的可能误差范围3.与误差范围相对应的概率保证程度,置信区间,从某企业职工中抽取10%进行调查，计算样本平均工资为1600元，则以95%的可靠性估计该厂全体职工平均工资的可能范围在1500元到1700元之间,例如：

区间估计就是估计总体指标的置信区间,区间估计的三项基本要素：

实际工作中，往往首先提出估计的可靠性要求，即概率保证程度，以此确定概率度z，并与抽样平均误差想乘，求出抽样极限误差，以此确定置信区间,三项基本要素的关系,第三节总体参数估计,五、总体平均数估计,1.大样本的总体平均数估计,计算样本平均数,搜集总体方差的经验数据，或计算样本方差，即,1.大样本的总体平均数估计,计算抽样平均误差,重复抽样时,不重复抽样时,计算抽样极限误差,确定总体平均数的置信区间,【例】某企业生产A产品的工人有1000人，某日采用不重复抽样从中随机抽取100人调查他们的当日产量，样本人均产量为35件，产量的样本标准差为4.5件。

请以95.45%的置信度估计该日人均产量的置信区间。

解：

已知，计算抽样平均误差,计算抽样极限误差,由，查正态概率表得,确定置信区间,故以95.45%的置信度断言，该日人均产量在34.1535.85件之间。

【例】某企业生产某种产品的工人有1000人，某日采用不重复抽样从中随机抽取100人调查他们的当日产量，要求在95的概率保证程度下，估计该厂全部工人的日平均产量和日总产量。

解：

计算样本平均数,计算抽样本方差,计算抽样平均误差,计算抽样极限误差,由，查正态概率表得,确定置信区间,该企业工人日平均产量的置信区间为,该企业工人日总产量的置信区间为,总体总量的置信区间,【例】某乡水稻总面积20000亩，以不重复抽样方法从中随机抽取400亩，实割实测求得样本平均亩产645公斤，标准差72.6公斤。

要求极限误差不超过7.2公斤，试求该乡水稻的亩产和总产量的估计区间，并确定估计的可靠程度。

解：

已知,该乡水稻平均亩差的置信区间为,该乡水稻总产量的置信区间为,计算抽样平均误差由可知,计算概率度,即估计的可靠程度为95.45%,2、小样本的总体平均数估计若，当方差未知，时，简单随机样本的平均数服从自由度的分布，即,第三节总体参数估计,五、总体平均数估计,【例】某商场从一批袋装食品中随机抽取10袋，测得每袋重量（单位：

克）分别为789、780、794、762、802、813、770、785、810、806，要求以95%的把握程度，估计这批食品平均每袋重量的区间范围。

解：

计算样本平均数,计算样本方差,计算抽样平均误差,计算抽样极限误差,由，查t分布表得,确定置信区间,第三节总体参数估计,六、总体成数估计,计算样本成数,搜集总体方差的经验数据，或计算样本方差,计算抽样平均误差,重复抽样时,不重复抽样时,计算抽样极限误差,确定总体成数的置信区间,总体总量的置信区间,六、总体成数估计,【例】某厂对一批产品的质量进行抽样检验，随机抽取样品100只，调查得样本优质品率为80%，试计算当把握程度为90%时该批产品优质品率的区间范围。

计算抽样平均误差,解：

计算抽样极限误差,由，查正态概率表得,确定置信区间,【例】某企业生产某种产品的工人有1000人，某日采用不重复抽样从中随机抽取100人调查他们的当日产量，若日产量在118件以上者为完成生产定额任务，要求在95的概率保证程度下，估计该厂全部工人中完成定额的工人比重及完成定额的工人总数。

完成定额的人数,解：

已知,则样本成数,计算抽样平均误差,计算抽样极限误差,由，查正态概率表得,则全部工人中完成定额的人数比重的置信区间为,完成定额的工人总数的置信区间为,第四节抽样设计,一、抽样设计的原则,影响抽样设计的因素,1.样本具有充分代表性2.合适的样本容量3.抽样组织形式4.抽样调查的费用,原则：

第一、保证实现抽样的随机性原则。

第二、保证实现最大的抽样效果原则。

第四节抽样设计,二、抽样组织设计,1、简单随机抽样也称纯随机抽样，它是按照随机原则直接从全及总体N个单位中抽取容量为n个单位的样本。

适用于均匀总体。

取样方法,直接抽取法抽签法随机数表法,简单随机抽样样本容量的确定,1、估计平均数的样本容量,重复抽样时,不重复抽样时,当N很大时,【例】某食品厂要检验本月生产的10000袋某产品的重量，根据上月资料，这种产品每袋重量的标准差为25克。

要求在95.45的概率保证程度下，平均每袋重量的误差范围不超过5克，应抽查多少袋产品？

解：

已知,则在重复抽样条件下,则在不重复抽样条件下,2、估计成数的样本容量,当N很大时,重复抽样时,不重复抽样时,【例】某批产品的历史数据显示，平均重量为65.85千克，合格率为98%，方差为5.456，现准备对这批产品进行简单随机抽样检查，要求可靠程度达到99.73%，误差范围不超过0.9千克。

试问检查平均重量与合格率各需要抽多少样本单位？

解：

已知,【例】某企业对一批产品进行质量检验，这批产品的总数为5000件，过去几次同类调查所得的产品合格率分别为93%、95%和96%，要求在95.45的概率保证程度下，合格率的误差范围不超过3%，应抽查多少件产品？

【分析】为保证推断的把握程度，应从过去的合格率资料中选方差最大者，即,解：

已知,确定样本容量的注意事项,1、对同一总体既需要进行平均数推断，又需要进行比率推断时，按各自要求可能确定二个必要抽样数目，为了兼顾二者的共同要求，通常采用其中较大的n值作为统一的抽样单位数。

2、在抽样推断的实际操作中，一般按重复抽样的公式确定必要抽样数目，按不重复抽样的方法来具体抽选调查单位，最后又按重复抽样的平均误差公式来计算抽样平均误差进行推断。

以便使推断的把握程度更大。

根据以往调查的经验数据（取较大者）采用试点调查以样本方差来代替根据总体的分布及其数学性质加以推算比率的方差可以用最大值来代替,3、总体方差近似值的取值方法,确定样本容量的注意事项,第四节抽样设计,二、抽样组织设计,2、分层抽样又叫分类抽样或类型抽样。

它是按与调查目的有关的某个主要标志将总体划分为若干层（或类），然后从各层中按随机原则分别抽取一定数目的单位构成样本。

特点：

通过划类分层，增大了各类型中单位间的共同性，容易抽出具有代表性的调查样本。

适用于总体情况复杂、各单位之间差异较大、单位较多的情况。

等比例分层抽样不考虑各组标志变异程度，从各组当中按同一比例抽取样本单位不等比例分层抽样按各组标志变异程度大小来确定抽样单位数的多少，标志变异度大的类型组多抽一些，变异度小的少抽一些，不规定统一的抽样比,分层抽样的分类,实际工作中，由于事先很难了解各组标志变异程度，因此多采用等比例分层抽样方法,分层抽样的样本指标和抽样平均误差,1.样本指标,样本平均数,式中：

为样本各组平均数；为样本各组成数；为样本各组单位数。

样本成数,分层抽样的样本指标和抽样平均误差,2.抽样平均误差,样本平均数的抽样平均误差,重复抽样,不重复抽样,式中：

为总体各组组内方差的平均值,分层抽样的样本指标和抽样平均误差,2.抽样平均误差,样本成数的抽样平均误差,重复抽样,不重复抽样,式中：

为总体各组是非标志方差的平均数,在分层抽样方式下，因为是每组都抽取样本单位，所以对于各组来说，可以看成全面调查，没有抽样误差。

因此分层抽样方式下，组间方差不影响抽样误差，只有各组组内方差影响抽样误差。

由抽样平均误差公式和上式可知，对于给定的总体，方差（即总方差）是一定的，划分层时应尽量增大层间差异，缩小层内差异。

这是分层抽样法成功的关键。

【例】将某地区住户按城市，农村分为两组，采用不重复抽样抽取1000户，调查电话拥有率，资料如表所示。

试以95.45的可能性估计该地区住户电话拥有率。

某地区住户有限电视拥有率抽样调查表,解：

计算样本成数,计算样本方差,计算抽样平均误差,计算抽样极限误差,由F（z）=95.45%，得z=2,确定置信区间,分层抽样样本容量的确定,1、估计平均数的样本容量,重复抽样时,不重复抽样时,2、估计成数的样本容量,重复抽样时,不重复抽样时,第四节抽样设计,二、抽样组织设计,3、等距抽样等距抽样又叫机械抽样或系统抽样。

它是先将总体单位按某一标志排队，然后按固定的顺序和间隔来抽取样本单位。

特点：

抽取方式简单、容易实施，抽出的单位在总体中是均匀分布的，样本代表性较大，抽样误差较小。

均为不重复抽样。

实际工作中应用较多，如我国城乡居民收支调查等,等距抽样的实施步骤,按照某种顺序给总体中个体排列编号，然后从某个随机位置开始每隔一定号数抽取一个个体，直至抽够。

抽样间隔=总体单位数/样本单位数,例如：

要从500件产品中抽取10件，则间隔为50,等距抽样按照排队时所依据的标志不同，可分为按无关标志排队和按有关标志排队。

按无关标志排队，其抽样效果相当于简单随机抽样；按有关标志排队，其抽样效果相当于分层抽样。

第四节抽样设计,二、抽样组织设计,4、整群抽样将研究对象的总体划分为若干群，然后按随机原则从中成群地抽取样本单位，对抽中的群进行全面调查的一种抽样方法。

特点：

调查单位比较集中，调查方便，但调查单位在总体中的分布不均匀，其样本代表性较差。

均为不重复抽样。

在群间差异性不大或者不适宜单个地抽选调查样本的情况下，可采用这种方式。

整群抽样的样本指标和抽样平均误差,1.样本指标,样本平均数,式中：

为样本各群平均数；为样本各群成数；为样本群数。

样本成数,分层抽样的样本指标和抽样平均误差,2.抽样平均误差,式中：

为总体群数；为总体平均数或成数的群间方差。

估计平均数时,估计成数时,【例】对某机床连续加工的零件，在白天12小时内，每小时检查最后10分钟产生的全部零件，测得资料如表所示。

试以95的可靠性估计白天生产的全部零件的平均长度和合格率。

对某机床加工零件抽样调查表,解：

计算样本成数,

（1）估计总体平均数,计算样本方差,计算抽样平均误差,计算抽样极限误差,由F（z）=95.45%，得z=1.96,确定置信区间,计算样本成数,

（2）估计总体成数,计算样本方差,计算抽样平均误差,计算抽样极限误差,由F（z）=95.45%，得z=1.96,确定置信区间,准确性检查是以抽样方案要求的允许误差为标准，用已掌握的资料检查其在一定概率保证程度下，实际的极限误差是否超过了允许误差的要求，即要求极限误差小于或等于允许误差。

代表性检查是将抽样方案中的样本指标，与过去已掌握的总体相应指标进行对比，视其比率是否合乎要求。

通常这一比率不得超过3%5%，否则即表示代表性不足。

抽样方案的检查,结束,THANKS,

展开阅读全文

七 抽样调查.pptx

七抽样调查.pptx