抽样介绍.pptx

上传人:j*** 文档编号:30846369 上传时间:2024-02-03 格式:PPTX 页数:47 大小:1.10MB
下载 相关 举报
抽样介绍.pptx_第1页
第1页 / 共47页
抽样介绍.pptx_第2页
第2页 / 共47页
抽样介绍.pptx_第3页
第3页 / 共47页
抽样介绍.pptx_第4页
第4页 / 共47页
抽样介绍.pptx_第5页
第5页 / 共47页
点击查看更多>>
下载资源
资源描述

抽样介绍.pptx

《抽样介绍.pptx》由会员分享,可在线阅读,更多相关《抽样介绍.pptx(47页珍藏版)》请在冰豆网上搜索。

抽样介绍.pptx

LiWei2006年10月社会调查中的抽样方法社会研究方法社会研究方法中社科院社究所国会学会学研仅供教学使用。

未经本人书面许可,其它任何机构不得擅自传阅、引用或复制。

1LiWei主要内容n抽样概说n抽的基本念样概n抽的基本流程样调查n本量算样计2LiWei抽样是量化研究中选择访问对象的关键技术手段,它的作用是通过有代表性的样本来推断全体研究对象的信息本样体总3LiWei和普查相比,抽样调查的优势是易于质量控制和有效率,因而获得信息的“性价比”更高易于量控制质高量的质访员格的流程严效率周期短时间用相低费对抽样调查4LiWei这主要得益于抽样调查对“调查误差”有较好的控制调查统计值测量非抽样误差代表性抽样误差念构量测答应答校正应目体标总抽框样本样被人访本校正样5LiWei一个例证:

普查由于控制难度大,所产生的潜在的误差可能更大我每年由局行一次千分之一的人口抽,每国统计进样调查10年行一次进全人口普。

国查2000年全第国5次人口普用了上百万人力,十金,半年。

查动数亿资历时其果是全人口结国12.4,竟比亿1999年的千分之一人口抽少了样调查0.3,也不符合年的人口增!

亿历来长趋势其原因之一是普流程有得到良好的控制:

部分地少、人口查没区报瞒报;培不,有按要求行入。

调查员训当没进户访问“五普”的人口据因此推了半年才公布于世,而其最果根据数迟终结1999年千分之一抽果行了整。

样调查结进调6LiWei抽样的基本假定:

体性:

体成体,体是体的集合个个构总总个同性:

本体的相同构样与总结构差性:

体之存在差异个间异7LiWei主要内容n抽样概说n抽的基本念样概n抽的基本流程样调查n本量算样计8LiWei抽样调查的基本模式是:

从总体中随机选取样本,再以样本统计结果推断总体信息体总:

所有的究象。

比如研对,北京市城的镇650万在人业口本样:

体中取的有代从总选表性的部分体。

比如在个从人口中抽取的业2000人构成一本个样推体断总本中公有机就率样构职为21%本量样统计:

实际650万在人口中就业职于公有机的比例构为25%体总参数:

抽样9LiWei影响样本推断总体的关键在于两类误差北京市城镇在业人员公有机构就职率本:

样2000人体:

总650万人21%25%4%抽差:

样误生的差设计环节产误n体中体的差程度总个异n本量样n抽方法样非抽差:

样误操作生的差环节产误n卷程度问复杂n量访员质n被人配合程度访n流程控制访问n据入准确性数编码录n据用数运/解的正确性释差调查总误抽差可以事先估算其大小样误非抽差无法估样误则计10LiWei降低误差依赖于合理的抽样设计和严格的流程控制据理数处量核质审访问培训卷问设计非抽样误差合适的选择方式访问合适的选择抽方法样加大本量样抽样误差11LiWei样本可以推断总体的基本原理抽样分布本什可样为么以推体?

断总一人口从个数为N的体中机抽总随取n人,根据排列合原理,可以组得到量多的本。

数众样些所有的可能本,这样称为全部样本集合。

我在一次中的抽,是全们调查样仅部本集合中的一。

样个A:

800B:

1000C:

840D:

700E:

750F:

950总体A:

800B:

1000C:

840D:

700E:

750F:

950B:

1000C:

840F:

950A:

800B:

1000D:

7001232012MicrosoftExcel工作表LiWei样本可以推断总体的基本原理抽样分布本什可样为么以推体?

断总把每一可能本的平均,看成个样数一点,集起便形成了个汇来“样本平均数的抽样分布”。

“样本平均数的抽样分布”是正分态布。

根据正分布的原理,的平态它均数(即所有可能本的平均样数的平均),就恰好等于体的平数总均;的方差就是体方数它总差的(1-n/N)/n倍。

总体13Y1840syCu=840NYYi13400)(22NYYSi2ys2S2221()

(1)2233ysnSyCNnsu-=-=LiWei样本可以推断总体的基本原理抽样分布根据正分布的原态理,90%的可能样本的平均数在抽样分布中心的1.65个标准差之内;95%的可能样本的平均数在1.96个标准差之内。

68%的本平均在样数1个标准差之内95%的本平均在样数1.96个标准差之内本什可样为么以推体?

断总90%的本平均在样数1.65个标准差之内=840,S=4714LiWei样本可以推断总体的基本原理抽样分布据此,我就可以们用某次的本调查样,推体的来断总统!

计值本什可样为么以推体?

断总15780,47sys=681Ssyu%有的可能在的范围内901.65Ssyu有的可在%能的范围内951.96Ssyu有的可在%能的范围内LiWei主要内容n抽样概说n抽的基本念样概n抽的基本流程样调查n本量算样计16LiWei界定总体抽样设计产生抽样框实施抽样和访问数据分析主要事项研究对象类型界定研究总体抽样方式访问方式样本量*不同访问方式的抽样框多级抽样的抽样技术数据录入数据加权合并*数据统计在具体调研中,抽样调查通常遵循如下的流程:

推断总体来源、时效、范围*本量、加作一样权单独节界定调查总体17LiWei界定总体:

确定研究对象的类型n究象的型研对类人个居民生学用户界定体总组织/机构家庭校学公司事物票据广告案档的象不限于人口,可以是机,甚至是物品。

调查对并构涉及的象型越多,就越。

调查对类调查复杂18LiWei界定总体:

界定研究总体和调查总体界定体总研究总体:

中国境内成年人调查总体:

中国境内(不包括台湾、香港、澳门)于2006年7月1日年满18周岁,居住在非机构设施内(即居住在住户内)的公民。

究体是究象的集合,是理想的界定。

体是究的研总研对总调查总对研总操作化界定,定了象的具体指。

规调查对选择标究体和体吻合度越高,的代表性就越好;否生覆研总调查总调查则会产盖差。

误19LiWei抽样方式分为随机抽样与非随机抽样两大类机抽随样非机抽随样机抽简单随样等距抽样整群抽样分抽层样便利抽样判抽断样配抽额样雪球抽滚样抽样抽方式样20LiWei机抽随样非机抽随样入选概率事先可知根据抽样框抽样特征主要优/缺点入选概率事先无法得知不根据抽样框抽样精确、代表性高(可推断总体)设计复杂,对抽样资料要求高控制难度大,操作上执行难度大费用高样本代表性不足样本更有针对性设计相对简单快速、易于操作费用较低需要精确测算调查对象的规模、份额、评估指标的调查需要代表性的调查用合应场不必关注代表性,而侧重典型人群的比较分析的研究随机抽样无法完成的调查需要时效性的调查随机抽样强调样本的代表性,非随机抽样侧重典型人群的针对性,要根据研究目的取舍或平衡二者抽方式样21LiWei随机抽样中,简单随机方法是代表性最强的随机抽样简单随机抽样n明:

每一体都等率入说个概选n适用件:

体差不大,分布均条个异匀n点:

精度高,代表性强优n缺点:

不适于体差大的情;体目大个异况总数以制作抽名时难样单n工具:

抽、机表签抓阄随乱数n用:

机抽是一切率抽的基,但很在大模中用。

应简单随样概样础难规调查单独运因要先制作一包含了体中所有成的名,一工作十分繁,成本巨为预个总员单这复大。

子信息技的引入,使得机抽用便起。

在可以用电术简单随样应简来现电脑简机抽生本,通单随样产样过电话/Email行。

进访问抽方式样22LiWei等距抽样是最为简便的随机抽样方法随机抽样等距抽样n用:

等距抽的用最普遍,因,便于掌握。

入应样应为为它规则简单访问员户访中,常采用隔若干敲的方式;位上中,也常利用工问经户门访问单门访问经职花名等距抽。

册间样n明:

体中的所有体依序排列而后以等说将总个距的方法抽取若干体间个n适用件:

同性高条质较n点:

操作便,分布均优简匀n缺点:

抽名存在循特征,生序样单环时会产顺偏;性精度差;体目大以制误异质时总数时难作抽名样单抽方式样23LiWei分层抽样是保证各类特殊群体都能被抽中的方法,技术要求较高随机抽样分层抽样n明:

体按照某特征分成若干(子说将总个层总体),在每中机抽取若干体成子本,层随个为样而后子本合本将样拚为总样n适用件:

性大,性小条层间异质层内异质n点:

优本代表性更高;保了不易抽中但样证又有特殊意的群体的入义选n缺点:

技上,往往需要事后加术较为复杂权n用:

分抽也在社中常使用,通常的考是了提高本的代表应层样会调研经虑为样性。

比如全抽,常要分“中西”域;做群体,要考国样时经划东区职业调查时虑不同的人群(特是如私主小比例的人群)各占一定比例。

都是职业别营业这样了保不同型的地为证类区/人群都有入的率。

选概抽方式样24LiWei整群抽样是能够化繁为简的抽样方式,但要冒代表性不足的风险n随机抽样整群抽样n特点:

体按照某准分成若干子体,将总个标总而后机抽取若干子体,抽中子体中所随总将总有体作象个为调查对n适用件:

群性小,群性大条间异质内异质n点:

优通更抽位而使便易行过变样单调查简,省用和节费时间n缺点:

精度低、差大误,代表性差n用:

整群抽最得机偏,因可以省制做大量的抽名的应样调查构爱为它节样单财力和。

在多段抽,特是地抽中,有用。

比如在北京地作时间阶样别区样极为区人口,采用整群抽的方法,在调查样8城近郊中抽取若个区3、4(比如个区海淀、城、宣武、石景山),而其他未抽中的就不做了。

东区调查抽方式样25LiWei便利抽样因其简便易行而被广泛采用n特点:

根据者便利的件行抽调查认为访问条来进。

通常用在街、商等公共所行的截样头场场进拦调查n适用件:

象占人群比例高;条调查对较问题较简单n点:

优易、快速、易于控制简n缺点:

本偏差大;以避免的主样选择较难访问员观选择n用:

便利抽在市中用十分普遍。

在公共所象甄、应样场调研应场对调查对别抽、都几乎不生用,被人也易于合作。

但要注意的是,抽样访问发费访这种方式往往无法包括未出在合的人群;另外,如果象在人样现该调查场调查对群中的比例低,甄出他度相大。

过选们难当非随机抽样便利抽样抽方式样26LiWei判断抽样常用来研究有重要意义的典型人群n特点:

根据者的主判有代表性调查观断来选择认为的本样n适用件:

典型人群行究条对进研n点:

优易于快速地和求答案发现问题寻n缺点:

典型人群的答案可能重要但不具普遍性非随机抽样判断抽样n用:

判抽主要用以究那些典型型的被人,在群座中常用到此应断样研类访组谈会经类的方法。

比如保行究潜在用的机型,就被人分蓄、增险业研户购买寿险动类将访为储、保障、救急若干机型,分各机突出者用群座的方式做究,值动类别选类动组谈会研就是采用判抽的方法。

断样n无法接到所有究象的候也往往用判抽的方法。

比如究系冲突当触研对时断样研劳动关中的工人,很做格的抽,就可以用判抽的方法用解、仲裁或难严样断样来劳动调诉讼案例中的工人替代之。

抽方式样27LiWei配额抽样是非随机抽样方法中代表性相对最好的非随机抽样配额抽样n特点:

根据已知的体人群的特征比例,配置出本总样人群的比例,行抽。

结构进样n适用件:

体的主要特征有足的信息,且易条对总够并于操作n点:

在最大程度上克服了非率抽代表性不足的优概样缺陷n缺点:

只能用少几指行配数个标进额n用:

大部分的非率抽都或多或少采用配的方法,可以本应概样会额这样对样构成有所控制,使之体接近。

比如在街截,是男性被人的比与总头拦调查时总访例高,就可以采用配的方式,回答者性过额让别为1:

1。

n有了不同型的群体行比,也需要用配抽以到可供分析的时为对类进较额样达样本量。

抽方式样28MicrosoftExcel工作表LiWei滚雪球的方法多用来调查难以接触的被访人非随机抽样滚雪球抽样n特点:

利用被人的人系邀更多的被人访际关来约访n适用件:

敏感、被人以接的条问题访难触调查n点:

被人合作程度高优访n缺点:

本可能比似样会较类n用:

由于人系的介入,雪球的抽方式往往能在者和被人之建应际关滚样调查访间立好的合作系,特适宜于密性的。

如究吸毒者群体,就可以较关别隐话题访问研先一相熟的吸毒者着手,而后通他介,更多的象。

从两个过们绍结识访问对抽方式样29LiWei具体研究中经常采用多阶段、多类型的综合抽样方法抽段样阶抽位样单抽方法样抽指样标/工具第1级城市分层抽样HDI指数分层第2级拥有电话的家庭户简单随机抽样RDD第3级被访人简单随机抽样最近生日法全国城市居民环境意识调查(电话访问)3阶段混合抽样抽方式样30LiWei具体研究中经常采用多阶段、多类型的综合抽样方法抽段样阶抽位样单抽方法样抽指样标/工具第1级县/市/区分层抽样HDI指数分层第2级乡/镇/街道整群抽样PPS第3级居/村委会整群抽样PPS第4级被访家庭等距抽样第5级被访人简单随机抽样KISH表全国社会综合状况调查(入户访问)5阶段混合抽样抽方式样31LiWei访问方式也对抽样的设计有很大的影响简单随机抽样等距抽样分层抽样整群抽样便利抽样判断抽样配额抽样入户面访街头/中心场所拦访电话访问邮寄问卷访问网上调查易于采用不易采用一般不确定抽方式样32LiWei抽样单位和抽样框是抽样操作依据的名单,是和研究的总体相对应的一抽位:

城市级样单城市抽框:

样-全所有城市名国单二抽位:

居委级样单会/街区居委抽框:

会样-抽中城市所有居委会名单-抽中城市所有街区清单三抽位:

住级样单户住抽框:

户样-抽中居委中所有住会名户单-抽中街中所有牌区门编号清单制作抽框要注意以下几:

样个问题n抽框料的源:

样资来自一机。

威部来哪类构权门资料更有价值不同源的料的差来资异n抽框料的效:

离点样资时调查时越近越好n抽框料的覆盖范:

可能样资围尽地覆盖全部究的象,不要研对遗漏,也不要重复生抽框产样33MicrosoftExcel工作表LiWei不同的调查方式常使用不同的抽样框生抽框产样入户访问地域图籍名户单电话访问电话号码邮寄问卷访问地址邮递Email地址34LiWei实施抽样时,每一阶段会采用特定的抽样技术施抽实样初级抽样单位(如市县)多指标聚类的分层抽样了保初抽位的代表性,通常不直接采用为证级样单简单随机抽的方法,而是利用各指,用聚技,样种统计标类术将初抽位分不同的型()。

然后在每一型级样单划为类层类()中抽取相的市。

层应县35MicrosoftExcel工作表LiWei实施抽样时,每一阶段会采用特定的抽样技术施抽实样居委会人数百分比累积百分比等距抽样粉丝胡同339016.9816.98禄米仓胡同311216.1733.1533.15红星胡同188715.5448.69外交部街188113.3862.06干面胡同107210.5872.65南小街第二98010.0882.72南小街第三4889.4392.1683.15南小街第一4597.84100.00总计100.00制作抽样框将名单按用户数降序排列计算累计百分比按累计百分比等距抽样计算抽样间距用机方法找随寻一起点个示例:

根据一个居委会抽样框用PPS的方法抽取2个居委会抽距样间=100%/2=50%33.15%+50%=83.15%,抽取的第2居委个会2级抽样单位(如乡镇街道或居/村委会)PPS的整群抽样36LiWei实施抽样时,每一阶段会采用特定的抽样技术施抽实样3级抽样单位(如家庭户)根据地址、家庭名册的等距抽样居/村委的家庭抽,首先要制作的家庭名作抽框,会样详细册为样如果无法得到有效的名,要行地的地址登,或制街册则进实记绘区。

然后抽框行等距抽。

图对样进样37MicrosoftExcel工作表LiWei实施抽样时,每一阶段会采用特定的抽样技术施抽实样4级抽样单位(如家庭成员)利用随机选样表的简单随机抽样入后的抽机技大致有:

户样随选样术n最近生日法n性年平衡表别龄nKISH表选样38MicrosoftWord文档LiWei在调查数据汇总阶段,往往还需要对抽样结果进行加权在下列的情下,本据一定要行事后的加:

况样数进权n在抽,人地定了不同群体入率不相等样设计时为设选概(如分抽)层样n在中由于操作原因,致率的不同,因而调查导选样概产生了大的本偏差(如周期、入、本更较样访问户时间样)换39LiWei加权就是依据已有的总体统计数据来校正样本样本分布总体指标权重值加权后分布和总体相比性别男52.450.90.9717151.50.6女47.649.11.0311248.5-0.6年龄16-205.411.12.0705510.5-0.621-3014.121.91.5500223.51.631-4025.126.31.0481128.42.141-5023.819.00.797219.20.251-6017.612.80.7265811.8-1.061-7014.08.90.63726.5-2.440LiWei主要内容n抽样概说n抽的基本念样概n抽的基本流程样调查n本量算样计41LiWei并非样本量越大,代表性就越好;也并非大的总体就应该有大的样本本量的大小和体的模有系?

样总规关吗常有的判:

“全的本量比只做一城市会这样误国样应该个调的本量大得多”。

其非如此。

本代表性的角度查样实并从样看,本量到一定模,代表性就几乎到了点,再当样达规时极加大本量就有意了无体的模多大。

样没义论总规么然,全的本量比一城市的本量大一些,但当国调查样会单样不是全人口多的故,只是因要考地域差加大了这国缘为虑异样本量大到一定程度,代表性的提高就微乎其微了42代表性8385878991939597991020305010015020025030035040045050055060065070075080085090095010001050样本量%LiWei样本量的设计要权衡研究目的、时间和预算三类因素n研究目的:

代表性:

只侧重总体代表性,1000出头的样本量就相当不错了;若侧重子总体的代表性,则样本量一定会增大群体比较:

要进行比较的群体越多,样本量就越大。

一般而言每一个比较群体的样本量不低于30-50发生率:

发生率较低的群体,随机样本量要大,否则要采用分层或配额的方法分析方法:

进行多元统计分析,往往要更大的样本量n调查时间:

周期短则样本量不宜过大,否则完不成现场工作n调查预算:

样本量与预算呈正比43LiWei因此我们追求的是样本量的效度最大化,而不一定是大样本仅从技术的调度而言,样本量的计算取决于:

1.调查对象的差异程度。

差异越大,样本量应该越大。

在统计学中,“差异”是用总体方差来表示的。

如果是比例型的差异,通常用P(1-P)代替。

2.所期望的误差范围,或样本代表性的精度。

样本推断总体的误差越小,样本量应该越大。

“误差”在统计学中用表示。

3.由样本推断总体的把握程度。

把握程度越高,样本量应该越大。

代表了置信度的大小。

N=2Z222ZN=2Z2p(1-p)算:

北京市社本量。

计会阶层调查样抽差设样误为3%,置信度为95%(Z=1.96),体最大方差总为50%*50%(即0.25),本量样N=1067,取近似值1050。

每城市本量样为1050/3=35044LiWei定性/定量15-30人无法估计本量样用合应场精度统计*主要缺点从少数被访者处可以得到有指导性的信息时结果解释太随意快速对避免方向性错误很有帮助主要点优最小定量30-80人12-18%要对一个比较清晰的目标群体验证少量的判断时不能做人群比较易于获得最主要的反响典型的定量100-400人10-5%要测量一个同质性人群对大量变量的反应时时间花费较长适宜专题性、行业性研究群体比较400-1000人或更多5-3%要对异质人群作不同区分并在多个变量上加以比较时时间、费用较高可以精确推断总体;有利于高级分析*指在置信度为95%条件下的统计精度根据以上原理,样本量在不同研究中大致有一定规律45LiWei示例:

2001年中社全抽明国会阶层调查国样说46MicrosoftWord文档LiWei!

谢谢47

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 简历

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1