抽样设计1-抽样方案、总体和样本.pptx
《抽样设计1-抽样方案、总体和样本.pptx》由会员分享,可在线阅读,更多相关《抽样设计1-抽样方案、总体和样本.pptx(31页珍藏版)》请在冰豆网上搜索。
第三部分抽样设计,这是一个很著名的例子。
1936年,美国总统选举前夕,两家民意测验机构就谁将当选总统进行民意调查。
调查结果是:
共和党候选人Landon将以压倒多数的票数当选总统。
文学文摘杂志耗资50万,发放1000万份问卷,回收200万份。
盖洛普(Gallup)美国舆论研究所抽了3000个选民,预测结果是:
先来看一个例子!
调查结果是:
Roosevelt的得票率为54,当选为总统!
文学文摘失败的主要原因是:
他们按照电话簿发放问卷,而当时安装了电话的都是比较富有的人,因此,他们所调查的结果仅代表了比较富有的人的意见,样本缺乏代表性。
由这个例子可以看出,科学地设计抽样方法很重要!
3.1抽样方案设计,从一定总体抽取样本资料以前,预先确定抽样程序和方案,在保证所抽选的样本对总体有充分代表性的前提下,力求取得最经济最有效的结果。
抽样方案设计,抽样方案设计的内容与步骤,3.2总体与样本,1、总体(Population),定义:
研究对象的全体分类:
有限总体和无限总体元素的特点:
(1)在抽样调查中一般考虑有限总体,即元素个数有限
(2)个体均可识别,2、总体的目标量总和。
如:
全国人口总数均值。
如:
全校学生每月的平均支出比例:
具有某种特性的单元在总体中占的比例。
如:
对我校本科毕业生就业前景感到乐观的同学的比例。
方差:
总体中元素之间的变异程度。
如:
我校08级全体本科生的英语水平的变异程度。
3、总体的表示形式分类描述,3、总体的表示形式分布描述,彩电的彩色浓度是彩电质量好坏的一个重要指标,它可用一个实数表示。
二十世纪七十年代在美国销售的SONY牌彩电有两个产地:
美国和日本,两地的工厂是按同一设计方案和相同的生产线生产同一牌号SONY彩电,连使用说明书和检验合格的标准也是一样的。
关于彩色浓度X的标准是:
目标值为m,公差为5,即当X在m-5,m+5内该彩电的彩色浓度合格,否则不合格。
例:
彩电之间的区别,3、总体的表示形式分布描述,在七十年代后期,美国消费者购买日本产SONY彩电的热情高于购买美国产SONY彩电,原因何在?
两种彩电彩色浓度的分布不同。
日产SONY彩电的彩色浓度服从正态分布N(m,25/9)美产SONY彩电的彩色浓度服从均匀分布U(m-5,m+5),例:
彩电之间的区别,3、总体的表示形式分布描述,例:
彩电之间的区别,各等级彩电的比例(%),4、抽样单元(samplingunit),定义:
把总体按实际情况划分成若干小部分抽取,这就是抽样单元。
这些单元应互不重叠且能合成总体。
抽样单元不一定是组成总体的最小单元。
抽样单元还有大小之分,一个大的抽样单元可以分成一些小的抽样单元。
样本(sample):
按一定的程序从总体中抽取的一组抽样单元。
样本容量(samplingsize):
样本中包含的抽样单元个数。
5、样本(sample),5、样本(sample),人们从总体中抽取样本是为了认识总体,即从样本推断总体,为了使此种推断有所依据、推断结果有效,对样本的抽取应有所要求。
满足下面两个条件的样本称为简单随机样本,简称样本:
(1)随机性:
总体中每个个体有相同的机会被选入样本;
(2)独立性:
从总体中抽取的每个样品对其他样本的抽取没有影响。
对无限总体,独立性容易实现,对有限总体,只要总体所含个体数很大,特别是与样本量相比很大,则独立性也可基本得到满足。
据彭博社2005年12月3日报道,美国时代杂志进行的民意调查显示,受伊拉克战争和一系列国内问题影响,美国总统布什的支持率近期一直在低谷徘徊。
53的美国人不满意布什的工作表现,而在伊拉克问题上,更是有60的美国人对布什不满。
布什在伊拉克政策等领域的糟糕表现引发美国“民心思变”,高达60的美国人希望白宫的下一位主人,在类型上要与布什完全相反。
时代的这项民调是在11月29日至12月1日进行的,共对全美各地1004名成年人进行了电话采访,误差率在正负3个百分点。
例:
伊拉克政策让布什支持率坠入谷底,总体:
全体美国人,美国人口约24951.1万,总体中有24951.1万个个体;样本:
1004人,样本容量为1004。
“误差率在3%之内”的精确含意是,“误差率在3%之内的可能性为95%”。
随机调查1004人(样本容量)就是根据这个精度要求而计算出来的。
例:
伊拉克政策让布什支持率坠入谷底,好样本和坏样本,样本容量的大小显然会影响到样本作为总体的代表的可信程度,抽取样本的目的是要由样本的数量特征去推断总体的数量特征,由于样本具有随机性(在样本中包含那些个体,不包含那些个体是不确定的),用样本特征推断总体特征总是会有一定的误差。
如何科学地从总体中抽取样本,怎样控制用样本推断总体所产生的误差,这是统计学的主要研究问题。
但研究的前提是:
我们首先应保证样本是好的!
在实践中,得到随机样本不容易。
很多搞调查的人就采取简单的办法,这就产生了各种各样的样本,也就有了好样本和坏样本之分。
好样本和坏样本,继续总统预测的例子。
从常理来看,应该调查数据越多,结论越可靠。
但这得以好样本为前提!
罗斯福的实际得票率为54%,文学摘要杂志的预测为43%,误差达到11%。
误差之大令人惊异。
这样大的误差是怎么得来的呢?
好样本和坏样本,问题之一:
抽样总体与目标总体不一致经过研究发现,原因在于文学摘要杂志选取样本有偏性。
杂志是根据电话簿和俱乐部会员的名册,将问卷邮寄给一千万人。
当时美国四个家庭中仅有一家装电话。
他选取的样本有排斥穷人的选择偏性。
这样的民意测验非常不利于民主党人罗斯福。
好样本和坏样本,许多方便样本中都存在抽样总体与目标总体不一致的问题!
1、电话调查中:
以上海市民对建设沪杭磁悬浮高速列车的观点的调查为例,若按照随机选出的电话号码进行调查,这样肯定节省时间和资源,但这样得到的就不是一个随机样本了。
如果按照随机选择的数字(无论号码本上有没有)打电话,那很多电话是空号或单位电话,显然这种样本也不是随机样本,它称为方便样本。
好样本和坏样本,2、其他问题中,也有使用方便样本的情况。
比如在肺癌研究中,人们往往看到吸烟和肺癌的关系的数据,这些数据并不是整个人群中采集的随机样本,它们可能只是医院中的病人记录中得到的。
在杂志和报纸上也有问卷,但得到的只是拥有这份报刊,而且愿意回答的人的观点。
好样本和坏样本,问题之二:
可能存在不回答偏性文学摘要杂志调查的一千万人中只有二百四十万人回答了问卷,不回答者可能非常有别于回答者,这二百四十万人代表不了被邮寄问卷的一千万人。
譬如,1936年文学摘要杂志的一次专门的调查,给在芝加哥的选民每三人寄去一张问卷。
约20%的被调查者作了回答,其中支持兰登的超过半数。
但是在选举中,兰登在芝加哥的得票率只有三分之一。
所以当出现高不回答率时,谨防不回答偏性。
好样本和坏样本,在调查中,即使选择对象的确是随机的,最理想的情况所得到的样本也只代表那些愿意回答问题人的观点所组成的总体,没有回答问题的人的观点永远不会被这种调查的样本所代表。
心理研究表明,低收入和高收入的人倾向于不回答问卷,因此中等收入的人在回答者中的比例过高。
为此现代调查机构更喜欢采用亲自询问来代替邮寄问卷。
好样本和坏样本,即使亲自询问,也有不回答偏性的问题。
访问员来访时,不在家的人与在家接受访问的人可能在工作时间、家庭关系和社会背景等方面有比较大的差异,从而看法也不一样。
例如有一项关于快餐的市场调查。
抽取500户家庭进行调查。
白天访问时,有150户家庭没人。
能不能仅用白天有人的350户家庭的数据?
不能。
这里有不回答偏性。
白天不在家的150户可能是吃快餐比较多的家庭。
好样本和坏样本,问题之三:
对目标总体缺乏了解文学摘要不了解其目标总体,没有考虑到安装电话与未安装电话的居民的特征,导致样本不具代表性。
好样本和坏样本,盖洛普也失误过!
1948年盖洛普的民意调查预测共和党候选人杜威将战胜民主党候选人杜鲁门,而选举结果正好相反。
样本出现了偏差!
当时城市居民倾向于投民主党的票,农名倾向于投共和党的票。
第二次世界大战后,美国大量人口从农村流向城市。
而盖洛普对人口总体的认识却仍停留在1940年的状况,因而样本中农民的比例过大,造成了对共和党得票人数过高的估计。
好样本和坏样本,样本质量不好的原因通常有如下几种原因:
登记性误差(低级误差);人为干扰(官出数字,数字出官-恶劣可恶,统计法);代表性误差(代表性不强-数据正确,但它不能说明问题);设计不合理(方便样本)。
课堂讨论,某地电视台想了解某电视栏目在该地区的收视率情况,于是委托某市场咨询公司进行一次电话访查。
该项研究的总体是什么?
该项研究的样本是什么?
课堂讨论,某公司质量保证部负责维护公司大批产品的质量,以保证生产的持续进行。
列出质保部需要收集的一些信息。
为什么质保部会倾向采用抽样的方法?
总体是什么?
若采用抽样方法,样本是什么?
课堂讨论,为了了解统计学专业本科毕业生的就业情况,我们调查了某地区30名2000年毕业的统计学专业本科生实习期满后的月薪情况。
什么是总体?
什么是样本?