抽样技术课后习题参考答案金勇进.docx
《抽样技术课后习题参考答案金勇进.docx》由会员分享,可在线阅读,更多相关《抽样技术课后习题参考答案金勇进.docx(16页珍藏版)》请在冰豆网上搜索。
![抽样技术课后习题参考答案金勇进.docx](https://file1.bdocx.com/fileroot1/2023-1/30/6edfbd43-9973-4ee8-a37b-0dc58daf319a/6edfbd43-9973-4ee8-a37b-0dc58daf319a1.gif)
抽样技术课后习题参考答案金勇进
资料范本
本资料为word版本,可以直接编辑和打印,感谢您的下载
抽样技术课后习题_参考答案_金勇进
地点:
__________________
时间:
__________________
说明:
本资料适用于约定双方经过谈判,协商而共同承认,共同遵守的责任与义务,仅供参考,文档可直接下载或修改,不需要的部分可直接删除,使用时请详细阅读内容
第二章习题
2.1判断下列抽样方法是否是等概的:
总体编号1~64,在0~99中产生随机数r,若r=0或r>64则舍弃重抽。
总体编号1~64,在0~99中产生随机数r,r处以64的余数作为抽中的数,若余数为0则抽中64.
总体20000~21000,从1~1000中产生随机数r。
然后用r+19999作为被抽选的数。
解析:
等概抽样属于概率抽样,概率抽样具有一些几个特点:
第一,按照一定的概率以随机原则抽取样本。
第二,每个单元被抽中的概率是已知的,或者是可以计算的。
第三,当用样本对总体目标进行估计时,要考虑到该样本被抽中的概率。
因此
(1)中只有1~64是可能被抽中的,故不是等概的。
(2)不是等概的【原因】(3)是等概的。
2.2抽样理论和数理统计中关于样本均值的定义和性质有哪些不同?
解析:
抽样理论和数理统计中关于样本均值的定义和性质的不同
2.3为了合理调配电力资源,某市欲了解50000户居民的日用电量,从中简单随机抽取了300户进行,现得到其日用电平均值9.5(千瓦时),206.试估计该市居民用电量的95%置信区间。
如果希望相对误差限不超过10%,则样本量至少应为多少?
解:
由已知可得,N=50000,n=300,,
该市居民用电量的95%置信区间为
[=[475000±1.96*41308.19]
即为(394035.95,555964.05)
由相对误差公式≤10%
可得
即n≥862
欲使相对误差限不超过10%,则样本量至少应为862
2.4某大学10000名本科生,现欲估计爱暑假期间参加了各类英语培训的学生所占的比例。
随机抽取了两百名学生进行调查,得到P=0.35,是估计该大学所有本科生中暑假参加培训班的比例的95%置信区间。
解析:
由已知得:
又有:
该大学所有本科学生中暑假参加培训班的比例95%的置信区间为:
代入数据计算得:
该区间为[0.2843,0.4157]
2.5研究某小区家庭用于文化方面(报刊、电视、网络、书籍等)的支出,N=200,现抽取一个容量为20的样本,调查结果列于下表:
估计该小区平均的文化支出,并给出置信水平95%的置信区间。
解析:
由已知得:
根据表中数据计算得:
该小区平均文化支出的95%置信区间为:
即是:
[132.544,156.456]
故估计该小区平均的文化支出=144.5,置信水平95%的置信区间为[132.544,156.456]。
2.6某地区350个乡为了获得粮食总产量的估计,调查了50个乡当年的粮食产量,得到=1120(吨),,据此估计该地区今年的粮食总产量,并给出置信水平95%的置信区间。
解析:
由题意知:
=1120
置信水平95%的置信区间为:
代入数据得:
置信水平95%的置信区间为:
[1079.872,1160.872]*350
2.7某次关于1000个家庭人均住房面积的调查中,委托方要求绝对误差限为2平方千米,置信水平95%,现根据以前的调查结果,认为总体方差,是确定简单随机抽样所需的样本量。
若预计有效回答率为70%,则样本量最终为多少?
解析:
简单随机抽样所需的样本量
由题意知:
代入并计算得:
故知:
简单随机抽样所需的样本量为61,若预计有效回答率为70%,则样本量最终为87
2.8某地区对本地100家化肥生产企业的尿素产量进行调查,一直去年的总产量为2135吨,抽取10个企业调查今年的产量,得到,这些企业去年的平均产量为。
试估计今年该地区化肥总产量。
解析:
由题可知,,
则,该地区化肥产量均值的比率估计量为
该地区化肥产量总值Y的比率估计量为
所以,今年该地区化肥总产量的估计值为2426吨。
2.9如果在解决习题2.5的问题时可以得到这些家庭月总支出,得到如下表:
单位:
元
全部家庭的总支出平均为1600元,利用比估计的方法估计平均文化支出,给出置信水平95%的置信区间,并比较比估计和简单估计的效率。
解析:
由题可知
又
故平均文化支出的95%的置信区间为
代入数据得(146.329±1.96*1.892)
即为[142.621,150.037]
2.10某养牛场购进了120头肉牛,购进时平均体重100千克。
现从中抽取10头,记录重量,3个月后再次测量,结果如下:
单位:
千克
用回归估计法计算120头牛现在的平均重量,计算其方差的估计,并和简单估计的结果进行比较。
解:
由题可知,
故有
所以总体均值的回归估计量为
其方差估计为:
=
=1.097
而
=
=19.454
显然
所以,回归估计的结果要优于简单估
第三单元习题答案(仅供参考)
1解:
(1)不合适
(2)不合适
(3)合适
(4)不合适
2.将800名同学平均分成8组,在每一组中抽取一名“幸运星”。
3.根据表中调查数据,经计算,可得下表:
∴Yst=1Nh=13Nhyh=20.1
V(yst)=h=1LWh2sh2nh-h=1LWhsh2N
=9.7681-0.2962
=9.4719
∴V(yst)=3.0777
(2)置信区间为95%相对误差为10%,则有
按比例分配的总量:
n=h=1LWhsh2V+NVh=1LWhsh2=185.4407≈185
∴n1=nW1=56,n2=92,n3=37
按内曼分配:
n=(h=1LWhsh2)2V+1Nh=1LWhsh2=175
∴n1=33,n2=99,n3=43
4.根据调查数据可知:
Pst=h=1LWhPh=0.924
根据各层层权Wh及抽样比fh的结果,可得
V(Pst)=1N2h=14Nh2(1-fh)pnqnnh-1=0.000396981
∴V(Pst)=1.99%
∴估计量的标准差为1.99%,比例为9.24%
按比例分配:
n=2663
∴n1=479,n2=559,n3=373,n4=240,n5=426,n6=586
内曼分配:
n=2565
∴n1=536,n2=520,n3=417,n4=304,n5=396,n6=392
5.解:
由题意,有
Y=h=1LyWn=75.79
∴购买冷冻食品的平均支出为75.79元
又由V(y)=1-fnh=1LWhsh2+1n2h=1L(1-Wh)sh2
又n=h=1Lnh/Wh
∴V(y)=53.8086
V(y)=7.3354
∴95%的置信区间为[60.63,90.95]。
7.解:
(1)对
(2)错
(3)错
(4)错
(5)对
8.解:
(1)差错率的估计值y=143×70%+257×30%=0.027
估计的方差v(y)=h=1LWh21-fhnhsh2=3.1967×10-4
标准差为S(y)=0.0179。
(2)用事后分层的公式计算差错率为y=h=1LWh(1mhi=1mhyhi)=0.03
估计的方差为;v(y)=hWh2Sh2mh-1NhWhSh2=2.5726×10-4
9.解:
(1)所有可能的样本为:
(2)用分别比估计,有r1=0.4,r2=0.65,所以用分别比估计可计算得Y=6.4。
用联合比估计,有r1=0.5,r2=0.625,所以用联合比估计可计算得Y=6.5。
第四章习题
邮局欲估计每个家庭的平均订报份数,该辖区共有4000户,划分为400个群,每群10户,现随机抽取4个群,取得资料如下表所示:
试估计平均每户家庭订报份数及总的订报份数,以及估计量的方差。
解:
由题意得到,,,
故(份)
(份)
(份)
于是由以上的计算结果得到平均每户的订报份数为1.875,估计量方差为0.00391875。
该辖区总的订阅份数为7500,估计量方差为62700。
某工业系统准备实行一项改革措施。
该系统共有87个单位,现采用整群抽样,用简单随机抽样抽取15个单位做样本,征求入选单位中每个工人对政策改革措施的意见,结果如下:
估计该系统同意这一改革人数的比例,并计算估计标准误差。
在调查的基础上对方案作了修改,拟再一次征求意见,要求估计比例的允许误差不超过8%,则应抽取多少个单位做样本?
解:
题目已知,,
1)由已知估计同意改革的比例
此估计量的标准差为
某集团的财务处共有48个抽屉,里面装有各种费用支出的票据。
财务人员欲估计办公费用支出的数额,随机抽取了其中的10个抽屉,经过清点,整理出办公费用的票据,得到下表资料:
要求以95%的置信度估计该集团办公费用总支出额度置信区间(=0.05)。
解:
已知N=48,n=10,f=,由题意得,,
则办公费用的总支出的估计为(元)
群总和均值(元)
=
=182.43590.4
=72765.44
=269.7507
则的置信度为95%的置信区间为3532.81.96269.7507,即[3004.089,4061.511].
为了便于管理,将某林区划分为386个小区域。
现采用简单随机抽样方法,从中抽出20个小区域,测量树的高度,得到如下资料:
估计整个林区树的平均高度及95%的置信区间。
解:
由已知得,,
整体的平均高度
方差估计值
标准方差
在置信度95%下,该林区的树木的平均高度的置信区间为
某高校学生会欲对全校女生拍摄过个人艺术照的比例进行调查。
全校共有女生宿舍200间,每间6人。
学生会的同学运用两阶段抽样法设计了抽样方案,从200间宿舍中抽取了10间样本宿舍,在每间样本宿舍中抽取3位同学进行访问,两个阶段的抽样都是简单随机抽样,调查结果如下表:
试估计拍摄过个人艺术照的女生比例,并给出估计的标准差。
解:
题目已知,,,,,
在置信度95%下,p的置信区间为
=
上题中,学生会对女生勤工助学月收入的一项调查中,根据以往同类问题的调查,宿舍间的标准差为=326元,宿舍内同学之间的标准差为=188元。
以一位同学进行调查来计算,调查每个宿舍的时间为1分钟,为了调查需要做各方面的准备及数据计算等工作,所花费的时间为是4小时,如果总时间控制在8小时以内,则最优的样本宿舍和样本学生是多少?
解:
由已知条件得到以下信息:
(元)(元)(分钟)(分钟)(分钟)
由此得到
,,
因而取最优的,进一步计算
由于总时间的限制,由关系式
得到
计算方程得到,因而取
则最优的样本宿舍数为20间,最优样本学生数为2。
某居委会欲了解居民健身活动情况,如果一直该居委会有500名居民,居住在10个单元中。
现先抽取4个单元,然后再样本单元中分别抽出若干居民,两个阶段的抽样都是简单随机抽样,调查了样本居民每天用于健身锻炼的时间结果如下(以10分钟为1个单位):
试估计居民平均每天用于锻炼的时间,并给出估计的标准差。
简单估计量
比率估计量
对两种估计方法及结果进行评价。
解:
(1)简单估计
=
=1650,
则,
又,
所以
分别计算
所以,
所以标准差
(2)比率估计
其中
(3)简单估计标准差,比率估计标准差
比率估计更好
第五章不等概抽样习题答案
5.1解:
分析题目可知“代码法”与“拉希里法”都是PPS抽样(放回的与规模大小成比例的不等概抽样)的实施方法,而此题需要用此两种方法进行不放回抽样,故需进一步进行改进:
即采用重抽法抽取,如果抽到重复单元,则放弃此样本单元,重新抽取,直到抽到规定的样本量且所有样本党员不重复:
代码法:
由=可假设=1000000,则M=M列成数据表为:
我们看到抽取的范围比较大,所以我们利用计算机中的随机数表来抽取,第一个随机数为444703,615432,791937,921813,738207,176266,405706935470,916904,57891按照范围我们可以知道抽取的PSU9,PSU16,PSU19,PSU24,PSU18,PSU2,PSU8PSU24PSU23PSU2,我们看到第2组和24组重复抽取了,故进行重新抽取,抽到4组和6组;
综上所述,抽取的样本为2,4,6,8,9,16,18,19,23,24组
(2)拉希里法:
M=78216,N=25,在[1,25]和[1,78216]中分别产生(n,m):
(13,38678),M=4065438678,入样;
(8,57764),M=38981<57764,舍弃,重抽;
(23,13365),M=9066<13365,舍弃,重抽;
(19,38734),M=6949238734,入样;
以此类推,当得到重复入样情况时,同上重新抽取,得到抽取结果为:
2,3,5,6,7,12,13,16,19,24组
5.2解:
由数据可得:
t==20,t,t=38,t=24,t=21;
结合t值数据,我们可以推得Z的值
Z=,Z=0.16,Z=0.32,Z=0.2,Z=0.12,
由公式
5.3解:
设:
=1,则有:
,得到下表:
先在[1,1000]中产生第一个随机数为731,再在[1,1000]里面产生第二个随机数为103,最后在[1,1000]中产生第三个随机数为982,则它们所对应的第7、1、10号单元被抽中。
5.4解:
利用汉森-赫维茨估计量对总体总值进行估计:
=20318.8
5.5解:
由题可知
=2+9+3+2+1+6=23
由得下表:
由上表显然有<1/2,于是我们可以采用布鲁尔方法:
经计算可得下表:
附注:
(2)
验证:
另外:
代入数据,经计算得到:
5.6解:
由题可计算出:
(1)
=11.5
所以有:
=10.0625
(2)
由定义有:
所以得到下表:
所以有下表:
(3)
结合题目已知条件,我们选择的包含概率与成正比:
(第i项被选中)
254.71
由以上计算结果可以看出:
,比估计在样本量很小的情况下即使是最小的方差也远比另外两种估计的方差大,而简单估计又比PPS汉森-赫维茨估计略好。
5.7解:
已知n=2m=5设公司总人数为
由于这个样本是自加权的,所以有:
(分钟)
(分钟)
所以该公司职工上班交通平均所需时间为34分钟。
(分钟)
5.8说明:
解:
由题可知:
(吨)
所以,全集团季度总运量为495299.4吨.
的一个无偏估计为:
因为 =2.306所以 =22497.8
所以置信度95%的置信区间为[472894.6,517890.2]
第6章
第2题
⑴证明:
将总体平方和按照全部可能的系统样本进行分解,可以得到
+
+
+
根据的定义,且,有
令
则有
⑵证明:
在样本量相同的情况下
立即可得到当且仅当时,系统抽样优于简单随机抽样。
第3题
解:
⑴,k取最接近于5.7而不大于5.7的整数5,则将该班同学编号1~40,随机起点r=5,则该样本单元序号为5,10,15,20,25,30,35。
⑵,,。
Sethi对称系统抽样:
,入样单元为:
5,6,10,16,15,26,20
Singh对称系统抽样:
由于为奇数,则从两个断点开始分层,最后中间的半层取中间位置的单元,,入样单元为:
5,31,10,26,15,21,18
第4题
解:
由题,N=360,k=8,则n=N/k=45
取,
,,
则可能样本如下表:
由上表可得:
总体均值
总体方差
平均样本内方差
则:
运用简单随机抽样:
n=45,,
显然:
,说明等距样本的精确度较简单随机样本的精确度要高。
第5题
答:
⑴欲估计汉族所占比例,选择第⑴种系统抽样的方法好。
按照题给条件排序,在户口册中每5人中抽1人,且平均每户有5口人,分布较均匀,且如此抽样,每户人家基本均有1人入样。
⑵男性所占比例与孩子所占比例。
采用简单随机抽样的方法较合适,因为按题条件排序后,采用等距抽样,若抽得初始单元为1,则男生比例为1,孩子比例为0,如此,则有较大误差。
第6题
解:
取Y=
则总体比例P的简单估计量为=P=,即对总体比例的估计可化成对总体均值的估计。
估计男性所占比例:
则,取Y=
由题意,系统抽样K=5,n=10,则所有可能样本如下表:
总体均值
总体方差S,
平均群内方差
以行为“系统样本”的系统抽样:
k=5,n=10
简单随机抽样:
n=10,f=20%=0.2
,说明简单随机抽样精度较高。
估计孩子所占比例:
取Y=
由题意,系统抽样:
k=5,n=10,则所有可能样本如下表:
总体均值
总体方差S
平均群内方差
以行为“系统样本”的系统抽样:
k=5,n=10
简单随机抽样:
n=10,f=20%=0.2
,说明简单随机抽样精度较高。
估计具体某种职业的住户人员的比例:
取Y=
由题意,系统抽样K=5,n=10,则所有可能样本如下表:
总体均值
总体方差S
平均群内方差
以行为“系统样本”的系统抽样:
k=5,n=10
简单随机抽样:
n=10,f=20%=0.2
,说明系统抽样精度较高。
第7题
解:
①由题,N=15,n=3,直线等距抽样k==5,则所有可能样本如下:
总体均值
总体方差S
平均样本方差
则以直线等距抽样:
简单随机抽样:
n=3,f==1/5=0.2
,说明直线等距抽样的精度较高。
②由题,要求抽样间距k=4,n=3,nk=12<15
所以样本均值不是总体均值的无偏估计。
当nk=N时,,。
即当nk=N时,样本均值为总体均值的无偏估计。
第8题
解:
由题,N=30,k=5,则n=30/5=6
则按照所给顺序等距抽样,可能样本如下:
由上表数据可得:
总体方差
平均样本内方差
则:
第七章(仅供参考)
1、根据题中所给表格,可计算各层的权重:
(1)根据式(7.1),可得该县棉花平均种植面积为:
该县共有2000个村,帮全县的棉花种植总面积为:
(2)根据式(7.4),的方差估计为:
由公式,由表中数据可得:
第一项:
第二项:
因此
该县种植总面积的抽样标准误差估计为
2、解:
本题首先对进行估计
由于比例估计的方差
故我们可以取进行估计。
根据题意知:
故总体比例
从而:
(1)根据式(7.10)及式(7.7)
由题意有
代入上式有
此时,依题意
由于,而忽略不计,故亦可忽略不计
故
(2)不分层的简单随机抽样,样本量为
因此二重分层抽样比不分层的简单随机抽样效率高。
(3)略
3、解:
由题知,,由表,计算
,,
,,
所以,该地区年末牛的总头数估计为:
根据式(7.15),的方差估计为:
所以的标准差为。
4、解:
(1)根据式(7.10)及式(7.7)
代入数据计算得:
此时,
(2)略
5、解:
由题意可知
由式(7.21)
由式(7.22)
6、解:
(1)由题意
由式(7.21)
由式(7.22)
其95%的置信区间为即
(2)由题意
由式(7.21)
由式(7.22)
其95%的置信区间为即
(3)
eq\o\ac(○,1)、总体是封闭的——两次抽样间没有人进入或离开湖心塘地区。
eq\o\ac(○,2)、每个样本都是来自总体的简单随机抽样。
即湖心塘地区的每一个人都有同样的机会被找到。
eq\o\ac(○,3)、两个样本是独立的。
即第一次找到的人混合到了湖心塘地区后,跟第二次被找到的概率没有关系。
eq\o\ac(○,4)、不会丢失人找到过的人的信息。
7、
(1)略
(2)由题意由式(7.21)
由表中数据代入公式得
同理有
(3)累积所有年份的数据,有
代入公式,有
(2)中得到的1970-1985年间的先天性风疹的总病例数为
(4)略