袁卫统计学第二版习题答案.docx
《袁卫统计学第二版习题答案.docx》由会员分享,可在线阅读,更多相关《袁卫统计学第二版习题答案.docx(47页珍藏版)》请在冰豆网上搜索。
袁卫统计学第二版习题答案
答案
2.1
(1)属于顺序数据。
(2)频数分布表如下:
服务质量等级评价的频数分布
服务质量等级
家庭数(频率)
频率%
A
14
14
B
21
21
C
32
32
D
18
18
E
15
15
合计
100
100
(3)条形图(略)
2.2
(1)频数分布表如下:
40个企业按产品销售收入分组表
按销售收入分组
(万元)
企业数
(个)
频率
(%)
向上累积
向下累积
企业数
频率
企业数
频率
100以下
100~110
110~120
120~130
130~140
140以上
5
9
12
7
4
3
12.5
22.5
30.0
17.5
10.0
7.5
5
14
26
33
37
40
12.5
35.0
65.0
82.5
92.5
100.0
40
35
26
14
7
3
100.0
87.5
65.0
35.0
17.5
7.5
合计
40
100.0
—
—
—
—
(2)某管理局下属40个企分组表
按销售收入分组(万元)
企业数(个)
频率(%)
先进企业
良好企业
一般企业
落后企业
11
11
9
9
27.5
27.5
22.5
22.5
合计
40
100.0
2.3频数分布表如下:
某百货公司日商品销售额分组表
按销售额分组(万元)
频数(天)
频率(%)
25~30
30~35
35~40
40~45
45~50
4
6
15
9
6
10.0
15.0
37.5
22.5
15.0
合计
40
100.0
直方图(略)。
2.4
(1)排序略。
(2)频数分布表如下:
100只灯泡使用寿命非频数分布
按使用寿命分组(小时)
灯泡个数(只)
频率(%)
650~660
2
2
660~670
5
5
670~680
6
6
680~690
14
14
690~700
26
26
700~710
18
18
710~720
13
13
720~730
10
10
730~740
3
3
740~750
3
3
合计
100
100
直方图(略)。
(3)茎叶图如下:
65
1
8
66
1
4
5
6
8
67
1
3
4
6
7
9
68
1
1
2
3
3
3
4
5
5
5
8
8
9
9
69
0
0
1
1
1
1
2
2
2
3
3
4
4
5
5
6
6
6
7
7
8
8
8
8
9
9
70
0
0
1
1
2
2
3
4
5
6
6
6
7
7
8
8
8
9
71
0
0
2
2
3
3
5
6
7
7
8
8
9
72
0
1
2
2
5
6
7
8
9
9
73
3
5
6
74
1
4
7
2.5
(1)属于数值型数据。
(2)分组结果如下:
分组
天数(天)
-25~-20
6
-20~-15
8
-15~-10
10
-10~-5
13
-5~0
12
0~5
4
5~10
7
合计
60
(3)直方图(略)。
2.6
(1)直方图(略)。
(2)自学考试人员年龄的分布为右偏。
2.7
(1)茎叶图如下:
A班
树茎
B班
数据个数
树 叶
树叶
数据个数
0
3
59
2
1
4
4
0448
4
2
97
5
122456677789
12
11
97665332110
6
011234688
9
23
98877766555554443332100
7
00113449
8
7
6655200
8
123345
6
6
632220
9
011456
6
0
10
000
3
(2)A班考试成绩的分布比较集中,且平均分数较高;B班考试成绩的分布比A班分散,
且平均成绩较A班低。
2.8箱线图如下:
(特征请读者自己分析)
2.9
(1)
=274.1(万元);Me=272.5;QL=260.25;QU=291.25。
(2)
(万元)。
2.10
(1)甲企业平均成本=19.41(元),乙企业平均成本=18.29(元);原因:
尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。
2.11
=426.67(万元);
(万元)。
2.12
(1)
(2)两位调查人员所得到的平均身高和标准差应该差不多相同,因为均值和标准差的大小基本上不受样本大小的影响。
(3)具有较大样本的调查人员有更大的机会取到最高或最低者,因为样本越大,变化的范围就可能越大。
2.13
(1)女生的体重差异大,因为女生其中的离散系数为0.1大于男生体重的离散系数0.08。
(2)男生:
=27.27(磅),
(磅);
女生:
=22.73(磅),
(磅);
(3)68%;
(4)95%。
2.14
(1)离散系数,因为它消除了不同组数据水平高地的影响。
(2)成年组身高的离散系数:
;
幼儿组身高的离散系数:
;
由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大。
2.15表给出了一些主要描述统计量,请读者自己分析。
方法A
方法B
方法C
平均
165.6
平均
128.73
平均
125.53
中位数
165
中位数
129
中位数
126
众数
164
众数
128
众数
126
标准偏差
2.13
标准偏差
1.75
标准偏差
2.77
极差
8
极差
7
极差
12
最小值
162
最小值
125
最小值
116
最大值
170
最大值
132
最大值
128
2.16
(1)方差或标准差;
(2)商业类股票;(3)(略)。
2.17(略)。
答案
3.1设A=女性,B=工程师,AB=女工程师,A+B=女性或工程师
(1)P(A)=4/12=1/3
(2)P(B)=4/12=1/3
(3)P(AB)=2/12=1/6
(4)P(A+B)=P(A)+P(B)-P(AB)=1/3+1/3-1/6=1/2
3.2求这种零件的次品率,等于计算“任取一个零件为次品”(记为A)的概率
。
考虑逆事件
“任取一个零件为正品”,表示通过三道工序都合格。
据题意,有:
于是
3.3设A表示“合格”,B表示“优秀”。
由于B=AB,于是
=0.8×0.15=0.12
3.4设A=第1发命中。
B=命中碟靶。
求命中概率是一个全概率的计算问题。
再利用对立事件的概率即可求得脱靶的概率。
=0.8×1+0.2×0.5=0.9
脱靶的概率=1-0.9=0.1
或(解法二):
P(脱靶)=P(第1次脱靶)×P(第2次脱靶)=0.2×0.5=0.1
3.5设A=活到55岁,B=活到70岁。
所求概率为:
3.6这是一个计算后验概率的问题。
设A=优质率达95%,
=优质率为80%,B=试验所生产的5件全部优质。
P(A)=0.4,P(
)=0.6,P(B|A)=0.955,P(B|
)=0.85,所求概率为:
决策者会倾向于采用新的生产管理流程。
3.7令A1、A2、A3分别代表从甲、乙、丙企业采购产品,B表示次品。
由题意得:
P(A1)=0.25,P(A2)=0.30,P(A3)=0.45;P(B|A1)=0.04,P(B|A2)=0.05,P(B|A3)=0.03;因此,所求概率分别为:
(1)
=0.25×0.04+0.30×0.05+0.45×0.03=0.0385
(2)
3.8据题意,在每个路口遇到红灯的概率是p=24/(24+36)=0.4。
设途中遇到红灯的次数=X,因此,X~B(3,0.4)。
其概率分布如下表:
xi
0
1
2
3
P(X=xi)
0.216
0.432
0.288
0.064
期望值(均值)=1.2(次),方差=0.72,标准差=0.8485(次)
3.9设被保险人死亡数=X,X~B(20000,0.0005)。
(1)收入=20000×50(元)=100万元。
要获利至少50万元,则赔付保险金额应该不超过50万元,等价于被保险人死亡数不超过10人。
所求概率为:
P(X≤10)=0.58304。
(2)当被保险人死亡数超过20人时,保险公司就要亏本。
所求概率为:
P(X>20)=1-P(X≤20)=1-0.99842=0.00158
(3)支付保险金额的均值=50000×E(X)
=50000×20000×0.0005(元)=50(万元)
支付保险金额的标准差=50000×σ(X)
=50000×(20000×0.0005×0.9995)1/2=158074(元)
3.10
(1)可以。
当n很大而p很小时,二项分布可以利用泊松分布来近似计算。
本例中,λ=np=20000×0.0005=10,即有X~P(10)。
计算结果与二项分布所得结果几乎完全一致。
(2)也可以。
尽管p很小,但由于n非常大,np和np(1-p)都大于5,二项分布也可以利用正态分布来近似计算。
本例中,np=20000×0.0005=10,np(1-p)=20000×0.0005×(1-0.0005)=9.995,
即有X~N(10,9.995)。
相应的概率为:
P(X≤10.5)=0.51995,P(X≤20.5)=0.853262。
可见误差比较大(这是由于P太小,二项分布偏斜太严重)。
【注】由于二项分布是离散型分布,而正态分布是连续性分布,所以,用正态分布来近似计算二项分布的概率时,通常在二项分布的变量值基础上加减0.5作为正态分布对应的区间点,这就是所谓的“连续性校正”。
(3)由于p=0.0005,假如n=5000,则np=2.5<5,二项分布呈明显的偏态,用正态分布来计算就会出现非常大的误差。
此时宜用泊松分布去近似。
3.11
(1)
=0.04779
合格率为1-0.04779=0.95221或95.221%。
(2)设所求值为K,满足电池寿命在200±K小时范围内的概率不小于0.9,即有:
即:
,K/30≥1.64485,故K≥49.3456。
3.12设X=同一时刻需用咨询服务的商品种数,由题意有X~B(6,0.2)
(1)X的最可能值为:
X0=[(n+1)p]=[7×0.2]=1(取整数)
(2)
=1-0.9011=0.0989
第4章抽样与抽样分布
练习:
4.1一个具有
个观察值的随机样本抽自于均值等于20、标准差等于16的总体。
⑴给出
的抽样分布(重复抽样)的均值和标准差
⑵描述
的抽样分布的形状。
你的回答依赖于样本容量吗?
⑶计算标准正态
统计量对应于
的值。
⑷计算标准正态
统计量对应于
的值。
4.2参考练习4.1求概率。
⑴
<16;⑵
>23;⑶
>25;⑷.
落在16和22之间;⑸
<14。
4.3一个具有
个观察值的随机样本选自于
、
的总体。
试求下列概率的近似值:
4.4一个具有
个观察值的随机样本选自于
和
的总体。
⑴你预计
的最大值和最小值是什么?
⑵你认为
至多偏离
多么远?
⑶为了回答b你必须要知道
吗?
请解释。
4.5考虑一个包含
的值等于0,1,2,…,97,98,99的总体。
假设
的取值的可能性是相同的。
则运用计算机对下面的每一个
值产生500个随机样本,并对于每一个样本计算
。
对于每一个样本容量,构造
的500个值的相对频率直方图。
当
值增加时在直方图上会发生什么变化?
存在什么相似性?
这里
和
。
4.6美国汽车联合会(AAA)是一个拥有90个俱乐部的非营利联盟,它对其成员提供旅行、金融、保险以及与汽车相关的各项服务。
1999年5月,AAA通过对会员调查得知一个4口之家出游中平均每日餐饮和住宿费用大约是213美元(《旅行新闻》TravelNews,1999年5月11日)。
假设这个花费的标准差是15美元,并且AAA所报道的平均每日消费是总体均值。
又假设选取49个4口之家,并对其在1999年6月期间的旅行费用进行记录。
⑴描述
(样本家庭平均每日餐饮和住宿的消费)的抽样分布。
特别说明
服从怎样的分布以及
的均值和方差是什么?
证明你的回答;
⑵对于样本家庭来说平均每日消费大于213美元的概率是什么?
大于217美元的概率呢?
在209美元和217美元之间的概率呢?
4.7技术人员对奶粉装袋过程进行了质量检验。
每袋的平均重量标准为
克、标准差为
克。
监控这一过程的技术人者每天随机地抽取36袋,并对每袋重量进行测量。
现考虑这36袋奶粉所组成样本的平均重量
。
(1)描述
的抽样分布,并给出
和
的值,以及概率分布的形状;
(3)假设某一天技术人员观察到
,这是否意味着装袋过程出现问题了呢,为什么?
4.8在本章的统计实践中,某投资者考虑将1000美元投资于
种不同的股票。
每一种股票月收益率的均值为
,标准差
。
对于这五种股票的投资组合,投资者每月的收益率是
。
投资者的每月收益率的方差是
,它是投资者所面临风险的一个度量。
⑴假如投资者将1000美元仅投资于这5种股票的其中3种,则这个投资者所面对的风险将会增加还是减少?
请解释;
⑵假设将1000美元投资在另外10种收益率与上述的完全一样的股票,试度量其风险,并与只投资5种股票的情形进行比较。
4.9某制造商为击剑运动员生产安全夹克,这些夹克是以剑锋刺入其中时所需的最小力量(以牛顿为单位)来定级的。
如果生产工艺操作正确,则他生产的夹克级别应平均840牛顿,标准差15牛顿。
国际击剑管理组织(FIE)希望这些夹克的最低级别不小于800牛顿。
为了检查其生产过程是否正常,某检验人员从生产过程中抽取了50个夹克作为一个随机样本进行定级,并计算
,即该样本中夹克级别的均值。
她假设这个过程的标准差是固定的,但是担心级别均值可能已经发生变化。
⑴如果该生产过程仍旧正常,则
的样本分布为何?
⑵假设这个检验人员所抽取样本的级别均值为830牛顿,则如果生产过程正常的话,样本均值
≤830牛顿的概率是多少?
⑶在检验人员假定生产过程的标准差固定不变时,你对b部分有关当前生产过程的现状有何看法(即夹克级别均值是否仍为840牛顿)?
⑷现在假设该生产过程的均值没有变化,但是过程的标准差从15牛顿增加到了45牛顿。
在这种情况下
的抽样分布是什么?
当
具有这种分布时,则
≤830牛顿的概率是多少?
4.10在任何生产过程中,产品质量的波动都是不可避免的。
产品质量的变化可被分成两类:
由于特殊原因所引起的变化(例如,某一特定的机器),以及由于共同的原因所引起的变化(例如,产品的设计很差)。
一个去除了质量变化的所有特殊原因的生产过程被称为是稳定的或者是在统计控制中的。
剩余的变化只是简单的随机变化。
假如随机变化太大,则管理部门不能接受,但只要消除变化的共同原因,便可减少变化(Deming,1982,1986;DeVor,Chang,和Sutherland,1992)。
通常的做法是将产品质量的特征绘制到控制图上,然后观察这些数值随时间如何变动。
例如,为了控制肥皂中碱的数量,可以每小时从生产线中随机地抽选
块试验肥皂作为样本,并测量其碱的数量,不同时间的样本含碱量的均值
描绘在下图中。
假设这个过程是在统计控制中的,则
的分布将具有过程的均值
,标准差具有过程的标准差除以样本容量的平方根,
。
下面的控制图中水平线表示过程均值,两条线称为控制极限度,位于
的上下3
的位置。
假如
落在界限的外面,则有充分的理由说明目前存在变化的特殊原因,这个过程一定是失控的。
当生产过程是在统计控制中时,肥皂试验样本中碱的百分比将服从
和
的近似的正态分布。
⑴假设
则上下控制极限应距离
多么远?
⑵假如这个过程是在控制中,则
落在控制极限之外的概率是多少?
⑶假设抽取样本之前,过程均值移动到
,则由样本得出这个过程失控的(正确的)结论的概率是多少?
4.11参考练习4.10。
肥皂公司决定设置比练习4.10中所述的
这一限度更为严格的控制极限。
特别地,当加工过程在控制中时,公司愿意接受
落在控制极限外面的概率是0.10。
⑴若公司仍想将控制极限度设在与均值的上下距离相等之处,并且仍计划在每小时的样本中使用
个观察值,则控制极限应该设定在哪里?
⑵假设a部分中的控制极限已付诸实施,但是公司不知道,
现在是3%(而不是2%)。
若
,则
落在控制极限外面的概率是多少?
若
呢?
4.12参考练习4.11。
为了改进控制图的敏感性,有时将警戒线与控制极限一起画在图上。
警戒限一般被设定为
。
假如有两个连续的数据点落在警戒限之外,则这个过程一定是失控的(蒙哥马利,1991年)。
⑴假设肥皂加工过程是在控制中(即,它遵循
和
的正态分布),则
的下一个值落在警戒限之外的概率是什么?
⑵假设肥皂加工过程是在控制中,则你预料到画在控制图上的
的这40个值中有多少个点落在上控制极限以上?
⑶假设肥皂加工过程是在控制中,则
的两个未来数值落在下警戒线以下的概率是多少?
答案
4.1⑴20,2;⑵近似正态;⑶-2.25;⑷1.50。
4.2⑴0.0228;⑵0.0668;⑶0.0062;⑷0.8185;⑸0.0013。
4.3⑴0.8944;⑵0.0228;⑶0.1292;⑷0.9699。
4.4⑴101,99⑵1;⑶不必。
4.5趋向正态。
4.6⑴正态分布,213,4.5918;⑵0.5,0.031,0.938。
4.7⑴406,1.68,正态分布;⑵0.001;⑶是,因为小概率出现了。
4.8⑴增加;⑵减少。
4.9⑴正态;⑵约等于0;⑶不正常;⑷正态,0.06。
4.10⑴0.015;⑵0.0026;⑶0.1587。
4.11⑴(0.012,0.028);⑵0.6553,0.7278。
4.12⑴0.05;⑵1;⑶0.000625。
答案
5.1
(1)
;
(2)E=1.55。
5.2
(1)
;
(2)E=4.2;(3)(115.8,124.2)。
5.3(2.88,3.76);(2.80,3.84);(2.63,4.01)。
5.4(7.1,12.9)。
5.5(7.18,11.57)。
5.6(18.11%,27.89%);(17.17%,22.835)。
5.7
(1)(51.37%,76.63%);
(2)36。
5.8(1.86,17.74);(0.19,19.41)。
5.9
(1)2±1.176;
(2)2±3.986;(3)2±3.986;(4)2±3.587;(5)2±3.364。
5.10
(1)
,
;
(2)1.75±4.27。
5.11
(1)10%±6.98%;
(2)10%±8.32%。
5.12(4.06,14.35)。
5.1348。
5.14139。
5.1557。
5.16769。
答案
6.1研究者想要寻找证据予以支持的假设是“新型弦线的平均抗拉强度相对于以前提高了”,所以原假设与备择假设应为:
6.2
=“某一品种的小鸡因为同类相残而导致的死亡率”,
6.3
,
。
6.4
(1)第一类错误是该供应商提供的这批炸土豆片的平均重量的确大于等于60克,但检验结果却提供证据支持店方倾向于认为其重量少于60克;
(2)第二类错误是该供应商提供的这批炸土豆片的平均重量其实少于60克,但检验结果却没有提供足够的证据支持店方发现这一点,从而拒收这批产品;
(3)连锁店的顾客们自然看重第二类错误,而供应商更看重第一类错误。
6.5
(1)检验统计量
,在大样本情形下近似服从标准正态分布;
(2)如果
,就拒绝
;
(3)检验统计量
=2.94>1.645,所以应该拒绝
。
6.6
=3.11,拒绝
。
6.7
=1.93,不拒绝
。
6.8
=7.48,拒绝
。
6.9
=206.22,拒绝
。
6.10
=-5.145,拒绝
。
6.11
=1.36,不拒绝
。
6.12
=-4.05,拒绝
。
6.13
=8.28,拒绝
。
6.14
(1)检验结果如下:
t-检验:
双样本等方差假设
变量1
变量2
平均
100.7
109.9
方差
24.11578947
33.35789474
观测值
20
20
合并方差
28.73684211
假设平均差
0
df
38
tStat
-5.427106029
P(T≤t)单尾
1.73712E-06
t 单尾临界
1.685953066
P(T≤t)双尾
3.47424E-06
t 双尾临界
2.024394234
t-检验:
双样本异方差假设
变量1
变量2
平均
100.7
109.9
方差
24.11578947
33.35789474
观测值
20
20
假设平均差
0
df
37
tStat
-5.427106029
P(T≤t)单尾
1.87355E-06
t 单尾临界
1.687094482
P(T≤t)双尾
3.7470