统计学主观题.docx
《统计学主观题.docx》由会员分享,可在线阅读,更多相关《统计学主观题.docx(46页珍藏版)》请在冰豆网上搜索。
统计学主观题
二、主观题(共4道小题)
6.指出下面的数据类型:
(1)年龄
(2)性别
(3)汽车产量
(4)员工对企业某项改革措施的态度(赞成、中立、反对)
(5)购买商品时的支付方式(现金、信用卡、支票)
参考答案:
(1)年龄:
离散数值数据
(2)性别:
分类数据
(3)汽车产量:
离散数值数据
(4)员工对企业某项改革措施的态度(赞成、中立、反对):
顺序数据
(5)购买商品时的支付方式(现金、信用卡、支票):
分类数据
7.某研究部门准备抽取2000个职工家庭推断该城市所有职工家庭的年人均收入。
要求:
⑴描述总体和样本。
(2)指出参数和统计量。
参考答案:
⑴
总体:
全市所有职工家庭;
样本:
2000个职工家庭
(2)
参数:
全市所有职工家庭的人均收入;
统计量:
2000个职工家庭的人均收入。
8.一家研究机构从IT从业者中随机抽取1000人作为样本进行调查,其中60%回答他们的月收入在5000元以上,50%的人回答他们的消费支付方式是用信用卡。
要求:
(1)这一研究的总体是什么?
(2)月收入是分类变量、顺序变量还是数值型变量?
(3)消费支付方式是分类变量、顺序变量还是数值型变量?
(4)这一研究涉及截面数据还是时间序列数据?
参考答案:
⑴所有IT从业者。
(2)月收入十数值型变量
(3)消费支付方式是分类变量(4)涉及截面数据
9.一项调查表明,消费者每月在网上购物的平均花费是200元,他们选择在网上购物的主要原因是“价格便宜”。
要求:
(1)这一研究的总体是什么?
(2)“消费者在网上购物的原因”是分类变量、顺序变量还是数值型变量?
(3)研究者所关心的参数是什么?
(4)“消费者每月在网上购物的平均花费是200元”是参数还是统计量?
(5)研究者所使用的主要是描述统计方法还是推断统计方法?
参考答案:
(1)网上购物的所有消费者
(2)分类变量
(3)所有消费者网上购物的平均花费、所有消费者选择网上购物的主要原因
(4)统计量
(5)描述统计
二、主观题(共1道小题)
31.自填式、面访式、电话式各有什么长处和弱点?
参考答案:
自填式优点:
调查成本最低;适合于大范围的调查;适合于敏感性问题的调查。
自填式缺点:
较低的回收率;不适用于较复杂的问题的调查;调查中回答问题的情况不受控制(比如多人采用相同的回答);调查周期长。
面访式优点:
较高的回答率;调查员可以对回答进行解释、确认、澄清,避免含混不清的回答。
面访式缺点:
调查成本高;不适用于敏感性问题;调查员的素质会影响调查质量。
电话式优点:
速度快;便于调查控制;适合于大范围的调查。
电话式缺点:
受电话安装情况的限制;在涉及复杂问题,或问题较多时,容易被拒绝回答。
二、主观题(共5道小题)
16.为评价家电行业售后服务的质量,随机抽取了由100个家庭构成的一个样本。
服务质量的等级分别表示为:
A.好;
B.较好;C一般;D.较差;E.差。
调查结果如下:
要求:
(1)指出上面的数据属于什么类型。
(2)用Excel制作一张频数分布表。
(3)绘制一张条形图,反映评价等级的分布。
(4)绘制评价等级的帕累托图。
参考答案:
(1)顺序数据
(2)用数据分析一一直方图制作:
接收频率
E
16
D
17
C
32
B
21
A
14
⑶
用数据分析一
一直力图制作:
接收
(4)逆序排序后,制作累计频数分布表:
接收频数频率(%)累计频率(%)
C
32
32
32
B
21
21
53
D
17
17
70
E
16
16
86
A
14
14
100
17.某行业管理局所属40个企业2002年的产品销售收入数据如下:
要求:
(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。
105万元以
(2)按规定,销售收入在125万元以上为先进企业,115〜125万元为良好企业,105〜115万元为一般企业,下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。
参考答案:
(1)
1、确定组数:
N=1+幽=1+夙竺L]+3=6及
1g⑵lg20.30103,取k=6
2、确定组距:
组距=(最大值-最小值)+组数=(114-42)+6=10.83,取10
3、分组频数表
销售收入
频数
频率%
累计频数
累计频率%
80.00-89.00
2
5.0
2
5.0
90.00-99.00
3
7.5
5
12.5
100.00-109.00
9
22.5
14
35.0
110.00-119.00
12
30.0
26
65.0
120.00-129.00
7
17.5
33
82.5
130.00-139.00
4
10.0
37
92.5
140.00-149.00
2
5.0
39
97.5
150.00+
1
2.5
40
100.0
总和
40
100.0
频数
频率%
累计频数
累计频率%
先进企业
10
25.0
10
25.0
良好企业
12
30.0
22
55.0
一般企业
9
22.5
31
77.5
落后企业
9
22.5
4C
100.0
总和
40
100.0
18.一种袋装食品用生产线自动装填,每袋重量大约为50g,但由于某些原因,每袋重量不会恰好是50go下面是随机
抽取的100袋食品,测得的重量数据如下:
单位:
g
要求:
(1)构建这些数据的频数分布表。
(2)绘制频数分布的直方图。
⑶说明数据分布的特征。
参考答案:
解:
(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。
1、确定组数:
…里%+叱%+—=664
1虱2)1g20.30103,取k=6或7
2、确定组距:
组距=(最大值-最小值)+组数=(61-40)+6=3.5,取3或者4、5
组距=(最大值-最小值)+组数=(61-40)+7=3,
3、分组频数表
组距3,上限为小于
频数
百分比
累计频数
累积百分比
有效40.00-42.00
3
3.0
3
3.0
43.00-45.00
9
9.0
12
12.0
46.00-48.00
24
24.0
36
36.0
49.00-51.00
19
19.0
55
55.0
52.00-54.00
24
24.0
79
79.0
55.00-57.00
14
14.0
93
93.0
58.00+
7
7.0
100
100.0
合计
100
100.0
直方图:
组距力小于
组距4,上限为小于等于
频数
百分比
累计频数
累积百分比
有效<=40.00
1
1.0
1
1.0
41.00-44.00
7
7.0
8
8.0
45.00-48.00
28
28.0
36
36.0
49.00-52.00
28
28.0
64
64.0
53.00-56.00
22
22.0
86
86.0
57.00-60.00
13
13.0
99
99.0
61.00+
1
1.0
100
100.0
合计
100
100.0
组距4,小于等于
Kean=4.06
511D*U=1.221
M=100
组距5,上限为小于等于
频数
百分比
累计频数
累积百分比
有效<=45.00
12
12.0
12.0
12.0
46.00-50.00
37
37.0
49.0
49.0
51.00-55.00
34
34.0
83.0
83.0
56.00-60.00
16
16.0
99.0
99.0
61.00+
1
1.0
100.0
100.0
合计
100
100.0
组距5,小于等于
组距5,小于等于
Kean=2.ST
511D*U=0.335
M=100
直方图:
分布特征:
左偏钟型。
19,甲乙两个班各有40名学生,期末统计学考试成绩的分布如下:
要求:
⑴根据上面的数据,画出两个班考试成绩的对比条形图和环形图
⑵比较两个班考试成绩分布的特点。
⑶画出雷达图,比较两个班考试成绩的分布是否相似
参考答案
(1)
(2)甲班成绩中的人数较多,高分和低分人数比乙班多,乙班学习成绩较甲班好,高分较多,而低分较少。
(3)
分布不相似。
20.已知1995-2004年我国的国内生产总值数据如下(按当年价格计算):
单位:
亿元
要求:
(1)用Excel绘制国内生产总值的线图。
(2)绘制第一、二、三产业国内生产总值的线图。
(3)根据2004年的国内生产总值及其构成数据绘制饼图参考答案:
(1)
国内生产总值
♦国内生产总值
laoooo
120000
100000eoooo
&0000
40^00
2口口口口
Q
产卡卡63封步//"耕
aoooo
aaooo
70000
50000
40000
3C1000
ZOOOO
10000
T一第一产业
-■-第二产业
第三产业
国内生产总值
207B8.07,
13S
业业业
产产产
一二三
莒苫TJ升p
□□□
72367,53%
43721^32%
二、主观题(共7道小题)
18.随机抽取25个网络用户,得到他们的年龄数据如下:
要求;
(1)计算众数、中位数:
(2)根据定义公式计算四分位数。
(3)计算平均数和标准差;
(4)计算偏态系数和峰态系数:
(5)对网民年龄的分布特征进行综合分析:
参考答案:
(1)
1、排序形成单变量分值的频数分布和累计频数分布:
网络用户的年龄
频数
频率
累计频数
累计频率
Valid
15
1
4.0
1
4.0
16
1
4.0
2
8.0
17
1
4.0
3
12.0
18
1
4.0
4
16.0
19
3
12.0
7
28.0
20
2
8.0
9
36.0
21
1
4.0
10
40.0
22
2
8.0
12
48.0
23
3
12.0
15
60.0
24
2
8.0
17
68.0
25
1
4.0
18
72.0
27
1
4.0
19
76.0
29
1
4.0
20
80.0
30
1
4.0
21
84.0
31
1
4.0
22
88.0
34
1
4.0
23
92.0
38
1
4.0
24
96.0
41
1
4.0
25
100.0
Total
25
100.0
从频数看出,众数Mo有两个:
19、23;从累计频数看,中位数Me=23
(2)Q1位置=25/4=6.25,因此Q1=19,Q3位置=3X25/4=18.75,因此Q3=27,或者,由于25和27都只有一个,因此Q3也可等于25+0.75X2=26.5。
(3)均值=24.00;标准差=6.652
(4)偏度系数SK=1.080;峰度系数K=0.773
(5)分布,均值=24、标准差=6.652、呈右偏分布。
如需看清楚分布形态,需要进行分组。
为分组情况下的直方图:
蹴用户
为分组情况下的概率密度曲线:
分组:
1、确定组数:
Q.3DIU3
=564
取k=6
左=1+幽
电⑵
2、确定组距:
组距=(最大值-最小值)+组数=(41-15)+6=4.3,取5
3、分组频数表
网络用户的年龄(Binned)
频数
频率
累计频数
累计频率
Valid
<=15
1
4.0
1
4.C
16-20
8
32.0
9
36.C
21-25
9
36.0
18
72.0
26-30
3
12.0
21
84.0
31-35
2
8.0
23
92.0
36-40
1
4.0
24
96.0
41+
1
4.0
25
100.0
Total
25
100.0
分组后的均值与方差:
均值
23.3000
标准差
7.02377
方差
49.333
偏度系数Skewness
1.163
峰度系数Kurtosis
1.302
分组后的直方图:
1Dev,-7,031I=25
19.某银行为缩短顾客到银行办理业务等待的时间。
准备采用两种排队方式进行试验:
一种是所有颐客
都进入一个等待队列:
另一种是顾客在三千业务窗口处列队3排等待。
为比较哪种排队方式使顾客等待
的时间更短.两种排队方式各随机抽取9名顾客。
得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟。
第二种排队方式的等待时间(单位:
分钟)如下:
5.5
6.6
6.7
6.8
7.1
7.3
7.4
1.00
(=<5.5)
3.00
6.
678
3.00
7.
134
(单位:
分钟)Stem-and-LeafPlot
茎叶图
2.00
7.
88
7.8
7.8
要求:
(1)画出第二种排队方式等待时间的茎叶图
(2)计算第二种排队时间的平均数和标准差
(3)比较两种排队方式等待时间的离散程度。
(4)如果让你选择一种排队方式,你会选择哪一种?
试说明理由。
参考答案:
(1)
第二种排队方式的等待时间
频数
⑵
⑶第二种排队方式的离散程度小。
(4)选择第二种,均值小,离散程度小
均值
7
标准差
0.714143
方差
0.51
20.
在某地区抽取120家企业,按利润额进行分组,结果如下:
按利润额分组(万元)
企业数(个)
200~300
19
300~400
30
400~500
42
500~600
18
600以上
11
合计
120
要求:
(1)计算120家企业利润额的平均数和标准差。
(2)计算分布的偏态系数和峰态系数。
参考答案:
解:
Statistics
企业利润组中值Mi(万元)
N有效120
缺失0
均值426.6667
标准差116.48445
偏度系数Skewness0.208
峰度系数Kurtosis-0.625
Histogram
MauiT由成
口冲=116,454
M=120
21.一项关于大学生体重状况的研究发现.男生的平均体重为60kg,标准差为
0kg,标准差为5kgo请回答下面的问题:
(1)是男生的体重差异大还是女生的体重差异大?
为什么?
(2)以磅为单位(1ks=2.2lb),求体重的平均数和标准差。
5kg;女生的平均体重为5
⑶粗略地估计一下,男生中有百分之几的人体重在
55kg一65kg之间?
40kg〜60kg之间?
⑷粗略地估计一下,女生中有百分之几的人体重在参考答案:
(1)
女生,因为标准差一样,而均值男生大,所以,离散系数是男生的小,离散程度是男生的小。
(2)
都是各乘以2.21,男生的平均体重为60kgX2.21=132.6磅,标准差为5kgX2.21=11.05磅;
女生的平均体重为50kgX2.21=110.5磅,标准差为5kgX2.21=11.05磅
⑶粗略地估计一下,男生中有百分之几的人体重在55kg-65kg之间?
计算标准分数:
界一万55-60
:
=-=-1;Z2=
k-k65-6。
Z1=
二二二=1,根据经验规则,男生大约有68%勺人体重在5
5kg-65kg之间。
(4)
计算标准分数:
x-x40-50a-60-50
Z1=£=5=-2;Z2=£=5=2,根据经验规则,女生大约有95%勺人体重在40
kg一60kg之间。
22.一条产品生产线平均每天的产量为3700件,标准差为50件。
如果某一天的产量低于或高于平均产量,并落人士2个标准差的范围之外,就认为该生产线“失去控制”。
下面是一周各大的产量,该生产线哪几天失去了控制?
时间
周一
周二五
周三周六
周四周日
周
产量(件)
3850
3670
36903720
5903700
3610
3
参考答案:
解:
时问
周一
周二
周三
周四
周五
周六
周日
r#(件)
385c
3670
3690
3720
3610
3590
3700
日平土疗量
3700
日产量标准差
50
标准分数Z
3
1-0.6
-0.2
0.4
-1.8
-2.2
0
标准分数界限
-2
-2
-2
-2
-2
-2
-2
2
2
2
2
2
2
2
周六超出界限,失去控制。
23.
一种产品需要人工组装,现有三种可供选择的组装方法。
为检验哪种方法更好,随机抽取15个工人,
让他们分别用三种方法组装。
下面是15个工人分别用三种方法在相同的时间内组装的产品数量:
单位:
个
方法A
方法B
方法C
164
129
125
167
130
126
168
129
126
165
130
127
170
131
126
165
]30
128
164
129
127
168
127
126
164
128
127
162
128
127
163
127
125
166
128
126
167
128
116
166
125
126
165
132
125
要求:
(1)你准备采用什么方法来评价组装方法的优劣?
(2)如果让你选择一种方法,你会作出怎样的选择?
试说明理由。
参考答案:
解:
对比均值和离散系数的方法,选择均值大,离散程度小的。
方法A方法B方法C
平均165.6平均128.7333333平均125.5333333
标准差2.131397932标准差1.751190072标准差2.774029217
离散系数:
VA=0.01287076,Vb=0.013603237,VC=0.022097949
均值A方法最大,同时A的离散系数也最小,因此选择A方法。
24.在金融证券领域,一项投资的预期收益率的变化通常用该项投资的风险来衡量。
预期收益率的变化越小,投资风险越低;预期收益率的变化越大,投资风险就越高。
下面的两个直方图,分别反映了200种商业类股票和200种高科技类股票的收益率分布。
在股票市场上,高收益率往往伴随着高风险。
但投资于哪类股票,往往与投资者的类型有一定关系。
(1)你认为该用什么样的统计量来反映投资的风险?
(2)如果选择风险小的股票进行投资,应该选择商业类股票还是高科技类股票?
(3)如果进行股票投资,你会选择商业类股票还是高科技类股票?
参考答案:
(1)标准差或者离散系数。
(2)选择离散系数小的股票,则选择商业股票。
(3)考虑高收益,则选择高科技股票;考虑风险,则选择商业股票
二、主观题(共3道小题)
12.调节一个装瓶机使其对每个瓶子的灌装量均值为〃盎司,通过观察这台装瓶机对每个瓶子的灌装量服从标准差4=1-0盎司的正态分布。
随机抽取由这台机器灌装的9个瓶子形成一个样本,并测定每个
瓶子的灌装量。
试确定样本均值偏离总体均值不超过0.3盎司的概率。
参考答案:
解:
总体方差知道的情况下,均值的抽样分布服从I/簿,的正态分布,由正态分布,标准化得
到标准正态分布:
z="/及〜,因此,样本均值不超过总体均值的概率P为:
呻“叫J^^款”儡,制
<0^)川0.9)木―十.八-日网0.9)
=I'=2皆'--1,查标准正态分布表得'=0.8159
因此,
F(|〜牛03)
」1=0.6318
13.
%,"……,&表示从标准正态总体中随机抽取的容量,n=6的一个样本,试确定常数b,使得
0.95
参考答案:
解:
由于卡方分布是由标准正态分布的平方和构成的:
统计学主观题第19页共34页
设Z1,Z2,……,Zn是来自总体N0,1)的样本,则统计量
/二+驾+一斗火
服从自由度为n的%2分布,记为%2〜x2(n)
I।z।>
/=VZ?
/=⑹尸》£:
。
=095
因此,令i,则Z,那么由概率"」,可知:
b=嗟-Hl叫查概率表得:
b=12.59
14.在习题6.1中,假定装瓶机对瓶子的灌装量服从方差口的标准正态分布。
假定我们计划随机抽
取10个瓶子组成样本,观测每个瓶子的灌装量,得到10个观测值,用这10个观测值我们可以求出样本
=」—直耳_弓。
方差k-L4,确定一个合适的范围使得有较大的概率保证S2落入其中是有用的,试求b1,
b2,使得
p(b1参考答案:
解:
更加样本方差的抽样分布知识可知,样本统计量:
CF
此处,n=10,所以统计量
根据卡方分布的可知:
P(叫W鸣卜口.如
又因为:
因此:
用叫小型*典)■耳其(“一1公力,1s,口期
=F佻W对4眄)・耳山/(吁1设04点(门-1))
・M人网MS”孔⑼)■口如
则:
h_P)L_2bm(^)二叫』(咋她—六(9)"=『一鸟=『一
查概率表:
必/1=3.325,1:
"=19.919,则
小⑶b_力八
9=0.369,:
■=1.88
、主观题(共13道小题)
24.某快餐店想要估计每位顾客午餐的平均花费金额。
在为期3周的时间里选取49名顾客组成了一个简
单随机样本。
(1)假定总体标准差为15元,求样本均值的抽样标准误差
(2)在95%的置信水平下,求边际误差
(3)如果样本均值为120元,求总体均值的95%的置信区间。
参考答案:
(1)
15
=2.143
⑵
△:
二'%,由于是大样本抽样,因此样本均值服从正态分布,因此概率度t=/投
因此,刈=£'区二八推'怎二飞物’"工=1.96X2.143=4.2
(3)置信区间为:
伉=(120-4,2J20+4.2)
=(115.8,124.2)
25.
某大学为了解学生每天上网的时间,在全校7500名学生中采取重复抽样方法随机抽取36人,调查他们
每天上网的时间,得到下面的数据(单位:
小时):
3.3
3.1
6.2
5.8
2.3
4.1
5.4
4.5
3.2
4.4
2.0
5.4
2.6
6.4
1.8
3.5
5.7
2.3
2.1
1.9
1.2
5.1
4.3
4.2
3.6
0.8
1.5
4.