《应用统计分析》作业集答案.docx
《《应用统计分析》作业集答案.docx》由会员分享,可在线阅读,更多相关《《应用统计分析》作业集答案.docx(36页珍藏版)》请在冰豆网上搜索。
《应用统计分析》作业集答案
部分答案提示
第一章导论
一、简答题
1、数量性、大量性;
差异性、具体性;
2、统计数据信息处理的方法包括两个方面,即描述统计方法和推断统计方法。
描述统计是主要对已收集到的统计数据信息进行加工、分组、编制统计表、绘制统计图及计算相对数、平均数、方差等,以反映事物的数量特征和数量关系的统计方法。
描述统计只限于手头现有的数据,不准备把结果用来推断总体。
推断统计以样本为基础,主要内容是研究如何应用概率理论,以样本来推断总体。
3、选择与定义问题
执行研究的程序
数据分析
结果的探究和结论
一、名词解释
1、请区别以下概念:
(1)参数与统计量(参数:
用于说明全级总体的指标;统计量:
根据样本资料汇总计算的指标,即样本指标。
)
(2)指标和标志(指标和标志是相对而言的,指标是对总体而言,标志是对总体单位而言的。
)
(3)离散型变量和连续型变量(离散型变量指只能取整数的变量,连续型变量是指在整数之间可插入小数的变量。
)
第二章数据搜集与整理
二、简答题
1、统计调查分为专门调查和统计报表制度两种类型,其中专门调查分为普查、抽样调查、重点调查、典型调查四种类型。
2、重点调查是在总体中选择部分重点单位进行的调查,借以了解总体的基本情况。
所谓重点单位,是指在总体中具有举足轻重地位的单位。
这些单位虽然少,但它们调查的标志值在总体标志总量中占有绝大比重,通过对这些单位的调查,就能掌握总体的基本情况。
典型调查是根据调查的目的和要求,在对调查对象进行全面分析的基础上,有意识的选择部分有代表性的单位进行的调查,是一种非全面调查。
重点调查与典型调查都是非全面调查,它们都存在一个共同的问题,即部分单位的选择问题。
重点调查部分单位的选择应把握这些单位在总体中所占的比重要较大,而典型调查部分单位的选择应放在这些单位要具有足够的代表性。
3、影响问卷效果的因素主要有三个方面:
(1)被调查者的主观倾向;
(2)测量工具即问卷本身的问题;(3)问卷环境。
4、
(1)频数和频率1.频数:
落在各类别中的数据个数频率:
某一类别数据占全部数据的比值
(2)组数和组距分组:
按某个标志将资料进行分类,划分成各个等级。
组距:
最大值与最小值之差
(1)等距分组和异距分组等距分组——各组频数的分布不受组距大小的影响;可直接根据绝对频数来观察频数分布的特征和规律;不等距分组——各组频数的分布受组距大小不同的影响;各组绝对频数的多少不能反映频数分布的实际状况;需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况
5、及时性和共享性、便捷性和低费用、交互性和充分性、可靠性和客观性、无时空地域限制
6、
(1)按随机原则从总体中抽取样本;
(2)以样本指标为依据推断总体参数或对总体的某种特征值作假设;
(3)抽样调查的误差可以事先计算并加以控制
7、
有登记性误差和代表性误差两类
–登记性误差:
由于调查者或被调查者的人为因素所造成的误差。
理论上讲可以消除
–代表性误差:
用样本数据进行推断时所产生的误差。
通常无法消除,但事先可以进行控制和计算
8、
1.要合理安排统计表的结构
2.总标题内容应满足3W要求
3.数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明
4.表中的上下两条横线一般用粗线,其他线用细线
5.通常情况下,统计表的左右两边不封口
6.表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一
7.对于没有数字的表格单元,一般用“—”表示
8.必要时可在表的下方加上注释
三、计算题
1、
(1)最大值:
108;最小值:
50;全距:
108-50=58
(2)、(3)
产品数量
频数
向下累计
向上累计
数量(个)
比率(%)
数量(个)
比率(%)
数量(个)
比率(%)
50—59
3
6
3
6
50
100
60—69
4
8
7
14
47
94
70—79
18
36
25
50
43
86
80—89
18
36
43
86
25
50
90—99
5
10
48
96
7
14
100—109
2
4
50
100
2
4
合计
50
100
—
—
—
—
(4)略
(1)2、
组区间
区间中心
频数
频率
累积频数
累积频率
59.5∼64.5
64.5∼69.5
69.5∼74.5
74.5∼79.5
79.5∼84.5
84.5∼89.5
89.5∼94.5
62
67
72
77
82
87
92
1
4
8
11
6
7
3
0.025
0.100
0.200
0.275
0.150
0.175
0.075
1
5
13
24
30
37
40
0.025
0.125
0.325
0.600
0.750
0.925
1.000
3、
组数=6
组距=4
频数分布表如下:
按销售额分组(万元)
频数(天)
频率(%)
25—30
4
10.0
30—35
6
15.0
35—40
15
37.5
40—45
9
22.5
45—50
6
15.0
合计
40
100.0
4、
(1)40个企业按产品销售收入分组表
按销售收入分组(万元)
企业数(个)
频率(%)
向上累计
向下累计
企业数
频率
企业数
频率
100以下
5
12.5
5
12.5
40
100.0
100—110
9
22.5
14
35.0
35
87.5
110—120
12
30.0
26
65.0
26
65.0
120—130
7
17.5
33
82.5
14
35.0
130—140
4
10.0
37
92.5
7
17.5
140以上
3
7.5
40
100.0
3
7.5
合计
40
100.0
—
—
—
—
(2)某管理局下属40个企业分组表
按销售收入分组(万元)
企业数(个)
频率(%)
先进企业
11
27.5
良好企业
11
27.5
一般企业
9
22.5
落后企业
9
22.5
合计
40
100.0
第三章数据的汇总
一、简答题
1、集中趋势,计量方法:
算术平均数、众数、中位数、几何平均数等
2、离中趋势,计量方法:
全距、平均差、方差和标准差
3、算术平均数的使用前提:
个体标志值之和等于总体的标志总量
众数的使用前提:
作为代表的标志值的次数要相对集中
中位数:
不受极端值的影响
4、
1.各变量值与均值的离差之和等于零
2.各变量值与均值的离差平方和最小
3.两独立同质变量代数和的算术平均数等于各变量算术平均数的代数和。
4.两独立同质变量乘积的算术平均数等于各变量算术平均数的乘积。
5、中位数、众数和算术平均数都反映被研究现象数量分布的集中趋势。
当次数分布完全对称时,算术平均数、中位数和众数是一致的,它们相等;当次数分布向右或向左倾斜,那么算术平均数和中位数也分别向左或向右靠近。
次数分布向左倾斜,其算术平均数最小,小于中位数,更小于众数,众数最大;次数分布向右倾斜,算术平均数最大,大于中位数,更大于众数,众数最小。
6、一组数据中可以自由取值的数据的个数
1.当样本数据的个数为n时,若样本均值x确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值
7、如果样本数据的均值为
,标准差为s的土堆状分布,则落入
三个区间内的观测值数与观测值总数的比率如下:
•
:
通常在60%与80%之间,对于对称分布接近70%
•
:
对于对称分布接近95%
•
:
接近100%
二、计算题
1、838元
2、6.3台
3、均值:
274.1万元,中位数:
272.5万元,标准差:
20.82万元
4、甲企业平均成本=19.41元,乙企业平均成本=18.29元,原因:
尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。
5、
均值:
23.2
中位数:
24
众数:
没有众数
或众数为:
19,25,26
全距=最大值—最小值=28–19=9
平均差:
2.8
方差:
7.97
标准差:
2.82
6、
均值:
74.4件;标准差:
9.71件
7、中位数。
因为该收入分布为右偏,且频数较多的几个组的家庭百分比相差不大,众数不十分明显。
8、
(1)
(2)两位调查人员所得到的平均身高和标准差应该差不多相同,因为均值和标准差的大小基本上不受样本大小的影响。
(3)具有较大样本的调查人员有更大的机会取到最高或最低者,因为样本越大,变化的范围可能越大。
9、
算术平均数:
8.6万台
众数:
8.08万台
中位数:
8.3万台
10、
(1)均值:
77.5分;标准差:
6.5分
(2)均值:
77分;标准差:
6.48分
(3)均值:
78分;标准差:
6.48分
(4)男女生各占一半时,全班平均考试成绩为(70+80)/2=77.5分;由于男生的平均成绩低于女生,当男生人数多于女生时,会拉低全班的平均成绩;当女生人数多于男生时,会拉高全班的平均成绩。
(5)标准差相同。
因为男生和女生的标准差相同,都为6分,且女生成绩的离散程度较大,使全班的标准差大于6分,但改变男女的比例并不改变标准差的大小。
(6)57人
11、
中位数:
394.08元;均值:
393.1元;标准差:
172.55元
12、
均值:
A班74.7,B班77.4
方差:
A班68.866,B班78.28
标准差:
A班8.8,B班9.29
13、2.613.976.32
14、
(2)算术平均数:
76.75分;中位数:
76.67分;众数:
76.31分,呈右偏态分布;
(3)考试成绩的标准差:
9.457分;
(4)另一班;
(5)及格率:
95%;标准差:
21.79%
15、均值:
8.4件
标准差:
1.56件
第四章抽样基础
一、简答题
1、概率:
又称几率,用以衡量某一特定事项将会发生的可能性有多大。
常用方法:
•古典法:
当我们以“可能出现的机会完全相等”作为概率衡量的假设基础,同时试验的样本空间只包含有限个元素,此种衡量概率大小的方法称为古典法
•相对次数法:
在相同条件下进行n次随机试验,事件A出现m次,则比值m/n称为事件A发生的频率。
随着n的增大,该频率围绕某一常数P上下摆动,且波动的幅度逐渐减小,取向于稳定,这个频率的稳定值即为事件A的概率
•主观法:
概率是一个决策者对某事件是否发生,根据个人掌握的信息对该事件发生可能性的判断
2、定义:
将离散型随机变量的全部可能取值及其相应的概率描述出来
离散型随机变量的概率分布(0—1分布):
一个离散型随机变量X只取两个可能的值
均匀分布:
一个离散型随机变量取各个值的概率相同
3、连续型随机变量不是定义再某一特定值的概率上,而是以其变量值发生在某一区间的概率来代替的;连续型随机变量发生在某以特定值上的概率为0
4、连续型随机变量可以取某一区间或整个实数轴上的任意一个值
1.它取任何一个特定的值的概率都等于0
2.不能列出每一个值及其相应的概率
3.通常研究它取某一区间值的概率
4.用数学函数的形式和分布函数的形式来描述
5、
(1)二项试验
进行n次重复试验,出现“成功”的次数的概率分布称为二项分布
1.二项分布与贝努里试验有关
2.贝努里试验具有如下属性
–试验包含了n个相同的试验
–每次试验只有两个可能的结果,即“成功”和“失败”
–出现“成功”的概率p对每次试验结果是相同的;“失败”的概率q也相同,且p+q=1
–试验是相互独立的
–试验“成功”或“失败”可以计数
3.举例略
(2)泊松分布
1.用于描述在一指定时间范围内或在一定的长度、面积、体积之内每一事件出现次数的分布
2.若某个离散型随机变量能够满足两个假设,即
(1)在任何两个相等长度的区间内,事件发生的概率相等;
(2)任何时间内,事件的发生与否与其他任何区间内的事件是否发生无关,则称为泊松分布
3.举例略
(3)正态分布
1.描述连续型随机变量的最重要的分布
2.可用于近似离散型随机变量的分布
–例如:
二项分布
3.经典统计推断的基础
4.举例略
6、大数定律:
略
作用:
大数定律反映了在大量的事物观察中,个别的、偶然的差异相互抵消,显示出事物的共同的、必然的规律性。
这说明同质的大量现象有其规律性。
随着观察次数达到一定程度,这种规律性就会表现出来,且观察次数越多,表现就越明显。
中心极限定理:
设从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布
作用:
中心极限定理规定当样本容量足够大时,其总体分布即可近似为正态分布。
7、简单随机抽样、分层抽样、等距抽样、整群抽样、多阶段抽样
8、简单随机抽样:
从总体的所有单位中按照随机原则抽取样本单位的方式。
对于总体中的每个单位,被抽取的机会都是相等的;仅适用于总体单位标志变异程度较小的情况
分层抽样:
又称类型抽样或分类抽样,它将总体各单位按照某个标志分成若干组,然后在各组中采用简单随机抽样获取样本单位
等距抽样:
机械抽样或系统抽样。
对总体各单位某一标志进行排队,然后依一定顺序按相等间隔抽取样本单位的一种抽样组织形式
整群抽样:
将总体各单位按一定的标志或要求,分成若干群,然后以群为单位,随机抽取几个群,对被抽中的群进行全部调查
多阶段抽样:
将整个抽样过程分为两个或两个以上阶段,将两种或两种以上抽样方式结合起来,分步开展。
9、整群抽样是对中选群进行全面的调查,它与分层抽样的共同点是都要对总体各单位进行分层(群)。
但分层(群)的目的则完全不同的,分层抽样对总体进行分层的目的在于尽可能缩小组内的差异,扩大组间方差,提高抽样效果。
而整群抽样分群则是为了扩大群内差异,缩小群间方差,从而达到提高抽样效果的目的。
10、有登记性误差和代表性误差两类
a)登记性误差:
由于调查者或被调查者的人为因素所造成的误差。
理论上讲可以消除
b)代表性误差:
用样本数据进行推断时所产生的误差。
通常无法消除,但事先可以进行控制和计算
11、略
二、分析计算题
1、
(1)样本空间{x|0x100}
(2)样本空间{k|k为非整数}
(3)样本空间{k|10k且为整数}
2、
(1)0.68
(2)0.384
3、在评估两个项目时,由于各有其不同的可能性,所以可以运用预期平均回报率来反映个别项目的盈利能力,以便做出投资选择
两者的预期平均回报率相同,所以有必要评估两个项目回报率的稳定性或风险,来决定哪个较佳。
而稳定性或风险可用方差或标准差反映出来
项目A
项目B
4、0.25
5、0.2490.112
6、0.007125
7、0.0059
8、0.4435
9、
(1)0.0154
(2)0.9830(3)0.7379
10、
(1)0.9332
(2)0.383
11、
(1)180;28.2843
(3)180;20
第五章参数估计与假设检验
一、简答题
1、从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出一个数值点的估计
点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等
2、用于估计总体某一参数的随机变量
估计量的优良性准则:
(1)无偏性:
估计量的数学期望等于被估计的总体参数;
(2)有效性:
一个方差较小的无偏估计量称为一个更有效的估计量;(3)一致性:
随着样本容量的增大,估计量越来越接近被估计的总体参数。
3、
(1)区间估计;
(2)置信水平
(1)根据一个样本的观察值给出总体参数的估计范围
(2)总体未知参数落在区间内的概率
4、数据的离散程度,用来测度
样本容量,
置信水平(1-),影响Z的大小
5、概念
–事先对总体参数或分布形式作出某种假设
–然后利用样本信息来判断原假设是否成立
1.类型
–参数假设检验
–非参数假设检验
3.特点
–采用逻辑上的反证法
–依据统计上的小概率原理
6、提出原假设和备择假设,确定适当的检验统计量,规定显著性水平,计算检验统计量的值,作出统计决策
7、
1.第一类错误(弃真错误)
–原假设为真时拒绝原假设
–会产生一系列后果
–第一类错误的概率为
•被称为显著性水平
2.第二类错误(取伪错误)
–原假设为假时接受原假设
–第二类错误的概率为(Beta)
8、
双侧检验属于决策中的假设检验。
也就是说,不论是拒绝H0还是接受H0,我们都必需采取相应的行动措施;单侧检验:
(1)检验研究中的假设
1.将所研究的假设作为备择假设H1
2.将认为研究结果是无效的说法或理论作为原假设H0。
或者说,把希望(想要)证明的假设作为备择假设
单侧检验:
(2)检验某项声明的有效性
1.将所作出的说明(声明)作为原假设
2.对该说明的质疑作为备择假设
9、略
二、计算题
1、
解:
已知X~N(,1.52),x=5.25,n=144,1-=0.95,Z/2=1.96总体均值的置信区间为
2、解:
已知X~N(,502),x=1600,n=25,1-=0.95,Z/2=1.96总体均值的置信区间为
3、[5,5.5]
4、解:
已知X~N(,2),x=72,s=9.3,n=36,1-=0.95,t/2=2.0639。
5、解:
已知
XA~N(A,2502);XB~N(B,4002);xA=1500,xB=1600,A2=2502;B2=4002
nA=nB=100
A-B置信度为95%的置信区间为
6、解:
已知X1~N(1,2);X2~N(2,2);x1=920,x2=1000,s1=120;s2=150
n1=10;n2=12;12=12
1-2置信度为90%的置信区间为
7、解:
已知n=400,p=0.721,np=400>=5,n(1-p)=111.6>5,=0.95,
Z/2=1.96
8、[2.6,9.4]
9、解:
已知p1=0.10,p2=0.19,1-=0.95,n1=900,n2=400
P1-P2置信度为95%的置信区间为
10、解:
已知
x1=30.63,S12=13.63;x2=27.28,S22=46.71;F1-/2(5,6)=F0.95=4.39
F/2(5,6)=F0.05=0.23
12/22置信度为90%的置信区间为
11、解:
已知12=11.36,22=10.25,32=12.13=0.05,Z/2=1.96,=1
12、解:
已知=0.05,=0.05,Z/2=1.96,p=0.49
13、[68.85,75.15]
14、对做出的声明作为原假设:
•H0:
3
•H1:
<3
▪=0.01
检验统计量:
决策:
在=0.01的水平上拒绝H0
15、H0:
=4.55
•H1:
4.55
•Zα/2=1.96
•n=9
检验统计量:
决策:
在=0.05的水平上接受H0
16、H0:
700;H1:
<700;=0.05;n=36
检验统计量:
决策:
在=0.05的水平上拒绝H0
17、H0:
250;H1:
>250;=0.05;n=25
检验统计量:
;
决策:
在=0.05的水平上拒绝H0
18、
H0:
p5%;H1:
p>5%;=0.05;n=50
检验统计量:
决策:
在=0.05的水平上拒绝H0
19、
H0:
1-2=0;H1:
1-20;=0.05;n1=81,n2=64
检验统计量:
决策:
拒绝H0
20、
•H0:
=21
•H1:
21
▪=0.05
检验统计量:
决策:
在=0.05的水平上拒绝H0
第六章方差分析
一、简答题
1、
(1)因素或因子;
(2)水平;(3)观察值;(4)总体;
1.因素或因子
所要检验的对象称为因子
2.水平
因素的具体表现称为水平
3.观察值
在每个因素水平下得到的样本值
4.总体
因素的每一个水平可以看作是一个总体
2、
1.比较两类误差,以检验均值是否相等
2.比较的基础是方差比
3.如果系统(处理)误差显著地不同于随机误差,则均值就是不相等的;反之,均值就是相等的
4.误差是由各部分的误差占总误差的比例来测度的
3、随机误差
在因素的同一水平(同一个总体)下,样本的各观察值之间的差异
随机因素的影响,或者说是由于抽样的随机性所造成的,称为随机误差
系统误差
在因素的不同水平(不同总体)下,各观察值之间的差异
由于抽样的随机性所造成的,或由系统性因素造成的,称为系统误差
4、每个总体都应服从正态分布
对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本
各个总体的方差必须相同
对于各组观察数据,是从具有相同方差的总体中抽取的
观察值是独立的
5、总离差平方和(SST)、误差项离差平方和(SSE)、水平项离差平方和(SSA)之间的关系
SST=SSE+SSA
SST反映了全部数据总的误差程度;SSE反映了随机误差的大小;SSA反映了随机误差和系统误差的大小
6、
方差来源
平方和SS
自由度df
均方MS
F值
组间(因素影响)
SSA
k-1
MSA
MSA
组内(误差)
SSE
n-k
MSE
总和
SST
n-1
7、
1.分析两个因素(因素A和因素B)对试验结果的影响
2.分别对两个因素进行检验,分析是一个因素在起作用,还是两个因素都起作用,还是两个因素都不起作用
3.如果A和B对试验结果的影响是相互独立的,分别判断因素A和因素B对试验指标的影响,这时的双因素方差分析称为无交互作用的双因素方差分析
4.如果除了A和B对试验结果的单独影响外,因素A和因素B的搭配还会对销售量产生一种新的影响,这时的双因素方差分析称为有交互作用的双因素方差分析
5.对于无交互作用的双因素方差分析,其结果与对每个因素分别进行单因素方差分析的结果相同
8、
1.每个总体都服从正态分布
对于因素的每一个水平,其观察值是来自正态分布总体的简单随机样本
2.各个总体的方差必须相同
对于各组观察数据,是从具有相同方差的总体中抽取的
3.观察值是独立的
二、计算题
1、接受原假设。
2、无显著差异