清华大学杨虎应用数理统计课后习题参考答案.docx
《清华大学杨虎应用数理统计课后习题参考答案.docx》由会员分享,可在线阅读,更多相关《清华大学杨虎应用数理统计课后习题参考答案.docx(20页珍藏版)》请在冰豆网上搜索。
清华大学杨虎应用数理统计课后习题参考答案
习题五
1某钢厂检查一月上旬内的五天中生产的钢锭重量,结果如下:
(单位:
kg)
日期
重量
1
2
4
9
10
5500580057405710
5440568052405600
5400541054305400
5640570056605700
5610570056105400
试检验不同日期生产的钢锭的平均重量有无显着差异?
(=)
解根据问题,因素表示日期,试验指标为钢锭重量,水平为5.
假设样本观测值来源于正态总体.
检验的问题:
不全相等.
计算结果:
表单因素方差分析表
方差来源
自由度
平方和
均方
F值
P值
因素A
误差
4
15
227680
216175
56920
14412
*
注释:
当=表示非常显着,标记为‘***’,类似地,=,,分别标记为‘**’,‘*’.
查表,因为,或=<,所以拒绝,认为不同日期生产的钢锭的平均重量有显着差异.
2考察四种不同催化剂对某一化工产品的得率的影响,在四种不同催化剂下分别做试验获得如下数据:
催化剂
得率
1
2
3
4
试检验在四种不同催化剂下平均得率有无显着差异?
(=)
解
根据问题,设因素表示催化剂,试验指标为化工产品的得率,水平为4.
假设样本观测值来源于正态总体.其中样本容量不等,分别取值为6,5,3,4.
检验的问题:
不全相等.
计算结果:
表单因素方差分析表
方差来源
自由度
平方和
均方
F值
P值
因素A
误差
3
14
查表,因为,或=>,
所以接受,认为在四种不同催化剂下平均得率无显着差异.
3试验某种钢的冲击值(kg×m/cm2),影响该指标的因素有两个,一是含铜量A,另一个是温度B,不同状态下的实测数据如下:
试验温度
含铜量
20℃0℃-20℃-40℃
%
%
%
试检验含铜量和试验温度是否会对钢的冲击值产生显着差异?
(=)
解根据问题,这是一个双因素无重复试验的问题,不考虑交互作用.
设因素分别表示为含铜量和温度,试验指标为钢的冲击力,水平为12.
假设样本观测值来源于正态总体.记为对应于的主效应;记为对应于的主效应;
检验的问题:
(1)全部等于零,不全等于零;
(2)全部等于零,不全等于零;
计算结果:
表双因素无重复试验的方差分析表
方差来源
自由度
平方和
均方
F值
P值
因素A
2
***
因素B
误差
总和
3
6
11
***
查表,,显然计算值分别大于查表值,或=,均显着小于,所以拒绝,认为含铜量和试验温度都会对钢的冲击值产生显着影响作用.
4下面记录了三位操作工分别在四台不同的机器上操作三天的日产量:
日产量
操作工
机器
B1
B2
B3
M1
15,15,17
19,19,16
16,18,21
M2
17,17,17
15,15,15
19,22,22
M3
15,17,16
18,17,16
18,18,18
M4
18,20,22
15,16,17
17,17,17
设每个工人在每台机器上的日产量都服从正态分布且方差相同.试检验:
(=)
1)操作工之间的差异是否显着?
2)机器之间的差异是否显着?
3)它们的交互作用是否显着?
解根据问题,这是一个双因素等重复(3次)试验的问题,要考虑交互作用.
设因素分别表示为机器和操作,试验指标为日产量,水平为12.
假设样本观测值来源于正态总体,.记为对应于的主效应;记为对应于的主效应;记为对应于交互作用的主效应;
检验的问题:
(1)全部等于零,不全等于零;
(2)全部等于零,不全等于零;
(3)全部等于零,不全等于零;
计算结果:
表双因素无重复试验的方差分析表
方差来源
自由度
平方和
均方
F值
P值
因素A
因素B
相互效应A×B
误差
总和
3
2
6
24
35
**
**
查表,,,计算值,或,而均显着小于,所以拒绝,接受,认为操作工之间的差异显着,机器之间的差异不显着,它们之间的交互作用显着.
5某轴承厂为了提高轴承圈退火的质量,制定因素水平分级如下表所示
因素
上升温度℃
保温时间(h)
出炉温度℃
水平1
800
6
400
水平2
820
8
500
试问应选用哪张正交表来安排试验,并写出第三号试验条件;又如果试验结果为
试验号
1234
硬度合格率%
100458570
试填好正交试验结果分析表并对试验结果进行直观分析和方差分析.
解根据题意,这是一个3因素2水平的试验问题.试验指标为硬度的合格率.应选择正交表来安排试验,随机生成正交试验表如下:
表试验案表方
表头设计
A
B
C
空列
硬度合格率(%)
列号
1
2
3
4
1
1
2
1
2
100
2
2
1
2
1
45
3
1
1
2
2
85
4
2
2
1
1
70
由此可见第三号试验条件为:
上升温度800℃、保温时间6h、出炉温度500℃.
直观分析需要计算K值,计算结果如下:
表计算表
表头设计
A
B
C
空列
硬度合格率(%)
列号
1
2
3
4
1
1
2
1
2
100
2
2
1
2
1
45
3
1
1
2
2
85
4
2
2
1
1
70
185
130
170
115
K=300
P=22500
Q=24150
=3250
115
170
130
185
23725
22900
22900
23725
1225
400
400
1225
直观分析由计算的K值知,因素A、B、C的极差分别为70,40,40,因此主次关系为,B,C相当.由于试验指标为硬度的合格率,应该是越大越好,所以各确定因素的水平分别是,即最佳的水平组合是,即最佳搭配为:
上升温度800℃、保温时间8h、出炉温度400℃.
采用方差分析法,计算得下表:
表方差分析表
方差来源
平方和
自由度
均方差
F值
A
1225
1
1225
1
B
400
1
400
C
400
1
400
误差
1225
1
1225
总和
3250
4
如果显着性检验水平取,则查表得,显然计算的F值均小于查表值,所以认为三个因素对结果影响都显着.
6某良种繁殖场为了提高水稻产量,制定试验的因素位级表如下:
因素
品种
密度(颗/100m2)
施肥量(kg/100m2)
位级1
位级2
位级3
窄叶青8号
南二矮5号
珍珠矮11号
问应选用哪张正交表安排试验,并写出第8号试验的条件;如果9组试验结果为(单位:
kg/100m2):
,,,,,,,,,试对该正交试验结果进行直观分析和方差分析.
解该问题属于3因素3水平的试验问题,试验指标为水稻产量.根据题意应选择正交表来安排试验,随机生成正交表如下:
表试验安排表
表头设计
A
B
C
实验结果
产量(kg/m2%)
列号
1
2
3
1
1
1
1
2
1
2
2
3
1
3
3
4
2
1
2
5
2
2
3
6
2
3
1
7
3
1
3
8
3
2
1
9
3
3
2
由表可知,第8号试验的条件:
品种(A3)珍珠矮11号,插值密度(B2)棵/100m2,施肥量(C1)100m2纯氨;
直观分析需要计算K值,计算结果如下:
表计算表
表头设计
A
B
C
实验结果
产量(kg/m2%)
列号
1
2
3
1
1
1
1
2
1
2
2
3
1
3
3
4
2
1
2
5
2
2
3
6
2
3
1
7
3
1
3
8
3
2
1
9
3
3
2
5655
K=
同上题进行直观分析,得出K值的大小关系为:
由直观分析看出:
本例较好的水平搭配是:
采用方差分析法,计算得下表:
表方差分析表
方差来源
平方和
自由度
均方差
F值
A
2
B
2
C
2
误差
2
,所以认为三个因素对结果影响都不显着.
7在阿魏酸的合成工艺考察中,为了提高产量,选取了原料配比A,吡啶量B和反应时间C三个因素,它们各取了7个水平如下:
原料配比A:
,,,,,,
吡啶量B:
10,13,16,19,22,25,28
反应时间C:
,,,,,,
试选用合适的均匀设计表安排试验,并写出第7号试验的条件;如果7组试验的结果(收率)为:
,,,,,,,试对该均匀试验结果进行直观分析并通过回归分析发现可能更好的工艺条件.
解根据题意选择均匀设计表
来安排试验,有3个因素,根据使用表,实验安排如:
表试验安排表
A
B
C
收率
列号
1
2
3
1
1
2
3
2
2
4
6
3
3
6
2
4
4
1
5
5
5
3
1
6
6
5
4
7
7
7
7
所以第7号实验的条件为:
原配料比,吡啶量28ml,反应时间.
通过直观分析,最好的实验条件是:
原配料比,吡啶量28ml,反应时间.
通过回归分析,最合适的实验条件是:
原配料比,吡啶量16ml,反应时间.
习题六
1从某中学高二女生中随机选取8名,测得其升高、体重如下:
12345678
身高(cm)
160159160157169162165154
体重(kg)
4946534149504843
在绝对距离下,试用最短距离法和离差平方和法对其进行聚类分析.
解由R软件,用最短距离(左)和差离平方和法(右)对题目进行聚类分析如下图,表和表:
最短距离法离差平方和法
图聚类树形图
表聚类附表(最短距离法)
步骤
聚类合并
系数
首次出现的阶段类别
下一步
组1
组2
组1
组2
1
1
6
0
0
2
2
1
2
1
0
4
3
4
8
0
0
7
4
1
7
2
0
5
5
1
3
4
0
6
6
1
5
5
0
7
7
1
4
6
3
0
表聚类附表(离差平方和法)
步骤
聚类合并
系数
首次出现的阶段类别
下一步
组1
组2
组1
组2
1
1
6
0
0
4
2
4
8
0
0
7
3
5
7
0
0
6
4
1
3
1
0
5
5
1
2
4
0
6
6
1
5
5
3
7
7
1
4
6
2
0
2已知五个变量的距离矩阵为
试用最短距离法和最长距离法对这些变量进行聚类,并画出聚类图和二分树.
解针对距离矩阵1),采用两种方法计算如下.
①最短距离法的聚类步骤如下:
a)将,
,聚类图和树状图如图:
图聚类图(左)与树状图(右)
②最长距离法与最短距离法类似,步骤如下:
a)
,聚类图和树状图如图:
图聚类图(左)与树状图(右)
(2)针对距离矩阵2)
①最短距离法的聚类步骤如下
a)
聚类图和树状图如图:
图聚类图(左)与树状图(右)
②由于本题数据的特殊性,最长距离法与最短距离法结果相同(略).
(3)
最短距离法的聚类步骤如下
)
,聚类图和树状图如图:
图聚类图(左)与树状图(右)
由于本题数据的特殊性,最长距离法与最短距离法结果相同(略).
3在一项关于作物对土壤营养的反应的研究中,要测定土壤的总磷量和总氮量(占干物质重的百分比),今对10份土样测得数据如下:
土样
变量
12345678910
总磷量(%)
总氮量(%)
在绝对距离下,试用重心法对其进行聚类分析.
解由R软件得到重心法聚类分析的结果如图与表:
图聚类树形图
表聚类过程记录表
步骤
聚类合并
系数
首次出现的阶段类别
下一步
组1
组2
组1
组2
1
1
8
.001
0
0
2
2
1
10
.002
1
0
4
3
6
9
.005
0
0
6
4
1
5
.010
2
0
7
5
2
4
.010
0
0
8
6
6
7
.027
3
0
7
7
1
6
.048
4
6
8
8
1
2
.459
7
5
9
9
1
3
8
0
0
41975年Dagnelie收集了11年的气象数据资料如下表
变量
年序
x1x2x3x4
1
2
3
4
5
6
7
8
9
10
11
1661
968
1353
1293
1153
1286
1104
1574
1222
902
1150
其中:
x1—前一年11月12日的降水量;x2—7月均温;x3—7月降雨量;x4—月日辐射,试对这四个气象因子进行主成分分析.
解由R软件分析得到如下表,:
表各主成分的重要性:
主成分1
主成分2
主成分3
主成分4
标准差
0.
0.
方差贡献率
累积贡献率
0.
表因子荷载:
主成分1
主成分2
主成分3
主成分4
X1
X2
X3
X4
由于前两个主成分对应的累积贡献率已经达到,因此选取主成分的数目为2.
5对某初中12岁的女生进行体检,测量其身高x1、体重x2、胸围x3和坐高x4,共测得58个样本,并算得的样本协方差为
试进行样本主成分分析.
解首先计算样本的相关系数矩阵:
设相关系数矩阵的特征值和特征向量分别为
和
阵,计算得到
即四个特征值依次为:
,,,,前两个主成分的累计贡献率为:
%,因此提取主成分为2.四个特征根相应的特征向量为
因此,两个主成分的表达式为:
6比较因子分析和主成分分析模型的异同,阐明两者的关系.
解
(1)提取公因子的方法主要有主成分法和公因子法.若采取主成分法,则主成分分析和因子分析基本等价,该法从解释变量的变异的角度出发,尽量使变量的方差能被主成分解释;而公因子法主要从解释变量的相关性角度,尽量使变量的相关程度能被公因子解释,当因子分析目的重在确定结构时则用到该法.
(2)主成分分析和因子分析都是在多个原始变量中通过他们之间的内部相关性来获得新的变量,达到既减少分析指标个数,又能概括原始指标主要信息的目的.但他们各有其特点:
主成分分析是将n个原始变量提取m个支配原始变量的公因子,和1个特殊因子,各因子之间可以相关或不相关.
(3)统用降维的方法,但差异也很明显:
主成分分析把方差划分为不同的正交成分,而因子分析则把方差化分为不同的起因因子;因子分析中的特征值的计算只能从相关系数矩阵出发,且必须把主成分划分为因子.
(4)因子分析提取的公因子比主成分分析提取的主成分更具有可解释性.
(5)两者分析的实质及重点不同.主成分的数学模型为
,因子分析的数学模型为
.因而可知主成分分析是实际上是线性变换,无假设检验,而因子分析是统计模型,某些因子模型是可以得到假设检验的;主成分分析主要综合原始数据的信息,而因子分析重在解释原始变量之间的关系.
(6)SPSS数据的实现:
两者都通过“analyzedatareductionFactor···”过程实现,但主成分分析主要使用“descriptires”,“extraction”,“stores”对话框,而因子分析处使用这些外,还可使用“rotaction”对话框进行因子旋转.
7试对第4题的变量作因子分析,并将结果和上面的结果进行比较.
解用SPSS分析,计算结果如下表:
表反应压缩比情况表
初始值
提取值
前一年11月12日的降水量
.219
当年7月均温
.665
当年7月降雨量
.864
月日辐射
.845
提取方法:
主成分法
计算的相关系数矩阵的特征值和方差贡献率:
表方差解释度
主成分
初始特征根
提取因子的方差解释度
总计
方差百分比%
累积百分比%
总计
方差百分比%
累积百分比%
1
2
.978
3
.285
4
.143
提取方法:
主成分法
表主成分矩阵
主成分
1
前一年11月12日的降水量
当年7月均温
.815
当年7月降雨量
月日辐射
.919
8为研究某一树种的叶片形态,选取50片叶测量其长度x1(mm)和宽度x2(mm),按样本数据求得其平均值和协方差矩阵为:
求出相关系数阵R,并由R出发作因子分析;
解
1)求相关系数矩阵:
2)用R软件求R的特征根及其相应的特征向量,软件输出结果如下:
$values
[1]2.
$vectors
[,1][,2]
[1,]
[2,]
3)求载荷矩阵A:
4)
,
91981年,生物学家Grogan和Wirth对两种蠓虫Af和Apf根据其触角长度x1和翼长x2进行了分类,分类的数据资料如下:
Af
1
2
3
4
5
6
7
8
x1
x2
Apf
1
2
3
4
5
6
x1
x2
(1)试建立Af和Apf的Fisher判别模型;
(2)对样本(,),(,),(,)进行判别分类.
解
(1)建立Fisher判别模型
,
,带入Fisher判别函数
(2)把三个样本(,),(,),,带入模型,得到结果:
三个样本均属于Apf类.
10在两个玉米品种之间进行判别:
137玉米G1和甜玉米G2,选取的两个变量是:
x1—玉米果穗长;x2—玉米果穗直径,两个类的样本容量为n1=n2=40,实际算得两个类的样本均值和样本协方差为:
试建立G1,G2的Bayes类线性判别函数.
解因为已知两类的样本均值和样本协方差为:
,
可计算得到修正的公共协方差矩阵和逆矩阵
,
带入Fisher判别函数