回归分析作业详解.docx
《回归分析作业详解.docx》由会员分享,可在线阅读,更多相关《回归分析作业详解.docx(18页珍藏版)》请在冰豆网上搜索。
回归分析作业详解
一、假设检验:
1.某药厂最近研制出一种新的降压药,为了验证其疗效,选择15个高血压病人进行实验。
数据表是服药前后的血压值。
选用适当的统计方法验证该药是否有效。
patient
1
2
3
4
5
6
7
8
before
115
135
127
130
103
90
101
104
after
109
120
125
130
105
94
90
100
patient
9
10
11
12
13
14
15
before
109
89
120
113
118
130
120
after
90
90
110
103
100
121
108
解:
设血压值总体分布服从X~N(μ,S2)
假设检验问题:
μ1为服药前血压值样本均值,μ2为服药后血压值样本均值
原假设H0:
μ1=μ2即服药前后血压值相等。
备择假设H1:
μ1≠μ2即服药前后血压值不相等。
然后采用双边检验的方法,使用Minitab进行检验,得到以下数据:
PairedT-TestandCI:
X(服药之前),Y(服药之后)
PairedTforX(服药之前)-Y(服药之后)
NMeanStDevSEMean
X(服药之前)15113.6014.213.67
Y(服药之后)15106.3313.043.37
Difference157.277.271.88
95%lowerboundformeandifference:
3.96
T-Testofmeandifference=0(vs>0):
T-Value=3.87P-Value=0.001
由以上数据可以得出:
p值=0.001<α=0.05,拒绝原假设,服用新的降压药后血压值有显著的差异,即该降压药有效。
二、方差分析:
1、对于硅酸盐水泥的抗折强度,用四种不同的配方方法收集了以下数据:
配方法
抗折强度
1
3129
3000
2865
2890
2
3200
3300
2975
3150
3
2800
2900
2985
3050
4
2600
2700
2600
2765
(1)检验配方法影响水泥砂浆强度的假设。
(2)选择一种比较方法对均值进行比较。
解答:
1.
(1)原假设:
以上四种配方方法下硅酸盐水泥的抗折强度相等。
备择假设:
以上四种配方方法下硅酸盐水泥的抗折强度存在差异。
使用Minitab进行检验,得到以下数据:
One-wayANOVA:
抗折强度versus配方方法
SourceDFSSMSFP
配方方法348974016324712.730.000
Error1215390812826
Total15643648
S=113.3R-Sq=76.09%R-Sq(adj)=70.11%
Individual95%CIsForMeanBasedonPooledStDev
LevelNMeanStDev
142971.0120.6
243156.3136.0
342933.8108.3
442666.381.0
2600280030003200
PooledStDev=113.3
抗折强度与配方方法的箱线图
P值=0.000<0.05,拒绝原假设。
可知不同配方方法下硅酸盐水泥的抗折强度存在显著差异。
(2)选择一种比较方法对均值进行比较:
方差分析表中ANOVA的计算及箱线图的绘制可以得到各组间差异显著的结论,再对均值进行多重比较的检验。
从“统计>方差分析>单因子(Stat>ANOVA>Oneway)”进入相关界面后,点击“比较(Comparisons)”。
选中Tukey算法,设定整体误差率为5%。
点击“确定”后,分析结果如下:
GroupingInformationUsingTukeyMethod
配方法NMeanGrouping
243156.3A
142971.0A
342933.8A
442666.3B
Meansthatdonotsharealetteraresignificantlydifferent.
①第一组数据
Tukey95%SimultaneousConfidenceIntervals
AllPairwiseComparisonsamongLevelsof配方方法
Individualconfidencelevel=98.83%
配方方法=1subtractedfrom:
配方方法LowerCenterUpper--------+---------+---------+---------+-
2-52.6185.3423.1(-----*-----)
3-275.1-37.2200.6(-----*-----)
4-542.6-304.8-66.9(-----*-----)
--------+---------+---------+---------+-
-4000400800
第一组数据结论:
“配方法1>配方法4”。
原因分析:
配方法2减去1的样本均值为185.3,但总体的均值差不确定,以98.83%的置信度可以判断,总体的均值差在(-52.6,423.1)内,置信区间包含0,即配方法1与配方法2总体的均值差不排除为0,即两者抗折强度平均值无显著差异。
配方法3减去1的样本均值为-37.2,但总体的均值差不确定,以98.83%的置信度可以判断,总体的均值差在(-275.1,200.6)内,置信区间包含0,即配方法1与配方法3总体的均值差不排除为0,即两者抗折强度平均值无显著差异。
配方法4减去配方法1时的样本均值为-304.8,总体的均值差异98.83%的概率在(-542.6,-66.9)内上下为负,得到配方法1的均值肯定超过配方法4的均值的结论。
②第二组数据
配方法=2subtractedfrom:
配方法LowerCenterUpper--------+---------+---------+---------+-
3-460.3-222.515.3(-----*-----)
4-727.8-490.0-252.2(-----*-----)
--------+---------+---------+---------+-
-4000400800
第二组数据结论:
均值“配方法2>配方法4”
原因分析:
配方法2与配方法3二者的抗折强度的平均值无显著差异,配方法4减去配方法2时的样本均值为-490.0,但总体的均值差异98.83%的概率在(-727.8,-252.2)内上下为负,配方法2的均值肯定超过配方法4的均值,
③第三组数据
配方法=3subtractedfrom:
配方法LowerCenterUpper--------+---------+---------+---------+-
4-505.3-267.5-29.7(-----*-----)
--------+---------+---------+---------+-
-4000400800
第三组结论:
均值“配方法3>配方法4”
分析:
配方法4减去配方法3时的样本均值为-267.5,但总体的均值差异98.83%的概率在(-505.3,-29.7)内上下为负,配方法3的均值肯定超过配方法4的均值。
④总结论:
“配方法1>配方法4,配方法2>配方法4,配方法3>配方法4”,三组均值差异显著,其余各组间无显著差异。
2、纺织厂有很多织布机,设每台机器每分钟织出同样的布,为了研究这一假设,随机选取5台织布机并测定它们在不同时间的产量,得出数据:
织布机
产量
1
14.0
14.1
14.2
14.0
14.1
2
13.9
13.8
13.9
14.0
14.0
3
14.1
14.2
14.1
14.0
13.9
4
13.6
13.8
14.0
13.9
13.7
5
13.8
13.6
13.9
13.8
14.0
(1)说明为什么这是一种随机效应实验。
织布机的产量相等吗?
(2)估计织布机间的变异。
(3)估计实验的误差方差。
解答:
(1)随机选取5台织布机并测定它们在不同时间的产量,则该实验是一次随机效应实验。
然后进行产量分析:
原假设:
产量相等。
备择假设:
产量不相等。
使用Minitab对数据进行分析:
One-wayANOVA:
产量versus织布机
SourceDFSSMSFP
织布机40.34160.08545.770.003
Error200.29600.0148
Total240.6376
S=0.1217R-Sq=53.58%R-Sq(adj)=44.29%
结论:
p=0.03<0.05,所以拒绝原假设,每个织布机的产量不相等。
(1)估计织布机间的变异即估计数据方差分量,使用Minitab进行分析:
VarianceComponents
%of
SourceVarComp.TotalStDev
织布机0.01448.820.119
Error0.01551.180.122
Total0.0290.170
ExpectedMeanSquares
1织布机1.00
(2)+5.00
(1)
2Error1.00
(2)
结论:
织布机之间变异的方差为0.014
(3)估计实验的误差方差,数据分析:
VarianceComponents
%of
SourceVarComp.TotalStDev
织布机0.01448.820.119
Error0.01551.180.122
Total0.0290.170
结论:
实验的误差方差为0.015
3、电视机厂感兴趣于对彩色显像管四种不同的涂层对显像管的电导率是否有影响。
测得电导率的数据如下:
涂层
电导率
1
143
141
150
146
2
152
149
137
143
3
134
136
132
127
4
129
127
132
129
(1)涂层使电导率有差异吗?
(2)估计总均值与处理效应。
(3)计算涂层4的均值的95%区间估计。
计算涂层1与涂层4之间的均值差的99%区间估计。
(4)假定现在采用的是涂层4,你会向工厂推荐那种涂层(使电导率最小)?
。
解答:
(1)原假设:
彩色显像管四种不同的涂层对显像管的电导率没影响
备择假设:
彩色显像管四种不同的涂层对显像管的电导率有影响
使用minitab对数据进行分析:
One-wayANOVA:
电导率versus涂层
SourceDFSSMSFP
涂层3844.7281.614.300.000
Error12236.319.7
Total151080.9
S=4.437R-Sq=78.14%R-Sq(adj)=72.68%
分析结果:
p值=0.000<0.05,拒绝原假设,彩色显像管四种不同的涂层对显像管的电导率有影响
(2)每个涂层的均值1,2,3,4分别如下所示:
Individual95%CIsForMeanBasedonPooledStDev
LevelNMeanStDev--+---------+---------+---------+-------
14145.003.92(------*------)
24145.256.65(------*-----)
34132.253.86(------*------)
44129.252.06(------*------)
--+---------+---------+---------+-------
126.0133.0140.0147.0
分析结果:
样本总均值为137.94,根据均值结果和处理效应的计算公式每个涂层的均值减去总均值,得到处理效应1、2、3、4分别为7.06,7.31,-5.69,-8.69。
(3)对涂层4数据进行正态性检验,结果如下图所示:
分析结果:
p值=0.335>0.05,该样本服从正态分布,且总体方差未知,所以使用单样本T检验求置信区间。
结果如下:
VariableNMeanStDevSEMean95%CI
涂层44129.252.061.03(125.97,132.53)
得到涂层4的95%CI为(125.97,132.53)
涂层1与涂层4之间的均值差的99%区间估计采用单样本t检验,对二者差值d进行正态性检验,结果如下图所示
分析结果:
p值=0.162>0.05,差值服从正态分布,采用单样本t检验,结果如下:
VariableNMeanStDevSEMean99%CI
涂层1-涂层4415.752.061.03(9.73,21.77)
结论:
涂层1与涂层4之间的均值差的99%的区间估计为(9.73,21.77)
(4)根据箱线图得到涂层4均值小且稳健性强。
4、研究化学过程的产率。
两个最重要的变量有可能是压强与温度,每一因素选取三个水平,进行有两次重复的实验,产率数据如下:
温度
压强
200
215
230
低
90.4
90.7
90.2
90.2
90.6
90.4
中
90.1
90.5
89.9
90.3
90.6
90.1
高
90.5
90.8
90.4
90.7
90.9
90.1
(1)分析这些数据并做出结论。
(产率当然越高越好)
(2)论述模型的适合性。
(3)画出主效应及交互作用图。
(4)在什么条件下运行这一过程?
解:
(1)采用双因素固定效应模型方差分析的方法,在Minitab中对数据进行分析:
Two-wayANOVA:
产率versus温度,压强
SourceDFSSMSFP
温度20.301110.1505568.470.009
压强20.767780.38388921.590.000
Interaction40.068890.0172220.970.470
Error90.160000.017778
Total171.29778
S=0.1333R-Sq=87.67%R-Sq(adj)=76.71%
分析:
温度和压强的p值分别为0.009和0.000,均小于0.05,因此温度和压强对产率的影响显著
温度和压强的交互作用p值=0.470>0.05,得出温度和压强的交互作用不显著。
(2)双因素固定效应模型方差分析,其一般模型如下:
是总体平均效应;
是行因素A第i水平的效应;
βj是列因素B第
j水平效应;
是
与βj
之间的交互作用的效应;
是随机误差分量。
两个因素最初假设是固定的,处理效应规定为跟总平均的偏差,所以
同样,交互作用效应是固定的并限定其满足
。
试验有n次重复,所以共有abn个观察值。
将总平方和进行分解可以得到SST=SSA+SSB+SSAB+SSE。
对应项除以其自由度可以得到均方的每一比值MSA/MSE,MSB/MSE,MSAB/MSE服从F分布,其分子的自由度分别a-1,b-1,(a-1)(b-1),分母的自由度是ab(n一1),而临界区域就是F分布的上尾部,检验方法通常概括在一张方差分析表中,可以得到一个方差分析表。
可以根据得到的p值判断F值的极端程度,进而得到结论,因此模型合适。
(3)主效应如下:
主效应图
交互作用图如下:
交互作用图
(4)对上题主效应图分析得:
在温度高,压强为215的情况下有最大产率,
在温度高,压强为215的情况下运行这一过程。
5、工程师推测金属部件的表面光洁度(越高越好)受进料速度和切割深度的影响。
选取三种进料速度和随机选取四种切割深度,每种组合三次重复。
数据如下:
进料速度
切割深度
0.15
0.18
0.20
0.25
0.20
74
79
82
99
64
68
88
104
60
73
92
96
0.25
92
98
99
104
86
104
108
110
88
88
95
99
0.30
99
104
108
114
98
99
110
111
102
95
99
107
(1)分析这些数据并写出结论。
(2)作出适当的残差图并论述模型的适合性。
(3)求每种进料速度的平均表面光洁度的点估计。
(4)估计切割深度的方差分量。
解:
(1)采用一般线性模型,在Minitab软件中对题中数据进行分析:
分析结果如下:
GeneralLinearModel:
表面光洁度versus进料速度,切割深度
FactorTypeLevelsValues
进料速度fixed30.20,0.25,0.30
切割深度fixed40.15,0.18,0.20,0.25
AnalysisofVariancefor表面光洁度,usingAdjustedSSforTests
SourceDFSeqSSAdjSSAdjMSFP
进料速度23160.503160.501580.2555.020.000
切割深度32125.112125.11708.3724.660.000
进料速度*切割深度6557.06557.0692.843.230.018
Error24689.33689.3328.72
Total356532.00
S=5.35931R-Sq=89.45%R-Sq(adj)=84.61%
结论:
进料速度和切割深度以及他们的交互作用p值分别为0.000和0.000和0.018,均小于0.05,所以可知这些因素对于表面光洁度都有显著的影响。
(2)残差图如下:
模型合适性分析:
“残差与观测值顺序”图中可残差值随机地在水平轴上下无规则的波动,即残差值间是相互独立的;“残差与拟合值”图形既不是“漏斗形”也不是“喇叭形”,说明拟合效果很好,残差是等方差的;“正态概率图”中残差值都分布在直线附近,残差是服从正态分布。
残差图分析可知:
模型拟合性很高
(3)每种进料速度的平均表面光洁度的点估计:
1当进料速度为0.20时的分析结果:
One-SampleT:
进料速度0.20
VariableNMeanStDevSEMean95%CI
进料速度0.21281.5814.344.14(72.47,90.69)
结论:
进料速度为0.20的时候平均表面光洁度的点估计为81.58。
2当进料速度为0.25时的分析结果:
One-SampleT:
进料速度0.25
VariableNMeanStDevSEMean95%CI
进料速度0.251297.588.012.31(92.50,102.67)
结论:
进料速度为0.25的时候平均表面光洁度的点估计为97.58。
3当进料速度为0.30时的分析结果:
One-SampleT:
进料速度0.30
VariableNMeanStDevSEMean95%CI
进料速度0.312103.836.071.75(99.97,107.69)
结论:
进料速度为0.30的时候平均表面光洁度的点估计为103.83。
(4)估计切割深度的方差分量:
使用指令显示方差分量进行分析:
VarianceComponents,usingAdjustedSS
Estimated
SourceValue
进料速度123.95
切割深度68.39
进料速度*切割深度21.37
Error28.72
结论:
切割深度方差分量为68.39。