使用MINTAB进行回归分析.docx
《使用MINTAB进行回归分析.docx》由会员分享,可在线阅读,更多相关《使用MINTAB进行回归分析.docx(16页珍藏版)》请在冰豆网上搜索。
使用MINTAB进行回归分析
使用MINTAB进行回归分析
如何使用MINTAB进行回归分析
回归分析用来检验并建立一个响应变量与多个预测变量之间的关系模形。
MINITAB提供了多种最小二乘法和推理回归程序。
当响应变量为连续的量值时使用最小二乘法
当响应变量为分类值时使用推理回归。
最小二乘法和推理回归方法都是评估关系模型中的参数并使模型的按按拟合值达到最优化。
最小二乘法是使误差平方和以获得参数估计值。
但是MINITAB的推理回归命令是获得参数最大概率估计。
参考2-29页推理回归概要以获得更多关天推理回归分析信息。
使用下表来帮助选择适当的程序。
选择的程序
适合的条件
响应类型
评估方法
回归
执行简单或多元回归分析:
选择合适的关系模型、存贮回归统计量、检验残差分析、产生点估计、产生预测和置信区间以及进行LACK-FIT检验。
连续型
最小二乘法
逐步回归分析
为了识别预测因素中有用的子集,执行逐步、进一步选择以及后退消除等方法从关系模型中增加或消除变量。
连续型
最小二乘法
最佳子集
识别以R2为基础的预测因子最佳子集。
连续型
最小二乘法
拟合线性图
使用单个预测因子执行线性和多项回归,并且用数据绘制回归线。
以实际和log10为基础。
连续型
最小二乘法
选项子对话框
执行加权回归分析-----参考2-6页加权回归分析
excludetheintercepttermfromtheregressionbyuncheckingFitIntercept—see
Regressionthroughtheoriginonpage2-7
显示varianceinflation因子(VIF---共线性影响度量值)
与每个预测因子相关-----参考2-7页Varianceinflationfactor
显示杜宾-瓦特森统计,它是用来检测残差的自相关—参考2-7页检测残差的自相关
显示PRESS统计以及校正的R2。
当预测因子重复时,用纯误差lack-of-fit来检验关系模型的适合性,---参考2-8页检验lack-of-fit
用数据子子集lack-of-fit测试来检验关系模型的适合性---参考2-8页检验lack-of-fit
预测响应结果、置信区间以及新观测值的区间---参考2-9页新的观测值的预测。
存储子对话框
存储系数、拟合值、以及正常、标准、已删除残差图---参考2-5页选择残差类型。
nstoretheleverages,Cook’sdistances,andDFITS,foridentifyingoutliers—see
Identifyingoutliersonpage2-9.
存储
storethemeansquareerror,the(X'X)-1matrix,andtheRmatrixoftheQRor
Choleskydecomposition.(Thevariance-covariancematrixofthecoefficientsis
MSE*(XX)-1.)SeeHelpforinformationonthesematrices.
残差分析及回归推断
当建立了回归关系模,回归分析通常没有完成。
您同样也可以检验残差图和其它回归推理来评定残差图是否是随机和正态分布。
MINITAB通过图形子对话图提供许多残差图,做为选择,关系模型及残差被存储以后,您可以使用统计>回归>残差图命令可以在同一图形窗口获得四个残差图。
MINITAB也可以用回归推理来识别不正常的观测值,这些观测值可能对回归结果产生很显著的影响,参考2-9页识别OUTLIERS,您可检验一下这些异常数据看它们是否正确。
假如这样的话,您可以确定它们为什么产生异常以及它们对回归关系方程有什么影响。
您也可以验证当存在OUTLIERS时,回归结果的敏感程度。
Outliers可以暗示关系模型不充分或者需要另外的信息。
选择残差类型
您可以计算三各残差类型,使用下表可以帮助您选择哪种图形。
残差类型
选择您需要列
计算方法
常规
examineresidualsintheoriginalscaleofthedata
response-fit
标准
使用ruleofthumb来识别与关系模型关联关系不十分密切的观测值。
一个标准的残差绝对值大于2,MINITAB将这些观测值显示在异常观测值表中,并有R表示。
(残差)/(残差的标准差)
Studentized
识别与关系模型关联关系不十分密切的观测值,删除影响变量估计及参数估计的观测值。
较大的Studentized残差绝对值表明关系模型中包含该观测值将会增大误差变化或者它对参数的估计有很大的影响,或者对二者都有影响。
(残差)/(残差的标准差)
第I个studentized残差值是用第I个被删除的观测值计算出来的。
残差图
MINITAB可以产生残差图这样您就可以验证您建立的关系模型的拟合度,您可以选择以下残差图:
残差正态分布图:
如果残差服从正态分布,图中的点将基本形成一条直线。
如果图中的点背离了该直线,残差服从正态布的假设就会不成立,检验数据是否服从正态分布,可以使用统计>基本统计>正态检验(1-43)。
残差柱状图:
该图必须类似正态分布图并且其平均值为0(钟形),许多点串远离零点,关系模型之外的因子可能影响了您的结果。
残差及拟合度:
本图应该显示的是残差应是随机的分布在0周围。
在残差图内应该没有任何recognizablepatterns,以下的几点可以说明残差图是非随机的:
----几点连续上升或下降
----绝大部分的点是正残差,或绝大部的点是负残差。
–patternssuchasincreasingresidualswithincreasingfits
残差与顺序图:
本图所有残差都是按照数据搜集顺序排列的,它可以用来发现非随机错误,特别是与时间相关的影响。
残差图与其变量图:
这是个残差与其它变量图。
一般地,你可以使用关系模型中预测因子或变量来检查一下您的是否有您想要图形。
如果某些残差值被考虑,您可以用刷子工具来标识这些值,您可以参考MINITAB使用者指南中BrushingGraphs的章节。
加权回归分析
加权最小二乘法回归分析用来分析观测值中包含有非常量变量的一种方法。
如果变量不是常量变量那么:
1) 带有大变量的观测值应相应地加上较小的权重。
2)带有小变量的观测值应相应地加上较大的权重。
一般情况的权重是响应中纯误差变量相反值。
Theusualchoiceofweightsistheinverseofpureerrorvarianceintheresponse.
加权回归分析
1.选择统计>回归>回归>选项
2.在“权重”栏中,输入包含权重的列,权重必须大于或等于0,在每个对话框中单击“确定”
3.在数据组中有n个观测值,MINITAB产生了n⨯n的矩阵W,权重列作为矩阵的对角和零点。
MINITAB使用(X'WX)-1(X'WY)来计回归系数,这样就等于将加权平方和误差最小化。
,式中wi为权重。
通过原点的回归
一般的情况下,y截矩(也叫常数项)被包含在等式,因此minitab选用下面关系模型:
然而,如果在x=0时,响应值也自然为0时,可以选用一个没有截矩的关系模型。
如果是这样,在选项子对话框中,不选截矩项,并且β0项就会被忽略,minitab选用下面的关系模型:
因为当没有常数项解释R2是非常困难的,所以R2没有显示出来。
如果您想比较带有截矩项与不带有截矩项关系模型的拟合度,可以进行平均值平方误差及验证残差图。
变量inflationfactor
Thevarianceinflationfactor(VIF)用来检测一个预测因子和剩下的预测因子是否有很强的线性关系(预测因子中存在多重共线性)。
如果您的预测因子是相关的(或多重线性相关)时,VIF测量的是估计的回归因子增加程序。
VIF>=1时表明因子之间不相关,所有预测因子中最大的VIF通常是用来作为多重共线性的指示。
MontgomeryandPeck[21]建议当VIF大于5-10时,回归系数估计得毫无结果。
你应该考虑使用选项中的方法来分散预测因子间的多重共线性:
重新搜集数据,删除预测因子,使用不同的预测因子或最小二乘法回归分析的替代,获得附加的信息请参考[3],[21].。
检验残差的自相关
在线性回归分析中,我们总是假设残差都是彼此相互独立的(即它们之间不存大自相关)。
如果相互独立的假设被破坏,一些关系模型的拟合结果就会被怀疑。
例如:
误差的正相关可以放在系数的t值。
选定一个模型后检验关系模型的假设是回归分析的一个很重要的部分。
Minitab提供了两种方法也检验这个假设:
1.残差与数据顺序(1234…….n)图可以提供很直观的方法来检验残差的自关性。
2.杜宾-瓦特森统计测试回归残差是否存在自相关是通过两个相邻误差项的相关系数是否为0来决定的。
该测试是以误差由第一顺序自回归过程的假设为基础的。
如果列中有丢失的观测值,同样在计算时这些数据就会忽略了,仅仅使用没有丢失的数据。
为了从检验中得出结论,您需要用表中的上下限比较显示的统计量,如果D>上限,没有相关;如果D<下限,表示存在正相关;如果D在上下限之间,不能确定其相关性。
如果想得到其它信息,请参考[4],[22].
检验lack-of-fit
MINITAB提供了两种lack-of-fit检验,这样您可确定建立的回归模型是否能够完全适合您的数据。
纯误差lack-of-fit检验需要副本(replicates);thedatasubsettinglack-of-fittestdoesnotrequirereplicates.
纯误差lack-of-fit检验----如果您的预测因子中包含重复的数据(一个因子几个同样的X值或多预测因子中有几个同样的X值组合),MINITAB可以为lack-of-fit计算一个纯误差检验。
误差项将被分成纯误差(errorwithinreplicates)和lack-of-fit误差。
F检验可以检验您是否选择了适合的回归关系方程。
如果需要其它信息,请参考[9],[22],[29].
数据子集lack-of-fit检验----MINITAB同样也可以进行lack-of-fit检验数据,其数据不需要副本但是要包含数据子集。
该检验是非标准化的,但是它可提供关于每个变量的lack-of-fit的信息。
参考[6]和“帮助”得到更多的信息。
MINITAB可进行2K+1的假设检验,其中K是预测因子数量,然后使用Bonferroni不等式组合它们以得到一个0.1的全面显著性水平。
然后显示出每次检验的lack-of-fit.证据。
Foreachpredictor,acurvaturetestandaninteractiontestareperformedby
comparingthefitaboveandbelowthepredictormeanusingindicatorvariables(对于每个预测因子,可以用曲率检验和交互检验检验通过使用指示变量业比较拟合度是高于并低于预测因子平均值)
也可以用另一个试验通过将关系模与数据“中心”部分拟合,然后比较中心数据误差平方和所有数据误差平方和。
新观测值的预测
如果您知道新预测因子值(X),并且您想知道通过使用回归方程计算出的响应值,那么您可以选项子对话框中新观测值的预测区间。
输入常数或包含新X值的列,每个预测因子数据应是一列(oneforeachpredictor)。
每列的长度必须是相等。
如果输入了常数和一列,MINITAB会认为您想要得到常数和每列数据组合的所有预测值。
您可以将默认的置信水平95%改成其它值,您也可以储存显示的值:
拟合度、拟合度标准误差、置信界限及预测界限。
如果您使用带权重的预测,可以参考帮助中的获得正确的结果。
识别outliers
除了图形之外,为识别outliers或对回归有显著影响的异常观测值,您可以储存三种另外的方法。
这三种方法是:
Leverages、Cook’sdistance,及DFITS
Leverages是“hat”矩阵的对角,H=X(X'X)-1X',其中X是设计矩阵,其中hi仅与预测因子有关,它与响应Y有关。
许多人都认为hi值应足够的大,最好是大于2p/n或3p/n,这中P值是预测因子数(包括一个常数)。
MINITAB将这些值在高leverage异常观测值表中显示。
这些影响超过3p/n或0.99的值,无论哪一个是最小的都标上X,leverage大于5p/n都标上XX。
Cook’sdistancecombinesleveragesandStudentizedresidualsintoone
overallmeasureofhowunusualthepredictorvaluesandresponsearefor
eachobservation.Largevaluessignifyunusualobservations.Geometrically,
Cook’sdistanceisameasureofthedistancebetweencoefficientscalculated
withandwithouttheithobservation.Cook[7]andWeisberg[29]suggest
checkingobservationswithCook’sdistance>F(.50,p,n-p),whereFisa
valuefromanF-distribution.
nDFITS,likeCook’sdistance,combinestheleverageandtheStudentized
residualintooneoverallmeasureofhowunusualanobservationis.DFITS
(alsocalledDFFITS)isthedifferencebetweenthefittedvaluescalculated
withandwithouttheithobservation,andscaledbystdev(i).Belseley,Kuh,
andWelsch[3]suggestthatobservationswithDFITS>2shouldbe
consideredasunusual.SeeHelpformoredetailsonthesemeasures.
Exampleofperformingasimplelinearregression
简单线性回归实例
您是一个制造者并想要容易地获得一个产品的质量标准,但是该程序十分昂贵。
但是这儿有一个能完成同样工作一般方法,该方法不太昂贵并且但并较准确。
您可以检验两组数据之间的关系看看是否可由容易获得数据来预测想要的数据。
您也可以利用观测值SCORE1获得8.2的预测区间。
1. 打开工作表EXH_REGR.MTW
2. 选择统计>回归>回归
3.在响应栏中,输入Score2,在预测因子栏中,输入Score1.
4.单击“选项”按钮。
5.在新观测值预测区间栏中,键入8.2,然后单击每个对话框的“确定”按钮。
Theregressionequationis
Score2=1.12+0.218Score1
PredictorCoefSECoefTP
Constant1.11770.109310.230.000
Score10.217670.0174012.510.000
S=0.1274R-Sq=95.7%R-Sq(adj)=95.1%
AnalysisofVariance
SourceDFSSMSFP
Regression12.54192.5419156.560.000
ResidualError70.11360.0162
Total82.6556
UnusualObservations
ObsScore1Score2FitSEFitResidualStResid
97.502.50002.75020.0519-0.2502-2.15R
Rdenotesanobservationwithalargestandardizedresidual
PredictedValuesforNewObservations
NewObsFitSEFit95.0%CI95.0%PI
12.90260.0597(2.7614,3.0439)(2.5697,3.2356)
ValuesofPredictorsforNewObservations
NewObsScore1
18.20
结果说明
回归程序选择模型是
其中Y是响应,X是预测因子,β0和β1是回归系数,ε是误差项,它是服从平均为零,标准偏为σ正态分布,MINITAB通过b0估计β0,b1估计β1,S估计σ。
选择的方程拟合方程即为:
其中
叫做被预测或被拟合值。
本例中b0是1.12b1是0.218。
系数表:
在输出窗口中第一个表给出的是估计的系数,β0和β1,以及它们的标准误差。
另外,T值可以检验系数的零假设是否等于零,相应的p值也被给出。
本例中,p值用来检验常数和斜率是否等于零,它显示为0.000,因为MINITAB将这些值圆整至小数点后三位数,该值实际上小于0.0005,该值表明有足够的证据说明在第一类错误概率(αlevels)水平下,系数不等于零,
S=0.1274,这是σ的估计值,回归线标准偏差的估计值。
注意:
R-Sq=95.7%.这就是R2,也叫做决定系数,注意R2=Correlation(Y,
)2
R2值是是由预测因子(本例中Score1)而导致Y变量(本例中Score2)的可变比例。
TheR2valueistheproportionofvariabilityintheYvariable(inthisexample,Score2)
accountedforbythepredictors(inthisexample,Score1).
R-Sq(adj)=95.1%,这是根据自由度而调整的R2,如果一个变量被增加到一个关系方程,R2将要变大尽管被增加变量很可能不是实数。
为了弥补这个缺陷,MINITAB同样也显示出了R-Sq(adj),该值是总体R2的无偏估计,它是根据以下公式计算出来的:
将其转换为百分比,其中P是回归方程中的系数数量(本例,P=2),在相同的符号,通常R2为:
方差分析:
本表包含着平方和(缩写为SS),SS回归有时也写作SS(回归|b0)以及被叫做SS模型。
误差平方各有时也被写作SS残差,SSE或RSS。
误差均方和被写作MSE。
总平方和(SSTotal)是平均值的修正平方和,使用方差分析来评定总拟合值,F检验是对零假设H0:
所有回归系数(除β0)=0进行检验。
异常观测值:
如果预测因子异常,用X来标识该异常观测值;如果响应值异常,那么用R标识。
(大标准化残差),参考2-5页选择残差类型以及2-9页识别outliers.系统默认只显示异常值。
您可以选择结果子对话框中的选项来显示拟合值的总表。
拟合或被拟合值有时又叫做被预测Y值或
。
SEFit是拟合值的标准误差(估计的)。
StResid是标准化残差。
被预测值:
显示区间是根据给定的预测因子值所获得总体平均值在置信区间为95%的情况下计算出来的(Score1=8.2)。
在预测区间为95%情况下的显示区间是单个观测值Score1=8.2时的预测区间。
置信区间适用于回归中使用的数据。
如果您有想知道新观测值,使用预测区间,参考2-9新观测值的预测。
如果没验证残差图,那么回归分析还没有结果。
下面的多元回归例子以及残差图程序提供了其它关系回归分析的信息。
多元回归分析实例:
作为太阳能的测试一部分,您测量房间中总的热量。
您想检验总热量是否可以通过绝热体、东、南、北各方向焦点的位置来预测。
数据是从[21],486页中摘取,您可以发现,使用2-23页的最佳子集回归,最佳两预测因子模型包括变量北和南,最佳三因子可在最佳两预测因子基础增加变量东方。
您可以用多元回归分析法来建立三预测因子关系模型。
1.打开工作表EXH_REGR.MTW
2.选择统计>回归>回归
3.在“响应”栏中,输入Heatflux.
4.在预测因子栏中,输入NorthSouthEast,然后单击OK按钮。
4InPredictors,enterNorthSouthEast.ClickOK.
回归分析:
HeatFluxVSEast,South,North
回归方程:
HeatFlux=389+2.12East+5.32South-24.1North
预测因子CoefSECoefTP
Constant389.1766.095.890.000
East2.1251.2141.750.092
South5.31850.96295.520.000
North-24.1321.869-12.920.000
S=8.598R-Sq=87.4%R-Sq(adj)=85.9%
方差分析
SourceDFSSMSFP
Regression312833.94278.057.870.000
ResidualError251848.173.9
Total2814681.9
SourceDFSeqSS
East1153.8
South1349.5
North112330.6