第四节残差分析Word下载.docx
《第四节残差分析Word下载.docx》由会员分享,可在线阅读,更多相关《第四节残差分析Word下载.docx(10页珍藏版)》请在冰豆网上搜索。
由数理统计方式能够证明
(2-1-27)
或记为
(2-1-28)
这说明残差的方差D(e)是x的函数,且二者呈曲线关系。
以回归方程及方程和作图。
见方开泰《实用回归分析》P45图
考虑到较小,当n较大时
(2-1-29)
现在图中的两条曲线可近似于两条平行直线。
从而有
(2-1-30)
或近似地
(2-1-31)
这表明,当n较大时yi落在图2-1-3的长条形带子中的概率约为95%,只要明白,就可以够取得残差的置信区域。
一般是未知的,通常常利用残差标准差来估量。
可用下式求得
(2-1-32)
由此可得残差置信带
(2-1-33)
对残差在置信带之外的数据都要进行检查,以区别是不是是异样数据,若是是异样数据就要剔除掉。
此刻咱们对例1做残差检查。
由式(2-1-32)
残差置信带为,。
计算5个实验点的预报值与残差值(见表2-1-4),并作出残差检查图(见图2-1-4)
表2-1-4例1的残差值
图2-1-4例1的残差图
由图2-1-4可见,例1中全数数据的残差都在置信带内,没有异样数据。
除此之外,残差图还能够为咱们提供许多有效信息。
比如,在研究铁水质量时咱们看到1号高炉的残差偏于2处,而2号高炉的残差偏于-2处(见图2-1-5)。
在图2-1-5所示的这种情形下,成立统一的回归方程是不适合的,应该别离按1号和2号高炉成立回归方程。
图2-1-5数据有周期性转变的残差图
图2-1-6数据有偏向性转变的残差图
有时咱们还会发觉数据有偏向性转变。
在残差图上表现为前一部份数据的残差均为正值(或负值),而后一部份数据的残差均为负值(或正值),如图2-1-6所示。
碰到这种情形要仔细研究,找出原因。
比如前后两部份数据是由两个人观测的,可能两人掌握尺度不同所造成的,也可能是外界条件产生了转变或系统本身的原因造成的。
当残差出现一段全为正(或负),接着一段全为负(或正),然后又接着一段全为正或(为负)时(见图2-1-7),说明回归模型选择不妥,现在需要考虑用非线性回归模型去拟合它。
图2-1-7残差图表明回归模型选择不妥
二、预报和控制
成立回归方程的重要目的是为了用来进行预报和控制。
由于咱们通过样本所成立的回归方程只是关于特征数的估量式,由此所取得的预报值也只能是一个估量结果。
因此当咱们利用回归式进行预报的时候,除预报值之外,咱们还希望明白预报的精度。
换句话说,就是预报值的取值范围。
也就是对于给定的显著性水平,找出一个区间(t1,t2),使对应于某特定点的实际值y0以1-的概率被区间(t1,t2)所包括,即
(2-1-34)
能够证明知足式(2-1-34)的区间(t1,t2)是存在的,而且那个区间是关于的对称区间。
那个区间能够由下式求得
(2-1-35)
其中
(2-1-36)
为y0的标准差,为F散布表上查得的临界值。
因此有
(2-1-37)
比如对于例1,若已知含氮量x0=,要预报初生奥氏体析出温度y0。
由式(2-1-36)得
取查F散布表得F5%(1,3)=,由式(2-1-35)得
由前面的回归关系式可知,当x0=时
因此
通过上例计算能够体会到,要成立回归方程时样本容量n越大,Fa(1,n-2)和都越小,就越小,即预报精度就越高。
另外,x0越接近,预报精度也就越高。
在实际问题中,当n越大,x0接近时,为了方便起见,一般采用代替,取(时)或(时)。
参见本节残差分析部份。
下面简要介绍控制问题。
在实际问题中咱们常常需要将y控制在必然的范围内,即t1<
y<
t2,为此咱们要合理控制x的取值。
由于
(2-1-38)
又
(2-1-39)
故可取c和c的函数g(c),使对给定的下式成立
(2-1-40)
解不等式组
(2-1-41)
得x。
x和c能够在那个不等式组成立的条件下调整。
在实际问题中,咱们能够用残差标准差来简单的解决控制问题中x的取值。
由式(2-1-31)和式(2-1-33)可知,在所有可能出现的y值中知足
(2-1-42)
的点大约有95%。
因此咱们只要求解不等式组
(2-1-43)
即可取得x的取值范围(x1,x2)。
. 测量不肯定度评定方式
参考公式及其详解参考:
ISO发布的“测量不确定度表示指南”是测量数据处理和测量结果不确定度表达的规范,由于在评定不确定度之前,要求测得值为最佳值,故必须作系统误差的修正和粗大误差(异常值)的剔除。
最终评定出来的测量不确定度是测量结果中无法修正的部分。
测量不确定度评定总的过程如图3-3所示的流程。
具体的方法还要有各个环节的计算。
图3-3测量不确定度评定流程图
1、标准不确定度的A类评定
此法是通过对等精度多次重复测量所得数据进行统计分析评定的,正如前面介绍的随机误差的处理过程,标准不确定度u(xi)=s(xi),是用单次测量结果的标准不确定度算出:
(3-20)
其单次测量结果的标准不确定度可用贝塞尔法求得,即:
=(3-21)
其实,单次测量结果的标准不确定度还有如下求法:
①最大残差法:
=,系数如表3-2所示。
表3-2最大残差法系数
n23456789101520
②极差法:
居于服从正态散布的测量数据,其中,最大值与最小值之差称为极差。
=,系数如表3-3所示。
表3-3极差法系数
2、标准不确定度的B类评定
B类评定是一种非统计方法,当不能用统计方法获得标准不确定度,或已有现成的相关数据时采用,此时,测量结果的标准不确定度是通过其他途径获得,如信息、资料。
来源有以下几方面,如:
此前已做测量分析;
仪器制造厂的说明书;
校准或其它报告提供的数据;
手册提供的参考数据等。
具体计算标准不确定度方法如下:
u(xj)=
——已知的展伸不确定度,或是已知的测量值按某一概率的分布区间的半值
——包含因子,它的选取与分布有关;
正态分布时则与所取的置信概率有关。
①当得知不肯定度U(xj)为估量标准差的2或3倍时,kj则为2或3;
②若得知不肯定度U(xj)和对应的置信水准,则可视其为服从正态散布。
若置信水准为、、或时,kj则对应为1,,,3;
③若得知U(xj)是xj转变范围的半区间,即Xj在[xj-U(xj),xj+U(xj)]内,且明白其散布规律,kj由表3-4选取:
表3-4集中非正态分布的置信因子
分布三角分布梯形分布均匀分布反正弦分布
3、求合成标准不确定度
测量结果y的标准不确定度(y)或u(y)为合成标准不确定,它是测量中各个不确定度分量共同影响下的结果,故取决于xi标准不确定度u(xi),可按不确定度传播律合成。
计算方法与前面介绍的随机误差的合成方法相同。
4、求展伸不确定度
展伸不确定度是为使不确定度置信水准(包函概率)更高而提出的,需将标准不确定度uc(y)乘以包含因子k以得到展伸不确定度:
U=kuc(y)。
展伸不确定度计算见图3-4所示流程有两种处理方法,一种是自由度不明或无,当“无”处理。
另一种是知道自由度,按“有”处理,此时包含因子k与自由度有关。
图3-4展伸不确定度计算
5、测量不确定度报告
上述根据测量原理,使用测量装置进行测量,求得测量结果以及测量结果的展伸不确定度,最后是给出测量结果报告,同时应有测量不确定度报告。
测量不确定度报告用展伸不确定度表示,其形式如下。
(1)有自由度v时表达为:
测量结果的展伸不确定度U=XXX
并加如下附注:
U由合成标准不确定度uc=XXX求得,其基于自由度v=XXX,置信水准p=XXX的t分布临界值所得包含因子k=XXX。
(2)自由度v无法获得时表达为:
U由合成标准不确定度uc=XXX和包含因子k=XXX而得。
6、应用举例
[例3-1]等精度测量某一尺寸15次,各次的测得值如下(单位为mm):
,,,,,,,,,,,,,,。
求测量结果平均值的标准偏差。
若测得值已包含所有的误差因素,给出测量结果及不确定度报告。
解:
1)求算术平均值:
=15=
2)求残差vi=xi-得(单位μm):
0,+1,―2,―1,+13,―3,―2,―3,―1,0,+1,―3,―2,+1,+1。
3)求残差标准偏差估计值S
==mm
4)按3σ准则判别粗大误差,剔除不可靠数据:
|+13|>3σ(等于3S=),应剔除。
5)剩余14个数字再进行同样处理:
求得平均值:
14=
求得残差(单位mm):
+1,+2,―1,0,―2,―1,―2,0,+1,+2,―2,―1,+2,+2。
求残差标准偏差估计值(单位mm)S==,3σ=3S=,再无发现粗大误差。
6)求测量结果平均值的标准偏差(单位mm):
===
7)测量结果:
(属于A类、按贝塞尔法评定)
测得值为:
mm
测量结果的展伸不确定度U=mm
(U由合成标准不确定度uc=求得,基于自由度v=13,置信水准p=的t分布临界值所得包含因子k=。
)