最小二乘法及其应用.docx
《最小二乘法及其应用.docx》由会员分享,可在线阅读,更多相关《最小二乘法及其应用.docx(11页珍藏版)》请在冰豆网上搜索。
最小二乘法及其应用
最小二乘法及其应用
1(引言
最小二乘法在19世纪初发明后,很快得到欧洲一些国家的天文学家和测地学家的广泛关注。
据不完全统计,自1805年至1864年的60年间,有关最小二乘法的研究论文达256篇,一些百科全书包括1837年出版的大不列颠百科全书第7版,亦收入有关方法的介绍。
同时,误差的分布是“正态”的,也立刻得到天文学家的关注及大量经验的支持。
如贝塞尔(F.W.Bessel,1784
—1846)对几百颗星球作了三组观测,并比较了按照正态规律在给定范围内的理论误差值和实际值,对比表明它们非常接近一致。
拉普拉斯在1810年也给出了正态规律的一个新的理论推导并写入其《分析概论》中。
正态分布作为一种统计模型,在19世纪极为流行,一些学者甚至把19世纪的数理统计学称为正态分布的统治时代。
在其影响下,最小二乘法也脱出测量数据意义之外而发展成为一个包罗极大,应用及其广泛的统计模型。
到20世纪正态小样本理论充分发展后,高斯研究成果的影响更加显著。
最小二乘法不仅是19世纪最重要的统计方法,而且还可以称为数理统计学之灵魂。
相关回归分析、方差分析和线性模型理论等数理统计学的几大分支都以最小二乘法为理论基础。
正如美国统计学家斯蒂格勒(S.M.Stigler)所说,“最小二乘法之于数理统计学犹如微积分之于数学”。
最小二乘法是参数回归的最基本得方法所以研究最小二乘法原理及其应用对于统计的学习有很重要的意义。
2.最小二乘法
b,b所谓最小二乘法就是:
选择参数,使得全部观测的残差平方和最小.01用数学公式表示为:
222mine,(Y,Y),(Y,b,bx),,,iiiii01为了说明这个方法,先解释一下最小二乘原理,以一元线性回归方程为例.
Y,B,Bx,,(一元线性回归方程)i01ii
1由于总体回归方程不能进行参数估计,我们只能对样本回归函数来估计即:
Y,b,bx,e(i,1,2...n)i01ii
从上面的公式可以看出:
残差是的真实值与估计值之差,估计总体eYii回归函数最优方法是,选择的估计量,使得残差尽可能的小.B,Bb,be0101i总之,最小二乘原理就是选择样本回归函数使得所有Y的估计值与真实值差的平方和为最小,这种确定的方法叫做最小二乘法。
b,b01
最小二乘法是回归分析中的最基本的方法。
回归方程一般分为2类,线性回归方程和非线性回归方程。
2.1线性回归最小二乘法
最小二乘法是由实验或调查的数据,建立线性型公式的一种常用方法.在建立线性型公式中,虽然有很多种不同的方法来求样本回归函数(即真实总体回归函数的估计值),但是在回归分析中最广泛应用的方法是最小二乘法.
如果变量有精确的线性关系比如说,那么y,y即观测x和yy,ax,bii值与回归值是相等的.事实上现实世界中的诸多变量的关系未必都是如此,由于受诸多随机因数的干扰使得物与物之间没有那种很明确的对应关系.比如说人的身高和体重就是一个对应,我们都知道长的高的人不一定就重,同理长的矮的人也不一定就轻.但身高和体重的确存在着一定的关系,而这种关系并非是所能确定的.那么我们要寻求身高和体重之间的关系y,ax,b
就需要通过数学的方法.首先调查统计得出数据;其次把数据描绘出来;然后拟合一条跟已有的图象最接近的曲线,这样就可以相对地将身高和体重之间的关系表示出来.在处理类似的事情中常常用到最小二乘法.2.2非线性回归最小二乘法
2非线性回归的种类很多,常用的有抛物线方程()、指YabXcX,,,
x数方程()等。
Yab,设已知列表函数,并且我们想用一个通常的yfxim,,()(0,1,...,)ii
次多项式nm(),
n
(1)pxaaxax,,,,...,,01nn去近似它。
问题是应该如何选择使能较好地近似列表函pxaaa,,,...
n01n数。
按最小二乘法,应该选择使得fxaaa01n
m2Saaafxpx,,,...,,
(2),,,,,,,,,01nini,0i
取最小。
注意到S是非负的,且是的2次多项式,它必有最小值。
aaa,,,...01n求S对的偏导数,并令其等于零,得到aaa,,,...01n
mnk(0,1,...,)kn,yaaxaxx,,,,,...0,,,01iinii,0i
进一步,可以将它们写成
mmm,m,1kkkkn
(0,1,...,)kn,yxaxaxax,,,,...,,,,01iiiini,,,,ioioioio引进记号mmkksxuyx,,和,,kikii,,ioio则上述方程组为
sasasau,,,,?
,00110nn,sasasau,,,,?
,102111nn,
(3),?
?
?
?
?
?
?
?
?
?
sasasau,,,,?
nnnnn0112,,
3
它的系数行列式是
sss?
01n
sss?
121n,X,.n,1?
?
?
101n
n
i是有时
nn01
?
sssnnn,12
由的定义及行列式性质,可以断言s(0,1,,2)in,?
i
21(4)XW,,,,?
,,.,,,,,nn,101n,
(1)!
此处符号W表Vandermond&亍列式,而是对所有可能的求,(0,1,,)in,
和(每个可以取值并且当时。
由⑷式及,,,,xxx,,,,?
ij,ij01mi
Vandermonde亍列式的性质可知,当互异时,xxx,,,?
01m
111?
,,?
01n222W,,,,,,?
,?
0.,,,,,n01n01
nnn?
,,01n
X,,00从而,方程组(3)有唯一解aaa,,,?
且它们使
(2)取极,,n,fxpx小值如此,我们应用最小二乘法找到了的近似多项式.,,,,x在利用最小二乘法组成和式
(2)时,所有点都起到了同样的作用,但依据某种理由认为中的某些项的作用大些,而另外一些作用小些,
y(例如,一些是由精度较高的仪器或操作上比较熟练的人员获得的,自然应该予以较大的信任),这在数学上表现为用和
m2(5),fxpx,,,,,,,,iini,i0
4
n
替代和
(2)取最小值.,且,通常称之为权;而(5)为加权和.,,0,,,1,iii,1in用多项式去近似一个给定的列表函数(即给出pxaaxax,,,,?
,,的一组观测值时。
需要确定的参数是;而可以看yfx,pxaaa,,,?
,,,iin01n
成是的线性函数.但是有时在利用观测或实验数据去确定一个经aaa,,,?
01n
验公式时,往往要确定的函数和待定参数之间不具有线性形式的关系.这样问题就变得有些复杂.然而,常常可以通过变量替换使其线性化.
最小二乘法原理是用来求解线性方程组的,非线性方程经线性化后方可应用该原理.通常在测量中遇到的问题不一定都是线性问题,必须先把非线性问题线性化然后求解.例如:
有时,我们希望用如下类型的函数:
(i)
q(6)spt,
去近似一个由一组观测数据(列表)所描绘的函数,其中p和q是待定的两个参数.显然s已非p和q的线性函数.怎样线性化呢,为此,我们在⑹式两端取对数,得到
InsInpqInt,,
InsyInpaaqxInt,,,,,,,,记则(6)式变成01
yaax,,.01
aa这是一个一次多项式,它的系数和可以用最小二乘法求得.01
(ii)我们经常希望用函数
CtSAe,(7)去近似一个以给定的列表函数,其中AC是待定的参数.这时,
我们可以(7)的两端取对数:
InSInACt,,
5
记,则(1.7)式变成InSyInAaCaxt,,,,,,,011
yaax,,01
这样仍可用最小二乘法定出(从而也就定出了A,C),得到近似函数aa,01
Ct.SAe,下面列出几种常用的线性处理方法,利用最小二乘法的原理对直线型、
抛物线型和指数曲线型的方程的参数估计方法,介绍如下:
(1)直线型直线方程的一般形式为
YabX,,
22令()()YCabXC,,,,为最小值,分别为a和b求偏导数,并,,令导数等于0,得到联立方程组。
解方程组,即可得到参数的计算公式,aYbX,,
nXYXY,,,,,,,b,,22nXX,(),,,
(2)抛物线型
抛物线方程的一般形式为
2YabXcX,,,
22()()YCabXC,,,,令为最小值,分别为a、b、c求偏导数,,,并令导数等于0,得到联立方程组解方程组,即可得到参数的计算公式2,YnabXcX,,,,0,,,,,223YXaXbXcX,,,,,0,,,,,
2234YXaXbXcX,,,,0,,,,,,
(3)指数曲线型指数曲线的一般形式为
XYab,
6取对数,将指数曲线转化成对数直线形式
lglglgYaXb,,
用最小二乘法估计参数a,b,可有如下方程组
lglglgYnabX,,,,,,,2(lg)lglgXYaXbX,,,
解此方程组,可得参数的对数值,查其反对数,即可得参数值。
3(最小二乘法原理的应用
3.1最小二乘法原理在线性回归中应用
例1.已知2009年3月到2010年4月居民收入与物价信心的满意指数如下图,求出当期物价满意指数x与时间t的曲线拟合。
T123456X29.5028.2025.9021.7021.9013.80
解:
t=[123456];
x=[29.5028.2025.9021.7021.9013.80];
plot(t,x,'o');
30
28
26
24
22
20
18
16
14
1211.522.533.544.555.56
7
polyfit(t,x,1)
ans=
-2.902933.6600
则所得到的近似方程为
y=-2.9029+33.6600x.3.2最小二乘法原理在非线性回归中的应用
例2设已知函数f(x)的表列值为
X0.20.50.70.851Y1.2211.6492.0142.3402.718试按最小二乘法
构造f(x)的二次近似多项式.
解:
下面用Matlab程序来求参数和.aa,a012
程序如下:
x=[0.20.50.70.851];
y=[1.2211.6492.0142.3402.718];
plot(x,y,'o');
8
2.8
2.6
2.4
2.2
2
1.8
1.6
1.4
1.20.20.30.40.50.60.70.80.91
polyfit(x,y,2)
ans=
0.92480.75531.0346
即所求a=0.9248,a=0.7553,a=1.0346.012
所求的近似多项式为
2.fxxx()0.92480.75531.0346,,,
例3、在某冶炼过程中,根据统计数据的含碳量与时间关系,试求含碳量y与
时间t的拟合曲线。
t0510152025303540455055y01.272.162.863.443.87
4.154.374.514.584.024.64
解:
实验程序如下:
t=[0510152025303540455055];
9
y=[01.272.162.863.443.874.154.374.51
4.584.024.64];
plot(t,y,'o');
5
4.5
4
3.5
3
2.5
2
1.5
1
0.5
00102030405060
p=polyfit(t,y,2)p=
-0.00240.20370.2305
综上,y与t的拟合曲线是
2ty=-0.0024+0.2037t+0.0.2305。
例2设已知如下一组实验数据:
t=2.22.73.54.1S=65605350
CtSAe,试求一个型的函数去近似它.
10
解:
计算以紧凑的形式表示如下:
xInt,xy2yIns,xx0
10.34240.11721.81290.6207
10.43140.18611.77820.7671
10.54410.29601.72430.9382
10.61280.37551.69901.0411
41.93070.97487.01443.3671
SSSuu01201
由此得方程组
41.93077.0144,aa,,,01,1.93070.97483.3671.aa,,01,从而解之得aInppqa,,,,,,1.963,91.9,0.43401
0.434St,91.9。
4.小结
应用最小二乘法的几个问题:
最小二乘法虽然在数据处理方面具有显著的效果,但如果使用不当会导致很大的误差,甚至错误的结果。
因此,在应用时必须注意以下几个问题:
(1)慎重选择拟合关系式。
在实际问题中,适当选择拟合关系式是一项十分谨慎的工作,它将直接影响计算的工作量和结论
xy,
(2)自变量的选择。
在实际工作中,对一组实验数据按不同的拟,,11合形式,结果会不一样。
特别注意当两个变量都有一定误差时,应当使用双变量
最小二乘法进行处理,否则可以使用单变量最小二乘法。
y(3)加权最小二乘法。
此法是应用于实验测量值非等精度的情况下1的拟合方法。
它不同程度的消除误差因素,结果更准确可靠。
11
设拟合函数为,当x值取时y的实测值为,取。
yfx,,yfx,xy,,,,11111
mm2加权偏差平方和,式中为第i个实验点的权
wswwyfx,,,,,,,,,,i1iiii,,ii11
重因子。
选取合适的权重因子可获得高精度的拟合参数。
wi
(4)最小二乘原理在很多领域有着广泛应用,利用MATLA求解非常方便,但一定要组要问题的类型,尤其是数据大且复杂时,来更好的突出Matlab计算出线性参数的最佳估计值,提高了效率和精度。
(5)非线性参数的最小二乘法处理程序可归结为:
首先根据具体问题将非线性问题线性化,列出误差方程;再按最小二乘法原理,利用求极值的方法将误差方程转化为正规方程;然后求解正规方程,得到待求的估计量;最后给出精度估计。
上面例题利用程序求解组合测量问题,用Matlab进行曲线的拟合。
致谢:
长江之滨,青山湖畔,是我美丽的校园。
转眼间,我已经在美丽的湖师度过了四个年头。
四年,这是我人生中非常重要的四年,我有幸能够接触到这些不仅传授我知识、学问,而且从更高层次指导我的人生与价值追求的良师。
他们使我坚定了人生的方向,获得了追求的动力,留下了大学生活的美好回忆。
在此,我真诚地向我尊敬的老师们和母校表达我深深的谢意〜
这篇论文是在我的导师胡宏昌教授的多次指导下完成的。
从论文的选题到结构安排,从内容到文字润饰,都凝聚了他大量的心血。
在这篇论文的写作过程中,胡老师不辞辛劳,不惜在百忙的工作学习中抽出时间多次与我就论文中许多核心问题作深入细致地探讨,给我提出切实可行的指导性建议,无论是论文的整体机构,还是论文的文字、排版还是一个标点符号,胡老师都是认真的帮我查看并细心全面地帮我修改。
更重要的是胡老师在指导我的论文的过程中,不顾自己由于长时间在电脑前工作的颈椎的疼痛还依然在我每次过去找他帮我修改论文时,细心的在电脑前为我指出排版的错误,甚至一个标点符号。
胡老师这种一丝不苟的负责精神,使我深受感动。
在此,请允许我向尊敬的胡宏昌老师表示真挚的谢意〜