方差分析及回归分析Word格式.docx
《方差分析及回归分析Word格式.docx》由会员分享,可在线阅读,更多相关《方差分析及回归分析Word格式.docx(15页珍藏版)》请在冰豆网上搜索。
称或(又称为数据结构式)所确定的模型为一元(正态)线性回归模型。
对其进行统计分析称为一元线性回归分析。
不难理解模型中EY=a+bx,若记y=E(Y),«
V=a+bx,就是所谓的一元线性回归方程,其图象就是回归直线,b为回归系数,a称为回归常数,有时也通称a>
b为回归系数。
我们对一元线性回归漠型主要讨论如下的三项问題:
⑴对参数a,b和/进行点估计,估计量N&
称为样本回归系数或经验回归系数,而y=a+bx称为经验回归直线方程,其图形相应地称为经验回归直线。
⑵在模型下检验y与x之间是否线性相关。
⑶利用求得的经验回归宜线,通过x对y进行预测或控制。
二、a、b的最小二乘估计、经验公式
现讨论如何根据观测值(X』),=1,2,……尹估计模型()中回归函数f(x)=a+bx中的回归系數。
采用晟小二乘法,记平方和
Q(a,b)=Yj(yl-a-bx,)2
/-I
找使Q达到最小的心b作为其估计,即
Q(a,b)=minQ(a.b)
寻=2勿儿-a-b兀]=0
为此,令<
誤=2±
(儿-a-则)兀=0
化简得如教材所示的方程组(称为模型的正规方程)
解得
所示的N/;
分别称为a、b的晟小二乘估计,式中
r-l/-I11j-1
s=£
(无一xxx-y)=i>x一丄(i>)(i>)
/-Ir-11111
称y=a+bx为经验回归(直线方程),或经验公式。
例1某种合成纤维的强度与其拉伸倍数有关。
下表是24个纤维样品的强
度与相应的拉伸倍数的实测记录。
试求这两个更量间的经验公式。
编号
123456789101112
拉伸借数x
强度y(Mpa)
131415161718192021222324
拉伸借数X
将观察值(知y),匸1,……,24在平面直角坐标系下用点标出,所得的图称
为散点图。
从本例的散点图看出,强度y与拉伸侈数x之间大致呈现线性相关
关系,一元线性回归棋型是适用y与x的。
现用公式0求盯、这里n=24
工心=127.5,"
=113・1
=731.6
=829.61,工并=650.93,
1.
L=829.61-—X127.52=152.266
^=731.6-1x127.5x113.1=130.756
L,v=650.93-±
xll3.P=H7.946
A—
a=y-bx=0.15
由此得强度y与拉伸倍数x之间的经验公式为$=0」5+0.859X
三、最小二乘估计&
5的基本性质
定理一元线性回归棋型中,冬b的晟小二乘估计满足:
(1)Ea=a.Eb=b
-2
IV八1a
⑵£
>
(«
)=(-+—)o-2,D(b)=-—a2nL_
八JVa
(3)cov(N〃)=_^—b_
Atx
证:
(1)注意到对任意i=l,2,……,门有
Eyi=a+bxiyEy=a+bx,
Dyt=一亍)=Eyi-Ey=b(x}-x)2
Ea=Ey-xEb=a+bx-bx=a
(2)利用±
(旺一1)=0,将N&
表示为:
八1刃__1"
_
“=厂工(兀一羽(%-刃=—E(兀一兀)必
Lxx行Lxx
八12L,—f匕1(Xi-X)Xq
"
=一工y-劝=工[——]yi
由于yi,y2,,yn相互独立,有
D^pXl-^=^如=却_(D"
甘
台“Lxx一,_2
1总(兀一切」2光堆f-Q
z1Xx7
=(—+k)b「
”g___
八匕("
一0J(Xr-X)X
冬
X
————2=0*2
岛Lvx
定理表明,目、b的晟小二乘估计N/;
是无偏的,从,还知道它们又是线性的,闵此所示的晟小二乘估计N%分别是扒b的线性无偏估计。
COV(f/,/?
)=2^—「1--Q?
(=iLan
=-E
匕(Xi-X)2X
(=1
2、
9.1.2建立回归方程后进一步的统计分析
一、/的无偏估计
由于/是误差頌=1,……卫)的方差,如果£
能观测,自然想到用丄工皆来估计Q然而岛是观测不到的,能观测的是儿由£
y»
=a+bx<
=yt(EpEyi的估计),就应用残差X-氏来估计6,冈此,想到用
Dv0=D(a)+x^}D(b)+2x0cov{a,b)
由于y()与v0相互独立仇只与yi,,yn有关),且y°
〜N(a+bx0,a2)
八2
由定理知,yoJTo与(〃-2)£
丁独立,故
&
2卩+丄+复斗~心_2)()
nL“
T=(>
'
o->
o)/f【I+十+,'
l门】~心一2)()
对于给定的豐信水平1-a,*自由度为n-2的T分布表可得满足
P(卩I<
ta)=l-a的临界值/ata
根据不等式的恒等巫形可得儿的置信度为her的置信区间为:
仇-/詁[1+1+耳工匚1,机卩[1+1
当n较大,J充分大时,1+丄+(儿一"
“
可得%的近似预测区间:
(y0-ta(r,%+□&
)上式说明预测区间的长度,即预测的精度主要由&
确定,闵此在预测中,&
是一个基本而重要的量。
2、控制问题
在实际应用中往往还需要考虑预测的反问题,即要以不小于1-«
的概率将y。
控制在(旳,血内,也就是使
相应的x“应控制在什么范围内。
这类问题称为控制问题。
根据前一段的讨论,若X((满足
(>
«
一『3(功,y()+『少⑴)u(対,力)0
则可有P®
<
y0<
y2)>
l-a
闵此控制问题一般是找满足的及的范围。
但求解很麻烦。
一种近似的处理法是:
由y0~N(a+bx0,a2)
将a,b,/分别用其无僞估计厶,产代,
近似a,Vn-Va近似
有儿~NS+bXoVjuNGoVj从而亠—21~N(0・l)
b
入
根据y%)=1-Q查N分布表确走—,于是%的置信度19的预测区
间可近似认为是仇-叫&
人+"
Q)要解决前述问题可以从満足:
仇一%&
,九+心&
)U()D)的%去寻找X0的控制范围。
显然,当2血&
>儿-力时,问题无解,否则方程组
有解
”=a+hx'
-ua(yy2=a+bxl'
+uaa
由此得x0的控制范围是(min(xf,xn),max(x\xH))
三、线性相关的检验
前面的讨论都是在假定y与x呈现线性相关关系的前提下进行的,若这个假定不成立,则我们建立的经验回归直线方程也失去意义,为此必须对y与x之间的线性相关关系作检验,为解决这个问题,先作手:
1、偏差平方和分解
记厶=乞⑶一刁2,称它为总假差平方和,它反映数据%的总波动,易得L有
r-l
如下分解式:
厶=£
(兀一£
+罚一齐=£
(”一讦+£
(氏._齐[$+"
/-I/-Ir-!
其中Q=0(N6)就是前面提到的残差平方和,(/=£
(yi.-7)2称为回归平方和,上/-I
式右边的交叉项:
2^(yf-y)
=2f[):
-(G+必)][6+bxl一y]
=[(儿-y)一沁厂劝[/;
(兀-x)]
=2/4£
(-jXa;
-X)-/;
£
匕-疔〕
/-Ir-l
=2b(Lvv-/?
Lxr)=0
由上可知,U越大,Qu就越小,x与y间线性关系就越显着;
反之,x与y之间的线性关系越不显着。
于是,自然地考虑到检验回归方程是否有显着意义是考察C/Q的大小,其比值大,则L中U占的比重大,回归方程有显着意义,反之,无显着意义。
2、线性相关的F检验
根据上段的思想来构造检验统计量,先看下面的定理。
定理当H“:
b=O成立时U/o2〜*
(1),且Q与U相互独立。
2
当H。
成立时,由及知,/;
~N(0,])
Lxx
上厶~N(O.l)于是$=牛~Z2d)
由定理,我们还知(”一2)£
;
=殳~*(“-2),且Q与久相互独立,从而Qb-
与u=Plxv独立,由上面的定理及F分布的构造性定理知:
ub2LW
F=—=—~F(l"
-2)
Q/n-2b闵此可选它作检验H亦b二()的检验统计量,当已为真时F的值不应太天,故对选定的水平
0,由P(FnF*)F查F(l,n-2)分布表确定临界值Fg分位数,当观测数据代入式算出的F值合FAF-时,不能接受H“认为建立的回归方程有显着意义。
检验H。
:
经验公式无显着意义(oc二选用f=G:
)Wf(1,22)由P\F>
Fa}=a^表得F=现计算F值
由厶二厶尸
U=b2L=0.8592x152.266=112.35
Q二L-U=
闵尸>
斤,所以拒绝认为所得的经验回归方程有显着意义。
四、相关与回归的区别与联系
1、联系
由前面的讨论,有:
U_b2Lxx
LLyy
得回归平方和U=fL
残差平方和Q=Q(a,b)=Ul-r2)
可见,反映了回归平方和在总僞差平方和中占的比重,该比重越大,误差平方和在总僞差平方和中占的份量就越小。
通常称『为拟合优度系数。
r就是变量x与y的积差相关系数,另方面由F=茫器=(;
_2呼=(芈謬)2
Q(1-厂)厶71-r2
看出,在检验y与x是否显着线性相关时,F检验法与相关系数T检验法等效。
2、区别
相关关系不表明因果关系,是双向对称的,在相关分析中,对所讨论的两个变量或多个变量是平等对待的,相关系数r反映数据&
^所描述的散点对直线的靠拢程度。
回归分析中,更量在研究中地位不同,要求闵变量(响应交量)y是随机更量,自交量一般是可控制的普通变量(当然也可以是随机的)。
在回归方程中,回归系数只反映回归直线的陡度,且它不是双向对称的。
9.13一元非线性回归
前面讨论的线性回归问题,是在回归模型为线性这一基本假定下给出的,然而在实用中还经常碰到非线性回归的情形,这里我们只讨论可以化为线性回归的非线性回归问题,仅通过对某些常见的可化为线性回归问题的讨论来阐明解决这类问题的基本思想和方法。
—、曲线改直
例1炼纲过程中用来盛钢水的钢包,由于受钢水的浸蚀作用,容积会不断扩大。
下表给出了使用次数和容积增天量的15对试验数据:
使用次数(x・)
增大容积
使用次数(xj
增大容积(y)
9
3
10
4
11
12
6
13
7
14
8
15
16
试求Y关于x的经验公式。
解:
首先要知道Y关于x的回归函数是什么类型,我们先作散点图。
(见教材)
从图上看,开始浸蚀速度较快,然后逐渐减缓,更化趋势呈双曲线状。
闵此可选取双曲线:
(设y与x之间具有如下双曲线关系)
1,1
—=a+b—
yx
作为回归函数的类型,即假设y与X满足:
—=a+b—+£
yx
令§
=丄,?
7=丄,则交成耳=a+Ee=0、=b'
・
%y
这是一种非线性回归,先由X、y的数据取倒数,可得耳,三的数据”……,,对得到的15对新数据,用晟小二乘法可得:
线性回归方程77=0.1312^+0.0823^,代回原变量得
0.0823x+0.1312
为y关于x的经验公式(回归方程)
在例1中,假设了y与x之间满足双曲线回归模型,显然这是一种主观判断,闵此所求得的回归曲线不一定是晟佳的拟合曲线。
在实用中,往往是选用
不同的几种曲线进行拟合,然后分别计算相应的残墨平方和
Q严》(XT/或&
(标准误差)进行比较Q(或&
)晟小者为晟优拟合。
二、常见可改直的曲线
下面简介一些可通过变量替换化为线性回归的曲线回归漠型。
1、双曲线丄=0+匕作交換)『=丄,X=-则回归函数化为:
r'
=a+bx‘
yxyx
2、專函数y二ax1*(或y=axb)(b>
0)对專函數两边取对数Cny=Cna+"
加,作巫换y'
=Cny,x'
=Cnx,a=Cna则有y'
=a±
bfxf
3、指数函数尸立扌或尸加心(b>
0)
两边取对数Cny=Cna±
bx令yf=lny\a"
=Cna有y'
=ar±
bx
丄b
4、倒指数函数y=itex或y=(b>
0,a>
两边取对数后作巫換F=6iv,x=-.a=Cna,
x
则有
5、对数函数,y=a+bCnx
作巫換#=切卫则有y=a+bx‘.
另外还有一些可化为线性回归的曲线回归,将在用“spss”作实习操作时一并介绍。
例1(续)由例1的散点图看出,除双曲线拟合外,本例还可选择倒指数拟合:
v=acx
两边取对数得:
Cny=/?
•—+Cna
令rf=£
ny、了=丄,巫为如下的回归问题:
〃'
=A+3了+£
利用晟小二乘法求得:
B=A=
闵此回归直线为:
=-1.1107^+2.4578
代回原交量得:
y=11.6489e-,-,107,x
经计算双曲线拟合时Q二<
7=,倒指数拟合时&
二,故倒指数拟合效果更好
多元线性回归
实际应用中,很多情况要用到多元回归的方法才能更好地描述变量间的关系,闵此有必要在本节对多元线性回归做一简单介绍,就方法的实质来说,处理多元的方法与处理一元的方法基本相同,只是多元线性回归的方法复杂些,计算量也大得多,一般都用计算机进行处理。
一、数学模型和回归方程的求法。
1、多元线性回归的模型。
设闵交量y与自变量斷恐,……凡之间有关系式:
y=b0+b內+...+bkxk+£
~/v(od)抽样得n组观测数据:
xttfx21>
2;
-S血xj
(Vn;
MaX加
其中禺是自交量x,的第j个观测值,片是冈变量y的笫j个值,代入0得模型的数据结构式:
y}=%+b內]+b2x2l+...+bkxkl+s}y2"
o+b\X】2+blx22+...+bkxk2+£
yn=虬+b皿+b2x2„+...+bkxk„+en
^£
2..£
n独立同分布V(0,a)
我们称或为k元正态线性回归模型,其中b0,b„……b及/都是未知待估的参数,对k元线性模型,需讨论的问题与一元时相同。
需要说明的几点见教材
2、未知參数的估计
与一元时一样,采用晟小二乘法估计回归系数九加••…侃称使
Q%%,…,如)仝f[儿一(%+b{xu+b2x2l+...+bk心)]'
达到晟小的…A为参数
(九®
……M的最小二乘估计,利用微积分知识,晟小二乘估计就是如下方程组的解:
厶1〃1+厶2仇+…+厶厶=厶卜
‘21勺+?
22“2+…+,2山=Sy
・・・
+厶2方2+•••+(«
$=5
%=y-blx+b2X2+...+bkXk
_1”
其中r針
1丄__
厶v=-工(X”一匕),(X-y)(f=12・・・,R)
通常称方程组为正规方程组,其中前k个方程的系数矩阵记为L*=Q片,当匸可逆时,正规方程组有解,便可得b"
b“……S的最小二乘估计賦…A
GJ
即
:
=(“)T
八八__
%=一…一加双
、虽丿
代入漠型,略去随机项得经验回归方程为:
y=bQ+b{x{+...+bkxk类似一元可以证明6都是相应
的b(i=(),1,……,Q的无偏估计,且/的无偏估计为:
AAA
2_。
(%,勺,…,bk).
n-k-\
二、回归方程的显着性检验
与一元的情形一样,上面的讨论是在y与X”……,忑之间呈现线性相关的前提下进行的,所求的经验方程是否有显着意义,还需对y与诸凡间是否存在线性相关关系作显着性假设检验,与一元类似,对y=bQ+b^+...+bkxk是否有显着意义,可通过检验H,;
b!
=b2=--=bi=()
为了找检验已的检验统计量,也需将总偏差平方和厶,•作分解:
l=±
(y,-?
)2=S(y,-yt+yt-ytY
r=l/=!
=E(%一曰)'
+》(氏一亍)2三Q+”
tf
即gu+Qe其中A=4,.,u=x(yt-y)\2=工(幵一氏)'
t1
这里兀+•••+〈几.分别称Q.D为残差平方和、回归平方和,可以证明:
u=叽+b2l2y+…+加灯=工仏
许和)且以
j.i
利用柯赫伦定理可以证明:
在"
成立下,
Q相互独立,所以有
(这里记Q为Q下同)取F作儿」的检验计量,对给定的水平a、萱Fgnkl)分布表可得满足p(F>
Fa)=a的临介值你,由样本观测值代入算出统计量F的观测值,若FA伤,则不能接受认为所建的回归方程有显着意义。
通过F检验得到回归方程有显着意义,只能说明y与x八2,……,忑之间存在显着的线性相关关系,衡量经验回归方程与观测值之间拟合好坏的常用统计量有复相关系数R及拟合优度系数仿一元线性回归的情况,定义:
IR1=\匸¥
可以证明R就是观测值
yb••…•必与回归值的和彭,…,yn的相关系数。
实用中,为消除自由度的影响,又定义:
-2=}=Q/(n-k-\)
为修正的似合优度系数。
三、偏回归平方和与因素主次的判别
本段内容是多元回归与一元回归有本质差异的部分。
前一节所作的检验b}=b2==4=0被拒绝,并不能说明所有的肖萸量都对因交量y有显着影响,我们希望从回归方程中剔除那些可有可无的肖变量,重新建立更为简单的线性回归方程,这就需要对每个自交量冯做显着性检验。
于是考虑HO1:
b,=0的检验方法。
从原有的k个肖变量中剔除科,余下的k-1个自交量对y的线性影响也可由相应的偏差平方和分解式中的回归平方和U(風映出来,即L(j、="
(卄+Q(j)
记+5)
则△U®
反映了交量兀在回归方程中对y的线性影响,常称它为科的偏回归平方和,
b1
可以证明
cji
其中G是矩阵厶丄(SPxP的逆矩阵对角线上的笫j个元素,对于厲八b,=o
.b1./c.际溪
选用统计量~F(l,n—R—1)
a~Qe/n-k-\
对给定的水平Q,由=布表确定临介值代,将观测
值代入算出的好值与心比较,若FK则拒绝已,认为兀对y的线性影响显<
否则不显着,应剔除。
但在实用中,多元回归中剔除变量的问題比上例我们做的讨论要复杂得多,闵为有些巫量单个讨论时,对闵交量的作用很小,但它与某些自巫量联合起来,共同对因变量的作用却很大,闵此在剔除变量时,还应考虑变量交互作用对y的影响,对这一问题的深入讨论太花时间,有兴趣的同志可参见有关
“多元统计分析”教材。
此外,关于多元性回归的预测和控制问题,类似一元不再赘述。