第八章一元线性回归分析.doc
《第八章一元线性回归分析.doc》由会员分享,可在线阅读,更多相关《第八章一元线性回归分析.doc(24页珍藏版)》请在冰豆网上搜索。
![第八章一元线性回归分析.doc](https://file1.bdocx.com/fileroot1/2022-10/2/90622d7e-5f92-49ff-a031-3cc9535aba76/90622d7e-5f92-49ff-a031-3cc9535aba761.gif)
§3一元线性回归分析
客观事物总是普遍联系和相互依存的,它们之间的数量联系一般分为两种类型:
一类是确定性关系,即函数关系;另一类是不确定的关系,称之为相关关系.前一类关系我们在数学分析中已进行了大量研究.第二类关系在我们的生活实践中也大量存在,如身高与体重、播种面积与总产量、劳动生产率与工资水平等关系.这些变量之间有一些联系,但没有确切到可以严格确定的程度,即前一个量不能惟一确定后一个量的值.又如,城市生活用电量y与气温X有很大的关系,在夏天气温很高或冬天气温很低时,由于空调、冰箱等家用电器的使用,用电量就高.相反,在春秋季节气温不高也不低,用电量就相对少.但我们不能由气温这一个量准确地决定用电量Y.回归分析就是研究相关关系的一种数学工具,它着重于寻找变量之间近似的函数关系.
8.3.1.回归分析的基本概念
回归分析作为一种统计方法,是利用两个或两个以上变量之间的关系,由一个或几个变量来表示另一个变量.被表示的这个变量往往是我们研究的一个指标变量,常称为因变量或响应变量,记之为.与之有关的另一些变量可记为,,,,称为自变量或预报变量.由,,,可以部分地决定的值,但这种决定不很确切,这种关系就是所谓的“相关关系”.我们可以设想的值由两部分组成:
一部分是由,,,能够决定的部分,它是的函数,记为.而另一部分则是由包括随机因素在内的其他众多未加考虑的因素所产生的影响,这一部分的诸多因素不再区别,所造成的对的影响一起被称为随机误差,记之为.于是得到如下模型:
Y=+
这里是随机变量,一般要求满足某些假定,如=0,函数称为理论回归函数,它描述了Y随自变量变化的平均擘况.
Y=
称为回归方程.这种确定的函数关系可用来近似代替复杂的相关关系.回归分析的任务就在于根据和Y的观察值去估计理论回归函数,并讨论与之有关的种种统计推断问题,如假设检验问题和估计问题.回归分析所用方法在相当大的程度上取决于模型的假定.
(1)若回归函数的数学形式并无特殊假定,称为非参数回归.
(2)假定的数学形式已知,只是其中若干个参数未知,需要通过观测值去估计,称为参数回归.应用上最重要、理论上发展得最完善的是为线性函数的情形,即
=++…+,(8.3.1)
称为“线性回归”.若,则称为一元线性回归.
若根据观测值已估计了,,,,设为,,,,称
=+++
为经验回归方程.这里“经验”两字表示这个回归方程是由特定的观测值而得到的.
回归分析的应用,简单地可归纳为以下几个方面:
(1)估计回归函数.如考虑亩产量Y与播种量和施肥量的相关关系,需求出Y对,的回归函数,当给定播种量=,施肥量=,则就是平均亩产量的值.
(2)预测.当自变量X=(,,,在取定的情况下,比如=(,,…,,去预测因变量Y将取的值.Y的预测值往往就取回归函数在(,,,处的估计(,).
(3)控制.在这类应用中,不妨把自变量解释为输入值,因变量解释为输出值,通过估计出的经验回归方程Y=(,,,)以调节,,…,的值达到把输出值Y控制在给定的水平的目的.
最后简单介绍一下“回归”这一名称的由来.这个术语是英国生物学家兼统计学家高尔顿(F.Galton)在1886年左右提出来的.他在研究子代的身高与父母的身高的关系时,收集了1078对父母及其成年儿子的身高数据.高尔顿以父母之平均身高X作为自变量,以成年儿子的身高作为因变量,将值标在直角坐标系内,发现二者有近乎直线的关系,总的趋势是增加时倾向于增加,这与人们的常识是一致的.用他的数据可以计算出儿子身高与父母平均身高的经验关系
.(8.3.2)
高尔顿算出1078个值的算术平均值为=68英寸(1英寸=2.54厘米),1078个Y值的算术平均值为69英寸,子代身高平均增加了1英寸.按常理推想,当父母的平均身高为英寸,子代的平均身高也要增加1英寸,即变为英寸,但事实上不然.按(8.3.2)计算,父母身高平均72英寸(注意比平均身高68英寸要高),子代平均身高为71英寸,而并非73英寸,与父母相比有变矮的倾向.父母身高平均为64英寸(注意比平均身高68英寸要矮),子代平均身高为67英寸,比预计的64+1=65(英寸)要多,与父母相比有增高的趋势.这种现象不是个别的,它反映了一般规律.高尔顿对这个结论的解释是:
大自然有一种约束力,使人类身高的分布在一定时期内相对稳定而不产生两极分化,这就是所谓的回归效应,人的身高因约束力而“回归于中心”.
正是通过这个例子,高尔顿引入了“回归”一词.人们把(8.3.2)所表示的直线称为回归直线.其实两变量间有回归效应的现象并非普遍现象,更多的相关关系不具有这一特征,特别是涉及多个自变量的情况时,回归效应不复存在.因此称谓“线性回归模型”、“经验回归方程”等概念中的“回归”一词并非总有特定意义,只是一种习惯说法而已.
8.3.2.一元线性回归模型
考虑因变量y和一个自变量的一元线性回归,假设回归模型为
y=+,,(8.3.3)
其中为随机误差,其均值为,方差为,是随机变量,是非随机变量(除非特别声明,我们考虑的回归分析中一律把自变量视为非随机的),,和都是未知参数.称为常数项或截距,称为回归系数.(8.3.3)式称为理论模型.
现设对模型(8.3.3)中的变量,y进行了n次独立观察,得到样本值(,),(,),…,(,),从而
=十+(i=1,2,…,n),(8.3.4)
其中是第次观察随机误差所取之值,它是不能观察到的.对(=1,2,…,n)最常用的假定是:
(1)误差项的均值为零,即=0(=1,2,…);
(2)误差项具有等方差,即(8.3.5)
(3)误差项彼此不相关,即=0(
通常称假定(8.3.5)为Gauss-Markov假定.在这三条假定中,
(1)表明误差项不包含任何系统的影响因素,视测值在均值的上下波动完全是随机的.
(2)要求等方差,也即要求在不同次的观测中在其均值附近波动程度的大小是一样的.(3)则等价于要求不同次的观测是不相关的.统计学中把(8.3.4)式及假设(8.3.5)合一起称为一元线性回归模型,它给出了样本观测值(,)(1,2,…n)的概率性质,并可以对理论模型(8.3.3)进行统计推断.可见,理论模型(8.3.3)只起了一个背景的作用.
对的进一步假定是
(8.3.6)
这是一个比Gauss—Markov假设更强的假设,指明了误差项所服从的分布.由(8.3.4)式有
且相互独立.本章只讨论如下的一元线性回归模型
(9.3.7)
在多数应用问题中,我们选择与之间的线性回归形式很难有充分根据,在很大的程度上要依靠数据本身.将独立试验的几个观测值在直角坐标系中描出相应的一点,所得图形称为散点图,如图9—1所示.散点图中的点虽杂乱无章,但当它们大体呈现出一种直线走向的趋势时,选取线性回归函数是比较合理的.否则的话,我们应选取适当形式的曲线来拟合这些点,用曲线方程反映,y之间的相关关系才更精确些.
图9—1观测数据的散点图
考虑模型(8.3.7),如果由样本得到参数夕的估计,则称方程
为y关于的线性回归方程或回归方程,其图形称为回归直线.
对于模型(8.3.7)将从下列各方面逐一研究.
1)未知参数的估计
(1)的估计——最小二乘法.回归分析的主要任务就是要建立能够近似反映的相关关系的经验回归函数.这里“经验”是指回归函数是由当前的样本观测值得出的,也就是根据数据由模型(8.3.7)去估计,.怎样给出的估计才是合理的呢?
我们要定出一个准则,以衡量由此所导致的偏差,希望偏差越小越好.假若以作为的估计时,偏差的绝对值越小,说明用代替时误差越小.考虑到数学处理上的方便,衡量这些偏差大小的一个合理的指标为它们的平方和(通过平方去掉差值正负符号的影响).记
(8.3.8)
则反映了n次观察中总的偏差程度,称为残差平方和.若,使Q(,)越小,则模型拟合数据越好,因此只需极小化Q(),以所得的作为的相应估计.所谓最小二乘法就是按照这一思路,通过使残差平方和达到最小来估计回归系数的一种方法.这一重要方法一般归功于德国大数学家高斯在1799年~1809年间的工作.用最小二乘法导出的估计有一些良好性质,因而该法在数理统计中有广泛的应用.
对于模型(8.3.7),最小二乘法与我们常用的最大似然估计法所得到的结果是一致的.因为的联合概率密度为
求使达到极大值的,只需极小化,这个和不是别的,正是我们上述的残差平方和.
利用多元函数求极值的方法,分别求关于的偏导数,并令它们分别等于零:
整理得
(8.3.9)
其中=.
方程组(8.3.9)称为正规方程组。
由于一般要求不全相同,即试验点的选取不能只集中在一点,则方程(8.3.9)的系数行列式
从而正规方程组(8.3.9)的唯一解为
(8.3.10)
(8.3.10)式中的,良分别称为,的最小二乘估计,于是所求的线性回归方程为
(8.3.11)
若将=式代入(9.3.11)式,则得线性回归方程
(8.3.12)
可见,回归直线总通过点,).(,)称为样本数据的几何中心.
根据模型(8.3.7)中的假定,很容易推出最小二乘估计和的一些性质.
(i),和+的线性无偏估计.
事实上,线性性显然.由,得
.
(ii),和的方差分别为
根据的正态性和独立性,可得,及+的分布为
(8.3.13)
(8.3.14)
(8.3.15)
这些分布性质在以后的检验和区间估计中有很重要的作用.
另外,由的方差表示式中可以看出:
随着的增大,的方差逐渐减小.这意味着当的取值可以由我们选定时,在一定程度上应使诸的取值尽量散开些,以提高的估计精度.数学上还可以进一步证明,在所有的线性无偏估计量,甚至所有的无偏估计量中,的最小二乘估计量的方差最小(此结论可由著名的Gauss—Markov定理得到,我们不作介绍).还有,随着榉本容量的增大,的方差也会不断减小.
(2)参数的估计.设,是,的最小二乘估计,可用在处作为因变量y的实际观察值为,二者之差
称为残差.
称为残差平方和.
我们不加证明的指出Q的性质如下;
(8.3.16)
三者相互独立.(8.3.17)
利用(8.3.16)及分布的性质,有
;