《概率论与数理统计》自考365李茂精讲讲义9.docx

资源描述

《概率论与数理统计》自考365李茂精讲讲义9.docx

《《概率论与数理统计》自考365李茂精讲讲义9.docx》由会员分享，可在线阅读，更多相关《《概率论与数理统计》自考365李茂精讲讲义9.docx（23页珍藏版）》请在冰豆网上搜索。

《概率论与数理统计》自考365李茂精讲讲义9.docx

《概率论与数理统计》自考365李茂精讲讲义9

第九章　回归分析

　　内容介绍

　　本章在六、七、八章的基础上，对相关关系中随机变量与非随机变量之间的一种关系――回归关系进行分析，建立回归方程，并加以检验.

　　内容讲解

　　引言

　　在现实世界中，不少变量之间是存在着一定的关系的，一般说来，这种关系大体上可分为两类，一类是确定性的，即函数关系。

例如，电路中的电压V，电流I，电阻R三者间有关系

。

另一类是非确定性的，这类变量之间虽有一定的关系却又并不完全确定，例如，人的血压与年龄有关，炼钢过程中含碳量与精炼的时间有关，农作物产量与施肥量和单位面积的播种量有关……这些变量之间虽有一定联系，但又不能完全确定的。

事实上，这些变量是随机变量或至少其中一个是随机变量。

这种非确定性的关系称为相关关系。

　　例如：

农作物产量和施肥量和单位面积的播种量的关系。

§9.1　回归直线方程的建立

　　1.引例

　　【例9－1】某种合金的抗拉强度y（kg/mm2）与其中的含碳量x（%）有关。

现测12对数据如表9-1所示。

　　表9-1

0.10　0.11　0.12　0.13　0.14　0.15　0.16　0.17　0.18　0.20　0.21　0.23

42.0　43.5　45.0　45.5　45.0　47.5　49.0　53.0　50.0　55.0　55.0　60.0

　　【答疑编号：

12090101】

　　小结：

（1）x为可控制量，即非随机变量，y为随机变量；

（2）对直线的要求：

设

，则ε～N（0，1）；（3）得数学模型：

y=β0+β1x+ε.

　　2.一元回归分析问题的一般情况

（1）一元线性回归的数学模型：

将x取一组不同数值x1，x2，…，xn，通过试验取得相应的Y的值y1，y2，…，yn，从而得对观察值（xi，yi），i＝1，2，…，n.对于yi的值，可分为两部分：

一部分是由线性函数β0+β1x取得，另一部分是由随机因素的影响所造成的，记为εi.因此，xi与yi的关系可表示为yi=β0+β1x+εi，i＝1，2，…，n，

　　其中，εi～N（0，σ2）且各εi相互独立.这就是一元线性回归的数学模型.

（2）几个待解决的问题：

　　①未知参数β0，β1及σ2的点估计：

设

，

为β0，β1的点估计，

为E（Y）的估计，则对上述模型求均值得

，

　　这就是Y与x之间的线性关系经验公式.我们称此式为Y关于x的一元线性回归方程，称此方程的直线为回归直线，称

为回归系数，称

为回归常数，它是回归直线的截距.

　　②回归方程的显著性检验：

在实际问题中，Y与x之间是否存在关系Y=β0+β1x+ε是要经过检验才有意义.③经过检验有意义的回归方程可以用来预测和控制.

　　（3）求未知参数β0，β1及σ2的点估计

　　对于一切xi，为了使yi与

的偏差最小，采用最小二乘法对β0，β1估计.具体方法如下：

　　①对已知样本观察值（xi，yi）

，i＝1，2，…，n，构造β0，β1的函数

　　Q（β0，β1）＝

　　②利用偏导数求非负函数Q（β0，β1）的极值：

求偏导数并令其为零

　　称此方程组为正规方程组.

　　解此方程组得

　　其中，

，

.若引进记号

，

　　则有

　　容易验证，β0，β1的最小二乘估计

，

有如下性质：

　　（i）

，

；

　　（ii）

，

.由此结果知

，

　　下面续例9-1，计算回归方程，看P187页表9-2。

，

，n=12。

，

§9.2　回归方程的显著性检验

　　本节回答上节提出的第二个问题.介绍两种检验方法.

　　1.F检验法

（1）目的：

检验y与x是否存在显著的线性关系

（2）如果y与x之间不存在线性关系，则β1＝0，反之，β10.所以，检验假设为

　　H0：

β1＝0，H1：

β10.

　　（3）寻求检验统计量

　　①平方和分解式

　　按照上节所设，yi随x的取值不同而波动，其原因有二：

一是E（Y）随x取值不同以线性关系变化；二是受随机因素影响，产生不规则变化.如果前一种影响是主要的，则β10，方程有意义，否则方程没有意义。

为此，必须把两种影响放开，所以，选择一个“不动点”

作为标准，得到一个新的“量”，记为

，

　　称其为总偏差平方和.而

　　利用正规方程组的结果，得到

，

　　其中

　　反映了由于x的变化引起的波动大小，称为回归平方和；

　　而

　　反映了观察值与回归直线之间的偏离程度，即随机因素的影响，称为剩余平方和.而

　　称为平方和分解式.

　　②平方和的性质

　　在假定各εi相互独立，且εi～N（0,σ2）的条件下，可以证明：

　　（i）

；

　　（ii）在H0为真时，

；

　　（iii）

与

相互独立.

　　③得到统计量：

于是，由第六章推论6－2（P141）可得，当H0为真时，

　　④统计量的意义：

若回归方程有意义，则应该

尽可能大，

尽可能小，即此统计量的数值应该大；反之，应该小.此时，只要给定显著水平α，可以查F分布表求得临界值Fα（1，n-2），得到拒绝域W=[Fα（1，n-2），+∞）.当观察值F∈W时，拒绝H0，认为Y与x的线性关系是显著的；否则，结论相反.这种方法称为回归方程显著性检验的F检验法.

　　由上述的平方和的性质可知，

为σ2的无偏估计，且

与

相互独立，所以，对回归方程的F检验可以用方差分析表来进行.

　　表9-3

来源

平方和

自由度

　　均方

F比

显著性

回归

剩余

总和

n-2

n-1

F∈W时，拒绝H0；否则接受H0

　　【例9－2】对例9-1进行回归方程的显著性试验，α=0.01。

　　【答疑编号：

12090201】

　　解：

列出方差分析表见表9-4。

　　表9-4

来源

平方和

自由度

均方

F比

显著性

回归

剩余

总和

s回=317.2589

s剩=17.9703

sT=335.2292

317.2589

1.7970

176.55

　　用F=176.55>10.0=F0.01（1，10），故回归方程在α=0.01水平上是显著的。

　　2.t检验法

　　设检验假设

　　H0：

β1＝0，H1：

β1≠0.

　　由

与

相互独立及t分布的定义知

　　即

　　当假设H0：

β1＝0为真时，上式成立，其中，

.于是，对给定的显著水平α，查t分布表得临界值

，由t分布概率密度函数的对称性可得拒绝域＝（－∞，－

）∪（

，＋∞）；

　　用样本观察值计算统计量的观察值，当t∈W时，拒绝H0，认为一元线性回归显著，否则，认为不显著.这种检验方法称为检验法.

　　如果经过检验，认为线性回归不显著，应查明原因.一般地，大致有如下几种原因：

　　①影响y的原因除x外，还有其他不可忽略的因素；

　　②y与x的关系不是线性的，而是其他非线性关系；

　　③y与x无关.

　　【例9－3】对例9-2用t检验回归方程的显著性，α=0.01.

　　【答疑编号：

12090202】

　　本章小结：

　　一、内容

　　二、试题选讲

　　1.（425）某公司研发了一种新产品，选择了n个地区A1,A2,…,An进行独立试销。

已知地区Ai投入的广告费为xi，获得的销售量为yi，i＝1，2，…，n。

研发人员发现（xi，yi）（i＝1，2，…，n）满足一元线性回归模型

　　则β1的最小二乘估计

＝________________.

　　【答疑编号：

12090203】

　　答案：

展开阅读全文