《概率论与数理统计》自考365李茂精讲讲义9.docx
《《概率论与数理统计》自考365李茂精讲讲义9.docx》由会员分享,可在线阅读,更多相关《《概率论与数理统计》自考365李茂精讲讲义9.docx(23页珍藏版)》请在冰豆网上搜索。
《概率论与数理统计》自考365李茂精讲讲义9
第九章 回归分析
内容介绍
本章在六、七、八章的基础上,对相关关系中随机变量与非随机变量之间的一种关系――回归关系进行分析,建立回归方程,并加以检验.
内容讲解
引言
在现实世界中,不少变量之间是存在着一定的关系的,一般说来,这种关系大体上可分为两类,一类是确定性的,即函数关系。
例如,电路中的电压V,电流I,电阻R三者间有关系
。
另一类是非确定性的,这类变量之间虽有一定的关系却又并不完全确定,例如,人的血压与年龄有关,炼钢过程中含碳量与精炼的时间有关,农作物产量与施肥量和单位面积的播种量有关……这些变量之间虽有一定联系,但又不能完全确定的。
事实上,这些变量是随机变量或至少其中一个是随机变量。
这种非确定性的关系称为相关关系。
例如:
农作物产量和施肥量和单位面积的播种量的关系。
§9.1 回归直线方程的建立
1.引例
【例9-1】某种合金的抗拉强度y(kg/mm2)与其中的含碳量x(%)有关。
现测12对数据如表9-1所示。
表9-1
x
0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.20 0.21 0.23
y
42.0 43.5 45.0 45.5 45.0 47.5 49.0 53.0 50.0 55.0 55.0 60.0
【答疑编号:
12090101】
小结:
(1)x为可控制量,即非随机变量,y为随机变量;
(2)对直线的要求:
设
,则ε~N(0,1);(3)得数学模型:
y=β0+β1x+ε.
2.一元回归分析问题的一般情况
(1)一元线性回归的数学模型:
将x取一组不同数值x1,x2,…,xn,通过试验取得相应的Y的值y1,y2,…,yn,从而得对观察值(xi,yi),i=1,2,…,n.对于yi的值,可分为两部分:
一部分是由线性函数β0+β1x取得,另一部分是由随机因素的影响所造成的,记为εi.因此,xi与yi的关系可表示为yi=β0+β1x+εi,i=1,2,…,n,
其中,εi~N(0,σ2)且各εi相互独立.这就是一元线性回归的数学模型.
(2)几个待解决的问题:
①未知参数β0,β1及σ2的点估计:
设
,
为β0,β1的点估计,
为E(Y)的估计,则对上述模型求均值得
,
这就是Y与x之间的线性关系经验公式.我们称此式为Y关于x的一元线性回归方程,称此方程的直线为回归直线,称
为回归系数,称
为回归常数,它是回归直线的截距.
②回归方程的显著性检验:
在实际问题中,Y与x之间是否存在关系Y=β0+β1x+ε是要经过检验才有意义.③经过检验有意义的回归方程可以用来预测和控制.
(3)求未知参数β0,β1及σ2的点估计
对于一切xi,为了使yi与
的偏差最小,采用最小二乘法对β0,β1估计.具体方法如下:
①对已知样本观察值(xi,yi)
,i=1,2,…,n,构造β0,β1的函数
Q(β0,β1)=
.
②利用偏导数求非负函数Q(β0,β1)的极值:
求偏导数并令其为零
称此方程组为正规方程组.
解此方程组得
其中,
,
.若引进记号
,
,
,
则有
容易验证,β0,β1的最小二乘估计
,
有如下性质:
(i)
,
;
(ii)
,
.由此结果知
,
.
下面续例9-1,计算回归方程,看P187页表9-2。
,
,n=12。
,
,
,
,
§9.2 回归方程的显著性检验
本节回答上节提出的第二个问题.介绍两种检验方法.
1.F检验法
(1)目的:
检验y与x是否存在显著的线性关系
(2)如果y与x之间不存在线性关系,则β1=0,反之,β10.所以,检验假设为
H0:
β1=0,H1:
β10.
(3)寻求检验统计量
①平方和分解式
按照上节所设,yi随x的取值不同而波动,其原因有二:
一是E(Y)随x取值不同以线性关系变化;二是受随机因素影响,产生不规则变化.如果前一种影响是主要的,则β10,方程有意义,否则方程没有意义。
为此,必须把两种影响放开,所以,选择一个“不动点”
作为标准,得到一个新的“量”,记为
,
称其为总偏差平方和.而
利用正规方程组的结果,得到
,
其中
反映了由于x的变化引起的波动大小,称为回归平方和;
而
反映了观察值与回归直线之间的偏离程度,即随机因素的影响,称为剩余平方和.而
称为平方和分解式.
②平方和的性质
在假定各εi相互独立,且εi~N(0,σ2)的条件下,可以证明:
(i)
;
(ii)在H0为真时,
;
(iii)
与
相互独立.
③得到统计量:
于是,由第六章推论6-2(P141)可得,当H0为真时,
④统计量的意义:
若回归方程有意义,则应该
尽可能大,
尽可能小,即此统计量的数值应该大;反之,应该小.此时,只要给定显著水平α,可以查F分布表求得临界值Fα(1,n-2),得到拒绝域W=[Fα(1,n-2),+∞).当观察值F∈W时,拒绝H0,认为Y与x的线性关系是显著的;否则,结论相反.这种方法称为回归方程显著性检验的F检验法.
由上述的平方和的性质可知,
为σ2的无偏估计,且
与
相互独立,所以,对回归方程的F检验可以用方差分析表来进行.
表9-3
来源
平方和
自由度
均方
F比
显著性
回归
剩余
总和
1
n-2
n-1
F∈W时,拒绝H0;否则接受H0
【例9-2】对例9-1进行回归方程的显著性试验,α=0.01。
【答疑编号:
12090201】
解:
列出方差分析表见表9-4。
表9-4
来源
平方和
自由度
均方
F比
显著性
回归
剩余
总和
s回=317.2589
s剩=17.9703
sT=335.2292
1
10
11
317.2589
1.7970
176.55
用F=176.55>10.0=F0.01(1,10),故回归方程在α=0.01水平上是显著的。
2.t检验法
设检验假设
H0:
β1=0,H1:
β1≠0.
由
与
相互独立及t分布的定义知
即
.
当假设H0:
β1=0为真时,上式成立,其中,
.于是,对给定的显著水平α,查t分布表得临界值
,由t分布概率密度函数的对称性可得拒绝域=(-∞,-
)∪(
,+∞);
用样本观察值计算统计量的观察值,当t∈W时,拒绝H0,认为一元线性回归显著,否则,认为不显著.这种检验方法称为检验法.
如果经过检验,认为线性回归不显著,应查明原因.一般地,大致有如下几种原因:
①影响y的原因除x外,还有其他不可忽略的因素;
②y与x的关系不是线性的,而是其他非线性关系;
③y与x无关.
【例9-3】对例9-2用t检验回归方程的显著性,α=0.01.
【答疑编号:
12090202】
本章小结:
一、内容
二、试题选讲
1.(425)某公司研发了一种新产品,选择了n个地区A1,A2,…,An进行独立试销。
已知地区Ai投入的广告费为xi,获得的销售量为yi,i=1,2,…,n。
研发人员发现(xi,yi)(i=1,2,…,n)满足一元线性回归模型
则β1的最小二乘估计
=________________.
【答疑编号:
12090203】
答案: