一元线性回归模型及其假设条件Word文档格式.doc
《一元线性回归模型及其假设条件Word文档格式.doc》由会员分享,可在线阅读,更多相关《一元线性回归模型及其假设条件Word文档格式.doc(4页珍藏版)》请在冰豆网上搜索。
回归预测方程:
称为回归系数。
若已知自变量x的值,则通过预测方程可以预测出因变量y的值,并给出预测值的置信区间。
3.假设条件
满足条件:
(1)E()=0;
(2)D()=σ2;
(3)Cov(,)=0,i≠j;
(4)Cov(,)=0。
条件
(1)表示平均干扰为0;
条件
(2)表示随机干扰项等方差;
条件(3)表示随机干扰项不存在序列相关;
条件(4)表示干扰项与解释变量无关。
在假定条件(4)成立的情况下,随机变量y~N(a+bx,σ2)。
一般情况下,ε~N(0,σ2)。
4.需要得到的结果
,,
4.3模型参数的估计
1.估计原理
回归系数的精确求估方法有最小二乘法、最大似然法等多种,我们这里介绍最小二乘法。
估计误差或残差:
,,(5.3—1)误差的大小,是衡量、好坏的重要标志,换句话讲,模型拟合是否成功,就看残差是否达到要求。
可以看出,同一组数据,对于不同的、有不同的,所以,我们的问题是如何选取、使所有的都尽可能地小,通常用总误差来衡量。
衡量总误差的准则有:
最大绝对误差最小、绝对误差的总和最小、误差的平方和最小等。
我们的准则取:
误差的平方和最小。
最小二乘法:
令(5.3—2)使Q达到最小以估计出、的方法称为最小二乘法。
理论推导:
微积分极值理论的拉格朗日极值法。
2.估计结果
,是y的算术平均数,是x的算术平均数。
4.5回归方程的检验
一、离差平方和的分解与可决系数
当根据历史数据估计出回归预测方程后,我们要思考这样的一些问题:
回归直线是否有意义?
可否用于预测和控制?
参与计算的两个变量x和y是否有线性关系?
若有线性关系,其关系的密切程度如何度量。
1.离差平方和的分解
第一、表示观察值yI与其平均值的总离差平方和,用S总表示。
(总变差或离差平方和)。
第二、是总离差平方和中由回归直线方程中x的变化所引起,它的大小反映了自变量x的重要程度,称为回归平方和。
用U表示。
(回归变差)。
第三、反映了不能由回归直线解释的部分,是由其他未能控制的随机干扰因素引起的。
称为残差平方和。
用Q表示。
(剩余变差)
2.可决系数
S总=U+Q,1=(U/S总)+(Q/S总);
R2=U/S总=1-Q/S总表示由解释变量x的变化而引起因变量y的变差占总离差的百分比。
称为可决系数。
3.相关系数
在一元线性回归中,相关系数是可决系数的平方根。
相关系数:
是描述变量x与y之间的线性关系密切程度的一个数量指标。
计算公式为:
。
结论:
第一、当=0时,变量x与y无任何线性关系,表现为(XI,YI)的散布是完全没有规则的。
第二、当2=1时,所有的样本点都落在回归直线上,称变量x与y完全相关。
=1是完全正相关,=-1是完全负相关。
第三、一般情况是,0<
︱︱<
1。
>
0称为正相关,<
0称为负相关。
<
0.3,视为无相关;
0.3≤<0.5为低度相关;
0.5≤<0.8为显著相关;
≥0.8为高度相关。
二、回归方程的检验
1.相关系数检验法
建立回归方程前要考察的大小,以确定回归方程有无使用价值。
相关系数计算后,要进行统计检验,判别是否具有统计意义。
检验方法是:
根据置信度、自由度(样本数据个数—1)和自变量与因变量的总个数查相关系数表,确定临界值,若计算所得到的相关系数小于临界值,则无统计意义。
反之,则有统计意义,是有效的。
2.F检验法
解释F检验法的含义。
回归方程显著性检验的含义:
即检验:
对实际的y和x的拟合是否有统计意义。
所用统计量为F={U/[Q/(n-2)]}。
检验步骤是第一步计算统计量F的值;
第二步根据给出的置信度α,得到临界值Fα(1,n-2);
第三步将统计量值F与临界值Fα进行比较,若统计量值F大于Fα,则认为回归方程显著,线性假设成立,有统计意义,否则回归方程没有统计意义。
实际应用中,统计软件给出了F值。
3.T检验
解释T检验法的含义。
P129T检验法
关于=0的假设检验,有专门的t检验。
在一元线性回归模型中,F检验与t检验等同。
4.6预测区间
1.点预测
设预测点为,则预测值为:
2.预测置信区间
3.控制区间
已知,求的变动范围,称为对的控制,我们在这里不在讲述。
4.8一元线性回归模型的应用
第一步,绘制散点图(计算机演示)
第二步,设立一元线性回归方程
第三步,计算回归系数
第四步,检验线性关系的显著性(包括相关系数检验、F检验、t检验)
第五步,预测(要求给出点预测和预测区间)