"-2
为了调査某广告对销售收入的影响,某商店记录了5个月的销售收入y(万
元)和广告费用X(万元),数据见表,要求用手工计算:
表
月份
1
2
3
4
5
X
1
2
3
4
5
Y
10
10
20
20
40
(1)画散点图(略)
(2)X与Y是否大致呈线性关系
答:
从散点图看,X上jY大致呈线性关系。
(3)用最小二乘法估计求出回归方程。
讣算表
X
Y
(xT)2
(丫3)2
(Xd-xa・-r)
A
片
&-y)2
(U
1
10
4
100
20
6
(-14)'
(-4)'
2
10
1
100
10
13
(-7)'
(3)'
3
20
0
0
0
20
0
0
4
20
1
0
0
27
7"
7"
5
40
4
400
40
34
14-
(-6)'
100
均20
70八一八一
0\=产=話=7,&=y-B]X=20-3x7=-1.回归方e为:
r=A+Ax=-i+7X
(4)求回归标准误差
先求SSR(Qe)见汁算表。
所以
4二罟"曲
均20
第三章
证明
F二SSE/S_p随肌误差项£的方差2的无偏估计。
证明:
SSE=!
(”
)=!
Ve~,
n-p-\n-p-\n_”_1伺
nnnnn
••・£(》才)=》£>(©)=工<72(1-九)=<72工(1一你)=<72(八一工/切)=<7讹-卩一1)
i-lr-l/-)r.)r-l
•••E(&,)=—E(X<)=b2
"一pjtt
一个回归方程的复相关系数Rr样本决定系数Mr我们能判断这
个回归方程就很理想吗
答:
不能断定这个回归方程理想。
因为:
1.在样木容量较少,变量个数较大时,决定系数的值容易接近1,
而此时可能F检验或者关于回归系数的t检验,所建立的回归方
程都没能通过。
2.样本决定系数和复相关系数接近于1只能说明Y与自变量
XI,X2,…,Xp整体上的线性关系成立,而不能判断回归方程和每
个自变量是显着的,还需进行F检验和t检验。
3.在应用过程中发现,在样木容量一定的情况下,如果在模型中增
加解释变量必定使得自由度减少,使得F往往增大,因此增加
解释变量(尤苴是不显着的解释变量)个数引起的F的增大与拟
合好坏无关。
证明:
多元线性回归方程模型的一般形式为:
)uA)+0Z+0rE+・・・+0p©+£
其经验回归方程式为X齢Be七BEivBpXp
又A=BpXp,故y=y+A(Xi_召)+鸟2(乳2—无2)+・・・+瓦(©_耳),
中心化后,则有5;-歹=人(斗-召)+A(勺-戈2)+…+-耳),
令(切-兀)1心12…M»j=12…,卩
1-1
样木数据标准化的公式为
X..—X.V.—V
X;=,y*=J—-U=1,2,•-■,«,7=1,2,•••,/?
则上式可以记为
*AJ厶I•AJ厶2•,,AQLpp•升=01才肩X斗i+AjzjX斗2+_・+0p才:
X易”
AA■
=0;XX:
+0;XX:
2+-・・+0;XX;p则有
研究货运总量y(万吨)与工业总产值X1(亿元)、农业总产值
x2(亿元)、居民非商品支出x3(亿元)的关系。
数据见表
(1)计算出y,X1,x2,x3的相关系数矩阵。
SPSS输出如下:
相关系数表
y
XI
x2
x3
y
PearsonCorrelation
1
.556
.731*
.724*
Sig.(2-tailed)
.095
.016
.018
N
10
10
10
10
Xl
PearsonCorrelation
.556
1
J13
・398
Sig.(2・tailed)
.095
756
.254
N
10
10
10
10
x2
PearsonCorrelation
731*
.113
1
・547
Sig.(2・tailed)
.016
.756
JOI
N
10
10
10
10
x3
PearsonCorrelation
724*
.398
・547
1
Sig.(2・tailed)
.018
.254
J01
N
10
10
10
10
tCorrelationissignificantatthe0.05level(2・tailed).
(2)求出y与xl,x2,x3的三元回归方程。
Coefficients
Model
UnstandardizedCoefficients
StandardizedCoefficients
t
Sig.
B
Std・&ror
Beta
1(Constant)
•348.280
176.459
•1.974
.096
xl
3754
1.933
.385
1.942
JOO
x2
7.101
2.880
.535
2.465
049
x3
12.447
10.569
•277
1.178
.284
a.DependentVariable:
y
对数据利用SPSS做线性回归,得到回归方程为y=-34&38+3・754大|+7・10必+12・447兀3
(3)对所求的方程作拟合优度检验。
ModelSummary
Model
R
RSquare
AdjustedRSquare
Std・&roroftheEstimate
1
・898a
.806
・708
2344188
a.Predictors:
(Constant),x3,xl,x2
由上表可知,调整后的决定系数为,说明回归方程对样本观测值的拟合程度较好。
(4)对回归方程作显着性检验;
方差分析表b
Model
平方和
自由度
均方
F
Sig.
1回归
残基总和
13655.370
3297.130
16952.500
3
6
9
4551.790
549.522
8.283
.015^
a.Predictors:
(Constant),x3,xl,x2
b・DependentVariable:
y
原假设:
肌5=角=角=°
F统计量服从自由度为(3,6)的F分布,给定显着性水平a二,查表
得尬(3.6)=4.76,由方查分析表得,F值二〉,P值二,拒绝原假设血
由方差分析表可以得到F=8283,P=0.015<0,05t说明在置信水平为95%下,回归方程显着。
(5)对每一个回归系数作显着性检验;
回归系数表。
Model
UnstandardizedCoefficients
StandardizedCoefficients
t
Sig.
B
Std・&ror
Beta
1(Constant)
•348.280
176,459
-1.974
.096
Xl
3754
1.933
.385
1.942
JOO
x2
7.101
2.880
.535
2.465
.049
x3
12.447
10.569
.277
1J78
284
a.DependentVariable:
y
做t检验:
设原假设为
0统计量服从自由度为n-p-l=6的t分布,给定显着性水平,查得
单侧检验临界值为,XI的t值=〈,处在否定域边缘。
X2的t值=>。
拒绝原假设。
市上表可得,在显着性水平"0.05时,只有“2的P值〈,通过检验,即只有A的回归系数较为显着;英余自变量的P值均大于,即X1,x2
的系数均不显着。
第四章
简述用加权最小二乘法消除一元线性回归中异方差性的思想与方
法。
答:
普通最小二乘估计就是寻找参数的估计值使离差平方和达极小。
其中每个平方项的权数相同,是普通最小一乘回归参数估计方法。
在误差项等方差不相关的条件下,普通最小二乘估计是回归参数的最小方差线性无偏估计。
然而在异方差的条件下,平方和中的每一项的地位是不相同的,误差项的方差大的项,在残差平方和中的取值就偏大,作用就大,因而普通最小二乘估计的回归线就被拉向方差大的项,方差大的项的拟合程度就好,而方差小的项的拟合程
度就差。
山OLS求出的仍然是的无偏估计,但不再是最小方差线性无偏估计。
所以就是:
对较大的残差平方赋予较小的权数,对较小的残差平方赋予较大的权数。
这样对残差所提供信息的重要程度作一番校正,以提高参数估计的精度。
加权最小二乘法的方法:
NN
0H=L叱o-必)―工叱(几一A-加;)2<■1i・l
N--
工匕(曲一心,)(必一儿)
0”,
N■
)2
#1
00楸=儿-瓦小
1硯2■如
W.==—-
'"2阳
1表示1
简述用加权最小二乘法消除多元线性回归中异方差性的思想与方
法。
答:
运用加权最小1•乘法消除多元线性回归中异方差性的思想与一元线性
回归的类似。
多元线性回归加权最小一乘法是在平方和中加入一个适当的权数
叫,以调整各项在平方和中的作用,加权最小一乘的离差平方和为:
a,(00,01,…"p)=X叫(儿-A一叽-…一0丹)-
1-1
(2)
加权最小二乘佔计就是寻找参数久久…心的佔计•值BzBw…加使式
(2)的离差平方和e”达极小。
所得加权最小一乘经验回归方程记做
只八八
九=乐+人0+-+九耳
多元回归模型加权最小二乘法的方法:
首先找到权数W「理论上最优的权数叫为误差项方差b:
的倒数,BIJ
误差项方差大的项接受小的权数,以降低其在式
(2)平方和中的作用;误
差项方差小的项接受大的权数,以提高其在平方和中的作用。
山
(2)式求出的加权最小二乘佔trBzBw就是参数00,环…心的最小方差线性无偏估ih
一个需要解决的问题是误差项的方差b:
是未知的,因此无法真正按照式
(4)选取权数。
在实际问题中误差项方差b:
通常与自变量的水平有关(如误差
项方差b:
随着自变量的增大而增大),可以利用这种关系确定权数。
例如b;与第7个自变量取值的平方成比例时,即bXk琉时,这时取权数为
(5)
更一般的悄况是误差项方差与某个自变量勺(与gj的等级相关系数最大的自变量)取值的幕函数硝成比例,即b冷叔訂其中m是待定的未知参数。
此时权数为
(6)
这时确定权数的问题转化为确定幕参数2ZZ的问题,可以借助SPSS软件解决。
NN八八
Q.=Z叱(必一氏)2=工叫(片-Bq-Be)2
Z.l/-I
证明:
o式一元加权最小二乘回归系数估计公式。
NN
Q.=工叱(几-记)2=工叱(几-A-恥)2
r・l
其中,
验证()式多元加权最小二乘回归系数估计公式。
3£(£)=0,COV(£,£')=CT-W,即存在异方差。
W=DD;
屈...
用D"左乘
(1)式两边,得到一个新的的模型:
D'y=D-'X卩+D7£,即y•二X•卩+£=
因为E(B)=E(DTBD・")=D*£;(££*)D**=D=故新的模型具有同方差性,故可以用广义最小一乘法估计该模型,得
p„=(x"x*)"'X*y=(XQ^D^X)jXD=(X"WX)"XWy
原式得证。
有同学认为当数据存在异方差时,加权最小二乘回归方程与普通最
小二乘回归方程之间必然有很大的差异,异方差越严重,两者之间
的差异就越大。
你是否同意这位同学的观点说明原因。
答:
不同意。
当回归模型存在异方差时,加权最小一乘估计(WLS)只是普通最小二乘佔计(OLS)的改进,这种改进可能是细微的,不能理解为WLS-定会得到与OLS截然不同的方程来,或者大幅度的改进。
实际上可以构造这样的数据,回归模型存在很强的异方差,但WLS与OLS的结果一样。
加权最小一乘法不会消除异方差,只是消除异方差的不ft影响,从而对模型进行一点改进。
第五章
试述前进法的思想方法。
答:
前•进法的基本思想方法是:
首先因变量Y对全部的自变量X1,x2,...,xm建
立m个一元线性回归方程,并计算F检验值,选择偏回归平方和显着的变量(F值最大且大于临界值)进入回归方程。
每一步只引入一个变量,同时建立m—l个二元线性回归方程,计算它们的F检验值,选择偏回归平方和显着的两变量变量(F值最大且大于临界值)进入回归方程。
在确定引入的两个自变量以后,再引入一个变量,建立01-2个三元线性回归方程,计算它们的F检验值,选择偏回归平方和显着的三个变量(F值最大)进入回归方程。
不断重复这一过程,直到无法再引入新的自变量时,即所有未被引入的自变量的F检验值均小于F检验临界值Fa(l,n-p-l),回归过程结束。
试述后退法的思想方法。
答:
后退法的基本思想是:
首先因变量Y对全部的自变量X1,x2,...,xm建立一
个m元线性回归方程,并计算t检验值和F检验值,选择最不显着(P值最大且大于临界值)的偏回归系数的自变量剔除出回归方程。
每一步只剔除一个变量,再建立m—l元线性回归方程,计算t检验值和F检验值,剔除偏回归系数的t检验值最小(P值最大)的自变量,再建立新的回归方程。
不断重复这一过程,直到无法剔除自变量时,即所有剩余P个自变量的F检验值均大于F检验临界值Fa(l,n-p-l),回归过程结束。
前进法.后退法各有哪些优缺点
选入,计算
答:
前•进法的优点是能够将对因变量有影响的自变量按显着性量小。
前进法的缺点是不能反映引进新变量后的变化,而且选入的变量就算不显着也不能删除。
后退法的优点是是能够将对因变量没有显着影响的自变量按不显着性一一剔除,保留的自变量都是显着的。
后退法的缺点是开始il•算量大,当减少一个自变量时,它再也没机会进入了。
如果碰到自变量间有相关关系时,前进法和后退法所作的回归方程均会出现不同程度的问题。
试述逐步回归法的思想方法。
答:
逐步回归的基本思想是有进有出。
具体做法是将变量一个一个的引入,当每引入一个自变量后,对已选入的变量要进行逐个检验,当原引入变量山于后面变量的应纳入而变得不再显着时,要将其剔除。
引入一个变量或从回归防方程中剔除一个变量,为逐步回归的一步,每一步都要进行F检验,以确保每次引入新的变量之前回归方程中只包含显着的变量。
这个过程反复进行,直到无显着变量引入回归方程,也无不显着变量从回归方程中剔除为止。
这样就避免了询进法和后退法各自的缺陷,保证了最后得到的回归子集是最优回归子集。
在运用逐步回归法时,a进和a出的赋值原则是什么如果希望回归方程中多保留一些自变量,a罐应如何赋值
答:
原则是要求引入自变量的显着水平a进小于剔除自变量的显着性水平a出,否则可能出现死循环:
若想回归方程多保留自变量,可以增大a逆的值,使得更多自变量的P值在a迷的范H内,但要注意,a遥的值不得超过a出的值。