证明:
&2=!
SSE=!
{e*e}=!
Ve~,
n-p-\n-p-\H-p_1信
nnntin
••・£(》才)=工£>(勺)=工62(1-九)=<72工(1一九)=<720?
-工心)=<7讹一卩一1)
i-lr-l/-)r-Ir.)
•••E(P)=—!
~=b'
"一pjZT
一个回归方程的复相关系数皆,样本决定系数RJ,我们能判断这个回归方程就很理想吗答:
不能断定这个回归方程理想。
因为:
1.在样本容量较少,变量个数较大时,决定系数的值容易接近1,
而此时可能F检验或者关于回归系数的t检验,所建立的回归方
程都没能通过。
2.样本决定系数和复相关系数接近于1只能说明Y与自变量
X1,X2,…,XP整体上的线性关系成立,而不能判断回归方程和毎
个自变量是显著的,还需进行F检验和t检验。
3.在应用过程中发现,在样本容量一定的情况下,如果在模型中增
加解释变量必定使得自由度减少,使得F往往增大,因此增加解
释变量(尤其是不显著的解释变量)个数引起的F的增大与拟合
好坏无关。
验证"孑=d"7=P
其中:
5=Z怨一疋尸
(•1
证明:
多元线性回归方程模型的一般形式为:
$=几+0內+02吃+・・・+07心+£
其经验回归方程式为xB.+B\X\+B卅…+臥又A=丫-汎—B’p
故$=7+人(西一召)+加吃-耳)+・・・+久(坷>一耳),
中心化后,则有『厂歹=2[(斗_石)+直2(七-丘2)+・・・+Ap(Xp-耳),
左右同时除以国=占(二5丁,令L止(勺-兀几i=12…川,7=1,2,…丿
1-1
样本数据标准化的公式为宥=[l.,,"='jf"=1,2,…,7=1,2,•••,/?
则上式可以记为
4AJ厶I•AJ厶2•,AQLpp•)1=01才肩X石i+02花二X舜+
AAA
fp
=0;x坊+0;xx;+…+0;xx;
则有
伉=空久、j=\2…,P
SSR/p
证明:
••F=
SSE心_p_h
C“FSSE
SSR=XP
H-p-[
FSSE
Fxp
SSRSSR
•R・==
…SSTSSR+SSEFSSE“丨Fxp+H_p_lF+(n-p-\)/p
研究货运总董y(万吨)与工业总产值X1(亿元)、农业总产值x2
(亿元)、居民非商品支出x3(亿元)的关系。
数据见表(略九
(1)计算出y,xl,x2,x3的相关系数矩阵。
SPSS输出如下:
相关系数表
y
X1
X2
x3
y
PearsonCorrelation
1
.556
.731*
.724*
Sig.(2-tailed)
.095
.016
.018
N
10
10
10
10
X1
PearsonCorrelation
.556
1
J13
・398
Sig.(2・tailed)
.095
756
.254
N
10
10
10
10
x2
PearsonCorrelation
.731*
.113
1
・547
Sig.(2-tailecl)
.016
.756
JOI
N
10
10
10
10
x3
PearsonCorrelation
.724*
.398
.547
1
Sig.(2-tailed)
.018
.254
JOI
N
10
10
10
10
tCorrelationissignificantatthe0.05level(2・tailed).
(2)求出y与xl,x2,x3的三元回归方程。
Coefficients
Model
UnstandardizedCoefficients
StandardizedCoefficients
t
Sig.
B
Std・&ror
Beta
1(Constant)
•348.280
176.459
•1.974
.096
Xl
3754
1.933
.385
1.942
JOO
x2
7.101
2.880
.535
2・465
.049
x3
12.447
10.569
.277
1.178
284
a.DependentVariable:
y
对数据利用SPSS做线性回归,得到回归方程为
y=-348.38+3.754;v,+7.101x,+l2.447x^
(3)对所求的方程作拟合优度检验。
ModelSummary
Model
R
RSquare
AdjustedRSquare
Std・&roroftheEstimate
1
•898*
.806
.708
2344188
a.Predictors:
(Constant),x3,X1,x2
由上表可知,调整后的决定系数为,说明回归方程对样本观测值的拟
合程度较好。
(4)对回归方程作显著性检验;
方差分析表b
Model
平方和
自由度
均方
F
Sig・
1回归
残差总和
13655.370
3297.130
16952.500
3
6
9
4551790
549.522
8.283
.015a
a.Ftedictors:
(Constant),x3,xtx2
b・DependentVariable:
y
原假设:
肌5=角=角=°
F统计量服从自由度为(3,6)的F分布,给定显著性水平ar查表
得(3.6)=4.76,由方查分析表得,F值二〉,P值二,拒绝原假设仏,由
方差分析表可以得到F=8・283・P=O・O15vO・O5,说明在置信水平为95%
下,回归方程显著。
(5)对每一个回归系数作显著性检验;
回归系数表。
Model
UnstandardizedCoefficients
StandardizedCoefficients
t
Sig.
B
Std・&ror
Beta
1(Constant)
-348,280
176.459
•1.974
.096
Xl
3754
1.933
.385
1.942
JOO
x2
7.101
2.880
.535
2.465
.049
x3
12.447
10.569
.277
1J78
・284
a.DependentVariable:
y
做t检验:
设原假设为HM=°
J统计量服从自由度为n-p-l=6的I分布,给定显著性水平,查得单
侧检验临界值为,XI的t值处在否定域边缘。
X2的t值=>。
拒绝原假设。
由上表可得,在显著性水平a=0・05时,只有勺的卩值<通过检验,即
只有心的回归系数较为显著;其余自变量的P值均大于,即X1,x2
的系数均不显著。
(6)如果有的回归系数没有通过显著性检验,将其剔除,重新建立回
归方程,并作回归方程的显著性检验和回归系数的显著性检验。
解:
用后退法对数据重新做回归分析,结果如下:
Coefficients
Model
UnstandardizedCoefficients
StandardizedCoefficients
t
Sd
B
Std・&ror
Beta
1(Constant)
•348.280
176.459
•1.974
.096
Xl
3754
1.933
.385
1.942
JOO
x2
7.101
2.880
.535
2.465
.049
x3
12.447
10.569
•277
1.178
.284
2(Constant)
•459.624
153.058
•3.003
.020
xl
4.676
1.816
.479
2.575
.037
x2
&971
2・468
.676
3.634
.008
a.DependentVariable:
y
选择模型二,重新建立的回归方程为:
y=-459.624+4・676X|+&97lx.
方差分析表b
樓型
平方和
目由度
均方
F
Siq・
1回归
残差Total
12893.199
4059.301
16952.500
2
7
9
6446.600
579.900
11J17
.007^
a・Predictors:
(Constant),农业总产僮X2(亿元),工业总产aXl(亿元)b・DependentVariabfe:
货运总量Y(万吨)
模型摘要
櫻型
R
RSquare
调整后的RSquare
Std.BroroftheEstimate
改变统计量
RSquareChanoe
FChanqe
df1
df2
Siq.FChange
1
.872^
761
・692
24,081
761
11.117
2
7
.007
a・ftedictors:
(Constant).农业总产{SX2(亿元),工业总产值X1(亿元)
对新的回归方程做显著性检验:
原假设:
心卩\=角=0
F服从自由度为(2,7)的F分布,给定显著性水平a二,查表得
%(2.7)=4.74,由方差分析表得,F值二>,P值二,拒绝原假设血
认为在显著性水平<^=下,X1,x2整体上对y有显著的线性影响,即
回归方程是显著的。
对每一个回归系数做显著性检验:
做L检验:
设原假设为儿统计量服从自由度为n-p-l=7
的t分布,给定显著性水平,查得单侧检验临界值为,XI的I值二>,
拒绝原假设。
故0显著不为零,自变量XI对因变量y的线性效果显
著;
同理B2也通过检验。
同时从回归系数显著性检验表可知:
XI,X2的
P值都小于,可认为对xl,x2分别对y都有显著的影响。
(7)求出每一个回归系数的置信水平为955D置信区间
由回归系数表可以看到,gl置信水平为95%的置信区间[,],
B2置信水平为95%的置信区间[,]
Coefficient^
Model
UnstandardizedCoefficients
StandardizedCoefficients
1
Sig.
95%CkxifidencehtervalforB
8
Std・&ror
Beta
LowerBound
UpperBound
1(Constsmt)
-348,280
176.459
•1.974
.096
•780.060
83.500
Xl
3,754
1.933
.385
1.942
.100
-.977
8.485
x2
7J01
2880
•535
2465
.049
.053
14.149
x3
12.447
10.569
.277
1J78
.284
-13.415
38.310
2(Consult)
-459.624
153.058
•3.003
.020
-821.547
-97.700
xl
4.676
1.816
•479
2575
.037
.381
8.970
x2
8.971
2468
.676
3.634
.008
3.134
14.808
a.DeperxlentVariable:
y
(8)求标准化回归方程
由回归系数表(上表)可得,标准化后的回归方程为:
y*=0.479x,*+0.676%2*
(9)求当Xoi=75,Xo2=42,Xo3二时的y的预测值亢,给定置信水平95%,
用SPSS软件计算精确置信区间,用手工计算近似预测区间;
编号
货运总S
工业总产值
农业总产值
居克非商品支出
PRE_1
1
16000
7000
35-00
100
181-65412
2
26000
7600
4000
240
24988708
3
21000
65-00
4000
200
203-13077
4
26600
7400
4200
300
263-15337
5
24000
7200
3800
120
2仃-91826
6
220-00
6800
4600
150
262-01247
1
27500
7800
42-00
400
28185589
8
16000
6600
3600
200
171-92266
9
27500
7000
4400
3-20
262-39277
10
250-00
6600
4200
300
22107270
-
7500
42-00
310
267-82900I
由SPSS输出结果可知,当心=75血=42,心=3.1时,$0=267.829(见
上表),九的置信度为95%的精确预测区间为C)(见下表),儿的置
信度为95%的近似预测区间为仇±26),手工计算得:
(Jo
LICM
UICI_1
114.18036
249.12788
18671910
313.05605
139-27006
26G.99149
20092084
325.38591
15695559
279.88094
195-34073
323.68422
213-46314
360.24865
106-13801
238.70711
199-02041
325.76514
15611131
286.03408
204-43551
331.22249
(10)结合回归方程对问题做一些简单分析。
答:
由回归方程
y=-459.624+4・676・勺+&97比
可知农业总产值固定的时候,工业总产值每增加1亿元,货运总量增
加万吨;工业总产值固定的时候,农业总产值每增加1亿元,货运总
量增加万吨。
而居民非商品支出对货运总量没有显著的线性影响。
由
标准化回归方程$=0・479召+0・676大2可知:
工业总产值.农业总产值与Y都是正相关关系,比较回归系数的大小
可知农业总产值X2对货运总量Y的影响程度大一些。