用最小二乘法原理,令残差平方和
最小,得到
为β的最佳线性无偏估计量(高斯-马尔可夫定理)。
2.𝜎2的估计和T检验
选取𝜎2的估计量:
则
假如t值的绝对值相当大,就可以在适当选定的置信水平上否定原假设,参数的1-α置信区间可由下式得出:
其中tα/2为与α%显著水平有关的t分布临界值。
3.R2和F检验
若因变量不具有0平均值,则必须对R2做如下改进:
随着模型中增添新的变量,R2的值必定会增大,为了去掉这种增大的干扰,还需要对R2进行修正(校正拟合优度对自由度的依赖关系):
做假设检验:
H0:
𝛽1=…=𝛽N=0;H1:
𝛽1…,𝛽N至少有一个≠0;
使用F统计量做检验,
若F值较大,则否定原假设。
4.回归诊断
(1)残差图分析
残差图就是以残差
为纵坐标,某一个合适的自变量为横坐标的散点图。
回归模型中总是假定误差项是独立的正态分布随机变量,且均值为零和方差相等为𝜎2.如果模型适合于观察到的数据,那么残差作为误差的无偏估计,应基本反映误差的假设特征。
即残差图应该在零点附近对称地密布,越远离零点的地方就疏散(在形象上似有正态趋势),则认为模型与数据拟合得很好。
若残差图呈现如图(a)所示的形式,则认为建立的回归模型正确,更进一步再诊断“学生化残差”是否具有正态性:
图(b)表明数据有异常点,应处理掉它重新做回归分析(在SAS的REG回归过程步中用来度量异常点影响大小的统计量是COOKD统计量);
图(c)残差随x的增大而增大,图(d)残差随x的增大而先增后减,都属于异方差。
此时应该考虑在回归之前对数据y或x进行变换,实现方差稳定后再拟合回归模型。
原则上,当误差方差变化不太快时取变换
;当误差方差变化较快时取变换logy或lny;当误差方差变化很快时取变换1/y;还有其他变换,如著名的Box-Cox幂变换
.
图(e)(f)表示选用回归模型是错误的。
(2)共线性
回归分析中很容易发生模型中两个或两个以上的自变量高度相关,从而引起最小二乘估计可能很不精确(称为共线性问题)。
在实际中最常见的问题是一些重要的自变量很可能由于在假设检验中t值不显著而被不恰当地剔除了。
共线性诊断问题就是要找出哪些变量间存在共线性关系。
(3)误差的独立性
回归分析之前,要检验误差的独立性。
若误差项不独立,那么回归模型的许多处理,包括误差项估计、假设检验等都将没有推导依据。
由于残差是误差的合理估计,因此检验统计量通常是建立在残差的基础上。
检验误差独立性的最常用方法,是对残差的一阶自相关性进行Durbin-Watson检验。
H0:
误差项是相互独立的;H1:
误差项是相关的
检验统计量:
DW接近于0,表示残差中存在正自相关;如果DW接近于4,表示残差中存在负自相关;如果DW接近于2,表示残差独立性。
二、实例
例2有31位成年人心肺功能的调查数据:
用多元线性回归模型,研究耗氧量的是如何依赖其它变量的。
1.【分析】——【回归】——【线性】,打开“线性回归”窗口,将变量“Oxygen”选入【因变量】框,将变量“age”、“weight”、“runtime”、“rstpulse”、“runpulse”、“Maxpulse”选入【自变量】框;
【方法】下拉菜单选择“向后”;
注:
多元线性回归涉及到自变量的筛选,SPSS提供了5种筛选方法:
(1)进入法——选入【自变量】框的自变量都加入模型;
(2)向前法——先将部分自变量加入模型,再逐个添加其它变量,若自变量对模型有统计学意义的影响则加入(只进不出);
(3)向后法——先把全部自变量加入模型,若自变量对模型无统计学意义的影响则剔除(只出不进);
(4)逐步回归法——综合“向前法”和“向后法”逐个引入自变量;
(5)删除法——规定为删除的自变量被强制剔除出模型,运行结果会给出若将其引入的参数估计和检验结果(做对比时用)。
2.点【统计量】打开“统计量”子窗口,勾选【回归系数】的“估计”;勾选【残差】的“Durbin-Watson”(残差独立性检验);勾选“模型拟合度”、“R方变化”、“部分相关和偏相关性”、“共线性诊断”;点【继续】;
注:
多元线性回归要求变量基本相互独立,所以有必要进行共线性诊断,若有共线性将对结果造成较大误差。
3.用【图形】进行残差独立性检验。
点【绘制】,打开“图”子窗口,勾选【标准化残差图】的“直方图”、“正态概率图”;残差的方差齐性,可用回归标准化残差图考察:
将“ZPRED”(标准化预测值)选入【X2(X)】框,将“ZRESID”(标准化残差)选入【Y(Y)】框;点【继续】;
注意:
若自变量与因变量的关系并非线性、残差方差不齐、变量间不独立,都会导致残差的直方图、正态概率图非正态性。
4.点【选项】,打开“选项”子窗口,设置选入或剔除变量的标准,以及回归模型是否保留常数项,默认设置即可。
5.若需要将回归分析的结果存储起来,然后用得到的残差、预测值等做进一步的分析。
点【保存】,打开“保存”子窗口,设置想要保存的预测值、残差、距离、波动统计量等;点【继续】;
点【确定】,得到
先看共线性诊断结果:
系数a
模型
非标准化系数
标准系数
t
Sig.
共线性统计量
B
标准误差
试用版
容差
VIF
1
(常量)
102.238
12.453
8.210
.000
年龄
-.220
.100
-.215
-2.208
.037
.667
1.499
体重
-.072
.055
-.113
-1.324
.198
.867
1.154
跑15英里的时间
-2.681
.375
-.698
-7.150
.000
.664
1.505
休息时每分钟心跳次数
-.001
.059
-.001
-.014
.989
.760
1.316
跑步时每分钟心跳次数
-.373
.121
-.718
-3.092
.005
.117
8.517
每分钟心跳次数的最大值
.305
.137
.524
2.221
.036
.114
8.799
2
(常量)
102.204
11.979
8.532
.000
年龄
-.220
.096
-.215
-2.300
.030
.697
1.436
体重
-.072
.053
-.113
-1.356
.187
.875
1.143
跑15英里的时间
-2.683
.341
-.699
-7.867
.000
.771
1.297
跑步时每分钟心跳次数
-.373
.117
-.719
-3.188
.004
.120
8.359
每分钟心跳次数的最大值
.305
.134
.525
2.277
.032
.115
8.731
3
(常量)
98.148
11.786
8.328
.000
年龄
-.198
.096
-.193
-2.068
.049
.717
1.395
跑15英里的时间
-2.768
.341
-.721
-8.127
.000
.798
1.253
跑步时每分钟心跳次数
-.348
.117
-.670
-2.963
.006
.123
8.147
每分钟心跳次数的最大值
.271
.134
.465
2.024
.053
.119
8.418
a.因变量:
耗氧量
模型1-3分别是做了三次剔除变量的回归,判断共线性看VIF值,若VIF值大于2则表明共线性很强。
本例中国,“跑步时每分钟心跳次数”为8.517,“每分钟心跳次数的最大值”为8.799,表明二者有极强的共线性,应去掉“每分钟心跳次数的最大值”,重新做回归分析。
在【线性回归】窗口,将【自变量】框的变量“Maxpulse”移出,点【确定】,得到
输入/移去的变量a
模型
输入的变量
移去的变量
方法
1
跑步时每分钟心跳次数,体重,休息时每分钟心跳次数,年龄,跑15英里的时间b
.
输入
2
.
休息时每分钟心跳次数
向后(准则:
F-to-remove>=.100的概率)。
3
.
体重
向后(准则:
F-to-remove>=.100的概率)。
a.因变量:
耗氧量
b.已输入所有请求的变量。
采用“向后法”筛选变量结果为:
第2步剔除了变量“休息时每分钟心跳次数”、第3步剔除了变量“体重”;最终选入变量“跑步时每分钟心跳次数”、“年龄”、“跑15英里的时间”。
模型汇总d
模型
R
R方
调整R方
标准估计的误差
更改统计量
Durbin-Watson
R方更改
F更改
df1
df2
Sig.F更改
1
.904a
.817
.780
2.497982
.817
22.288
5
25
.000
2
.904b
.816
.788
2.451333
.000
.038
1
25
.847
3
.901c
.811
.790
2.440634
-.005
.765
1
26
.390
1.960
a.预测变量:
(常量),跑步时每分钟心跳次数,体重,休息时每分钟心跳次数,年龄,跑15英里的时间。
b.预测变量:
(常量),跑步时每分钟心跳次数,体重,年龄,跑15英里的时间。
c.预测变量:
(常量),跑步时每分钟心跳次数,年龄,跑15英里的时间。
d.因变量:
耗氧量
整个回归模型的修正R2=0.790,表明模型拟合程度较好,Durbin-Watson值=1.96接近2,表明残差的度量性很好。
Anovaa
模型
平方和
df
均方
F
Sig.
1
回归
695.384
5
139.077
22.288
.000b
残差
155.998
25
6.240
总计
851.382
30
2
回归
695.147
4
173.787
28.921
.000c
残差
156.235
26
6.009
总计
851.382
30
3
回归
690.551
3
230.184
38.643
.000d
残差
160.831
27
5.957
总计
851.382
30
a.因变量:
耗氧量
b.预测变量:
(常量),跑步时每分钟心跳次数,体重,休息时每分钟心跳次数,年龄,跑15英里的时间。
c.预测变量:
(常量),跑步时每分钟心跳次数,体重,年龄,跑15英里的时间。
d.预测变量:
(常量),跑步时每分钟心跳次数,年龄,跑15英里的时间。
回归模型的F值较大,P值远小于0.05,故回归模型是有统计学意义的。
系数a
模型
非标准化系数
标准系数
t
Sig.
相关性
共线性统计量
B
标准误差
试用版
零阶
偏
部分
容差
VIF
1
(常量)
116.046
11.607
9.998
.000
年龄
-.280
.103
-.274
-2.719
.012
-.305
-.478
-.233
.721
1.387
体重
-.051
.058
-.079
-.875
.390
-.163
-.172
-.075
.896
1.117
跑15英里的时间
-2.743
.402
-.714
-6.819
.000
-.862
-.806
-.584
.668
1.497
休息时每分钟心跳次数
-.012
.063
-.019
-.195
.847
-.346
-.039
-.017
.766
1.306
跑步时每分钟心跳次数
-.128
.052
-.246
-2.444
.022
-.398
-.439
-.209
.723
1.383
2
(常量)
115.662
11.226
10.303
.000
年龄
-.276
.099
-.270
-2.783
.010
-.305
-.479
-.234
.748
1.338
体重
-.049
.056
-.077
-.875
.390
-.163
-.169
-.073
.908
1.102
跑15英里的时间
-2.772
.365
-.722
-7.597
.000
-.862
-.830
-.638
.781
1.280
跑步时每分钟心跳次数
-.129
.051
-.249
-2.544
.017
-.398
-.446
-.214
.737
1.356
3
(常量)
111.718
10.235
10.915
.000
年龄
-.256
.096
-.251
-2.664
.013
-.305
-.456
-.223
.790
1.267
跑15英里的时间
-2.825
.358
-.736
-7.886
.000
-.862
-.835
-.660
.804
1.244
跑步时每分钟心跳次数
-.131
.051
-.252
-2.588
.015
-.398
-.446
-.216
.738
1.355
a.因变量:
耗氧量
根据回归系数的估计,可以得到多元线性回归方程:
Oxygen=111.718-0.256*age-2.825*runtime-0.131*runpulse
共线性诊断a
模型
维数
特征值
条件索引
方差比例
(常量)
年龄
体重
跑15英里的时间
休息时每分钟心跳次数
跑步时每分钟心跳次数
1
1
5.950
1.000
.00
.00
.00
.00
.00
.00
2
.020
17.067
.00
.11
.02
.01
.54
.00
3
.014
20.412
.00
.19
.35
.07
.02
.01
4
.010
24.954
.01
.07
.02
.81
.23
.00
5
.005
34.721
.03
.16
.51
.00
.21
.26
6
.001
77.423
.96
.47
.10
.10
.01
.73
2
1
4.967
1.000
.00
.00
.00
.00
.00
2
.014
18.529
.00
.30
.29
.03
.01
3
.011
20.838
.01
.12
.04
.83
.00
4
.006
29.476
.03
.11
.59
.06
.21
5
.001
70.426
.96
.46
.09
.09
.79
3
1
3.978
1.000
.00
.00
.00
.00
2
.012
18.340
.00
.38
.