逐步回归法计算的例子和结果.docx
《逐步回归法计算的例子和结果.docx》由会员分享,可在线阅读,更多相关《逐步回归法计算的例子和结果.docx(31页珍藏版)》请在冰豆网上搜索。
![逐步回归法计算的例子和结果.docx](https://file1.bdocx.com/fileroot1/2023-1/5/9000bdf4-087b-4e68-aaa0-f670c3e3c9bf/9000bdf4-087b-4e68-aaa0-f670c3e3c9bf1.gif)
逐步回归法计算的例子和结果
逐步回归法计算的例子和结果
例1某种水泥在凝固时放出的热量
(卡/克)与水泥中下列四种化学成分有关:
:
的成分(%),
:
的成分(%),
:
的成分(%),
:
的成分(%)。
所测定数据如表1所示,试建立
与
、
、
及
的线性回归模型。
表1
试验序号
1
7
26
6
60
78.5
2
1
29
15
52
74.3
3
11
56
8
20
104.3
4
11
31
8
47
87.6
5
7
52
6
33
95.9
6
11
55
9
22
109.2
7
3
71
17
6
102.7
8
1
31
22
44
72.5
9
2
54
18
22
93.1
10
21
47
4
26
115.9
11
1
40
23
34
83.8
12
11
66
9
12
113.3
13
10
68
8
12
109.4
注:
本例子引自中国科学院数学研究室数理统计组编,《回归分析方法》,科学出版社,1974年
本软件给出的回归分析有关的结果如下(与回归分析无关的内容未列出):
指标 名称:
热量 单位:
卡/克
因素1名称:
3CaO.Al2O3含量 单位:
%
因素2名称:
3CaO.SiO2含量 单位:
%
因素3名称:
4CaO.Al2O3.Fe2O3含量 单位:
%
因素4名称:
2CaO.SiO2含量 单位:
%
-------------------多元回归分析-------------------
回归分析采用逐步回归法,显著性水平α=0.10
引入变量的临界值Fa=3.280
剔除变量的临界值Fe=3.280
拟建立回归方程:
y=b(0)+b
(1)*X
(1)+b
(2)*X
(2)+b(3)*X(3)+b(4)*X(4)
第1步,引入变量:
各项的判别值(升序排列):
Vx(3)=0.286
Vx
(1)=0.534
Vx
(2)=0.666
Vx(4)=0.675
未引入项中,第4项[X(4)]Vx值(≥0)的绝对值最大,
引入检验值Fa(4)=22.80,引入临界值Fa=3.280,
Fa(4)>Fa,引入第4项,已引入项数=1。
第2步,引入变量:
各项的判别值(升序排列):
Vx(4)=-0.675
Vx
(2)=5.52e-3
Vx(3)=0.261
Vx
(1)=0.298
未引入项中,第1项[X
(1)]Vx值(≥0)的绝对值最大,
引入检验值Fa
(1)=108.2,引入临界值Fa=3.280,
Fa
(1)>Fa,引入第1项,已引入项数=2。
第3步,引入变量:
各项的判别值(升序排列):
Vx(4)=-0.439
Vx
(1)=-0.298
Vx(3)=8.81e-3
Vx
(2)=9.86e-3
未引入项中,第2项[X
(2)]Vx值(≥0)的绝对值最大,
引入检验值Fa
(2)=5.026,引入临界值Fa=3.280,
Fa
(2)>Fa,引入第2项,已引入项数=3。
第4步,剔除或引入变量:
各项的判别值(升序排列):
Vx
(1)=-0.302
Vx
(2)=-9.86e-3
Vx(4)=-3.66e-3
Vx(3)=4.02e-5
已引入项中,第4项[X(4)]Vx值(<0)的绝对值最小,
未引入项中,第3项[X(3)]Vx值(≥0)的绝对值最大,
剔除检验值Fe(4)=1.863,剔除临界值Fe=3.280,
Fe(4)≤Fe,剔除第4项,已引入项数=2。
第5步,剔除或引入变量:
各项的判别值(升序排列):
Vx
(2)=-0.445
Vx
(1)=-0.312
Vx(3)=3.61e-3
Vx(4)=3.66e-3
已引入项中,第1项[X
(1)]Vx值(<0)的绝对值最小,
未引入项中,第4项[X(4)]Vx值(≥0)的绝对值最大,
剔除检验值Fe
(1)=146.5,剔除临界值Fe=3.280,
Fe
(1)>Fe,不能剔除第1项。
引入检验值Fa(4)=1.863,引入临界值Fa=3.280,
Fa(4)≤Fa,不能引入第4项,已引入项数=2。
变量筛选结果:
检验项数=4,预期引入项数=3,实际引入项数=2,实际引入项数≠预期引入项数
回归方程:
y=b(0)+b
(1)*X
(1)+b
(2)*X
(2)
回归系数b(i):
b(0)=52.6
b
(1)=1.47
b
(2)=0.662
标准回归系数B(i):
B
(1)=0.574
B
(2)=0.685
复相关系数R=0.9893
决定系数R^2=0.9787
修正的决定系数R^2a=0.9767
变量分析:
变量分析表
变异来源
平方和
自由度
均 方
均方比
回 归
U=2.66e+3
K=2
U/K=1.33e+3
F=229.5
剩 余
Q=57.9
N-1-K=10
Q/(N-1-K)=5.79
总 和
L=2.72e+3
N-1=12
样本容量N=13,显著性水平α=0.10,检验值Ft=229.5,临界值F(0.10,2,10)=2.924
剩余标准差s=2.41
回归系数检验值:
t检验值(df=10):
t
(1)=12.10
t
(2)=14.44
F检验值(df1=1,df2=10):
F
(1)=146.5
F
(2)=208.6
偏回归平方和U(i):
U
(1)=848
U
(2)=1.21e+3
偏相关系数ρ(i):
ρ1,2=0.9675
ρ2,1=0.9769
各方程项对回归的贡献(按偏回归平方和降序排列):
U
(2)=1.21e+3,U
(2)/U=45.4%
U
(1)=848,U
(1)/U=31.9%
残差分析:
残差分析表
№
观测值
回归值
观测值-回归值
(回归值-观测值)/观测值×100(%)
1
78.5
80.1
-1.60
2.04
2
74.3
73.3
1.00
-1.35
3
104
106
-2.00
1.92
4
87.6
89.3
-1.70
1.94
5
95.9
97.3
-1.40
1.46
6
109
105
4.00
-3.67
7
103
104
-1.00
0.971
8
72.5
74.6
-2.10
2.90
9
93.1
91.3
1.80
-1.93
10
116
115
1.00
-0.862
11
83.8
80.5
3.30
-3.94
12
113
112
1.00
-0.885
13
109
112
-3.00
2.75
------------------回归分析结束------------------
逐步回归法计算得到的优化的回归方程为
在显著性水平为α=0.10上显著。
双重筛选逐步回归法计算的例子和结果
例1为了分析某地区自然经济条件对森林覆盖面积消长的影响而抽取12个村作为样本,共测了12个因子,各因子数据列于表1。
表1
序号
1
74.3
91.0
5.76
1.3
108
66
17.4
51.2
9.5
15.39
12.6
1
2
70.4
157.0
8.04
2.2
126
68
17.2
52.5
24.2
10.84
8.4
0
3
78.7
77.0
7.94
2.0
114
63
17.0
62.9
22.8
13.57
9.8
0
4
78.9
67.0
6.86
1.5
110
55
17.0
64.3
25.1
34.57
14.0
3
5
49.1
91.0
4.92
1.5
92
49
16.5
39.3
10.7
7.41
5.6
2
6
57.6
219.0
5.56
2.5
91
48
16.8
37.3
37.3
9.12
2.8
0
7
53.1
221.0
7.42
3.9
90
45
16.8
30.0
27.0
8.64
2.8
4
8
70.1
123.0
5.38
3.1
123
59
17.0
47.8
34.6
81.64
11.2
5
9
86.6
45.0
12.54
1.2
105
57
14.8
69.0
37.3
23.95
11.2
0
10
82.2
81.0
13.24
1.6
131
61
15.9
62.3
16.5
33.60
16.8
0
11
76.8
90.0
10.70
1.5
131
69
15.8
67.6
22.2
8.93
9.8
0
12
88.9
83.0
1.98
1.8
107
65
14.5
79.3
42.1
58.97
3.5
0
其中:
:
山地比例(%);
:
人口密度(人/
);
:
人均收入增长率(元/年);
:
公路密度(100m/ha);
:
前汛期降水量(cm/年);
:
后汛期降水量(cm/年);
:
月平均最低温度(℃);
:
森林覆盖率(%);
:
针叶林比例(%);
:
造林面积(千亩/年);
:
年采伐面积(千亩/年);
:
火灾频数(次/年)。
注:
本例子引自裴鑫德编著,《多元统计分析及其应用》,北京农业大学出版社,1990年
本软件给出的回归分析有关的结果如下(与回归分析无关的内容未列出):
指标1名称:
森林覆盖率 单位:
%
指标2名称:
针叶林比例 单位:
%
指标3名称:
造林面积 单位:
万亩/年
指标4名称:
年采伐面积 单位:
千亩/年
指标5名称:
火灾频数 单位:
次/年
因素1名称:
山地比例 单位:
%
因素2名称:
人口密度 单位:
人/平方公里
因素3名称:
人均收入增长率 单位:
元/年
因素4名称:
公路密度 单位:
100米/公顷
因素5名称:
前汛期降水量 单位:
厘米/年
因素6名称:
后汛期降水量 单位:
厘米/年
因素7名称:
月平均最低温度 单位:
℃
回归分析采用双重筛选逐步回归法,显著性水平α=0.05
自变量引入、剔除的临界值Fx=2.000
因变量引入、剔除的临界值Fy=2.500
对指标1~5拟建立回归方程分别为:
y1=b(0)+b
(1)*X
(1)+b
(2)*X
(2)+b(3)*X(3)+b(4)*X(4)+b(5)*X(5)+b(6)*X(6)+b(7)*X(7)
y2=b(0)+b
(1)*X
(1)+b
(2)*X
(2)+b(3)*X(3)+b(4)*X(4)+b(5)*X(5)+b(6)*X(6)+b(7)*X(7)
y3=b(0)+b
(1)*X
(1)+b
(2)*X
(2)+b(3)*X(3)+b(4)*X(4)+b(5)*X(5)+b(6)*X(6)+b(7)*X(7)
y4=b(0)+b
(1)*X
(1)+b
(2)*X
(2)+b(3)*X(3)+b(4)*X(4)+b(5)*X(5)+b(6)*X(6)+b(7)*X(7)
y5=b(0)+b
(1)*X
(1)+b
(2)*X
(2)+b(3)*X(3)+b(4)*X(4)+b(5)*X(5)+b(6)*X(6)+b(7)*X(7)
-----计算第1组回归方程-----
第1步,引入方程项:
y1
已引入因变量y的序号:
1
已引入自变量X的序号:
第2步,自变量X引入或剔除判别:
各项的判别值(升序排列):
Vx(3)=4.541e-2
Vx(5)=0.2868
Vx(7)=0.4082
Vx(4)=0.4104
Vx(6)=0.4731
Vx
(2)=0.5998
Vx
(1)=0.8810
未引入项中,第1项[X
(1)]Vx值(≥0)的绝对值最大,
引入检验值Fax
(1)=74.00,引入临界值Fx=2.000,
Fax
(1)>Fx,可以引入第1项。
第3步,引入方程项:
X
(1)
已引入因变量y的序号:
1
已引入自变量X的序号:
1
第4步,自变量X引入或剔除判别:
各项的判别值(升序排列):
Vx
(1)=-7.400
Vx(5)=1.359e-3
Vx(6)=2.254e-2
Vx(3)=4.720e-2
Vx
(2)=0.2260
Vx(7)=0.2306
Vx(4)=0.2372
已引入项中,第1项[X
(1)]Vx值(<0)的绝对值最小,
剔除检验值Fex
(1)=74.00,剔除临界值Fx=2.000,
Fex
(1)>Fx,不能剔除第1项,检查是否可以引入其他自变量。
未引入项中,第4项[X(4)]Vx值(≥0)的绝对值最大,
引入检验值Fax(4)=2.798,引入临界值Fx=2.000,
Fax(4)>Fx,可以引入第4项。
第5步,引入方程项:
X(4)
已引入因变量y的序号:
1
已引入自变量X的序号:
1,4
第6步,自变量X引入或剔除判别:
各项的判别值(升序排列):
Vx
(1)=-5.492
Vx(4)=-0.3109
Vx(5)=1.370e-8
Vx(6)=6.972e-3
Vx
(2)=4.284e-2
Vx(3)=9.849e-2
Vx(7)=0.2536
已引入项中,第4项[X(4)]Vx值(<0)的绝对值最小,
剔除检验值Fex(4)=2.798,剔除临界值Fx=2.000,
Fex(4)>Fx,不能剔除第4项,检查是否可以引入其他自变量。
未引入项中,第7项[X(7)]Vx值(≥0)的绝对值最大,
引入检验值Fax(7)=2.718,引入临界值Fx=2.000,
Fax(7)>Fx,可以引入第7项。
第7步,引入方程项:
X(7)
已引入因变量y的序号:
1
已引入自变量X的序号:
1,4,7
第8步,自变量X引入或剔除判别:
各项的判别值(升序排列):
Vx
(1)=-4.767
Vx(4)=-0.3513
Vx(7)=-0.3398
Vx
(2)=5.297e-2
Vx(5)=6.120e-2
Vx(6)=0.1234
Vx(3)=0.1380
已引入项中,第7项[X(7)]Vx值(<0)的绝对值最小,
剔除检验值Fex(7)=2.718,剔除临界值Fx=2.000,
Fex(7)>Fx,不能剔除第7项,检查是否可以引入其他自变量。
未引入项中,第3项[X(3)]Vx值(≥0)的绝对值最大,
引入检验值Fax(3)=1.120,引入临界值Fx=2.000,
Fax(3)≤Fx,不能引入第3项,检查是否可以引入其他因变量。
第9步,因变量y引入或剔除判别:
各项的判别值(升序排列):
Vy
(1)=-13.75
Vy(5)=0.2198
Vy(3)=0.2859
Vy
(2)=0.5592
Vy(4)=0.5895
已引入项中,第1项[y1]Vy值(<0)的绝对值最小,
剔除检验值Fey
(1)=36.68,剔除临界值Fy=2.500,
Fey
(1)>Fy,不能剔除第1项,检查是否可以引入其他因变量。
未引入项中,第4项[y4]Vy值(≥0)的绝对值最大,
引入检验值Fay(4)=3.350,引入临界值Fy=2.500,
Fay(4)>Fy,可以引入第4项。
第10步,引入方程项:
y4
已引入因变量y的序号:
1,4
已引入自变量X的序号:
1,4,7
第11步,自变量X引入或剔除判别:
各项的判别值(升序排列):
Vx
(1)=-8.013
Vx(4)=-0.8942
Vx(7)=-0.7008
Vx(6)=0.1388
Vx
(2)=0.3799
Vx(5)=0.4204
Vx(3)=0.4595
已引入项中,第7项[X(7)]Vx值(<0)的绝对值最小,
剔除检验值Fex(7)=2.453,剔除临界值Fx=2.000,
Fex(7)>Fx,不能剔除第7项,检查是否可以引入其他自变量。
未引入项中,第3项[X(3)]Vx值(≥0)的绝对值最大,
引入检验值Fax(3)=2.551,引入临界值Fx=2.000,
Fax(3)>Fx,可以引入第3项。
第12步,引入方程项:
X(3)
已引入因变量y的序号:
1,4
已引入自变量X的序号:
1,3,4,7
第13步,自变量X引入或剔除判别:
各项的判别值(升序排列):
Vx
(1)=-7.721
Vx(7)=-1.304
Vx(4)=-0.8840
Vx(3)=-0.8502
Vx(6)=0.1487
Vx(5)=0.3635
Vx
(2)=0.5014
已引入项中,第3项[X(3)]Vx值(<0)的绝对值最小,
剔除检验值Fex(3)=2.551,剔除临界值Fx=2.000,
Fex(3)>Fx,不能剔除第3项,检查是否可以引入其他自变量。
未引入项中,第2项[X
(2)]Vx值(≥0)的绝对值最大,
引入检验值Fax
(2)=2.514,引入临界值Fx=2.000,
Fax
(2)>Fx,可以引入第2项。
第14步,引入方程项:
X
(2)
已引入因变量y的序号:
1,4
已引入自变量X的序号:
1,2,3,4,7
第15步,自变量X引入或剔除判别:
各项的判别值(升序排列):
Vx
(1)=-6.973
Vx(7)=-1.798
Vx(3)=-1.301
Vx
(2)=-1.006
Vx(4)=-9.920e-2
Vx(6)=0.1563
Vx(5)=0.5073
已引入项中,第4项[X(4)]Vx值(<0)的绝对值最小,
剔除检验值Fex(4)=0.2480,剔除临界值Fx=2.000,
Fex(4)≤Fx,需要剔除第4项。
第16步,剔除方程项:
X(4)
已引入因变量y的序号:
1,4
已引入自变量X的序号:
1,2,3,7
第17步,自变量X引入或剔除判别:
各项的判别值(升序排列):
Vx
(1)=-6.465
Vx
(2)=-2.438
Vx(7)=-1.794
Vx(3)=-1.293
Vx(4)=9.025e-2
Vx(6)=0.1959
Vx(5)=0.4328
已引入项中,第3项[X(3)]Vx值(<0)的绝对值最小,
剔除检验值Fex(3)=3.878,剔除临界值Fx=2.000,
Fex(3)>Fx,不能剔除第3项,检查是否可以引入其他自变量。
未引入项中,第5项[X(5)]Vx值(≥0)的绝对值最大,
引入检验值Fax(5)=1.907,引入临界值Fx=2.000,
Fax(5)≤Fx,不能引入第5项,检查是否可以引入其他因变量。
第18步,因变量y引入或剔除判别:
各项的判别值(升序排列):
Vy
(1)=-16.34
Vy(4)=-6.328
Vy(5)=0.2662
Vy
(2)=0.4603
Vy(3)=0.6480
已引入项中,第4项[y4]Vy值(<0)的绝对值最小,
剔除检验值Fey(4)=9.492,剔除临界值Fy=2.500,
Fey(4)>Fy,不能剔除第4项,检查是否可以引入其他因变量。
未引入项中,第3项[y3]Vy值(≥0)的绝对值最大,
引入检验值Fay(3)=2.301,引入临界值Fy=2.500,
Fay(3)≤Fy,不能引入第3项,变量筛选暂停。
变量筛选结果:
因变量:
总数=5,引入数=2
自变量:
检验项数=7,预期引入项数=4,实际引入项数=4,实际引入项数=预期引入项数
第1组回归方程结果:
回归方程:
y1=b(0)+b
(1)*X
(1)+b
(2)*X
(2)+b(3)*X(3)+b(4)*X(7)
回归系数b(i):
b(0)=52.91
b
(1)=0.8202
b
(2)=-5.719e-2
b(3)=-0.4247
b(4)=-2.883
标准回归系数B(i):
B
(1)=0.7134
B
(2)=-0.2225
B(3)=-9.406e-2
B(4)=-0.1843
复相关系数γ=0.9693
决定系数γ^2=0.9396
调整的决定系数γ^2a=0.9170
变量分析:
变量分析表
变异来源
平方和
自由度
均 方
均方比
回 归
U=2259
K=4
U/K=564.6
F=27.22
剩 余
Q=145.2
N-1-K=7
Q/(N-1-K)=20.74
总 和
L=2404
N-1=11
样本容量N=12,显著性水平α=0.05,检验值Ft=27.22,临界值F(0.05,4,7)=4.120
剩余标准差s=4.554
回归系数检验值:
t检验值(df=7):
t
(1)=5.031
t
(2)=-1.701
t(3)=-0.9624
t(4)=-1.677
F检验值(df1=1,df2=7):
F
(1)=25.31
F
(2)=2.894
F(3)=0.9262
F