线性回归分析的基本步骤.docx
《线性回归分析的基本步骤.docx》由会员分享,可在线阅读,更多相关《线性回归分析的基本步骤.docx(6页珍藏版)》请在冰豆网上搜索。
![线性回归分析的基本步骤.docx](https://file1.bdocx.com/fileroot1/2022-12/31/dbf2df75-4d98-4ccb-b91c-07de2659ca7b/dbf2df75-4d98-4ccb-b91c-07de2659ca7b1.gif)
线性回归分析的基本步骤
线性回归分析的基本步骤
步骤一、建立模型
知识点:
1、总体回归模型、总体回归方程、样本回归模型、样本回归方程
①总体回归模型:
研究总体之中自变量和因变量之间某种非确定依赖关系的计量模型。
特点:
由于随机误差项U的存在,使得Y和X不在一条直线/平面上。
例1:
某镇共有60个家庭,经普查,60个家庭的每周收入(X)与每周消费(Y)数据如下:
每周收入(X)
每周消费支出(Y)
80
55
60
65
70
75
100
65
70
74
80
85
88
120
79
84
90
94
98
140
80
93
95
103
108
113
115
160
102
107
110
116
118
125
180
110
115
120
130
135
140
200
120
136
140
144
145
220
135
137
140
152
157
160
162
240
137
145
155
165
175
189
260
150
152
175
178
180
185
191
作出其散点图如下:
②总体回归方程(线):
由于假定
,因此因变量的均值与自变量总处于一条直线上,这条直线
就称为总体回归线(方程)。
总体回归方程的求法:
以例1的数据为例
1)对第一个Xi,求出E(Y|Xi)。
每周收入(X)
每周消费支出(Y)
E(Y|Xi)
80
55
60
65
70
75
65
100
65
70
74
80
85
88
77
120
79
84
90
94
98
89
140
80
93
95
103
108
113
115
101
160
102
107
110
116
118
125
113
180
110
115
120
130
135
140
125
200
120
136
140
144
145
137
220
135
137
140
152
157
160
162
149
240
137
145
155
165
175
189
161
260
150
152
175
178
180
185
191
173
由于
,因此任意带入两个Xi和其对应的E(Y|Xi)值,即可求出
,并进而得到总体回归方程。
如将
代入
可得:
以上求出
反映了E(Y|Xi)和Xi之间的真实关系,即所求的总体回归方程为:
,其图形为:
③样本回归模型:
总体通常难以得到,因此只能通过抽样得到样本数据。
如在例1中,通过抽样考察,我们得到了20个家庭的样本数据:
每周收入(X)
每周消费支出(Y)
80
55
100
65
70
120
79
84
140
80
93
160
102
107
110
180
110
200
120
136
220
135
137
240
137
145
260
150
152
175
那么描述样本数据中因变量Y和自变量X之间非确定依赖关系的模型
就称为样本回归模型。
④样本回归方程(线):
通过样本数据估计出
,得到样本观测值的拟合值与解释变量之间的关系方程
称为样本回归方程。
如下图所示:
⑤四者之间的关系:
ⅰ:
总体回归模型建立在总体数据之上,它描述的是因变量Y和自变量X之间的真实的非确定型依赖关系;样本回归模型建立在抽样数据基础之上,它描述的是因变量Y和自变量X之间的近似于真实的非确定型依赖关系。
这种近似表现在两个方面:
一是结构参数
是其真实值
的一种近似估计;二是残差
是随机误差项U的一个近似估计;
ⅱ:
总体回归方程是根据总体数据得到的,它描述的是因变量的条件均值E(Y|X)与自变量X之间的线性关系;样本回归方程是根据抽样数据得到的,它描述的是因变量Y样本预测值的拟合值
与自变量X之间的线性关系。
ⅲ:
回归分析的目的是试图通过样本数据得到真实结构参数
的估计值,并要求估计结果
足够接近真实值
。
由于抽样数据有多种可能,每一次抽样所得到的估计值
都不会相同,即
的估计量
是一个随机变量。
因此必须选择合适的参数估计方法,使其具有良好的统计性质。
2、随机误差项U存在的原因:
①非重要解释变量的省略
②人的随机行为
③数学模型形式欠妥
④归并误差(如一国GDP的计算)
⑤测量误差等
3、多元回归模型的基本假定
①随机误差项的期望值为零
②随机误差项具有同方差性
③随机误差项彼此之间不相关
④解释就变量X1,X2,···,Xk为确定型变量,与随机误差项彼此不相关。
⑤解释就变量X1,X2,···,Xk之间不存在精确的(完全的)线性关系,即解释变量的样本观测值矩阵X为满秩矩阵:
rank(X)=k+1