线性回归分析的基本步骤.docx

资源描述

线性回归分析的基本步骤.docx

《线性回归分析的基本步骤.docx》由会员分享，可在线阅读，更多相关《线性回归分析的基本步骤.docx（6页珍藏版）》请在冰豆网上搜索。

线性回归分析的基本步骤.docx

线性回归分析的基本步骤

步骤一、建立模型

知识点：

1、总体回归模型、总体回归方程、样本回归模型、样本回归方程

①总体回归模型：

研究总体之中自变量和因变量之间某种非确定依赖关系的计量模型。

特点：

由于随机误差项U的存在，使得Y和X不在一条直线/平面上。

例1：

某镇共有60个家庭，经普查，60个家庭的每周收入（X）与每周消费（Y）数据如下：

每周收入（X）

每周消费支出（Y）

100

120

140

103

108

113

115

160

102

107

110

116

118

125

180

110

115

120

130

135

140

200

120

136

140

144

145

220

135

137

140

152

157

160

162

240

137

145

155

165

175

189

260

150

152

175

178

180

185

191

作出其散点图如下：

②总体回归方程（线）：

由于假定

，因此因变量的均值与自变量总处于一条直线上，这条直线

就称为总体回归线（方程）。

总体回归方程的求法：

以例1的数据为例

1）对第一个Xi，求出E（Y|Xi）。

每周收入（X）

每周消费支出（Y）

E（Y|Xi）

100

120

140

103

108

113

115

101

160

102

107

110

116

118

125

113

180

110

115

120

130

135

140

125

200

120

136

140

144

145

137

220

135

137

140

152

157

160

162

149

240

137

145

155

165

175

189

161

260

150

152

175

178

180

185

191

173

由于

，因此任意带入两个Xi和其对应的E（Y|Xi）值，即可求出

，并进而得到总体回归方程。

如将

代入

可得：

以上求出

反映了E（Y|Xi）和Xi之间的真实关系，即所求的总体回归方程为：

，其图形为：

③样本回归模型：

总体通常难以得到，因此只能通过抽样得到样本数据。

如在例1中，通过抽样考察，我们得到了20个家庭的样本数据：

每周收入（X）

每周消费支出（Y）

100

120

140

160

102

107

110

180

110

200

120

136

220

135

137

240

137

145

260

150

152

175

那么描述样本数据中因变量Y和自变量X之间非确定依赖关系的模型

就称为样本回归模型。

④样本回归方程（线）：

通过样本数据估计出

，得到样本观测值的拟合值与解释变量之间的关系方程

称为样本回归方程。

如下图所示：

⑤四者之间的关系：

ⅰ：

总体回归模型建立在总体数据之上，它描述的是因变量Y和自变量X之间的真实的非确定型依赖关系；样本回归模型建立在抽样数据基础之上，它描述的是因变量Y和自变量X之间的近似于真实的非确定型依赖关系。

这种近似表现在两个方面：

一是结构参数

是其真实值

的一种近似估计；二是残差

是随机误差项U的一个近似估计；

ⅱ：

总体回归方程是根据总体数据得到的，它描述的是因变量的条件均值E（Y|X）与自变量X之间的线性关系；样本回归方程是根据抽样数据得到的，它描述的是因变量Y样本预测值的拟合值

与自变量X之间的线性关系。

ⅲ：

回归分析的目的是试图通过样本数据得到真实结构参数

的估计值，并要求估计结果

足够接近真实值

。

由于抽样数据有多种可能，每一次抽样所得到的估计值

都不会相同，即

的估计量

是一个随机变量。

因此必须选择合适的参数估计方法，使其具有良好的统计性质。

2、随机误差项U存在的原因：

①非重要解释变量的省略

②人的随机行为

③数学模型形式欠妥

④归并误差（如一国GDP的计算）

⑤测量误差等

3、多元回归模型的基本假定

①随机误差项的期望值为零

②随机误差项具有同方差性

③随机误差项彼此之间不相关

④解释就变量X1,X2,···,Xk为确定型变量，与随机误差项彼此不相关。

⑤解释就变量X1,X2,···,Xk之间不存在精确的（完全的）线性关系，即解释变量的样本观测值矩阵X为满秩矩阵：

rank（X）=k+1

展开阅读全文