线性回归分析的基本步骤综述.docx

资源描述

线性回归分析的基本步骤综述.docx

《线性回归分析的基本步骤综述.docx》由会员分享，可在线阅读，更多相关《线性回归分析的基本步骤综述.docx（14页珍藏版）》请在冰豆网上搜索。

线性回归分析的基本步骤综述.docx

线性回归分析的基本步骤综述

步骤一、建立模型

知识点：

1、总体回归模型、总体回归方程、样本回归模型、样本回归方程

①总体回归模型：

研究总体之中自变量和因变量之间某种非确定依赖关系的计量模型。

特点：

由于随机误差项U的存在，使得Y和X不在一条直线/平面上。

例1：

某镇共有60个家庭，经普查，60个家庭的每周收入（X）与每周消费（Y）数据如下：

每周收入（X）

每周消费支出（Y）

100

120

140

103

108

113

115

160

102

107

110

116

118

125

180

110

115

120

130

135

140

200

120

136

140

144

145

220

135

137

140

152

157

160

162

240

137

145

155

165

175

189

260

150

152

175

178

180

185

191

作出其散点图如下：

②总体回归方程（线）：

由于假定，因此因变量的均值与自变量总处于一条直线上，这条直线就称为总体回归线（方程）。

总体回归方程的求法：

以例1的数据为例

1）对第一个Xi，求出E（Y|Xi）。

每周收入（X）

每周消费支出（Y）

E（Y|Xi）

100

120

140

103

108

113

115

101

160

102

107

110

116

118

125

113

180

110

115

120

130

135

140

125

200

120

136

140

144

145

137

220

135

137

140

152

157

160

162

149

240

137

145

155

165

175

189

161

260

150

152

175

178

180

185

191

173

由于，因此任意带入两个Xi和其对应的E（Y|Xi）值，即可求出，并进而得到总体回归方程。

如将代入可得：

以上求出反映了E（Y|Xi）和Xi之间的真实关系，即所求的总体回归方程为：

，其图形为：

③样本回归模型：

总体通常难以得到，因此只能通过抽样得到样本数据。

如在例1中，通过抽样考察，我们得到了20个家庭的样本数据：

每周收入（X）

每周消费支出（Y）

100

120

140

160

102

107

110

180

110

200

120

136

220

135

137

240

137

145

260

150

152

175

那么描述样本数据中因变量Y和自变量X之间非确定依赖关系的模型就称为样本回归模型。

④样本回归方程（线）：

通过样本数据估计出，得到样本观测值的拟合值与解释变量之间的关系方程称为样本回归方程。

如下图所示：

⑤四者之间的关系：

ⅰ：

总体回归模型建立在总体数据之上，它描述的是因变量Y和自变量X之间的真实的非确定型依赖关系；样本回归模型建立在抽样数据基础之上，它描述的是因变量Y和自变量X之间的近似于真实的非确定型依赖关系。

这种近似表现在两个方面：

一是结构参数是其真实值的一种近似估计；二是残差是随机误差项U的一个近似估计；

ⅱ：

总体回归方程是根据总体数据得到的，它描述的是因变量的条件均值E（Y|X）与自变量X之间的线性关系；样本回归方程是根据抽样数据得到的，它描述的是因变量Y样本预测值的拟合值与自变量X之间的线性关系。

ⅲ：

回归分析的目的是试图通过样本数据得到真实结构参数的估计值，并要求估计结果足够接近真实值。

由于抽样数据有多种可能，每一次抽样所得到的估计值都不会相同，即的估计量是一个随机变量。

因此必须选择合适的参数估计方法，使其具有良好的统计性质。

2、随机误差项U存在的原因：

①非重要解释变量的省略

②人的随机行为

③数学模型形式欠妥

④归并误差（如一国GDP的计算）

⑤测量误差等

3、多元回归模型的基本假定

①随机误差项的期望值为零

②随机误差项具有同方差性

③随机误差项彼此之间不相关

④解释就变量X1,X2,···,Xk为确定型变量，与随机误差项彼此不相关。

⑤解释就变量X1,X2,···,Xk之间不存在精确的（完全的）线性关系，即解释变量的样本观测值矩阵X为满秩矩阵：

rank（X）=k+1

⑥随机误差项服从正态分布，即：

ui~N（0,2），i=1,2,···,n

步骤二、参数估计

知识点：

1、最小二乘估计的基本原理：

残差平方和最小化。

2、参数估计量：

1一元回归：

2多元回归：

3、最小二乘估计量的性质（Gauss-Markov定理）：

在满足基本假设的情况下，最小二乘估计量是的最优线性无偏估计量（BLUE估计量）

步骤三、模型检验

1、经济计量检验（后三章内容）

2、统计检验

①拟合优度检验

知识点：

ⅰ：

拟合优度检验的作用：

检验回归方程对样本点的拟合程度

ⅱ：

拟合优度的检验方法：

计算（调整的）样本可决系数

，

注意掌握离差平方和、回归平方和、残差平方和之间的关系以及它们的自由度。

计算方法：

通过方差分析表计算

方差来源

符号

计算公式

自由度（d.f.）

均方值（MSS）

离差平方和

TSS

n-1

/n-1

回归平方和

RSS

残差平方和

ESS

n-k-1

/n-k-1

例2：

下表列出了三变量（二元）模型的回归结果：

方差来源

平方和（SS）

自由度

均方值

离差平方和TSS

66042

回归平方和RSS

65965

残差平方和ESS

1）样本容量为多少？

解：

由于TSS的自由度为n-1，由上表知n-1＝14，因此样本容量n=15。

2）求ESS

解：

由于TSS＝ESS＋RSS，故ESS＝TSS－RSS＝77

3）ESS和RSS的自由度各为多少？

解：

对三变量模型而言，k=2，故ESS的自由度为n-k-1＝12

　　RSS的自由度为k＝2

4）求

解：

，

②回归方程的显著性检验（F检验）

目的：

检验模型中的因变量与自变量之间是否存在显著的线性关系

步骤：

1、提出假设：

　　　2、构造统计量：

　　　3、给定显著性水平，确定拒绝域

　　　4、计算统计量值，并判断是否拒绝原假设

例3：

就例2中的数据，给定显著性水平，对回归方程进行显著性检验。

解：

由于统计量值，

又，而

故拒绝原假设，即在1%的显著性水平下可以认为回归方程存在显著的线性关系。

附：

检验的关系：

由于

③解释变量的显著性检验（t检验）

目的：

检验模型中的自变量是否对因变量存在显著影响。

知识点：

多元回归：

，其中为中位于第i+1行和i+1列的元素；

一元回归：

变量显著性检验的基本步骤：

1、提出假设：

2、构造统计量：

3、给定显著性水平，确定拒绝域

4、计算统计量值，并判断是否拒绝原假设

例4：

根据19个样本数据得到某一回归方程如下：

试在5%的显著性水平下对变量的显著性进行检验。

解：

由于，故t检验的拒绝域为。

对自变量而言，其t统计量值为，落入

拒绝域，故拒绝的原假设，即在5%的显著性水平下，可以认为自变量对因变量有显著影响；

对自变量而言，其t统计量值为，未落入拒绝域，故不能拒绝的原假设，即在5%的显著性水平下，可以认为自变量对因变量Y的影响并不显著。

④回归系数的置信区间

目的：

给定某一置信水平，构造某一回归参数的一个置信区间，使落在该区间内的概率为

基本步骤：

1、构造统计量

2、给定置信水平，查表求出水平的双侧分位数

3、求出的置信度为的置信区间

例5：

根据例4的数据，求出的置信度为95%的置信区间。

解：

由于，故的置信度为95%的置信区间为：

3、经济意义检验

目的：

检验回归参数的符号及数值是否与经济理论的预期相符。

例6：

根据26个样本数据建立了以下回归方程用于解释美国居民的个人消费支出：

其中：

Y为个人消费支出（亿元）；X1为居民可支配收入（亿元）；X2为利率（%）

1）先验估计的符号；

解：

由于居民可支配收入越高，其个人消费水平也会越高，因此预期自变量X1回归系数的符号为正；而利率越高，居民储蓄意愿越强，消费意愿相应越低，因此个从消费支出与利率应该存在负相关关系，即应为负。

2）解释两个自变量回归系数的经济含义；

解：

表示，居民可支配收入每增加1亿元，其个人消费支出相应会增加0.93亿元，即居民的边际消费倾向MPC＝0.93；

表示，利率提高1个百分点，个人消费支出将减少2.09亿元。

截距项表示居民可支配收入和利率为零时的个人消费支出为-10.96亿元，它没有明确的经济含义。

3）检验是否显著不为1；（）

解：

1）提出假设：

2）构造统计量：

3）给定显著性水平，查表得，故拒绝域为

4）计算统计量值：

由于

则，落入拒绝域。

故拒绝的原假设。

即在5%的显著性水平下，可认为边际消费倾向MPC显著不为1。

4）检验显否显著不为零；（）

解：

1）提出假设：

2）构造统计量：

3）给定显著性水平，查表得，故拒绝域为

4）计算统计量值：

由于，落入拒绝域，故拒绝原假设。

即在5%的显著性水平下，可以认为显著异于零。

5）计算值；

解：

由于

6）计算每个回归系数的标准差；

解：

由于

7）给出置信水平为95%的置信区间；

解：

由于，故置信水平为95%的置信区间为

8）对回归方程进行显著性检验；

解：

提出假设：

构造统计量

确定拒绝域：

计算统计量并进行判断：

由于

故拒绝原假设，即在5%的显著性水平下认为回归方程的线性关系显著成立。

步骤四：

经济预测

点预测：

可以看着是Y的条件均值和个别值的预测值，分别称为均值预测和个值预测；

性质：

是和的一个无偏估计量。

区间预测：

均值的区间预测

预测步骤：

1）确定统计量：

其中

2）给定置信水平，确定的预测区间为：

个值的区间预测

预测步骤：

1）确定统计量：

其中

2）给定置信水平，确定的预测区间为：

作业：

为解释某地对酒的消费，根据20年的样本数据得到了如下回归方程：

其中：

：

每一成年人每年对酒的消费量（升）；

：

酒类的平均价格（元）；　　　：

个人可支配收入（元）

：

酒类经营许可证数量（张）　　：

酒类广告投入（万元）

已知，对角线上的元素分别为，，

，，，回归方程的残差平方和

1）先验地，你认为各自变量回归系数的符号为什么？

2）请完成以下方差分析表：

方差来源

平方和（SS）

自由度

均方值

离差平方和TSS

回归平方和RSS

残差平方和ESS

0.0375

3）计算值

4）

展开阅读全文