线性回归分析的基本步骤.docx

上传人:b****2 文档编号:12886697 上传时间:2023-04-22 格式:DOCX 页数:18 大小:114.17KB
下载 相关 举报
线性回归分析的基本步骤.docx_第1页
第1页 / 共18页
线性回归分析的基本步骤.docx_第2页
第2页 / 共18页
线性回归分析的基本步骤.docx_第3页
第3页 / 共18页
线性回归分析的基本步骤.docx_第4页
第4页 / 共18页
线性回归分析的基本步骤.docx_第5页
第5页 / 共18页
点击查看更多>>
下载资源
资源描述

线性回归分析的基本步骤.docx

《线性回归分析的基本步骤.docx》由会员分享,可在线阅读,更多相关《线性回归分析的基本步骤.docx(18页珍藏版)》请在冰豆网上搜索。

线性回归分析的基本步骤.docx

线性回归分析的基本步骤

步骤一、建立模型

知识点:

1、总体回归模型、总体回归方程、样本回归模型、样本回归方程

1总体回归模型:

研究总体之中自变量和因变量之间某种非确定依赖关系的计量模型。

丫XU

特点:

由于随机误差项U的存在,使得丫和X不在一条直线/平面上。

例1:

某镇共有60个家庭,经普查,60个家庭的每周收入(X)与每周消费(Y)数据如下:

每周收入(X)每周消费支出(Y)

80

55

60

65

70

75

100

65

70

74

80

85

88

120

79

84

90

94

98

140

80

93

95

103

108

113

115

160

102

107

110

116

118

125

180

110

115

120

130

135

140

200

120

136

140

144

145

220

135

137

140

152

157

160

162

240

137

145

155

165

175

189

260

150

152

175

178

180

185

191

作出其散点图如下:

2总体回归方程(线):

由于假定EU0,因此因变量的均值与自变量

总处于一条直线上,这条直线EY|XX就称为总体回归线(方程)总体回归方程的求法:

以例1的数据为例1)对第一个Xi,求出E(Y|Xi)

每周收入(X)

每周消费支出

(Y)

E(Y|Xi)

80

55

60

65

70

75

65

100

65

70

74

80

85

88

77

120

79

84

90

94

98

89

140

80

93

95

103

108

113

115

101

160

102

107

110

116

118

125

113

180

110

115

120

130

135

140

125

200

120

136

140

144

145

137

220

135

137

140

152

157

160

162

149

240

137

145

155

165

175

189

161

260

150

152

175

178

180

185

191

173

由于EYi|XioiXi,因此任意带入两个Xi和其对应的E(Y|Xi)值,即可求出°和i,并进而得到总体回归方程。

如将X2100,EY2|X277和X7200,EY7|X7137代入

以上求出0和1反映了E(Y|Xi)和Xi之间的真实关系,即所求的总体回归方程为:

EYi|Xi170.6Xi,其图形为:

 

③样本回归模型:

总体通常难以得到,因此只能通过抽样得到样本数据。

如在例1中,通过抽样考察,我们得到了20个家庭的样本数据:

每周收入(X)

每周消费支出(

丫)

80

55

100

65

70

120

79

84

140

80

93

160

102

107

110

180

110

200

120

136

220

135

137

240

137

145

260

150

152

175

那么描述样本数据中因变量Y和自变量X之间非确定依赖关系的模型丫X?

e就称为样本回归模型。

④样本回归方程(线):

通过样本数据估计出?

,得到样本观测值的拟合值与解释变量之间的关系方程Y?

X?

称为样本回归方程。

如下图所示:

⑤四者之间的关系:

i:

总体回归模型建立在总体数据之上,它描述的是因变量丫和自变量X

之间的真实的非确定型依赖关系;样本回归模型建立在抽样数据基础之

上,它描述的是因变量丫和自变量X之间的近似于真实的非确定型依赖关系。

这种近似表现在两个方面:

一是结构参数?

是其真实值的一种近似估计;二是残差e是随机误差项U的一个近似估计;

ii:

总体回归方程是根据总体数据得到的,它描述的是因变量的条件均值

E(Y|X)与自变量X之间的线性关系;样本回归方程是根据抽样数据得到的,它描述的是因变量Y样本预测值的拟合值Y?

与自变量X之间的线性关系。

iii:

回归分析的目的是试图通过样本数据得到真实结构参数的估计值,

并要求估计结果?

足够接近真实值。

由于抽样数据有多种可能,每一次抽样所得到的估计值?

都不会相同,即的估计量?

是一个随机变量。

因此必须选择合适的参数估计方法,使其具有良好的统计性质。

2、随机误差项U存在的原因:

1非重要解释变量的省略

2人的随机行为

3数学模型形式欠妥

4归并误差(如一国GDP的计算)

5测量误差等

3、多元回归模型的基本假定

1随机误差项的期望值为零E(Ui)0

2随机误差项具有同方差性Var(ui)2i1,2,L,n

3随机误差项彼此之间不相关Cov(ui,uj)0ij;i,j1,2,L,n

4解释就变量x1,x2,-;Xk为确定型变量,与随机误差项彼此不相关。

Cov(Xij,uj)0i1,2,L,kj1,2,L,n

5解释就变量X1,X2,-;xk之间不存在精确的(完全的)线性关系,即解释变量的样本观测值矩阵X为满秩矩阵:

rank(X)=k+1

6随机误差项服从正态分布,即:

片〜N(0,2),i=1,2,…;n

步骤二、参数估计

知识点:

1、最小二乘估计的基本原理:

残差平方和最小化。

2、参数估计量:

?

Xiyi

■12

1一元回归:

Xi

?

0Y?

iX

2多元回归:

XX1xty

3、最小二乘估计量的性质(Gauss-Markov定理):

在满足基本假设的情况下,最小二乘估计量?

是的最优线性无偏估计量(BLUE估计量)

步骤三、模型检验

1、经济计量检验(后三章内容)

2、统计检验

①拟合优度检验

知识点:

i:

拟合优度检验的作用:

检验回归方程对样本点的拟合程度

ii:

拟合优度的检验方法:

计算(调整的)样本可决系数R2/R2

r2趣1婪,R21ESS/nk1

TSSTSS'TSS/n1

注意掌握离差平方和、回归平方和、残差平方和之间的关系以及它们

的自由度。

计算方法:

通过方差分析表计算

方差来源

符号

计算公式

自由度(d.f.)

均方值(MSS)

离差平方和

TSS

—2

Yi丫

i

n-1

YiY2/n-1

i

回归平方和

RSS

2

丫?

i

k

2

Y?

Y/k

i

残差平方和

ESS

Yi丫?

2

i

n-k-1

2

Yi丫?

/n-k-1

i

 

例2:

下表列出了三变量(二元)模型的回归结果:

方差来源

平方和(SS)

自由度

均方值

离差平方和TSS

66042

14

回归平方和RSS

65965

残差平方和ESS

1)样本容量为多少?

解:

由于TSS的自由度为n-1,由上表知n-1=14,因此样本容量n=15

2)求ESS

解:

由于TSS=ESS+RSS,故ESS=TSS-RSS=773)ESS和RSS的自由度各为多少?

解:

对三变量模型而言,k=2,故ESS的自由度为n-k-1=12

RSS的自由度为k=2

4)求R2和R2

②回归方程的显著性检验(F检验)

目的:

检验模型中的因变量与自变量之间是否存在显著的线性关系步骤:

仁提出假设:

0:

至少有一.0k,j01,2,…,k

2、构造统计量:

Fes^/T:

芒心k1)

3、给定显著性水平,确定拒绝域FFk,nk1

4、计算统计量值,并判断是否拒绝原假设

例3:

就例2中的数据,给定显著性水平

1%,对回归方程进行显著性

RSS/k65965/25140.13,

ESS/nk177/12

又F0.012,126.93,而F5140.13F0.012,126.93

故拒绝原假设,即在1%的显著性水平下可以认为回归方程存在显著

的线性关系。

附:

R2与F检验的关系:

3解释变量的显著性检验(t检验)目的:

检验模型中的自变量是否对因变量存在显著影响。

知识点:

1中位于第i+1行

多元回归:

s?

J——「g门1,其中Ci1i1为xx

Vnk1

和i+1列的元素;

222

一元回归:

S?

、ei——Xi2,S?

」ei2

0Ynn2Xi1Yn2xi

变量显著性检验的基本步骤:

1、提出假设:

Ho:

i0Hi:

i0

?

2、构造统计量:

t-~t(nk1)

S?

i

3、给定显著性水平,确定拒绝域|tt/2(nk1)

4、计算统计量值,并判断是否拒绝原假设

例4:

根据19个样本数据得到某一回归方程如下:

Y?

58.90.2X10.1X2

se(0.0092)(0.084)

试在5%的显著性水平下对变量X1和X2的显著性进行检验。

解:

由于t/2(nk1)t°.°25(16)2.12,故t检验的拒绝域为|t2.12。

对自变量X1而言,其t统计量值为t—10221.742.12,落入

S?

0.0092

1

拒绝域,故拒绝10的原假设,即在5%的显著性水平下,可以认为自变

量X1对因变量有显著影响;

对自变量X2而言,其t统计量值为t子1.192.12,未落入拒

S?

0.084

绝域,故不能拒绝20的原假设,即在5%的显著性水平下,可以认为

自变量X2对因变量Y的影响并不显著。

4回归系数的置信区间

目的:

给定某一置信水平1,构造某一回归参数i的一个置信区间,使

i落在该区间内的概率为1

基本步骤:

1、构造统计量t」L〜t(nk1)

S?

i

2、给定置信水平1,查表求出水平的双侧分位数t/2(nk1)

3、求出i的置信度为1的置信区间?

t/2S?

?

it/2S?

ii

例5:

根据例4的数据,求出1的置信度为95%的置信区间。

解:

由于to.025(16)2.12,故1的置信度为95%的置信区间为:

0.22.120.0092,0.22.120.00920.18,0.22

3、经济意义检验

目的:

检验回归参数的符号及数值是否与经济理论的预期相符。

例6:

根据26个样本数据建立了以下回归方程用于解释美国居民的个人

消费支出:

Y?

10.960.93X12.09X2

t(3.33)(249.06)(3.09)

R20.9996

其中:

Y为个人消费支出(亿元);X1为居民可支配收入(亿元);X2为利率(%)

1)先验估计?

1和?

2的符号;

解:

由于居民可支配收入越高,其个人消费水平也会越高,因此预期自变

量X1回归系数的符号为正;而利率越高,居民储蓄意愿越强,消费意愿相应越低,因此个从消费支出与利率应该存在负相关关系,即?

应为负。

2)解释两个自变量回归系数的经济含义;

解:

0.93表示,居民可支配收入每增加1亿元,其个人消费支出相应

会增加0.93亿元,即居民的边际消费倾向MPC=0.93;

?

22.09表示,利率提高1个百分点,个人消费支出将减少2.09亿元。

-10.96

截距项表示居民可支配收入和利率为零时的个人消费支出为亿元,它没有明确的经济含义。

3)检验i是否显著不为1;(5%)

解:

1)提出假设:

H0:

41H1:

11

?

2)构造统计量:

t」1~t(nk1)

S?

1

3)给定显著性水平5%,查表得t/2(nk1)to.o25(23)2.07,故拒绝

域为|t|2.07

4)计算统计量值:

由于t(?

JLS?

?

°9)0.003734

S?

1t(?

)249.06

则t-1——10.0718.752.07,落入拒绝域。

故拒绝11的原假设。

S?

0.003734

即在5%的显著性水平下,可认为边际消费倾向MPC显著不为1。

4)检验2显否显著不为零;(5%)解:

1)提出假设:

H0:

20H1:

20

?

2)构造统计量:

t—~t(nk1)

S?

2

3)给定显著性水平5%,查表得t/2(nk1)t°.025(23)2.07,故拒绝

域为|t|2.07

4)计算统计量值:

由于t(?

2)3.092.07,落入拒绝域,故拒绝原假设。

即在5%的显著性水平下,可以认为2显著异于零。

5)计算巨2值;

6)计算每个回归系数的标准差;

S?

'0

?

0

10.96

3.29

t(?

0)

3.33

?

解:

由于t(?

)i

S?

i

?

Si

S?

1

?

1

0.93

0.00373

S?

it(?

t(?

249.06

S?

2

?

2

2.09

0.6764

t(?

2)

3.09

7)给出2置信水平为95%的置信区间;

解:

由于?

22.09,S?

0.6764,to.025(23)2.07,故2置信水平为95%的置信

区间为2.092.070.6764,2.092.070.6764-3.49,-0.69

8)

对回归方程进行显著性检验;

解:

提出假设:

H。

i20比:

i或20

确定拒绝域:

FF(k.nk1)F°.05(2,23)3.42

故拒绝原假设,即在5%的显著性水平下认为回归方程的线性关系显

著成立。

步骤四:

经济预测

点预测:

Y?

X。

可以看着是Y的条件均值ey°|X°和个别值丫。

的预测值,分别称为均值预测和个值预测;

性质:

Y?

X。

是e丫。

|x。

和丫。

的一个无偏估计量。

区间预测:

均值ey°|x°的区间预测

预测步骤:

1)确定统计量:

t丫0E丫。

|X°k1)

S?

0

其中Sy

1

XoXXXo

2)给定置信水平1,确定E

丫o|Xo的预测区间为:

 

1)SYo

丫0t/2(nk1)Syo,丫Ot/2(nk

个值丫0的区间预测

eo

eo

预测步骤:

°确定统计量:

tS

丫0Yo~t(nk1)

Seo

其中Seo

1

1XoXXXo

 

2)给定置信水平1,

确定Yo的预测区间为:

作业:

为解释某地对酒的消费,根据20年的样本数据得到了如下回归方程:

Y?

0.0140.354X,0.018X20.657X30.059X4

其中:

丫:

每一成年人每年对酒的消费量(升);

X!

:

酒类的平均价格(元);X2:

个人可支配收入(元)

X3:

酒类经营许可证数量(张)X4:

酒类广告投入(万元)

已知R20.689,XX1对角线上的元素分别为Ci,i0.0576,C2228.9014,

C3,30.01,C4,428.3042,C5,50.4624,回归方程的残差平方和ESS0.0375

1)先验地,你认为各自变量回归系数的符号为什么?

2)请完成以下方差分析表:

方差来源

平方和(SS)

自由度

均方值

离差平方和TSS「

回归平方和RSS

残差平方和ESS

0.0375

3)计算R2值

4)对4个自变量进行显著性检验,并分析其经济含义;

5)给出2置信水平为95%的区间估计;

6)对方程进行显著性检验;

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 自然科学 > 数学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1