整理多元线性回归分析.docx

上传人:b****1 文档编号:1642021 上传时间:2022-10-23 格式:DOCX 页数:62 大小:262.73KB
下载 相关 举报
整理多元线性回归分析.docx_第1页
第1页 / 共62页
整理多元线性回归分析.docx_第2页
第2页 / 共62页
整理多元线性回归分析.docx_第3页
第3页 / 共62页
整理多元线性回归分析.docx_第4页
第4页 / 共62页
整理多元线性回归分析.docx_第5页
第5页 / 共62页
点击查看更多>>
下载资源
资源描述

整理多元线性回归分析.docx

《整理多元线性回归分析.docx》由会员分享,可在线阅读,更多相关《整理多元线性回归分析.docx(62页珍藏版)》请在冰豆网上搜索。

整理多元线性回归分析.docx

整理多元线性回归分析

多元线性回归分析

直线回归概念复习

例:

为了研究3岁至8岁男孩身高与年龄的规律,在某地区在3岁至8岁男孩中随机抽样,共分6个年龄层抽样:

3岁,4岁,…,8岁,每个层抽10个男孩,共抽60个男孩。

资料如下:

60个男孩的身高资料如下

年龄

3岁

4岁

5岁

6岁

7岁

8岁

92.5

96.5

106.0

115.5

125.5

121.5

97.0

101.0

104.0

115.5

117.5

128.5

96.0

105.5

107.0

111.5

118.0

124.0

96.5

102.0

109.5

110.0

117.0

125.5

97.0

105.0

111.0

114.5

122.0

122.5

92.0

99.5

107.5

112.5

119.0

123.5

96.5

102.0

107.0

116.5

119.0

120.5

91.0

100.0

111.5

110.0

125.5

123.0

96.0

106.5

103.0

114.5

120.5

124.0

99.0

100.0

109.0

110.0

122.0

126.5

平均身高

95.4

101.8

107.6

113.1

120.6

124.0

 

从散点图上,我们可以发现样本点(X,Y)随机地出现在一条直线附近,并且从资料背景上考察,同一年龄的儿童身高应近似服从一个正态分布,而儿童身高的总体均数应随着年龄增长而增大,并由每个年龄的身高样本均数与儿童年龄的散点图可以发现:

这些点非常接近一条直线以及样本均数存在抽样误差,因此推测儿童身高的总体均数与年龄可能呈直线关系。

故假定身高Y在年龄X点上的总体均数与X呈直线关系。

其中y表示身高,x表示年龄。

由于身高的总体均数与年龄有关,所以更准确地标记应为

表示在固定年龄情况下的身高总体均数。

身高的样本均数与年龄的散点图

故有理由认为身高的总体均数与年龄的关系可能是一条直线关系

上述公式称为直线回归方程。

其中β为回归系数(regressioncoefficient),或称为斜率(slope);α称为常数项(constant),或称为截距(intercept)。

回归系数β表示x变化一个单位y平均变化β个单位。

当x和y都是随机的,x、y间呈正相关时β>0,x、y间呈负相关时β<0,x、y间独立时β=0。

一般情况而言,参数α和β是未知的。

对于本例而言,不同民族和不同地区,α和β往往是不同的,因此需要进行估计的。

由于不同年龄的身高实际观察值应在对应的身高总体均数附近(即:

实际观察值与总体均数之间仅存在个体变异的差异),故可以用年龄和实际身高观察值的资料对未知参数α和β进行估计,一般采用最小二乘法进行参数估计。

我们将借助Stata软件对本例资料进行直线回归。

数据格式

x

y

3

92.5

3

97.0

3

96.0

3

96.5

3

97.0

3

92.0

3

96.5

3

91.0

3

96.0

3

99.0

4

96.5

4

101.0

4

105.5

4

102.0

4

105.0

4

99.5

4

102.0

4

100.0

4

106.5

4

100.0

5

106.0

5

104.0

5

107.0

5

109.5

5

111.0

5

107.5

5

107.0

5

111.5

5

103.0

5

109.0

6

115.5

6

115.5

6

111.5

6

110.0

6

114.5

6

112.5

6

116.5

6

110.0

6

114.5

6

110.0

7

125.5

7

117.5

7

118.0

7

117.0

7

122.0

7

119.0

7

119.0

7

125.5

7

120.5

7

122.0

8

121.5

8

128.5

8

124.0

8

125.5

8

122.5

8

123.5

8

120.5

8

123.0

8

124.0

8

126.5

回归命令

regressyx

 

Source|SSdfMSNumberofobs=60

-------------+------------------------------F(1,58)=777.41

Model|5997.7157115997.71571Prob>F=0.0000

Residual|447.467619587.71495895R-squared=0.9306

-------------+------------------------------AdjR-squared=0.9294

Total|6445.1833359109.240395RootMSE=2.7776

------------------------------------------------------------------------------

y|Coef.Std.Err.tP>|t|[95%Conf.Interval]

-------------+----------------------------------------------------------------

x|5.854286.209965427.880.0005.4339946.274577

_cons|78.184761.20920264.660.00075.7642880.60524

------------------------------------------------------------------------------

回归方程

b=5.854286,a=78.18476

se(b)=0.2099654

回归系数检验:

H0:

β=0vsH1:

β≠0

回归系数统计量t=b/se(b)=5.854286/.2099654=27.88,P值<0.001,

95%CIofβ为(5.433994,6.274577)

1)简述单因素线性回归方程y=α+βx在实际分析中要注意的问题

(a)残差εi=yi-a-bxi,引入回归模型yi=α+βxi+εi

(b)εi~N(0,σ)且{εi}相互独立:

说明有三个条件:

i)εi服从正态分布

ii){εi}相同的方差σ2。

iii){εi}相互独立。

(c)不满足上述3个条件时,反映在实际回归分析时,有如下情况:

i)散点在直线一侧较多而且靠直线很近,当在直线的另一侧,散点较少,而且离直线较远,反映在误差项ε偏态分布。

ii)散点随着自变量x增大而离散程度增大或减小(喇叭口状),反映了误差项ε方差随着x变而变,即不满足相同方差(方差齐性)。

iii)随着xi变化而εi呈某种规律性的变化。

反映ε还含有x的信息未利用到,还可以继续改进回归模型。

问题1:

在同一总体中随机抽取2个相同样本量的样本,每个样本中都含有变量x和y,并以y为因变量和x为自变量,作线性回归,请问:

两个样本作出的回归方程一样吗?

它们之间什么关系?

问题2:

回归方程所示的直线与原始数据的关系是什么?

1)不同,它们之间存在抽样误差

2)回归分析统计背景:

对于固定自变量x,对y所在的总体进行抽样,得到在固定x情况下,y的样本值,因此对于每个xi,得到对应的抽样值yi。

即:

资料为:

(x1,y1),(x2,y2),…,(xn,yn)。

因此对于同一个x值,y所对应的总体均数相同,不同的x值,y所对应的总体均数可能不同。

如果y的总体均数值与x的关系呈直线关系,则样本资料(x1,y1),(x2,y2),…,(xn,yn)呈带状直线散点图。

由于抽样资料y=总体均数+抽样误差

因此如果y的总体均数值与x呈直线关系,则抽样资料

当,则对于固定x,,而用样本资料(x1,y1),(x2,y2),…,(xn,yn)所估计得到的回归方程是固定x情况下,y的总体均数与x的线性方程的表达式。

即:

b是β的样本估计值(无偏估计),a是α的样本估计值(无偏估计),是的样本估计值。

抽样误差(估计值)=样本资料-(a+bx)(即:

的估计值:

残差)

所以要求回归分析的资料,其残差服从正态分布,且与x无关、方差齐性。

2)引入多元线性回归模型定义

(a)例3-1,研究女中学生的肺活量与体重和胸围的关系,随机抽样了10名女中学生的体重x1(kg),胸围x2(cm)和肺活量y(ml),资料如表3-1,试建立一个因变量为y对自变量x1,x2的线性回归方程。

(b)对于相同的体重x1和胸围x2,考查女中学生的肺活量y总是有一定的变异的,但总对应有一个总体均数μy|X,而且总体均数μy|X可能与体重x1和胸围x2有关。

x1和x2与总体均数μy|X最简单的关系为线性关系:

i)同样的x1和x2,观察值y与总体均数μy总有一定的随机误差ε,即y-μy|X=ε,因此

ii)若ε~N(0,σ2)分布且独立,而观察值,则称肺活量y、体重x1和胸围x2符合线性回归模型

(c)对于一般的线性回归模型定义为:

i)设有p个观察自变量x1,x2,…,xp,并用向量

X=(x1,x2,…,xp)’,因变量为y,且记y的总体均数为,随机误差ε~N(0,σ2)且独立,则线性回归模型可以表示为

对于观察值(y1,X1),(y2,X2),…,(yn,Xn),其中Xi=(xi1,xi2,…,xip),i=1,2,…,n。

对应的线性回归模型为

且独立。

在本例中,作线性回归如下:

(介绍一下数据结构)

.regressyx1x2

Source

SS

df

MS

Numberofobs=10

F(2,7)=6.75

回归平方和

回归均方和

Model

1895106.55

2

947553.275

Prob>F=0.0232

残差平方和

残差均方和

决定系数

Residual

982143.45

7

140306.207

R-squared=0.6587

校正和决定系数

AdjR-squared=0.5611

Total

2877250.00

9

319694.444

RootMSE=374.57

总平方和SS总描述样本量为n=10的因变量y总的变异。

回归平方和SSR描述了样本量为n时,由自变量x1,x2变化而引起的因变量y的这部分变异,SSe描述了样本量为n时,由随机误差项ε所引起的因变量y的一部分变异,因此:

总变异=自变量引起y的变异+随机误差ε引起变异

对应:

SS总=SS回归+SS误差

由于SS总,SS回归和SS误差均与样本量n有关,样本量n越大,对应变异就越大。

所以取平均变异指标:

均方差MS

回归系数

回归系数标准误

t值

P值

95%可信区间

y

Coef.

Std.Err.

t

P>|t|

[95%Conf.Interval]

x1

113.9987

38.31109

2.976

0.021

23.40741

20

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 经管营销 > 公共行政管理

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1