第十章 直线回归与相关Word文件下载.docx
《第十章 直线回归与相关Word文件下载.docx》由会员分享,可在线阅读,更多相关《第十章 直线回归与相关Word文件下载.docx(23页珍藏版)》请在冰豆网上搜索。
的个体身高值是不确定的,而是以该年龄的身高均数为中心而随机变化。
这
和一般数学研究两个变量的个体函数关系或确定关系不同。
两个变量的数量关系就研究目的来说有依存关系和互依关系。
依存关系
中一个为自变量,常以X表示;
一个为应变量,常以Y表示。
研究X对Y的
作用或Y对X的依赖,用回归分析。
互依关系中两个变量可令为X和Y。
研
究X和Y的彼此关系或彼此影响,用相关分析。
一般说来,相关分析只适用
于双随机变量。
两个变量的数量关系就数学形式来说有直线关系和曲线关系(或非直线
关系)。
直线关系为最简单和最基本关系,用直线回归与直线相关描述。
本
节介绍直线回归。
如果选定变量各X值处随机变量Y服从正态分布且方差相等,各X值
处Y的总体均数μ
Y.x
不等且在一条直线上,则该直线称为总体的μ
Y.X
对X
的回归直线。
双变量正态分布总体若X和Y的总体相关系数(见下节)不等
于零,则存在μ
对X和μ
(Y值处X的总体均数)对Y的两条回归直线,
但实际应用中一般只研究一条回归直线,可定自变量为X,应变量为Y。
设样本的n对变量值为:
(X
1
,Y
2
),(X
),…,(X
n
)。
如
果观察到Y随X的变化有直线趋势,即Y随X增大而有相应的增大或减小趋
势,把n对变量值在直角坐标图上描出相应的n点,散点图(scatter
diagram)呈直线趋势(并非所有散点恰在1条直线上),则可拟合样本Y
对X的直线回归方程(linearregressionequation),作为总体直线回归
方程的估计。
据样本n对变量值拟合直线回归方程的方法用最小二乘法
(leastsquaremethod),即使各散点离回归直线的纵向距离平方和为最小。
样本直线回归方程及其计算公式为
)
YabX=+(·
)101
b
XXYY
XX
XYYn
XXn
=
?
∑
∑∑
()()
()
()/
222
(·
)102
()aYbXYnbXn=?
∑∑/()/(·
)103
Y为值处的总体均数(μ)的估计值。
为常数项,是回归直线XYa
线在Y轴上的截距。
b称为直线回归系数,简称回归系数(regression
coefficient),是直线的斜率。
回归系数b描述Y依赖X的直线变化的数量
关系的方向与大小。
为了进行直观分析,可据直线回归方程绘制回归直线。
在X的实测全距
范围内任取相距较远且易读数的两个X值,代入直线回归方程求得两个Y值,
把这两对变量值在直角坐标图上描两点,通过两点连直线。
直线回归方程及相应的回归直线的主要用途有:
①描述应变量依赖自变
量变化而变化的数量关系。
例如描述儿童身高依赖年龄变化而变化的数量关
系。
②由易测的变量值来估算难测的变量值。
如用病人体重来估算其体表面
积。
③由现在的变量值来预测将来的变量值。
如由父亲身高来预测儿子成人
后的身高。
④由于引入自变量,缩减了应变量的变异,因此能更精密地确定
不同自变量值处应变量值的正常值范围。
例如若不考虑年龄,小儿体重的变
异范围大,即正常值范围宽,引入年龄作为体重的自变量,各年龄处小儿体
重的变异减小,正常值范围变窄。
例10·
1某地10名女中学生的体重与肺活量如表10-1的第
(1)、
(2)、
(3)栏。
①以体重为X(kg)、肺活量为Y(L),绘制散点图,观察有无直
线趋势。
②若有直线趋势,拟合Y对X的直线回归方程。
如图10-1,把表10-1的10对(X,Y)值在直角坐标图上描出相应的
10点。
观察到散点图有直线趋势。
于是拟合Y对X的直线回归方程。
计算表
如表10-1,其相关系数的计算见下节。
b=
×
==
94655405231510
1650140510
8975
985
00911
../
/
.
a=23.15/10-0.0911405/10=-1.3746×
故得女中学生肺活量Y(L)对体重X(kg)的直线回归方程为
Y=-1.3746+0.0911X
据拟合的直线回归方程绘制回归直线:
取则×
X=35Y=-1.3746+0.091135=1.81
X=45Y=-1.3746+0.091145=2.72
11
22
如图10-1,把(35,1.81)和(45,2.72)在直角坐标图上描出2点,
通过这2点连直线即得回归直线。
回归直线应在X的实测全距范围内或估计
的实际可应用范围内绘制,不要任意延长。
表10-1某地10名女中学生的体重X(kg)与肺活量Y(L)的
直线回归方程及相关系数的计算
编号XYX
Y
XY
(1)
(2)(3)(4)(5)(6)
1351.6012252.560056.00
2371.6013692.560059.20
3372.4013695.760088.80
4402.1016004.410084.00
5402.6016006.7600104.00
6422.5017646.2500105.00
7422.6517647.0225111.30
8432.7518497.5625118.25
9442.7519367.5625121.00
10452.2020254.840099.00
合计40523.151650155.2875946.55
图10-110名女中学生体重与肺活量的散点图及拟合的肺活量对体重的回归
直线
二、总体回归系数的假设检验
总体μ
(X值处Y的总体均数)对X的直线回归方程的回归系数用β
表示。
若β=0,则各X值处μ
相等,Y的变化不依赖X,即总体不存在μ
对X的直线回归方程及相应回归直线;
只有β≠0时总体才存在μ
对X
因此推断总体是否存在μ
对X的回归直线,即推断总体回归
系数β是否等于零。
样本回归系数b为总体回归系数β的点估计,样本直线
回归方程为总体直线回归方程的估计。
显然只有β≠0,所拟合的样本直线回
归方程及绘制样本回归直线才有意义。
总体回归系数的假设检验的检验假设(或无效假设)H
为β=0;
备择假
设H
一般用双侧β≠0。
如果H
成立,则b和0的差别完全由抽样误差造成。
样本检验统计量为t,称为样本回归系数b和总体回归系数0比较的t检验。
计算t值的公式为
t
s
vn
bb
==?
||||0
2(·
)104
式中s
为回归系数的标准误,计算公式为:
S
YX=
)105
Y.X
为Y的剩余标准差,是扣除X的影响后Y的变异指标,计算公
式为
YY
YX.
)106
式中()为的剩余平方和,即直角坐标图上各散点离回归Y-YY
2∑
直线的纵向距离平方和,计算公式为
[]
YYYY
=?
)107
式中,其他可用求值的(·
)式的()Y-Y=Y-(Y)/nb102
222∑∑∑
分子和分母数据。
2据例10·
1中某地10名女中学生的体重与肺活量资料,问是
否存在该地女中学生的肺活量对体重的回归直线?
即例10·
1中所拟合的样
本直线回归方程是否有意义?
设该地女中学生总体肺活量对体重的回归系数为β,假设为:
H
:
β=0
β≠0
α=0.05
在例·
中已算得,,101b=0.0911X-XY-=8.975X-X()()()Y∑∑
=98.5。
现据表10-1中数据算得
()../.YY?
=∑
55287523151016953
然后算得
()../..YY?
16953897598508775
YX
08775
102
03312
00334
据(10·
9)式有
t==
?
2728
1028
ν
查t界值表得P<0.05。
按a=0.05水准拒绝H
,接受H
,认为存在该地
女中学生的肺活量对体重的回归直线,因此例10·
1中所拟合的样本直线回
归方程有意义。
第二节直线相关
一、相关系数
直线相关适用于服从双变量正态分布的双随机变量。
直线相关研究两个
变量X和Y的互依关系,即X和Y协同变化的数量关系。
直线相关系数简称相关系数(correlationcoefficient),用以描述两
个变量直线相关的方向与紧密程度。
总体相关系数用ρ表示,样本相关系数
用r表示。
由样本n对变量值(X
)求r
的公式为
[][]
r
XXYY
XYXYn
XXnYYn
∑∑∑
∑∑∑∑
()(_)
()()/
()/()/
222222
)108
相关系数没有单位,其取值范围为:
-1≤r(或ρ)≤1。
相关系数r的意义可用图10-2说明。
若散点图呈椭圆形分布,X和Y
有同时增大或减小的趋势,则0<r<1,称为正相关;
若X和Y有一个增大、
另一个减