第十章 直线回归与相关.docx

上传人:b****7 文档编号:10783214 上传时间:2023-02-22 格式:DOCX 页数:30 大小:23.36KB
下载 相关 举报
第十章 直线回归与相关.docx_第1页
第1页 / 共30页
第十章 直线回归与相关.docx_第2页
第2页 / 共30页
第十章 直线回归与相关.docx_第3页
第3页 / 共30页
第十章 直线回归与相关.docx_第4页
第4页 / 共30页
第十章 直线回归与相关.docx_第5页
第5页 / 共30页
点击查看更多>>
下载资源
资源描述

第十章 直线回归与相关.docx

《第十章 直线回归与相关.docx》由会员分享,可在线阅读,更多相关《第十章 直线回归与相关.docx(30页珍藏版)》请在冰豆网上搜索。

第十章 直线回归与相关.docx

第十章直线回归与相关

第十章直线回归与相关

本章介绍双变量资料的直线回归(linearregression)与直线相关

(linearcorrelation)的统计方法,用以研究两个变量的数量关系,包括统

计描述和统计推断。

第一节直线回归

一、直线回归方程

统计研究的双变量有2种情况:

①一个变量是选定变量,以X表示,其

X值是选定的;一个变量是随机变量,以Y表示,其Y值是随机变化的。

学和生物学中常见的是各X值处Y服从正态分布。

例如选定变量为年龄X,

用1岁作间距,随机变量为各岁处人群的身高Y,则各X值处Y服从正态分

布。

②两个变量都是随机变量,以X和Y表示。

常见的是(X,Y)服从双变

量正态分布(bivariationnormaldistribution),即任意X值处Y服从正

态分布,任意Y值处X服从正态分布。

例如某个人群的身高和体重用X和Y

表示,则(X,Y)服从双变量正态分布。

双变量资料的统计方法是研究随机变量和选定变量或两个随机变量的数

量关系。

这种研究是群体研究,其数量关系为统计关系或不确定关系。

X值

处的个体Y值是不确定的,而是以其均数为中心随机变化。

例如不同年龄处

的个体身高值是不确定的,而是以该年龄的身高均数为中心而随机变化。

和一般数学研究两个变量的个体函数关系或确定关系不同。

两个变量的数量关系就研究目的来说有依存关系和互依关系。

依存关系

中一个为自变量,常以X表示;一个为应变量,常以Y表示。

研究X对Y的

作用或Y对X的依赖,用回归分析。

互依关系中两个变量可令为X和Y。

究X和Y的彼此关系或彼此影响,用相关分析。

一般说来,相关分析只适用

于双随机变量。

两个变量的数量关系就数学形式来说有直线关系和曲线关系(或非直线

关系)。

直线关系为最简单和最基本关系,用直线回归与直线相关描述。

节介绍直线回归。

如果选定变量各X值处随机变量Y服从正态分布且方差相等,各X值

处Y的总体均数μ

Y.x

不等且在一条直线上,则该直线称为总体的μ

Y.X

对X

的回归直线。

双变量正态分布总体若X和Y的总体相关系数(见下节)不等

于零,则存在μ

Y.X

对X和μ

Y.X

(Y值处X的总体均数)对Y的两条回归直线,

但实际应用中一般只研究一条回归直线,可定自变量为X,应变量为Y。

设样本的n对变量值为:

(X

1

,Y

2

),(X

2

,Y

2

),…,(X

n

,Y

n

)。

果观察到Y随X的变化有直线趋势,即Y随X增大而有相应的增大或减小趋

势,把n对变量值在直角坐标图上描出相应的n点,散点图(scatter

diagram)呈直线趋势(并非所有散点恰在1条直线上),则可拟合样本Y

对X的直线回归方程(linearregressionequation),作为总体直线回归

方程的估计。

据样本n对变量值拟合直线回归方程的方法用最小二乘法

(leastsquaremethod),即使各散点离回归直线的纵向距离平方和为最小。

样本直线回归方程及其计算公式为

YabX=+(·)101

b

XXYY

XX

XYYn

XXn

=

?

?

?

=

?

?

∑∑

∑∑

()()

()

()/

()/

222

(·)102

()aYbXYnbXn=?

?

?

∑∑/()/(·)103

Y为值处的总体均数(μ)的估计值。

为常数项,是回归直线XYa

Y.X

线在Y轴上的截距。

b称为直线回归系数,简称回归系数(regression

coefficient),是直线的斜率。

回归系数b描述Y依赖X的直线变化的数量

关系的方向与大小。

为了进行直观分析,可据直线回归方程绘制回归直线。

在X的实测全距

范围内任取相距较远且易读数的两个X值,代入直线回归方程求得两个Y值,

把这两对变量值在直角坐标图上描两点,通过两点连直线。

直线回归方程及相应的回归直线的主要用途有:

①描述应变量依赖自变

量变化而变化的数量关系。

例如描述儿童身高依赖年龄变化而变化的数量关

系。

②由易测的变量值来估算难测的变量值。

如用病人体重来估算其体表面

积。

③由现在的变量值来预测将来的变量值。

如由父亲身高来预测儿子成人

后的身高。

④由于引入自变量,缩减了应变量的变异,因此能更精密地确定

不同自变量值处应变量值的正常值范围。

例如若不考虑年龄,小儿体重的变

异范围大,即正常值范围宽,引入年龄作为体重的自变量,各年龄处小儿体

重的变异减小,正常值范围变窄。

例10·1某地10名女中学生的体重与肺活量如表10-1的第

(1)、

(2)、

(3)栏。

①以体重为X(kg)、肺活量为Y(L),绘制散点图,观察有无直

线趋势。

②若有直线趋势,拟合Y对X的直线回归方程。

如图10-1,把表10-1的10对(X,Y)值在直角坐标图上描出相应的

10点。

观察到散点图有直线趋势。

于是拟合Y对X的直线回归方程。

计算表

如表10-1,其相关系数的计算见下节。

b=

?

×

?

==

94655405231510

1650140510

8975

985

00911

2

../

/

.

.

.

a=23.15/10-0.0911405/10=-1.3746×

故得女中学生肺活量Y(L)对体重X(kg)的直线回归方程为

Y=-1.3746+0.0911X

据拟合的直线回归方程绘制回归直线:

取则×

取则×

X=35Y=-1.3746+0.091135=1.81

X=45Y=-1.3746+0.091145=2.72

11

22

如图10-1,把(35,1.81)和(45,2.72)在直角坐标图上描出2点,

通过这2点连直线即得回归直线。

回归直线应在X的实测全距范围内或估计

的实际可应用范围内绘制,不要任意延长。

表10-1某地10名女中学生的体重X(kg)与肺活量Y(L)的

直线回归方程及相关系数的计算

编号XYX

2

Y

2

XY

(1)

(2)(3)(4)(5)(6)

1351.6012252.560056.00

2371.6013692.560059.20

3372.4013695.760088.80

4402.1016004.410084.00

5402.6016006.7600104.00

6422.5017646.2500105.00

7422.6517647.0225111.30

8432.7518497.5625118.25

9442.7519367.5625121.00

10452.2020254.840099.00

合计40523.151650155.2875946.55

图10-110名女中学生体重与肺活量的散点图及拟合的肺活量对体重的回归

直线

二、总体回归系数的假设检验

总体μ

Y.X

(X值处Y的总体均数)对X的直线回归方程的回归系数用β

表示。

若β=0,则各X值处μ

Y.X

相等,Y的变化不依赖X,即总体不存在μ

Y.X

对X的直线回归方程及相应回归直线;只有β≠0时总体才存在μ

Y.X

对X

的回归直线。

因此推断总体是否存在μ

Y.X

对X的回归直线,即推断总体回归

系数β是否等于零。

样本回归系数b为总体回归系数β的点估计,样本直线

回归方程为总体直线回归方程的估计。

显然只有β≠0,所拟合的样本直线回

归方程及绘制样本回归直线才有意义。

总体回归系数的假设检验的检验假设(或无效假设)H

0

为β=0;备择假

设H

1

一般用双侧β≠0。

如果H

0

成立,则b和0的差别完全由抽样误差造成。

样本检验统计量为t,称为样本回归系数b和总体回归系数0比较的t检验。

计算t值的公式为

t

b

s

b

s

vn

bb

=

?

==?

||||0

2(·)104

式中s

b

为回归系数的标准误,计算公式为:

s

S

XX

b

YX=

?

.

()

2

(·)105

式中s

Y.X

为Y的剩余标准差,是扣除X的影响后Y的变异指标,计算公

式为

s

YY

n

YX.

()

=

?

?

2

2

(·)106

式中()为的剩余平方和,即直角坐标图上各散点离回归Y-YY

2∑

直线的纵向距离平方和,计算公式为

[]

()()

()()

()

YYYY

XXYY

XX

?

=?

?

?

?

?

22

2

2

(·)107

式中,其他可用求值的(·)式的()Y-Y=Y-(Y)/nb102

222∑∑∑

分子和分母数据。

例10·2据例10·1中某地10名女中学生的体重与肺活量资料,问是

否存在该地女中学生的肺活量对体重的回归直线?

即例10·1中所拟合的样

本直线回归方程是否有意义?

设该地女中学生总体肺活量对体重的回归系数为β,假设为:

H

0

β=0

H

1

β≠0

α=0.05

在例·中已算得,,101b=0.0911X-XY-=8.975X-X()()()Y∑∑

2

=98.5。

现据表10-1中数据算得

()../.YY?

=?

=∑

22

55287523151016953

然后算得

()../..YY?

=?

=∑

22

16953897598508775

s

s

YX

b

.

.

.

.

.

.

=

?

=

==

08775

102

03312

03312

985

00334

据(10·9)式有

t==

=?

?

00911

00334

2728

1028

.

.

.

ν

查t界值表得P<0.05。

按a=0.05水准拒绝H

0

,接受H

1

,认为存在该地

女中学生的肺活量对体重的回归直线,因此例10·1中所拟合的样本直线回

归方程有意义。

第二节直线相关

一、相关系数

直线相关适用于服从双变量正态分布的双随机变量。

直线相关研究两个

变量X和Y的互依关系,即X和Y协同变化的数量关系。

直线相关系数简称相关系数(correlationcoefficient),用以描述两

个变量直线相关的方向与紧密程度。

总体相关系数用ρ表示,样本相关系数

用r表示。

由样本n对变量值(X

1

,Y

1

),(X

2

,Y

2

),…,(X

n

,Y

n

)求r

的公式为

[][]

r

XXYY

XXYY

XYXYn

XXnYYn

=

?

?

?

=

?

?

?

∑∑

∑∑∑

∑∑∑∑

()(_)

()()

()()/

()/()/

222222

(·)108

相关系数没有单位,其取值范围为:

-1≤r(或ρ)≤1。

相关系数r的意义可用图10-2说明。

若散点图呈椭圆形分布,X和Y

有同时增大或减小的趋势,则0<r<1,称为正相关;若X和Y有一个增大、

另一个减小的趋势,则-1<r<0,称为负相关。

r=1为完全正相关;r=-1

为完全负相关。

完全相关散点都在一条直线上,即X和Y有确定函数关系。

两个随机变量不可能完全相关。

r=0,称为零相关。

零相关表示X和Y没有协

同变化的数量关系,如图中所示常见的3种零相关情况。

因此零相关实际可

认为是无相关。

注意的是:

r是就双变量(X,Y)的样本而言,就总体而言

应该用ρ。

图10-2相关系数的意义示意图

例10·3求例10·1中某地10名女中学生体重和肺活量的相关系数。

据表10-1有

()

r=

?

×

?

?

94655405231510

1650140510652875231510

22

../

/(../)

0.6945

该地10名女中学生体重和肺活量的相关系数为0.6945。

二、总体相关系数的假设检验

双变量(X,Y)正态分布总体X和Y的相关系数为ρ。

若ρ=0,则X和

Y无相关;只有ρ≠0时X和Y才有直线相关关系,ρ>0为正相关,ρ<0

为负相关。

因此推断总体的X和Y有无直线相关关系,即推断总体相关系数

ρ是否等于零。

样本相关系数r反映样本中n对变量值直线相关的方向与紧

密程度,为总体相关系数ρ的点估计。

显然只有ρ≠0,所求得的样本相关系

数才有意义。

总体相关系数的假设检验的检验假设(或无效假设)H

0

为ρ=0;备择假

设H

1

双侧为ρ≠0,单侧为ρ>0或ρ<0。

如果H

0

成立,则r和0的差别完

全由抽样误差造成。

样本检验统计量为t,称为样本相关系数r和总体相关

系数0比较的t检验。

计算t值的公式为

t

r

s

r

r

n

n

r

=

?

=

?

?

=?

||||0

1

2

2

2

ν(·)109

式中s

r

为相关系数的标准误。

例10·4据例10·1中某地10名女中学生的体重与肺活量资料,问体

重和肺活量有无直线相关关系?

设该地女中学生总体体重和肺活量的相关系数为ρ,假设为:

H

0

ρ=0

H

1

ρ≠0

α=0.05

今n=10,在例10·3中已算得r=0.6945。

据(10·9)式有

t=

?

?

=

=?

=

06945

106945

102

2730

1028

2

.

.

.

ν

查t界值表得P<0.05。

按α=0.05水准拒绝H

0

,接受H

1

,认为该地女

中学生的体重和肺活量有正的直线相关关系。

现在总结说明直线回归和直线相关的一些注意事项:

1.直线回归反映两变量间的依存关系,直线相关反映两变量间的互依关

系,依存关系和互依关系都是数量关系,其实际的因果关系要靠专业知识阐

述。

因此不要把实际毫无关联的医学指标或现象作相关与回归分析。

2.对于

X选定、Y服从正态分布的双变量,只作直线回归分析;若(X,Y)服从双变

量正态分布,则既可作直线相关分析;又可作直线回归分析。

3.b的正负和r

的正负相同(r=0时b=0,r>0时b>0,r<0时b<0)。

推断β是否等于0

和推断ρ是否等于0等价,对同一样本用两种推断方法求得的t值相等。

对例10·1中的样本,例10·2中求得t=2.728,例10·4中求得t=2.730

(其微小差别是由于计算过程中的舍入误差)。

若(X,Y)服从双变量正态

分布,一般先作直线相关,如需要再作直线回归。

作直线回归需在作直线相

关推断出ρ≠0才可进行,此时定会推断出β≠0,不必重复推断。

4.回归系数和相关系数的绝对值大小无直接关系,其意义不同:

|r|越

大,表示X和Y相关越紧密,各散点越靠近回归直线;|b|越大,表示Y随X

变化越快,回归直线越陡。

5.双变量的小样本经t检验只能推断两变量间有无直线相关,而不能推

断相关的紧密程度。

要推断两变量间相关的紧密程度,样本含量必须很大,

比如n>100。

此时抽样误差很小,可认为样本相关系数近似等于总体相关系

数,一般|r|≥0.7表示高度相关,0.4≤|r|<0.7表示中度相关,|r|<0.4

表示低度相关。

6.不服从双变量正态分布的两个随机变量,若要作相关分析,可计算等

级相关系数r

s

(见下节)。

第三节等级相关

若X和Y都为随机变量,但不服从双变量正态分布,特别是有率或构成

比等相对数作变量,或本来就是等级变量时,要研究X和Y的互依关系,可

用本节介绍的Spearman的等级相关(rankcorrelation)。

把样本n对变量值的X值和Y值分别从小到大编秩:

1,2,…,n,若遇

相同X值或相同Y值则取平均秩次(如有2个X值相同,应排秩次为3、4,

则2个X值都取平均秩次3.5)。

这样就把n对变量值转换成n对秩次,各

对秩次之差记为d

1

,d

2

,…,d

n

求等级相关系数r

s

的公式为

r

d

nn

s

=?

?

1

6

1

2

2

()

(·)1010

r

s

用以描述n对变量值转换成的n对秩次的直线相关的方向与紧密程

度:

-1≤r

s

≤1,r

s

>0表示正相关,r

s

<0表示负相关,|r

s

|越大表示相关越

紧密。

样本等级相关系数r

s

为总体等级相关系数ρ

s

的点估计,用以推断ρ

s

是否等于零来达到推断总体的X和Y有无相关的目的。

总体等级相关系数的假设检验的检验假设(或无效假设)H

0

为ρ

s

=0;备

择假设H

1

双侧为ρ

s

≠0,单侧为ρ

s

>0或ρ

s

<0。

如果H

0

成立,则r

s

和0

的差别完全由抽样误差造成。

当n≤50时,制作有专门的r

s

界值表,如表10

-2,用以求H

0

成立时由抽样误差造成r

s

和0差别的P值,r

s

≥r

s(a,n)

时P

≤α,r

s

<r

s(a,n)

时P>α;当n>50时,可和r一样用(10·9)式求t值

进行t检验。

表10—2r

s

界值表

概率(P)概率(P)

nn

双侧:

0.100.050.020.01双侧:

0.100.050.020.01

单侧:

0.050.0250.010.005单侧:

0.050.0250.010.005

41.000280.3170.3750.4400.483

50.9001.0001.000290.3120.3680.4330.475

300.3060.3620.4250.467

60.8290.8860.8431.000

70.7140.7860.8930.929310.3010.3560.4180.459

80.6430.7380.8330.881320.2960.3500.4120.452

90.6000.7000.7830.833330.2910.3450.4050.446

100.5640.6480.7450.794340.2870.3400.3990.439

350.2830.335.3940.433

110.5360.6180.7090.755

120.5030.5870.6780.727360.2790.3300.3880.427

130.4840.5600.6480.703370.2750.3250.3830.421

140.4640.5380.6260.679380.2710.3210.3780.415

150.4460.5210.6040.654390.2670.3170.3730.410

400.2640.3130.3680.405

160.4290.5030.5820.635

170.4140.4850.5660.615410.2610.3090.3640.400

180.4010.4720.5500.600420.2570.3050.3590.395

190.3910.4600.5350.584430.2540.3010.3550.391

200.3800.4470.5200.570440.2510.2980.3510.386

450.2480.2940.3470.382

210.3700.4350.5080.556

220.3610.4250.4960.544460.2460.2910.3430.378

230.3530.4150.4860.532470.2430.2880.3400.374

240.3440.4060.4760.521480.2400.2850.3360.370

250.3370.3980.4660.511490.2380.2820.3330.366

500.2350.2790.3290.363

260.3310.3900.4570.501

270.3240.3820.4480.491

例10·5在肝癌病因研究中,某地调查了10个乡肝癌死亡率(1/10万)

与某种食物中黄曲霉毒素相对含量(最高含量计为10),调查结果如表10

—3的第

(1)、

(2)、(4)栏,问黄曲霉毒素和肝癌死亡率间是否存在正相关?

设黄曲霉毒素和肝癌死亡率的总体等级相关系数为ρ

s

,假设为:

H

0

ρ

s

=0

H

1

ρ

s

>0

单侧α=0.05

今n=10,表10—3中算得Σd2=42。

据(10·10)式有

r

s

=?

×

?

=1

642

10101

0745

2

()

.

查r

s

界值表得P=0.01。

按α=0.05水准拒绝H

0

,接受H

1

,认为黄曲霉毒

素和肝癌死亡率间存在正相关。

注意:

计算r

s

的公式(10·10)来源于计算r的公式(10·8),只要

把变量值对转换成秩次对。

当有相同秩次时,(10·10)式需校正,校正公

式比较复杂。

如计算r

s

时有相同秩次,不要用公式(10·10)计算,可根据

转换的秩次对用公式(10·8)计算。

表10-310个乡肝癌死亡率与黄曲霉毒素相对含量

乡编号黄曲霉毒素相对含量肝癌死亡率(1/10万)

X秩次Y秩次

dd

2

(1)

(2)(3)(4)(5)(6)=(3)-(5)(7)

10.7121.53-24

21.0218.9200

31.7314.4124

43.7446.57-39

54.0527.3411

65.1664.69-39

75.5746.3611

85.7834.2539

95.9977.610-11

1010.01055.1824

42

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 能源化工

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1