统计学教案习题直线相关与回归.docx

上传人:b****6 文档编号:7792692 上传时间:2023-01-26 格式:DOCX 页数:21 大小:169.60KB
下载 相关 举报
统计学教案习题直线相关与回归.docx_第1页
第1页 / 共21页
统计学教案习题直线相关与回归.docx_第2页
第2页 / 共21页
统计学教案习题直线相关与回归.docx_第3页
第3页 / 共21页
统计学教案习题直线相关与回归.docx_第4页
第4页 / 共21页
统计学教案习题直线相关与回归.docx_第5页
第5页 / 共21页
点击查看更多>>
下载资源
资源描述

统计学教案习题直线相关与回归.docx

《统计学教案习题直线相关与回归.docx》由会员分享,可在线阅读,更多相关《统计学教案习题直线相关与回归.docx(21页珍藏版)》请在冰豆网上搜索。

统计学教案习题直线相关与回归.docx

统计学教案习题直线相关与回归

第一十章直线相关与回归

一、教学大纲要求

(一)掌握内容

⒈ 直线相关与回归的基本概念。

⒉ 相关系数与回归系数的意义及计算。

⒊ 相关系数与回归系数相互的区别与联系。

(二)熟悉内容

⒈ 相关系数与回归系数的假设检验。

⒉ 直线回归方程的应用。

⒊ 秩相关与秩回归的意义。

(三)了解内容曲线直线化。

二、学内容精要

(一)直线回归

1.基本概念

直线回归(linearregression)建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。

直线回归是回归分析中最基本、最简单的一种,故又称简单回归(simpleregression)。

直线回归方程

中,a、b是决定直线的两个系数,见表10-1。

表10-1直线回归方程a、b两系数对比

a

b

含义

回归直线在Y轴上的截距(intercept)。

表示X为零时,Y的平均水平的估计值。

回归系数(regressioncoefficient),即直线的斜率。

表示X每变化一个单位时,Y的平均变化量的估计值。

系数>0

a>0表示直线与纵轴的交点在原点的上方

b>0,表示直线从左下方走向右上方,即Y随X增大而增大

系数<0

a<0表示直线与纵轴的交点在原点的下方

b<0,表示直线从左上方走向右下方,即Y随X增大而减小

系数=0

a=0表示回归直线通过原点

b=0,表示直线与X轴平行,即Y不随X的变化而变化

计算公式

2.样本回归系数b的假设检验

(1)方差分析;

(2)t检验。

3.直线回归方程的应用

(1)描述两变量的依存关系;

(2)用回归方程进行预测;

(3)用回归方程进行统计控制;(4)用直线回归应注意的问题。

(二)直线相关

1.基本概念

直线相关(linearcorrelation)又称简单相关(simplecorrelation),用于双变量正态分布资料。

有正相关、负相关和零相关等关系。

直线相关的性质可由散点图直观的说明。

相关系数又称积差相关系数(coefficientofproduct-momentcorrelation),以符号r表示样

本相关系数,ρ表示总体相关系数。

它是说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。

2.计算公式

相关系数r没有单位,其值为-1≤r≤1。

其绝对值愈接近1,两个变量间的直线相关愈密切;愈接近0,相关愈不密切。

r值为正表示正相关,说明一变量随另一变量增减而增减,方向相同;r值为负表示负相关,说明一变量增加、另一变量减少,即方向相反;r的绝对值等于1为完全相关。

3.样本相关系数r的假设检验

(1)r界值表法;

(2)t检验法。

(三)直线回归与相关的区别与联系

1.区别

(1)资料要求:

直线回归要求因变量Y服从正态分布,X是可以精确测量和严格控制的变量,一般称为Ⅰ型回归;直线相关要求两个变量X、Y服从双变量正态分布。

这种资料若进行回归分析称为Ⅱ型回归。

(2)应用情况:

直线回归是说明两变量依存变化的数量关系;直线相关是说明两变量间的相关关系。

(3)意义:

b表示X每增(减)一个单位时,Y平均改变b个单位;r说明具有直线关系的两个变量间关系的密切程度与相关方向。

(4)计算:

b=lxy/lxx;r=lxy/

(5)取值范围:

—∞<b<+∞;-1≤r≤1。

(6)单位:

b有单位;r没有单位。

2.联系

(1)方向一致:

对一组数据若能同时计算b和r,它们的符号一致。

(2)假设检验等价:

对同一样本,r和b的假设检验得到的t值相等,即tb=tr。

(3)用回归解释相关:

决定系数

,回归平方和越接近总平方和,

则r2越接近1,说明引入相关的效果越好。

(四)秩相关

秩相关,又称等级相关(rankcorrelation),是用双变量等级数据作直线相关分析,适用于下列资料:

⒈ 不服从双变量正态分布而不宜作积差相关分析;

⒉ 总体分布型未知;

⒊ 用等级表示的原始数据。

三、典型试题分析

1.回归系数的假设检验()

A.只能用r的检验代替B.只能用t检验

C.只能用F检验D.三者均可

答案:

D[评析]本题考点:

回归系数假设检验方法的理解。

回归系数的假设检验常用的方法有:

①方差分析;②t检验。

对同一样本,r和b的假设检验等价,r和b的假设检验得到的t值相等,即tb=tr。

故回归系数的假设检验用三者均可。

2.已知r1=r2,那么()

A.b1=b2B.tb1=tb2

C.tr1=tr2D.两样本决定系数相等

答案:

D[评析]本题考点:

直线相关系数与回归系数关系的理解。

因为相关系数r和回归系数b的计算公式不同,不能推导出b1=b2;r和b的假设检验等价,即tr1=tb1,tr2=tb2,而不是tb1=tb2,tr1=tr2;样本决定系数为r2,已知r1=r2,则两样本决定系数相等,即r12=r22。

3.|r|>r0.05(n-2)时,可认为两变量X与Y间()

A.有一定关系B.有正相关关系

C.一定有直线关系D.有直线关系

答案:

D[评析]本题考点:

直线相关系数假设检验的理解。

因为直线相关系数r是样本的相关系数,它是相应总体相关系数ρ的估计值。

由于抽样误差的影响,必须进行显著性检验。

r的假设检验是检验两变量是否有直线相关关系。

|r|>r0.05(n-2)时,P<0.05,拒绝H0,接受H1,认为总体相关系数ρ≠0,因此可认为两变量X与Y间有直线关系。

4.相关系数检验的无效假设H0是()

A.ρ=0B.ρ≠0

C.ρ>0D.ρ<0

答案:

A[评析]本题考点:

直线相关系数显著性检验中检验假设的理解。

因为r是样本相关系数,它是总体相关系数ρ的估计值。

要判两变量间是否有相关关系,就要检验r是否来自总体相关系数ρ为零的总体。

因为即使从ρ=0的总体作随机抽样,由于抽样误差的影响,所得r值也常不等于零。

5.同一双变量资料,进行直线相关与回归分析,有()。

A.r>0,b<0B.r>0,b>0

C.r<0,b>0D.r与b的符号毫无关系

答案:

B[评析]本题考点:

直线相关与回归的区别与联系的理解。

因为对同一资料而言直线相关系数与回归系数的方向一致,若能同时计算b和r,它们的符号一致。

因此,同一双变量资料,进行直线相关与回归分析,有r>0,b>0。

四、习题

(一)单项选择题

1.下列()式可出现负值。

A.∑(X—

)2B.∑Y2—(∑Y)2/n

C.∑(Y—

)2D.∑(X—

)(Y—

2.Y=14+4X是1~7岁儿童以年龄(岁)估计体重(市斤)的回归方程,若体重换成国际单位kg,则此方程()。

A.截距改变B.回归系数改变

C.两者都改变D.两者都不改变

3.已知r=1,则一定有()。

A.b=1B.a=1

C.SY.X=0D.SY.X=SY

4.用最小二乘法确定直线回归方程的原则是各观察点()。

A.距直线的纵向距离相等

B.距直线的纵向距离的平方和最小

C.与直线的垂直距离相等

D.与直线的垂直距离的平方和最小

5.直线回归分析中,X的影响被扣除后,Y方面的变异可用指标()表示。

A.

B.

C.

D.

6.直线回归系数假设检验,其自由度为()。

A.nB.n-1

C.n-2D.2n-1

7.应变量Y的离均差平方和划分,可出现()。

A.SS剩=SS回B.SS总=SS剩

C.SS总=SS回D.以上均可

8.下列计算SS剩的公式不正确的是()。

A.

B.

C.

D.

9.直线相关系数可用()计算。

A.

B.

C.

D.以上均可

10.当r=0时,

回归方程中有()。

A.a必大于零B.a必等于

C.a必等于零D.a必等于

(二)名词解释

1.直线回归2.回归系数3.剩余平方和4.回归平方和5.直线相关

6.零相关7.相关系数8.决定系数9.曲线直线化10.秩相关

(三)是非题

1.剩余平方和SS剩1=SS剩2,则r1必然等于r2。

2.直线回归反映两变量间的依存关系,而直线相关反映两变量间的相互直线关系。

3.两变量关系越密切r值越大。

(四)简答题

1.用什么方法考察回归直线图示是否正确?

2.剩余标准差的意义和用途?

3.某资料n=100,X与Y的相关系数为r=0.1,可否认为X与Y有较密切的相关关系?

4.r与rs的应用条件有何不同?

5.应用直线回归和相关分析时应注意哪些问题?

6.举例说明如何用直线回归方程进行预测和控制?

7.直线回归分析时怎样确定因变量与自变量?

(五)计算题

1.10名20岁男青年身高与前臂长的数据见表10-2。

⑴计算相关系数并对ρ=0进行假设检验;

⑵计算总体ρ的95%可信区间。

表10-210名20岁男青年身高与前臂长

身高(cm)

170

173

160

155

173

188

178

183

180

165

前臂长(cm)

45

42

44

41

47

50

47

46

49

43

2.某单位研究代乳粉营养价值时,用大白鼠作实验,得到大白鼠进食量和增加体重的数据见表10-3。

⑴此资料有无可疑的异常点?

⑵求直线回归方程并对回归系数作假设检验。

⑶试估计进食量为900g时,大白鼠的体重平均增加多少,计算其95%的可信区间,并说明其含义。

⑷求进食量为900g时,个体Y值的95%容许区间,并解释其意义。

表10-3八只大白鼠的进食量和体重增加量

鼠号

1

2

3

4

5

6

7

8

进食量(g)

800

780

720

867

690

787

934

750

增量(g)

185

158

130

180

134

167

186

133

3.某省卫生防疫站对八个城市进行肺癌死亡回顾调查,并对大气中苯并(a)芘进行监测,结果如下,试检验两者有无相关?

表10-4八个城市的肺癌标化死亡率和大气中苯并(a)芘浓度

城市编号

1

2

3

4

5

6

7

8

肺癌标化死亡率(1/10万)

5.60

18.50

16.23

11.40

13.80

8.13

18.00

12.10

苯并(a)芘(μg/100m3)

0.05

1.17

1.05

0.10

0.75

0.50

0.65

1.20

4.就下表资料分析血小板和出血症的关系。

表10-512例病人的血小板浓度和出血症的关系

病例号

1

2

3

4

5

6

7

8

9

10

11

12

血小板数(109/L)

120

130

160

310

420

540

740

1060

1260

1230

1440

2000

出血症状

++

+++

±

+

+

++

五、习题答题要点

(一)单项选择题

1.D2.C3.C4.B5.C6.C7.D8.B9.D10.D

(二)名词解释

1.直线回归(linearregression)建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。

直线回归是回归分析中最基本、最简单的一种,故又称简单回归(simpleregression)。

2.回归系数(regressioncoefficient)即直线的斜率(slope),在直线回归方程中用b表示,b的统计意义为X每增(减)一个单位时,Y平均改变b个单位。

3.剩余平方和(residualsumofsquares),SS剩即

,它反映X对Y的线性影响之外的一切因素对Y的变异的作用,也就是在总平方和中无法用X解释的部分。

在散点图中,各实测点离回归直线越近,

也就越小,说明直线回归的估计误差越小。

4.回归平方和(regressionsumofsquares),SS回即

,它反映由于X与Y的直线关系而使Y的总变异所减小的部分,也就是在总平方和中可以用X解释的部分。

回归平方和越大,说明回归效果越好。

5.直线相关(linearcorrelation)又称简单相关(simplecorrelation),用于双变量正态分布资料。

有正相关、负相关和零相关等关系。

直线相关的性质可由散点图直观的说明。

6.零相关(zerrocorrelation)是指两变量间没有直线相关关系。

11.相关系数又称积差相关系数(coefficientofproduct-momentcorrelation),以符号r表示样本相关系数,ρ表示总体相关系数。

它是说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。

12.决定系数(coefficientofdetermination)即r的平方,

,说明当SS总固定不变时,回归平方和的大小决定了r平方的大小。

回归平方和越接近总平方和,则r平方值越接近1。

13.曲线直线化(rectification)是曲线拟合的重要手段之一。

对于某些非线性的资料可以通过简单的变量变换使之直线化,用直线回归分析方法来分析。

14.秩相关又称等级相关(rankcorrelation),是用双变量等级数据作直线相关分析,适用于下列资料:

⑴不服从双变量正态分布而不宜作积差相关分析;⑵总体分布型未知;⑶用等级表示的原始数据。

(三)是非题

1.错。

两样本剩余平方和SS剩1=SS剩2,但两样本总平方和SS总及回归平方和SS回不一定相等,故两样本相关系数r1与r2不一定相等。

2.正确。

3.错。

相关系数r有正负之分,其值为-1≤r≤1,在总体相关系数不为零,即两变量确有直线关系前提下,r绝对值愈接近1,两个变量间的直线相关愈密切;愈接近0,相关愈不密切。

(四)简答题

1.用以下三种方法判定:

⑴直线必须通过点(

)。

⑵若纵坐标、横坐标无折断号时,将此线左端延长与纵轴相交,交点的纵坐标必等于截距a。

⑶直线是否在自变量X的实测范围内。

2.剩余标准差用sY.X表示:

其意义是指当X对Y的影响被扣除后,Y方面仍有变异。

这部分变异与X无关,纯属抽样变异。

故sY.X是用来反映Y的剩余变异的,即不考虑X以后Y本身的随机变异。

剩余标准差可用于:

⑴估计回归系数b的标准误,

,进行回归系数的区间估计和假设检验。

⑵估计总体中当X为某一定值时,估计值

的标准误。

并可计算

的可信区间,sY.X可作为预报精度的指标。

⑶估计总体中当X为某一定值时,个体Y值的标准差。

,并计算个体Y值的容许区间。

3.n=100,r=0.1时,对相关系数进行t检验,按检验水准α=0.05,拒绝H0(ρ=0),接受H1(ρ≠0),认为两变量有相关关系,但决定系数r2=0.12=0.01,表示回归平方和在总平方和中仅占1%,说明两变量间相关关系实际意义不大。

4.积差相关系数r用于描述双变量正态分布资料的相关关系。

等级相关系数rs适用于下列资料:

⑴不服从双变量正态分布而不宜作积差相关分析的资料;

⑵总体分布型未知的资料;

⑶原始资料是用等级表示的资料。

5.注意以下五个问题

⑴作回归分析和相关分析时要有实际意义,不能把毫无关联的两种现象作回归、相关分析,必须对两种现象间的内在联系有所认识。

⑵在进行回归分析和相关分析之前,应绘制散点图。

但观察点的分布有直线趋势时,才适宜作回归、相关分析。

如果散点图呈明显曲线趋势,应使之直线化再行分析。

散点图还能提示资料有无可疑异常点。

⑶直线回归方程的应用范围一般以自变量的取值范围为限。

若无充分理由证明超过自变量取值范围外还是直线,应避免外延。

⑷双变量的小样本经t检验只能推断两变量间有无直线关系,而不能推断相关的紧密程度,要推断相关的紧密程度,样本含量必须很大。

⑸相关或回归关系不一定是因果关系,也可能是伴随关系,有相关或回归关系不能证明事物间确有内在联系。

6.用直线回归方程进行预测和控制的步骤

⑴根据研究目的确定预报因子(X)和预报量(Y),由X估计Y值,收集资料。

⑵建立预报方程

,并进行回归系数假设检验。

若P小于临界值,则回归方程成立。

⑶根据回归方程在X实测范围内对Y进行预测,并计算X为某定值时,个体Y值波动范围(容许区间)。

例如,1~7岁儿童,X为年龄,Y为体重,可根据年龄预测(估计)体重。

统计控制是利用回归方程进行逆估计,如要求因变量Y值在一定范围内波动,可以通过控制自变量X的取值来实现。

步骤同前。

例如,针刺哑门穴,进针深度Y与颈围X间存在直线关系,可根据X取值达到控制Y的目的。

7.Ⅰ型回归中,X为精密测量和严格控制的变量,Y为正态变量。

Ⅱ型回归中,X、Y均为服从正态分布的随机变量,可计算两个回归方程。

何者为X,何者为Y,根据研究目的确定。

例如,测得某一人群的身高和体重两变量,若目的只是由身高估计体重,则确定X为身高,Y为体重。

(五)计算题

1.由原始数据及散点图的初步分析(图10-1),估计本资料有直线趋势。

(1)计算相关系数

与ρ=0进行假设检验。

H0:

ρ=0,即身高与前臂长间无直线相关关系

H1:

ρ≠0,即身高与前臂长间有直线相关关系

α=0.05

,查t界值表,得0.002

⑵算总体ρ的95%可信区间。

对r作z变换:

或,z=tanh—10.8227=1.1651

z的95%可信区间:

按r=tanhz对z作反变换,得20岁男青年身高与与前臂长总体相关系数的95%可信区间为(0.4005,0.9567)。

2.由原始数据及散点图初步分析(图10-2),估本资料有直线趋势,故作下列计算。

∑X=6328,∑X2=5048814,

∑Y=1273,∑Y2=206619,

,∑XY=1018263

 

图10-2大白鼠的进食量与增加体重散点图

(1)回归系数假设检验:

H0:

β=0,即进食量与增重之间无直线关系

H1:

β≠0,即进食量与增重之间有直线关系α=0.05

1方差分析,见表10-6。

表10-6方差分析表

变异来源

SS

υ

MS

F

总变异

4052.875

7

回归

2954.905

1

2954.905

16.147

剩余

1097.970

6

182.995

计算得F=16.147,查F界值表,得P<0.01,按α=0.05水准,拒绝H0,接受H1,可认为大白鼠的进食量与增加体重间有直线关系。

2t检验:

H0:

β=0,即进食量与增重之间无直线关系

H1:

β≠0,即进食量与增重之间有直线关系α=0.05

按υ=6,查t界值表,得0.01>P>0.05,按α=0.05水准,拒绝H0,接受H1,结论同上。

本题

故可用直线回归方程

来描述大白鼠的进食量与增加体重的关系。

异常点即对应于残差(Y-

)绝对值特大的观测数据见表10-7。

表10-7残差的计算

序号

X

Y

Y-

1

800

185

161.474

23.526

2

780

158

156.254

1.746

3

720

130

140.594

-10.594

4

867

180

178.961

1.039

5

690

134

132.764

1.236

6

787

167

158.081

8.919

7

934

186

196.448

-10.448

8

750

133

148.424

-15.424

由散点图及残差分析,第一号点(X=800,Y=185)为可疑的异常点。

⑵根据以上的计算结果,进一步求其总体回归系数的95%可信区间。

绘制回归直线并图示回归系数95%可信区间。

总体回归系数β的95%可信区间:

(b-t0.05(n-2)Sb,b+t0.05(n-2)Sb)

=(0.261-2.447×13.5107∕

,0.261+2.447×13.5107∕

=(0.1022,0.4198)

取X1=690,代入回归方程

=-47.326+0.261X,得Y1=132.76;X2=934,Y2=196.45。

在图上确定(690,132.76)和(934,196.45)两个点,以直线连接即得回归直线的图形见图10-2。

按回归系数的95%可信区间下限和上限分别代入

,得

=78.285,

=-172.937。

回归系数的95%可信区间上、下限对应的两条直线,即图10-2中两条回归直线,回归方程为:

=78.285+0.1022X,

=-172.937+0.4198X

⑶估计进食量为900g时,大白鼠的体重平均增加多少,计算其95%的可信区间,并说明其含义。

当X=900时,

的95%可信区间:

-t0.05(6)

+t0.05(6)

=(187.574-2.447×8.5446,187.574+2.447×8.5446)=(166.67,208.48)

即总体中,进食量为900g时,大白鼠的体重平均增加187.574g,其95%的可信区间为166.67~208.48g。

其含义为:

当进食量为900g时,相应的平均增重服从一个正态分布(此正态分布的样本均数估计值为187.574g),如果从此正态分布中重复抽样100次,这100个可信区间中理论上将有95个区间包含真正的总体均数(虽然这个总体均数真值是未知的)。

⑷求进食量为900g时,个体Y值的95%容许区间,并解释其意义。

当X=900时,

=-47.326+0.261X=187.574,个体Y值的95%容许区间:

-t0.05(6)SY,

+t0.05(6)SY)

=(187.574-2.447×16.0002,187.574+2.447×16.0002)=(148.42,226.73)

即估计总体中,进食量为900g时,有95%的大白鼠增加体重在148.42~226.73g范围内。

3.本题资料不服从双变量正态分布,宜计算等级相关系数。

计算过程见表10-8

表10-8八个城市的肺癌标化死亡率和大气中苯并(a)芘的相关分析

肺癌标化死亡率(1/10万)

苯并(a)芘

城市编号

X

等级

Y

等级

d

⑹=⑶-⑸

d2

1

5.60

1

0.05

1

0

0

2

18.50

8

1.17

7

1

1

3

16.23

6

1.05

6

0

0

4

11.40

3

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 面试

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1