人教A版 选修1211 回归分析的基本思想及其初步应用教案.docx

上传人:b****5 文档编号:5854468 上传时间:2023-01-01 格式:DOCX 页数:12 大小:138.22KB
下载 相关 举报
人教A版 选修1211 回归分析的基本思想及其初步应用教案.docx_第1页
第1页 / 共12页
人教A版 选修1211 回归分析的基本思想及其初步应用教案.docx_第2页
第2页 / 共12页
人教A版 选修1211 回归分析的基本思想及其初步应用教案.docx_第3页
第3页 / 共12页
人教A版 选修1211 回归分析的基本思想及其初步应用教案.docx_第4页
第4页 / 共12页
人教A版 选修1211 回归分析的基本思想及其初步应用教案.docx_第5页
第5页 / 共12页
点击查看更多>>
下载资源
资源描述

人教A版 选修1211 回归分析的基本思想及其初步应用教案.docx

《人教A版 选修1211 回归分析的基本思想及其初步应用教案.docx》由会员分享,可在线阅读,更多相关《人教A版 选修1211 回归分析的基本思想及其初步应用教案.docx(12页珍藏版)》请在冰豆网上搜索。

人教A版 选修1211 回归分析的基本思想及其初步应用教案.docx

人教A版选修1211回归分析的基本思想及其初步应用教案

1.1回归分析的基本思想及其初步应用

学习目标:

1.了解随机误差、残差、残差图的概念.(重点)2.会通过分析残差判断线性回归模型的拟合效果.(重点)3.了解常见的非线性回归模型转化为线性回归模型的方法.(难点)

[自主预习·探新知]

1.回归分析的相关概念

(1)回归分析

回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.

(2)回归直线方程

方程y^=b^x+a^是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中a^,b^是待定参数,其最小二乘估计分别为:

b,

其中=1nnxi,=1nnyi,(,)称为样本点的中心.

(3)线性回归模型

样本点散布在某一条直线的附近,而不是在一条直线上,所以不能用一次函数y=bx+a来描述它们之间的关系,而是用线性回归模型y=bx+a+e来表示,其中a和b为模型的未知参数,e称为随机误差,自变量x称为解释变量,因变量y称为预报变量.

思考:

在线性回归模型y=bx+a+e中,e产生的原因主要有哪几种?

[提示]随机误差产生的原因主要有以下几种:

(1)所用的确定性函数不恰当引起的误差;

(2)忽略了某些因素的影响;

(3)存在观测误差.

2.残差的概念

对于样本点(x1,y1),(x2,y2),…,(xn,yn)而言,它们的随机误差为ei=yi-bxi-a,i=1,2,…,n,其估计值为e^i=yi-y^i=yi-b^xi-a^,i=1,2,…,n,e^i称为相应于点(xi,yi)的残差.

3.刻画回归效果的方式

残差图

作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图

残差图法

残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高

残差平方和

残差平方和为n(yi-y^i)2,残差平方和越小,模型的拟合效果越好

相关指数R2

R2=1-n,R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示模型的拟合效果越好

[基础自测]

1.思考辨析

(1)相关指数R2越小,线性回归方程的拟合效果越好.()

(2)在线性回归模型中,e是bx+a预报真实值y的随机误差,它是一个可观测的量.()

(3)线性回归方程y^=b^x+a^必过样本点的中心(,).()

[答案]

(1)×

(2)×(3)√

2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如下表:

R2

0.98

0.78

0.50

0.85

建立回归模型拟合效果最好的同学是()

A.甲B.乙

C.丙D.丁

A[相关指数R2越大,表示回归模型的拟合效果越好.]

3.甲、乙、丙、丁4位同学各自对A、B两变量做回归分析,分别得到散点图与残差平方和n(yi-y^i)2如表所示:

散点图

残差

平方和

115

106

124

103

________(填“甲”“乙”“丙”“丁”)同学的试验结果体现拟合A、B两变量关系的模型拟合精度高.

丁[根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R2表达式中n(yi-)2为确定的数,则残差平方和越小,R2越大),由回归分析建立的线性回归模型的拟合效果就越好,由试验结果知丁要好些.]

4.设某大学的女生体重y(单位:

kg)与身高x(单位:

cm)具有线性相关关系.根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为y^=0.85x-85.71,则下列结论中正确的是________(填序号).

(1)y与x具有正的线性相关关系;

(2)回归直线过样本点的中心(,);

(3)若该大学某女生身高增加1cm,则其体重约增加0.85kg;

(4)若该大学某女生身高为170cm,则可断定其体重必为58.79kg.

(1)

(2)(3)[回归方程中x的系数为0.85>0,因此y与x具有正的线性相关关系,

(1)正确;

由回归方程系数的意义可知回归直线过样本点的中心(,),

(2)正确;

依据回归方程中b^的含义可知,x每变化1个单位,y^相应变化约0.85个单位,(3)正确;

用回归方程对总体进行估计不能得到肯定结论,故(4)不正确.]

[合作探究·攻重难]

求线性回归方程

某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:

x

6

8

10

12

y

2

3

5

6

(1)请画出上表数据的散点图(要求:

点要描粗);

(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y^=b^x+a^;

(3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.

[解]

(1)如图:

(2)nxiyi=6×2+8×3+10×5+12×6=158,

=6+8+10+124=9,=2+3+5+64=4,

nx2i=62+82+102+122=344,

b^=158-4×9×4344-4×92=1420=0.7,

a^=-b^=4-0.7×9=-2.3,

故线性回归方程为y^=0.7x-2.3.

(3)由

(2)中线性回归方程当x=9时,y^=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.

[规律方法]求线性回归方程的基本步骤:

1列出散点图,从直观上分析数据间是否存在线性相关关系.

2计算:

3代入公式求出y^=b^x+a^中参数b^,a^的值.

4写出线性回归方程并对实际问题作出估计.

提醒:

只有在散点图大致呈线性时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义.

[跟踪训练]

1.某种产品的广告费用支出x与销售额y(单元:

百万元)之间有如下的对应数据:

x/百万元

2

4

5

6

8

y/百万元

30

40

60

50

70

(1)画出散点图;

(2)求线性回归方程;

(3)试预测广告费用支出为10百万元时的销售额.

[解]

(1)散点图如图所示:

(2)列出下表,并用科学计算器进行有关计算:

i

1

2

3

4

5

合计

xi

2

4

5

6

8

25

yi

30

40

60

50

70

250

xiyi

60

160

300

300

560

1380

x2i

4

16

25

36

64

145

所以,=255=5,=2505=50,5x2i=145,

5xiyi=1380.

于是可得b^=22=1380-5×5×50145-5×52=6.5,

a^=-b^=50-6.5×5=17.5.

所以所求的线性回归方程为y^=6.5x+17.5.

(3)根据

(2)中求得的线性回归方程,当广告费用支出为10百万元时,

y^=6.5×10+17.5=82.5(百万元),

即广告费用支出为10百万元时,销售额大约为82.5百万元.

线性回归分析

为研究重量x(单位:

克)对弹簧长度y(单位:

厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:

x

5

10

15

20

25

30

y

7.25

8.12

8.95

9.90

10.9

11.8

(1)作出散点图并求线性回归方程;

(2)求出R2;

(3)进行残差分析.

[解]

(1)散点图如图.

=16(5+10+15+20+25+30)=17.5,

=16(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,

6x2i=2275,6xiyi=1076.2,

计算得,b^≈0.183,a^≈6.285,

所求回归直线方程为y^=0.183x+6.285.

(2)列表如下:

yi-y^i

0.05

0.005

-0.08

-0.045

0.04

0.025

yi-

-2.24

-1.37

-0.54

0.41

1.41

2.31

所以6(yi-y^i)2≈0.01318,6(yi-)2=14.6784.

所以,R2=1-0.0131814.6784≈0.9991,

回归模型的拟合效果较好.

(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力成线性关系.

[规律方法]“相关指数R2、残差图”在回归分析中的作用

1.相关指数R2是用来刻画回归效果的,由R2=1-n可知,R2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.

2.残差图也是用来刻画回归效果的,判断依据是残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报的精度也越高.

[跟踪训练]

2.关于x与y有如下数据:

x

2

4

5

6

8

y

30

40

60

50

70

有如下的两个线性模型:

(1)y^=6.5x+17.5;

(2)y^=7x+17.试比较哪一个拟合效果更好.

[解]由

(1)可得yi-y^i与yi-的关系如下表:

yi-y^i

-0.5

-3.5

10

-6.5

0.5

yi-

-20

-10

10

0

20

∴5(yi-y^i)2=(-0.5)2+(-3.5)2+102+(-6.5)2+0.52=155,

(yi-)2=(-20)2+(-10)2+102+02+202=1000.

∴R21=1-5=1-1551000=0.845.

(2)可得yi-y^i与yi-的关系如下表:

yi-y^i

-1

-5

8

-9

-3

yi-

-20

-10

10

0

20

∴5(yi-y^i)2=(-1)2+(-5)2+82+(-9)2+(-3)2=180,

(yi-)2=(-20)2+(-10)2+102+02+202=1000.

∴R22=1-5=1-1801000=0.82,

由于R21=0.845,R22=0.82,0.845>0.82,∴R21>R22.

(1)的拟合效果好于

(2)的拟合效果.

非线性回归分析

[探究问题]

1.已知x和y之间的一组数据,则下列四个函数中,模拟效果最好的为哪一个?

x

1

2

3

y

3

5.99

12.01

①y=3×2x-1;②y=log2x;

③y=4x;④y=x2.

提示:

观察散点图中样本点的分布规律可判断样本点分布在曲线y=3×2x-1附近.所以模拟效果最好的为①.

2.如何将上题函数变换为线性函数?

提示:

将y=3×2x-1两边取自然对数得lny=ln3+(x-1)ln2.

令y′=lny,x′=x,则原方程变为y′=ln3+x′ln2-ln2=ln32+x′ln2.这样y′与x′成线性函数关系.

为了研究某种细菌随时间x变化,繁殖的个数,收集数据如下:

天数x/天

1

2

3

4

5

6

繁殖个数y/个

6

12

25

49

95

190

(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图,根据散点图判断:

y=a+bx与y=c1ec2x哪一个作为繁殖的个数y关于时间x变化的回归方程类型为最佳?

(给出判断即可,不必说明理由)

(xi-)2

(xi-)·

(yi-)

(xi-)·

(zi-)

3.5

62.83

3.53

17.5

596.505

12.09

其中zi=lnyi;=166zi.

(2)根据

(1)的判断最佳结果及表中的数据,建立y关于x的回归方程.

参考公式:

b^=n,a^=-b^.

思路探究:

(1)根据收集数据,可得数据的散点图;

(2)由散点图看出样本点分布在一条指数型曲线y=cebx(c>0)的周围,则lny=bx+lnc.变换后的样本点分布在一条直线附近,因此可以用线性回归方程来拟合,即可求出y对x的回归方程.

[解]

(1)作出散点图,如图1所示.

图1图2

由散点图看出样本点分布在一条指数函数y=c1ec2x的周围,于是选择y=c1ec2x.

(2)令z=lny,则z=bx+a.

x

1

2

3

4

5

6

z

1.79

2.48

3.22

3.89

4.55

5.25

相应的散点图如图2.

从图2可以看出,变换后的样本点分布在一条直线附近,因此可以用线性回归方程来拟合.

由b^=6≈0.69,

a^=-b^=1.115,得z=0.69x+1.115;

则有y^=e0.69x+1.115.

母题探究:

1.(变结论)在本例条件不变的情况下,试估计第7天细菌繁殖个数.

[解]∵y^=e0.69x+1.115,

∴当x=7时,y^≈382(个)

即第7天细菌繁殖个数约为382个.

2.(变结论)计算相关指数.

[解]残差计算如下表:

天数

1

2

3

4

5

6

残差

0.08

0.12

-0.83

-0.82

1.06

1.52

即解释变量“天数”对预报变量“繁殖细菌个数”解释了99.98%.

[规律方法]解决非线性回归问题的方法及步骤

1确定变量:

确定解释变量为x,预报变量为y;

2画散点图:

通过观察散点图并与学过的函数幂、指数、对数函数、二次函数作比较,选取拟合效果好的函数模型;

3变量置换:

通过变量置换把非线性回归问题转化为线性回归问题;

4分析拟合效果:

通过计算相关指数等来判断拟合效果;

5写出非线性回归方程.

[当堂达标·固双基]

1.下表是x和y之间的一组数据,则y关于x的线性回归方程必过点()

x

1

2

3

4

y

1

3

5

7

A.(2,3)B.(1.5,4)

C.(2.5,4)D.(2.5,5)

C[线性回归方程必过样本点的中心(,),即(2.5,4),故选C.]

2.对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是()

AB

CD

A[用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.]

3.若一组观测值(x1,y1),(x2,y2),…,(xn,yn)之间满足yi=bxi+a+ei(i=1,2,…,n),且ei恒为0,则R2为________.

1[∵ei恒为0,∴样本点(x1,y1),(x2,y2),…,(xn,yn)均落在直线y=bx+a上,

∴变量x,y成函数关系,即R2=1.]

4.已知回归方程y^=2x+1,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和等于________.

0.03[(4.9-5)2+(7.1-7)2+(9.1-9)2=0.03.]

5.已知x,y之间的一组数据如下表:

x

0

1

2

3

y

1

3

5

7

(1)分别计算:

、、x1y1+x2y2+x3y3+x4y4、x21+x22+x23+x24;

(2)已知变量x与y线性相关,求出回归方程.

[解]

(1)=0+1+2+34=1.5,=1+3+5+74=4,

x1y1+x2y2+x3y3+x4y4=0×1+1×3+2×5+3×7=34,

x21+x22+x23+x24=02+12+22+32=14.

(2)b^=34-4×1.5×414-4×1.52=2,

a^=-b^=4-2×1.5=1,

故y^=2x+1.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高中教育 > 数学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1