高中数学第1章统计案例11回归分析的基本思想及其初步应用学案新人教A版选修120914134.docx
《高中数学第1章统计案例11回归分析的基本思想及其初步应用学案新人教A版选修120914134.docx》由会员分享,可在线阅读,更多相关《高中数学第1章统计案例11回归分析的基本思想及其初步应用学案新人教A版选修120914134.docx(15页珍藏版)》请在冰豆网上搜索。
高中数学第1章统计案例11回归分析的基本思想及其初步应用学案新人教A版选修120914134
1.1 回归分析的基本思想及其初步应用
学习目标:
1.了解随机误差、残差、残差图的概念.(重点)2.会通过分析残差判断线性回归模型的拟合效果.(重点)3.了解常见的非线性回归模型转化为线性回归模型的方法.(难点)
[自主预习·探新知]
1.回归分析的相关概念
(1)回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)回归直线方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数,其最小二乘估计分别为:
其中=i,=i,(,)称为样本点的中心.
(3)线性回归模型
样本点散布在某一条直线的附近,而不是在一条直线上,所以不能用一次函数y=bx+a来描述它们之间的关系,而是用线性回归模型y=bx+a+e来表示,其中a和b为模型的未知参数,e称为随机误差,自变量x称为解释变量,因变量y称为预报变量.
思考:
在线性回归模型y=bx+a+e中,e产生的原因主要有哪几种?
[提示]随机误差产生的原因主要有以下几种:
(1)所用的确定性函数不恰当引起的误差;
(2)忽略了某些因素的影响;
(3)存在观测误差.
2.残差的概念
对于样本点(x1,y1),(x2,y2),…,(xn,yn)而言,它们的随机误差为ei=yi-bxi-a,i=1,2,…,n,其估计值为i=yi-i=yi-xi-,i=1,2,…,n,i称为相应于点(xi,yi)的残差.
3.刻画回归效果的方式
残差图
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图
残差图法
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高
残差平方和
残差平方和为(yi-i)2,残差平方和越小,模型的拟合效果越好
相关指数R2
R2=1-,R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示模型的拟合效果越好
[基础自测]
1.思考辨析
(1)相关指数R2越小,线性回归方程的拟合效果越好.( )
(2)在线性回归模型中,e是bx+a预报真实值y的随机误差,它是一个可观测的量.( )
(3)线性回归方程=x+必过样本点的中心(,).( )
[答案]
(1)×
(2)× (3)√
2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如下表:
甲
乙
丙
丁
R2
0.98
0.78
0.50
0.85
建立回归模型拟合效果最好的同学是( )
【导学号:
48662000】
A.甲 B.乙
C.丙D.丁
A [相关指数R2越大,表示回归模型的拟合效果越好.]
3.甲、乙、丙、丁4位同学各自对A、B两变量做回归分析,分别得到散点图与残差平方和(yi-i)2如表所示:
甲
乙
丙
丁
散点图
残差
平方和
115
106
124
103
________(填“甲”“乙”“丙”“丁”)同学的试验结果体现拟合A、B两变量关系的模型拟合精度高.
丁 [根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R2表达式中(yi-)2为确定的数,则残差平方和越小,R2越大),由回归分析建立的线性回归模型的拟合效果就越好,由试验结果知丁要好些.]
4.设某大学的女生体重y(单位:
kg)与身高x(单位:
cm)具有线性相关关系.根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中正确的是________(填序号).
【导学号:
48662001】
(1)y与x具有正的线性相关关系;
(2)回归直线过样本点的中心(,);
(3)若该大学某女生身高增加1cm,则其体重约增加0.85kg;
(4)若该大学某女生身高为170cm,则可断定其体重必为58.79kg.
(1)
(2)(3) [回归方程中x的系数为0.85>0,因此y与x具有正的线性相关关系,
(1)正确;
由回归方程系数的意义可知回归直线过样本点的中心(,),
(2)正确;
依据回归方程中的含义可知,x每变化1个单位,相应变化约0.85个单位,(3)正确;
用回归方程对总体进行估计不能得到肯定结论,故(4)不正确.]
[合作探究·攻重难]
求线性回归方程
某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:
x
6
8
10
12
y
2
3
5
6
(1)请画出上表数据的散点图(要求:
点要描粗);
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
(3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.
【导学号:
48662002】
[解]
(1)如图:
(2)iyi=6×2+8×3+10×5+12×6=158,
==9,==4,
=62+82+102+122=344,
===0.7,
=-=4-0.7×9=-2.3,
故线性回归方程为=0.7x-2.3.
(3)由
(2)中线性回归方程当x=9时,=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.
[规律方法] 求线性回归方程的基本步骤:
1列出散点图,从直观上分析数据间是否存在线性相关关系.
2计算:
3代入公式求出=x+中参数,的值.
4写出线性回归方程并对实际问题作出估计.
提醒:
只有在散点图大致呈线性时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义.
[跟踪训练]
1.某种产品的广告费用支出x与销售额y(单元:
百万元)之间有如下的对应数据:
x/百万元
2
4
5
6
8
y/百万元
30
40
60
50
70
(1)画出散点图;
(2)求线性回归方程;
(3)试预测广告费用支出为10百万元时的销售额.
[解]
(1)散点图如图所示:
(2)列出下表,并用科学计算器进行有关计算:
i
1
2
3
4
5
合计
xi
2
4
5
6
8
25
yi
30
40
60
50
70
250
xiyi
60
160
300
300
560
1380
x
4
16
25
36
64
145
所以,==5,==50,=145,
iyi=1380.
于是可得===6.5,
=-=50-6.5×5=17.5.
所以所求的线性回归方程为=6.5x+17.5.
(3)根据
(2)中求得的线性回归方程,当广告费用支出为10百万元时,
=6.5×10+17.5=82.5(百万元),
即广告费用支出为10百万元时,销售额大约为82.5百万元.
线性回归分析
为研究重量x(单位:
克)对弹簧长度y(单位:
厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:
x
5
10
15
20
25
30
y
7.25
8.12
8.95
9.90
10.9
11.8
(1)作出散点图并求线性回归方程;
(2)求出R2;
(3)进行残差分析.
【导学号:
48662003】
[解]
(1)散点图如图.
=(5+10+15+20+25+30)=17.5,
=(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,
=2275,iyi=1076.2,
计算得,≈0.183,≈6.285,
所求回归直线方程为=0.183x+6.285.
(2)列表如下:
yi-i
0.05
0.005
-0.08
-0.045
0.04
0.025
yi-
-2.24
-1.37
-0.54
0.41
1.41
2.31
所以(yi-i)2≈0.01318,(yi-)2=14.6784.
所以,R2=1-≈0.9991,
回归模型的拟合效果较好.
(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力成线性关系.
[规律方法] “相关指数R2、残差图”在回归分析中的作用
1.相关指数R2是用来刻画回归效果的,由R2=1-可知,R2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.
2.残差图也是用来刻画回归效果的,判断依据是残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报的精度也越高.
[跟踪训练]
2.关于x与y有如下数据:
x
2
4
5
6
8
y
30
40
60
50
70
有如下的两个线性模型:
(1)=6.5x+17.5;
(2)=7x+17.试比较哪一个拟合效果更好.
[解] 由
(1)可得yi-i与yi-的关系如下表:
yi-i
-0.5
-3.5
10
-6.5
0.5
yi-
-20
-10
10
0
20
∴(yi-i)2=(-0.5)2+(-3.5)2+102+(-6.5)2+0.52=155,
(yi-)2=(-20)2+(-10)2+102+02+202=1000.
∴R=1-=1-=0.845.
由
(2)可得yi-i与yi-的关系如下表:
yi-i
-1
-5
8
-9
-3
yi-
-20
-10
10
0
20
∴(yi-i)2=(-1)2+(-5)2+82+(-9)2+(-3)2=180,
(yi-)2=(-20)2+(-10)2+102+02+202=1000.
∴R=1-=1-=0.82,
由于R=0.845,R=0.82,0.845>0.82,∴R>R.
∴
(1)的拟合效果好于
(2)的拟合效果.
非线性回归分析
[探究问题]
1.已知x和y之间的一组数据,则下列四个函数中,模拟效果最好的为哪一个?
x
1
2
3
y
3
5.99
12.01
①y=3×2x-1;②y=log2x;
③y=4x;④y=x2.
提示:
观察散点图中样本点的分布规律可判断样本点分布在曲线y=3×2x-1附近.所以模拟效果最好的为①.
2.如何将上题函数变换为线性函数?
提示:
将y=3×2x-1两边取自然对数得lny=ln3+(x-1)ln2.
令则原方程变为y′=ln3+x′ln2-ln2=ln+x′ln2.这样y′与x′成线性函数关系.
为了研究某种细菌随时间x变化,繁殖的个数,收集数据如下:
天数x/天
1
2
3
4
5
6
繁殖个数y/个
6
12
25
49
95
190
(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图,根据散点图判断:
y=a+bx与y=c1ec2x哪一个作为繁殖的个数y关于时间x变化的回归方程类型为最佳?
(给出判断即可,不必说明理由)
(xi-)2
(xi-)·
(yi-)
(xi-)·
(zi-)
3.5
62.83
3.53
17.5
596.505
12.09
其中zi=lnyi;=i.
(2)根据
(1)的判断最佳结果及表中的数据,建立y关于x的回归方程.
【导学号:
48662004】
参考公式:
=,=-.
思路探究:
(1)根据收集数据,可得数据的散点图;
(2)由散点图看出样本点分布在一条指数型曲线y=cebx(c>0)的周围,则lny=bx+lnc.变换后的样本点分布在一条直线附近,因此可以用线性回归方程来拟合,即可求出y对x的回归方程.
[解]
(1)作出散点图,如图1所示.
图1 图2
由散点图看出样本点分布在一条指数函数y=c1ec2x的周围,于是选择y=c1ec2x.
(2)令z=lny,则z=bx+a.
x
1
2
3
4
5
6
z
1.79
2.48
3.22
3.89
4.55
5.25
相应的散点图如图2.
从图2可以看出,变换后的样本点分布在一条直线附近,因此可以用线性回归方程来拟合.
由=≈0.69,
=-=1.115,得z=0.69x+1.115;
则有=e0.69x+1.115.
母题探究:
1.(变结论)在本例条件不变的情况下,试估计第7天细菌繁殖个数.
[解] ∵=e0.69x+1.115,
∴当x=7时,≈382(个)
即第7天细菌繁殖个数约为382个.
2.(变结论)计算相关指数.
[解] 残差计算如下表:
天数
1
2
3
4
5
6
残差
0.08
0.12
-0.83
-0.82
1.06
1.52
即解释变量“天数”对预报变量“繁殖细菌个数”解释了99.98%.
[规律方法] 解决非线性回归问题的方法及步骤
1确定变量:
确定解释变量为x,预报变量为y;
2画散点图:
通过观察散点图并与学过的函数幂、指数、对数函数、二次函数作比较,选取拟合效果好的函数模型;
3变量置换:
通过变量置换把非线性回归问题转化为线性回归问题;
4分析拟合效果:
通过计算相关指数等来判断拟合效果;
5写出非线性回归方程.
[当堂达标·固双基]
1.下表是x和y之间的一组数据,则y关于x的线性回归方程必过点( )
【导学号:
48662005】
x
1
2
3
4
y
1
3
5
7
A.(2,3) B.(1.5,4)
C.(2.5,4)D.(2.5,5)
C [线性回归方程必过样本点的中心(,),即(2.5,4),故选C.]
2.对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )
A B
C D
A [用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.]
3.若一组观测值(x1,y1),(x2,y2),…,(xn,yn)之间满足yi=bxi+a+ei(i=1,2,…,n),且ei恒为0,则R2为________.
1 [∵ei恒为0,∴样本点(x1,y1),(x2,y2),…,(xn,yn)均落在直线y=bx+a上,
∴变量x,y成函数关系,即R2=1.]
4.已知回归方程=2x+1,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和等于________.
0.03 [(4.9-5)2+(7.1-7)2+(9.1-9)2=0.03.]
5.已知x,y之间的一组数据如下表:
x
0
1
2
3
y
1
3
5
7
(1)分别计算:
、、x1y1+x2y2+x3y3+x4y4、x+x+x+x;
【导学号:
48662006】
(2)已知变量x与y线性相关,求出回归方程.
[解]
(1)==1.5,==4,
x1y1+x2y2+x3y3+x4y4=0×1+1×3+2×5+3×7=34,
x+x+x+x=02+12+22+32=14.
(2)==2,
=-=4-2×1.5=1,
故=2x+1.
精美句子
1、善思则能“从无字句处读书”。
读沙漠,读出了它坦荡豪放的胸怀;读太阳,读出了它普照万物的无私;读春雨,读出了它润物无声的柔情。
读大海,读出了它气势磅礴的豪情。
读石灰,读出了它粉身碎骨不变色的清白。
2、幸福幸福是“临行密密缝,意恐迟迟归”的牵挂;幸福是“春种一粒粟,秋收千颗子”的收获. 幸福是“采菊东篱下,悠然见南山”的闲适;幸福是“奇闻共欣赏,疑义相与析”的愉悦。
幸福是“随风潜入夜,润物细无声”的奉献;幸福是“夜来风雨声,花落知多少”的恬淡。
幸福是“零落成泥碾作尘,只有香如故”的圣洁。
幸福是“壮志饥餐胡虏肉,笑谈渴饮匈奴血”的豪壮。
幸福是“先天下之忧而忧,后天下之乐而乐”的胸怀。
幸福是“人生自古谁无死,留取丹心照汗青”的气节。
3、大自然的语言丰富多彩:
从秋叶的飘零中,我们读出了季节的变换;从归雁的行列中,我读出了集体的力量;从冰雪的消融中,我们读出了春天的脚步;从穿石的滴水中,我们读出了坚持的可贵;从蜂蜜的浓香中,我们读出了勤劳的甜美。
4、成功与失败种子,如果害怕埋没,那它永远不能发芽。
鲜花,如果害怕凋谢,那它永远不能开放。
矿石,如果害怕焚烧(熔炉),那它永远不能成钢(炼成金子)。
蜡烛,如果害怕熄灭(燃烧),那它永远不能发光。
航船,如果害怕风浪,那它永远不能到达彼岸。
5、墙角的花,当你孤芳自赏时,天地便小了。
井底的蛙,当你自我欢唱时,视野便窄了。
笼中的鸟,当你安于供养时,自由便没了。
山中的石!
当你背靠群峰时,意志就坚了。
水中的萍!
当你随波逐流后,根基就没了。
空中的鸟!
当你展翅蓝天中,宇宙就大了。
空中的雁!
当你离开队伍时,危险就大了。
地下的煤!
你燃烧自己后,贡献就大了
6、朋友是什么?
朋友是快乐日子里的一把吉它,尽情地为你弹奏生活的愉悦;朋友是忧伤日子里的一股春风,轻轻地为你拂去心中的愁云。
朋友是成功道路上的一位良师,热情的将你引向阳光的地带;朋友是失败苦闷中的一盏明灯,默默地为你驱赶心灵的阴霾。
7、一粒种子,可以无声无息地在泥土里腐烂掉,也可以长成参天的大树。
一块铀块,可以平庸无奇地在石头里沉睡下去,也可以产生惊天动地的力量。
一个人,可以碌碌无为地在世上厮混日子,也可以让生命发出耀眼的光芒。
8、青春是一首歌,她拨动着我们年轻的心弦;青春是一团火,她点燃了我们沸腾的热血; 青春是一面旗帜,她召唤着我们勇敢前行;青春是一本教科书,她启迪着我们的智慧和心灵。