11回归分析的基本思想及其初步应用教案人教A版选修12.docx
《11回归分析的基本思想及其初步应用教案人教A版选修12.docx》由会员分享,可在线阅读,更多相关《11回归分析的基本思想及其初步应用教案人教A版选修12.docx(34页珍藏版)》请在冰豆网上搜索。
11回归分析的基本思想及其初步应用教案人教A版选修12
新课标
数学选修1—2
统计案例
明菜缶方AF车读疵灵法”
(教师用书独具)
•三维目标
1.知识与技能
通过典型案例的探究,
了解回归分析的基本思想,会对两个变量进行回归分
析,明确解决回归模型的基本步骤,并对具体问题进行回归分析以解决实际应用
问题.了解最小二乘法的推导,解释残差变量的含义,了解偏差平方和分解的思
器求线性回归直线方程参数及相关系数的方法.
2.过程与方法
通过收集数据作散点图,分析散点图,求回归直线方程,分析回归效果,利用方程进行预报.
3.情感、态度与价值观
进一步加强数学
培养学生利用整体的观点和互相联系的观点来分析问题,的应用意识,培养学生学好数学、用好数学的信心,加强与现实生活的联系,以科学的态度评价两个变量的相互关系.
•重点难点
重点:
回归分析的基本方法、随机误差e的认识、残差图的概念、用残差及
R2来刻画线性回归模型的拟合效果.
难点:
回归分析的基本方法、残差概念的理解及拟合效果的判定、非线性回
归向线性回归的转化.
教学时要以残差分析为重点,突出残差表和R2的计算,通过举例说明相关
关系与确定性关系的区别,说明回归分析的必要性及其方法.借助例题使学生掌握作散点图、求回归直线方程的方法,通过作残差图、计算R2让学生掌握拟合
效果的判断方法.对于非线性回归问题重点在如何转换,引导学生分析总结转化方法和技巧,从而化解难点.
(教师用书独具)
•教学建议
本节课建议教师采取探究式教学,把“关注知识”转向“关注学生”,在教
学过程中,把“给出知识”的过程转变为“引起活动,
把“完成教学任务”转向“促进学生发展”,
在知识形成过程的探索,例题的解答也要由学生探讨、教师点拨,共同完成.要注重数学的思想性,如统计思想、随机观念、函数思想、数形结合的思想方法等,引导学生体验数学中的理性精神,加强数学形式下的思考和推理能力.
•教学流程
线性回归模
使学生自主学
引导学生在学
创设问题情境,引出问题,弓I导学生探讨,从而引出回归分析、
型、刻画回归效果的有关概念及解决方法.利用填一填的形式,
习本节基础知识,并反馈了解,对理解有困难的概念加以讲解.
习基础知识的基础上分析回答例题1的问题,并总结规律方法,完成变式训练.引导学生分析例题2,根据图中的数据计算系数,求出回归方程,列出残差表,求出R2并判断拟合效果,完成变式训练.
完成当堂双基达标,巩固所学知识及应用方法,并进行反馈矫正.归纳整
通过
理,进行课堂小结,整体认识本节所学知识,强调重点内容和规律方法.
老师启发引导,完成例题3,并要求学生借鉴例题3的解法完成变式训练.引导学生分析例题3,让学生作出散点图,观察相关性,引出问题,即如何使问题转化为相关关系并用线性回归分析二者关系.
1•会用散点图分析两个变量是否存在相关关系.(重点)
课标解读
2.会求回归方程,掌握建立回归模型的步骤,会选择回归模
型.(重点、难点)
线性回归模型
【问题导思】
台机器由于使用时间较长,生产的零件有一些会有缺陷.按不同转速生
产出有缺陷的零件的统计数据如下:
转速x(转/秒)
16
14
12
8
每小时生产有缺陷的零件数y(件)
11
9
8
5
1.在平面直角坐标系中作出散点图.
【提示】
y
IQ
S'
0»10121416R
2.从散点图中判断x和y之间是否具有相关关系?
【提示】有.
3.若转速为10转/秒,能否预测机器每小时生产缺陷的零件件数?
【提示】可以.根据散点图作出一条直线,求出直线方程后可预测.
(1)回归直线方程:
y=bx+a,其中:
n_
Z(Xi-7则—丁)
八八八1n
b=,a=y—bx,x=-Sxi,
n一2niT
Z(Xi—x)
1=1
—1Jy二npi.
(2)变量样本点中心:
(X,y),回归直线过样本点的中心.
(3)线性回归模型:
y=bx+a+e,其中e称为随机误差,a和b是模型的未知参数,自变量x称为解释变量,因变量y称为预报变量.
刻画回归效果的方式
残差
对于样本点(Xi,yi)(i=1,2,…,n)的随机误差的估计值e^yi—yi,称为相应于点(xi,yi)的残差
残差图
利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图
残差
图法
残差点比较均匀地落在水平的带状区域内,说明选用的模型比较适合,这样的带状区域的宽度越窄,说明模型拟合精度越高
残差平
方和
nA2
残差平方和为艺(yi—yi)2,残差平方和越小,模型拟合效果越好
i=1
相关指
数R2
ny2
Z(yi—yi)
1=1
R2=1—,R2表示解释变量对预报变量变化的贡献率,
n
——2三(yi—y)
i=1
R2越接近于1,表示回归的效果越好
IlS:
^
回归分析的有关概念
卜例n有下列说法:
①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;③通过回归方程y=bx+a,可以估计和观测变量的取值和变化趋势;④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.
其中正确命题的个数是()
C.3
【自主解答】
图的作用,也正确.
①反映的正是最小二乘法思想,故正确.②反映的是画散点③解释的是回归方程y=bx+a的作用,故也正确.④是不正
确的,在求回归方程之前必须进行相关性检验,以体现两变量的关系.
【答案】C
I规律方法I
1.解答例1中④时,必须明确具有线性相关关系的两个变量间才能求得一
个线性回归方程,否则求得的方程无实际意义.因此必须先进行线性相关性判断,
后求线性回归方程.
2.回归分析的过程:
(1)随机抽取样本,确定数据,形成样本点;
(2)由样本点形成散点图,判断是否具有线性相关关系;
(3)由最小二乘法确定线性回归方程;
(4)由回归方程观察变量的取值及变化趋势.
»亜貳illl11
关于变量y与x之间的回归直线方程叙述正确的是()
表示y与x之间的一种确定性关系
B.
C.
表示y与x之间的相关关系
表示y与x之间的最真实的关系
【解析】
回归直线方程能最大可能地反映y与x之间的真实关系,故选项
D正确.
【答案】
线性回归分析
►例0已知某种商品的价格x(元)与需求量y(件)之间的关系有如下一组数
据:
x
14
16
18
20
22
y
12
10
7
5
3
求y关于x的回归直线方程,并说明回归模型拟合效果的好坏.
【思路探究】回归模型拟合效果的好坏可以通过计算R2来判断,其值越
大,说明模型的拟合效果越好.
—1
【自主解答】x=5(14+16+18+20+22)=18,
y=5(12+10+7+5+3)=7.4,
5
Zxi2—142+162+182+202+222—1660,
i—1
5
Zxiyi=14X12+16X10+18X7+20X5+22X3=620,
丄1
5__
Sxiyi—5Xy
Ai—1620—5X18X7.4
2
1660-5X18
所以b—
V2口一2
Zxi—5X
i—1
A
a=7.4+1.15X18=28.1,
TA2
Z(yi—yi)
i—1
2
R—1—~0.994,
5—
送(yi-y)2
i—1
所以回归模型的拟合效果很好.
之间的变化趋势,其中b表示X变化一个单位时,y的平均变化量.利用回归直
线可以对问题进行预测,由一个变量的变化去推测另一个变量的变化.
2.线性回归分析中:
(1)残差平方和越小,预报精确度越高.
(2)相关指数R2取值越大,说明模型的拟合效果越好.
卜娈貳illl11
某运动员训练次数与运动成绩之间的数据关系如下:
次数(x)
30
33
35
37
39
44
46
50
成绩(y)
30
34
37
39
42
46
48
51
⑴作出散点图;
(2)求出线性回归方程;
(3)作出残差图,并说明模型的拟合效果;
⑷计算R2,并说明其含义.
【解】⑴作出该运动员训练次数(X)与成绩(y)之间的散点图,如图所示.
——2
(2)可求得X=39.25,y=40.875,艺xi=12656,
i—1
88
Zyi2=13731,SXiyi=13180,
i=1i=1
8__
ZXiyi—8Xy
i—1
〜1.0415,
8
P2C一2
ZXi—8X
i—1
AA
a—y—bX——0.003875,
A
•••线性回归方程为y—1.0415x—0.003875.
(3)作残差图如图所示,
由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.
(4)相关指数R—0.9855.说明了该运动员的成绩的差异有98.55%的可能性
是由训练次数引起的.
非线性回归分析
卜例「下表为收集到的一组数据:
X
21
23
25
27
29
32
35
y
7
11
21
24
66
115
325
(1)作出X与y的散点图,并猜测X与y之间的关系;
【自主解答】⑴作出散点图如图,从散点图可以看出x与y不具有线性相
关关系,根据已有知识可以发现样本点分布在某一条指数函数曲线y=C1ec2x的
周围,其中C1、C2为待定的参数.
r
350
ion
250
200
J50
100
50
0
202334262S30取3436*
(2)对两边取对数把指数关系变为线性关系,令z=Iny,则有变换后的样本
点应分布在直线z=bx+a,a=Inci,b=C2的周围,这样就可以利用线性回归模
型来建立y与x之间的非线性回归方程了,数据可以转化为:
x
21
23
25
27
29
32
35
z
1.946
2.398
3.045
3.178
4.190
4.745
5.784
A
求得回归直线方程为z=0.272x—3.849,
Z0.272X—3.849
••y=e—
残差如下表:
yi
7
11
21
24
66
115
325
z
yi
6.443
11.101
19.125
32.950
56.770
128.381
290.325
ze
0.557
—0.101
1.875
—8.950
9.23
—13.381
34.675
/C、、【zrr-u0.272x—3.849.zcz
⑶当x=40时,y=e"1131.
I规律方法I
两个变量不具有线性关系,不能直接利用线性回归方程建立两个变量的关
系,可以通过变换的方法转化为线性回归模型,如y=C1ec2X,我们可以通过对
数变换把指数关系变为线性关系,令z=Iny,则变换后样本点应该分布在直线z
=bx+a(a=Inci,b=C2)的周围.
卜亜貳illl11
有一个测量水流量的实验装置,测得试验数据如下表:
i
1
2
3
4
5
6
7
水高h(厘米)
0.7
1.1
2.5
4.9
8.1
10.2
13.5
流量
Q(升/分钟)
0.082
0.25
1.8
11.2
37.5
66.5
134
根据表中数据,建立Q与h之间的回归方程.
【解】由表中测得的数据可以作出散点图,如图.
150.
50.*
°51015h
观察散点图中样本点的分布规律,可以判断样本点分布在某一条曲线附近,
表示该曲线的函数模型是Q=mhn(m,n是正的常数).两边取常用对数,
则IgQ=Igm+nIgh.
令y=IgQ,x=Igh,那么y=nx+Igm,
即为线性函数模型y=bx+a的形式(其中b=n,a=Igm).
由下面的数据表,用最小二乘法可求得b~2.5097,a=—0.7077,所以
n~2.51,m~0.196.
i
hi
Qi
Xi=Ighi
yi=IgQi
2xi
Xiyi
1
0.7
0.082
—0.1549
—1.0862
0.024
0.1683
2
1.1
0.25
0.0414
—0.6021
0.0017
—0.0249
3
2.5
1.8
0.3979
0.2553
0.1583
0.1016
4
4.9
11.2
0.6902
1.0492
0.4764
0.7242
5
8.1
37.5
0.9085
1.5740
0.8254
1.4300
6
10.2
66.5
1.0086
1.8228
1.0173
1.8385
7
13.5
134
1.1303
2.1271
1.2776
2.4043
4.022
5.1401
3.7807
6.642
于是所求得的回归方程为Q=0.196h2'51
挂能提升KI
没有理解相关指数R2的意义而致误
卜典例关于x与y有如下数据:
X
2
4
5
6
8
y
30
40
60
50
70
为了对X、y两个变量进行统计分析,现有以下两种线性模型:
甲模型y=6.5x
+17.5,乙模型y=7x+17,试比较哪一个模型拟合的效果更好.
Vy2
送(yi—yi)
i_1
c_155
【错解】'•R1_1—_1—彳CM_0.845.
5I000
——2
送(yi—y)
i_1
Vy2
Z(yi—yi)
i_1
2-180
R2_1—-_1—1000_O.82.
P—2
Z(yi—y)
i_1
又••84.5%>82%,二乙选用的模型拟合的效果更好.
【错因分析】没有理解R2的意义是致错的根源,用相关指数R2来比较模
型的拟合效果,R2越大,模型的拟合效果越好,并不是R2越小拟合效果更好.
Vy2乞(yi—yi)
i=1
【防范措施】R2=1—,R2越大,残差平方和越小,从而回归
n—
艺(yi-yf
i_1
模型的拟合效果越好.在线性回归模型中,R2表示解释变量对于预报变量变化
的贡献率,R2越接近1表示回归的效果越好(因为R2越接近1,表示解释变量和预报变量的线性相关性越强).从根本上理解R2的意义和作用,就可防止此类错误的出现.
Vy2
艺(yi—yi)
i=1
9155
【正解】
R2=1-
r1=1—=1—1000=O.845,
P—2
S(yi—y)
i-1
(yi-yi)2
J180
5=1-1000=0.82,
P—2
无(yi—y)
i=1
84.5%>82%,所以甲模型拟合效果更好.
1.在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线
性相关,是否可以用线性回归模型来拟合数据•然后,可以通过残差ei,e2,-
en来判断模型拟合的效果,判断原始数据中是否存在可疑数据.这方面的分析工
作称为残差分析.
2.我们还可以用相关指数R2来反映回归的效果,其计算公式是:
R2=1-
认-yi)
n
P—2
送(yi—y)
i=1
显然,R2取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率.
1.已知x和y之间的一组数据
二回归方^=bx+a必过点(2,4).
庭的用电量与电价.其中量与量之间的关系是相关关系的是()
D.②③④
【解析】①是函数关系V=a3;⑤电价是统一规定的,与用电量有一定的
关系,但这种关系是确定的关系.②③④中的两个量之间的关系都是相关关系,
因为水稻的产量与施肥量在一定范围内是正比、反比或其他关系,并不确定;人的身高一开始随着年龄的增加而增大,之后则不变化或降低,在身高增大时,也不是均匀增大的;家庭的支出与收入有一定的关系,在一开始,会随着收入的增加而支出也增加,而当收入增大到一定的值后,家庭支出趋向于一个常数值,也不是确定关系.
【答案】D
3.下列命题正确的有
①在线性回归模型中,e是bx+a预报真实值y的随机误差,它是一个可观测的量;
2残差平方和越小的模型,拟合的效果越好;
3用R来刻画回归方程,R2越小,拟合的效果越好;
4在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,若带状区域宽度越窄,说明拟合精度越高,回归方程的预报精度越高.
【解析】对于①随机误差e是一个不可观测的量,③R2越趋于1,拟合效果越好,故①③错误.对于②残差平方和越小,拟合效果越好,同理当残差点比较均匀地落在水平的带状区域时,拟合效果越好,故②④正确.
【答案】②④
4.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)
与相应的生产能耗y(吨标准煤)的几组对照数据:
x
3
4
5
6
y
2.5
3
4
4.5
的线性回归方程,预测技改后生产100吨甲产品比技改前少消耗多少吨标准煤.
(参考数值:
3X2.5+4X3+5X4+6X4.5=66.5)
【解】
(1)如下图.
5
4
3
2
4
(2)Sxiyi=3X2.5+4X3+5X4+6X4.5=66.5,
i-1
—3+4+5+6—2.5+3+4+4.5
X=4=4.5,y=A=3.5,
4
Zx2=32+42+52+62=86.
i—1
y66.5—4X4.5X3.566.5—63
2
86—4X4.52
b—;———0.7,
86—81
y—y—
a—y—bX—3.5—0.7X4.5—0.35,
因此,所求的线性回归方程为y=0.7X+0.35.
(3)根据回归方程预测,现在生产100吨产品消耗的标准煤的数量为0.7X100+0.35=70.35(吨),故耗能减少了90—70.35=佃.65(吨标准
).
、选择题
1.在画两个变量的散点图时,下面叙述正确的是()
A.预报变量在x轴上,解释变量在y轴上
B.解释变量在X轴上,预报变量在y轴上
C.可以选择两个变量中任意一个变量在X轴上
D.可以选择两个变量中任意一个变量在y轴上
【解析】结合线性回归模型y=bx+a+e可知,解释变量在x轴上,预报
变量在y轴上,故选B.
【答案】B
2.(2013泰安高二检测)在回归分析中,相关指数R2的值越大,说明残差平
方和()
A•越大
B.越小
C.可能大也可能小
D.以上均错
n
z
i=1
【解析】••R2=1—,二当R2越大时,
V一2
壬(yi—y)
i_1
A2
(y—yi)
nA2
Z(yi—yi)2越小,即残差平方和越小.
i—1
【答案】B
3•设变量y对X的线性回归方程为“2—2.5X,则变量x每增加一个单位时,
y平均()
A.增加2.5个单位
B.增加2个单位
C.减少2.5个单位
D.减少2个单位
【解析】回归直线的斜率b=—2.5,表示X每增加一个单位,y平均减少
2.5个单位.
【答案】C
4.(2012湖南高考)设某大学的女生体重y(单位:
kg)与身高x(单位:
cm)具有线性相关关系,根据一组样本数据(X,yi)(i=1,2,…,n),用最小二乘法建立
的回归方程为y=0.85X-85.71,贝U下列结论中不正确的是()
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(X,y)
C.若该大学某女生身高增加1cm,则其体重约增加0.85kg
D.若该大学某女生身高为170cm,则可断定其体重必为58.79kg
【解析】由于线性回归方程中X的系数为0.85,因此y与X具有正的线性
相关关系,故A正确.又线性回归方程必过样本中心点(X,y),因此B正确.由
线性回归方程中系数的意义知,X每增加1cm,其体重约增加0.85kg,故C正
确.当某女生的身高为170cm时,其体重估计值是58.79kg,而不是具体值,
因此D不正确.
【答案】D
5.在判断两个变量y与X是否相关时,选择了4个不同的模型,它们的相关指数R2分别为:
模型1的相关指数R2为0.98,模型2的相关指数R2为0.80,模型3的相关指数R2为0.50,模型4的相关指数R2为0.25.其中拟合效果最好的
A.模型1
B.模型2
C.模型3
D.模型4
【解析】
相关指数R2能够刻画用回归模型拟合数据的效果,相关指数R2
的值越接近于
1,说明回归模型拟合数据的效果越好.
【答案】
二、填空题
6.
,可以叙述为
在研究身高和体重的关系时,求得相关指数R2-
“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”,所以身高对
体重的效应比随机误差的效应大得多.
Vy2送(yi—yi)
i=1
【解析】
结合相关指数的计算公式R2=1—可知,当R2=0.64
V一2
艺(yi—y)
i_1
7.调查了某地若干户家庭的年收入x(单位:
万元)和年饮食支出y(单位:
万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得