高中数学人教选修12课件第一章统计案例11回归分析的基本思想及其初步应用.docx
《高中数学人教选修12课件第一章统计案例11回归分析的基本思想及其初步应用.docx》由会员分享,可在线阅读,更多相关《高中数学人教选修12课件第一章统计案例11回归分析的基本思想及其初步应用.docx(13页珍藏版)》请在冰豆网上搜索。
高中数学人教选修12课件第一章统计案例11回归分析的基本思想及其初步应用
第一章统计案例
▼a
1.1
回归分析的基本思想
及其初步应用
[学习目标]1・了解随机误差、殘差、残差分析的概
念(重点)2会用残差分析判断线性回归模型的拟合效果.3掌握建立回归模型的步骤(重点).4•通过对典型案例的探究,了解回归分析的基本思想方法和初步应用(重点、难点)•
[知识提炼•梳理]
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是画出两个变
量的散点图,求回归方程,并用回归方程进行预报.
2.线性回归模型
Exiy-nxy-i„-iw
=,a=y-l)x.其中x-=—Ey=—Ey},
V9_2723=1Hi=l
乙咒;—n工「
1=1
(恥v)称为样本点的中心.
J
⑵线性回归模型y=bx+a+e,n中£称为随机误差,
自变量兀称为健餐变量,因变量V称为预报变量.
增加一个单位"的平均塔加单位数.
3.刻画回归效果的方式
方式
方法
计算公式
刻画效果
R2
丈(丁厂y)2
R?
=l
S(y-y)2
1=1
疋越接近于1,表示回归的效果越好
残差图
©称为相应于点(无,Pi)的残差,&=比一必
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精度越高.
差方和残平利
丈(少一y)2
1=1
残差平方和越生,模型的拟合效果越好
[思考尝试•夯基]
⑴求线性回归方程前可以不进行相关性检验.()
(2)在残差图中,纵坐标为残差,横坐标可以选为样本编号.()
(3)利用线性回归方程求出的值是准确值.()
答案:
⑴X
(2)V(3)X
2.如图四个散点图中,适合用线性回归模型拟合其
中两个变量的是(
y
yy
•
■
4
4
■
■
••
■
•
•••••
••••'
•■
•
•
■
■
■
■
•
•
—
•
••
••••••
••
•••
•
0
X0
i0
X0
X
①②③④
A.①②B.①③
C.②③D.③④
解析:
图①、③中的点大致在一条直线附近,适合用
线性回归模型拟合.
答案:
B
3.己知回归方程y=2x+l,而试验得到一组数据是
(2,4.9),(3,7.1),(4,9.1),则残差平方和是()
A.0.01B.0.02
C.0.03D.0.04
解析:
(4.9-5)2+(7.1-7)2+(9.1-9)2=0.03.
答案:
C
4-已知工厂加工零件的个数X与花费时间y(h)之间
的线性回归方程为丿=0.01卄0.5,则加工200个零件大
约需要小时.
解析:
将200代入线性回归方程;=0・01兀+仇5,得丿
5.有下列说法:
①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;②用相关指数,来刻画回归的效果,/值越大,说明模型
的拟合效果越好;③比较两个模型的拟合效果,可以比
较残差平方和的大小,残差平方和越小的模型,拟合效
果越好.其中正确命题的序号是
类型1求线性回归方程(自主研析)[典例1](2014•课标全国II卷)某地区2007年至2013
年农村居民家庭人均纯收入y(单位:
千元)的数据如表:
年份
2007
2008
2009
2010
2011
2012
2013
年份代号r
1
2
3
4
5
6
7
人均纯收入丿
2.9
3・3
3・6
4.4
4.8
5.2
5.9
⑴求y关于f的线性回归方程;
⑵利用⑴中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.
附:
回归直线的斜率和截距的最小二乘估计公式分
别为:
J=^(1+2+3+4+5+6+7)=4,
y=*2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
1=1
fa厂£)(%—*)=(—3)X(—1.4)+(—2)X(—1)+1=1〜
(—1)X(—0.7)+0X0.1+1X0.5+2X0.9+3X1.6
i=l
A■八.
a-y-bt=4.3-0.5X4=23,
A
所求回归方程为尸0・5f+2・3・
⑵由⑴知,b=0.5>0,故2007年至2013年该地区农
村居民家庭人均纯收入逐年增加,平均每年塔加0.5千元
将2015年的年份代号心9代入⑴中的回归方程,得
y=0.5X9+23=6.8,
故预测该地区2015年农村居民家庭人均纯收入为
6.8千元.
A归纳升华
求线性回归方程方法:
1.—般步骤:
1—作出散点图,判定两变量是否线性相关
3—写出线性回归方程y=bx+a,并进行预测
2•求解回归方程的关键点:
⑴求线性回归方程必须判断两个变量是否线性相
关,常用散点图进行判定;若不线性相关,求出的回归方
程毫无意义•
(2)回归直线必过样本点中心(工,j).
⑶重视数据分析和计算,正确运用公式计算$,:
是
求线性回归方程的关健.
[变式训练]某个服装店经营某种服装,在某周内获
纯利y(元)与该周每天销售这种服装件数工之间的一组数
据关系见表:
已知£丘=280,£朋=45209,S^t=3487.
⑵求回归方程.
解:
(l)x=;X(3+4+5+6+7+8+9)=6,y#X(66+69+73+81+89+90+91)=孚
559
A3487-7X6X—四
(2)b==T,
280-7X364
所以:
浑弓X6晋,
A107I9
所以所求回归方程为y=亍+亓・
类型2线性回归分析(互动探究)[典例2]为研究重量工(单位:
克)对弹簧长度y(单位:
厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:
X
5
10
15
20
25
30
y
7.25
8.12
8.95
9.90
10.9
11.8
⑴作出散点图,并求线性回归方程;
(2)求出,;
(3)进行残差分析.
解:
⑴散点图如图所示.
x=X(5+10+15+20+25+30)=17.5,$=£X(7.25+&12+&95+9.90+10.9+
11.8)^9.487,
6fc6
Zj:
•—2275S工1076.2.
产ii=i
1-0.01318所以届帀寸阿1,
(3)由残差表中的数值可以看出第3个样本点的残差
比较大,需要码认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看岀残差点比较均勻地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力呈线性关系•
[迁移探究1](改变问法)在条件不变的情况下,画
出残差图.
解:
由例题第⑵问,作出残差图如图所示
0.05
0.040.03
0.02
0.01
由残差图知,残差是比较均勻地落在不超过0.15的
狭窄的水平带状区域中.
[迁移探究2](变换条件,改变结论)关于兀与y有如
下数据:
X
2
4
5
6
y
30
40
60
50
70
为了对兀、y两个变量进行统计分析,现有以下两种
AA
线性模型:
甲模=6.5x4-17.5,乙模型y=7"+17,试比较哪一个模型拟合的效果好.
解:
•••0・845>0・82,
.•用选用的模型拟合效果好.
加纳升华
1.本题求解注意:
⑴要根据散点图粗略判断是否线
性相关,是否可以用线性回归模型来拟合数据•
(2)正确
AA
计算〃,afR\这是求解本题的关键・
2.拟合效果分析:
⑴沪是用来刻画回归效果的,由
工(*)2
,=1.旦」」可知用越大,残差平方和越小
i=l
回归模型的拟合效果越好.
(2)残差图(表)也可刻画拟合效果,残差图均勻水平带状区域分布,带状区域的宽度越窄:
说明模型拟合精度越高,回归方程的预报精度越高.
[典例3]在一次抽样调查中测得样本的5个样本
点,数值如表:
X
0.25
0.5
1
2
4
y
16
12
5
2
1
试建立y与工之间的回归方程.
解:
作出变量y与工之间的散点图如图所示.
y
16
14
12
10
8
6
4
2
J11__>
234%
由图可知变量y与工近似地呈反比例函数关系.
k
设尸笃令4,则y=ktAy与兀的数据表可得y
与t的数据表:
t
4
2
1
0.5
0.25
y
16
12
5
2
1
作出y与t的散点图如图所示.
八■■■■■■■■
764208642
由图可知y与/呈近似的线性相关关系.
94.25-5X1.55X7.2
=4.1344,
21.3125-5X1.552
A.八.
a^y-bt=7.2-4.1344X1.55^0.8,
A
AV:
=4.1344(+0.8.
a4134
所以y与兀的回归方程是y=釘尹+0.8.
»归纳升华求非线性回归方程的步骤:
1•确定变童,作出散点图・
2•根据散点图,选择恰当的拟合函数.
3•变■置换,通过变量置换把非线性回归问题转化
为线性回归问题,并求出线性回归方程.
4•分析拟合效果:
通过计算相关指数或画残差图来
判断拟合效果.
5•根据相应的变换,写出非线性回归方程.
[变式训练]两个变量的散点图如图,可考虑用如下
函数进行拟合比较合理的是()
A.y=a-xb
C.y=a'tx
B.y=a+b\nx
h
D.
解析:
由散点图可知,此曲线类似对数函数型曲线,
因此可用函数y=«+Mnx模型进行拟合.
答案:
B
课堂小结
1.对线性回归方程的理解:
A
⑴从参数计算公式a=y-bx中,我们可以看出,
回归直线方程尸处+a—定经过点(工,y)•我们把(工,
y)称为样本点的中心.
AAAAA
(2)线性回归方^y=bx+a中的截距a和斜率〃都是通过估计而得来的,存在着误差,这种误差可能导致预测结果的偏差.因此由回归方程可预测丿的估计值.
AAAA
(3)线性回归方程y=bx+a中的〃表示兀增加1个单位
A
时,y的平均变化量为人
2.残差图中的可疑数据的特征表现:
⑴个别样本点的残差过大,即大多数的残差点比较
均匀地落在水平的带状区域中,而个别残差点偏离该区域过于明显,需要确认在采集这些样本点的过程中是否有人为的错误,如果采集数据有错误,那么需要纠正.
(2)残差图有异常,即残差呈现不随机的规律性,此时需要考虑所采用的线性回归模型是否合适.
3.研究两个变量间的关系时,首先要根据散点图来
粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后通过图形来分析残差特性,用残差
AA
£2,…,5来判断原始数据中是否存在可疑数据,用,来刻画模型拟合的效果.