23 变量的相关性.docx
《23 变量的相关性.docx》由会员分享,可在线阅读,更多相关《23 变量的相关性.docx(21页珍藏版)》请在冰豆网上搜索。
23变量的相关性
张喜林制
2.3变量的相关性
教材知识检索
考点知识清单
1.变量与变量之间的关系常见的有两类:
一类是的函数关系;另一类是变量间确实存在关系,但又不具备函数关系所要求的,它们的关系是带有____的.
2.如果一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为;如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为.
3.在平面直角坐标系中,用的方法得到具有相关关系的两个变量的图形叫散点图.1
4.
叫做y对x的,其中____.
5.由于平方又叫二乘方,所以这种使____的方法,叫做
6.用最小二乘法求回归直线方程中的系数,a、b的公式是
.
要点核心解读
1.变量与变量之间存在着的两种关系
(1)函数关系.
函数关系是一种确定性的关系,例如圆的面积
面积S与半径长r之间就是一种确定性关系,对于自变量半径的每一个确定的值,都有唯一确定的面积的值与之对应.
(2)相关关系.
自变量取值一定时,因变量的取值带有一定的随机性的两个变量之间的关系叫做相关关系.与函数关系不同,相关关系是一种非确定性关系,例如,人的身高并不能确定体重,但一般说来“身高者,体也重”.我们说身高与体重这两个变量具有相关关系.当一个变量的值由小变大时,另一个变量的值也在由小变
大,这种相关称为正相关;反之如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关.
2.散点图
(1)将两个变量的各对数据在直角坐标系中描点而得到的图形叫做散点图.散点图形象地反映了各对数据的密切程度,而且利用散点图可以判断变量之间有无相关关系.
(2)散点图的制作:
对于两条轴的长度单位可以取得不一致,点既可用实心点,也可用空心点,画回归直线时,一定要画在多数点经过的区域,实际画线时,先观察有哪两点在直线上即可.
3.相关关系的理解
如学生数学成绩与物理成绩间的关系、吸烟和健康之间的关系、父母身高与子女身高的关系、产品的广告费支出与销售额之间的关系等都是相关关系,而学生的身高与学习成绩之间没有相关关系,角与它的正弦值之间的关系也不是相关关系,而是函数关系.函数关系是一种确定性关系,而相关关系是一种非确定性关系,即当自变量取值一定时,因变量的取值是带有一定的随机性的两个变量间的关系.
在现实生活中,相关关系是大量存在的.从某种意义上看,函数关系是一种理想的关系模型,而相关关系是一种更为一般的情况,因此研究相关关系,不仅可以使我们处理更为广泛的数学应用问题,还可使我们对函数关系的认识上升到一个新的高度.
4.回归直线方程
一般地,设x与y是具有相关关系的两个变量,且相应于n组观测值的n个点
大致分布在一条直线的附近,求在整体上与这n个点最接近的一条直线,记此直线方程为
这里在y的上方加记号“^’,是为了区分Y的实际值y,表示当x取值
时,y相应的观察值为
而直线上对应于
的纵坐标是
式叫做y对x的回归直线方
程,b叫做回归系数.
5.最小二乘法设x,Y的一组观察值为
且回归直线方程为
当x取值
时,y的观察值为
对应回归直线上的
取
离差
刻画了实际观察值
与回归直线上相应点的纵坐标之间的偏离程度.我们希望
与
的n个离差构成的总离差越小越好,这才说明所求的直线是最贴近已知点的.
—个自然的想法是把各个离差加起来作为总离差,可是,由于离差有正有负,直接相加会相互抵消,这样就无法反映这些数据点的贴近程度,即这个总离差不能用n个离差之和
来表示,通常是离差的平方和,即
作为总离差,并使之达到最小.这样,回归直线就是所有直线中Q取最小值的那一条,由于平方又叫二乘方,所以这种使“离差平方和为最小”的方法,叫做最小二乘法.
6.回归系数的公式及推导
用最小二乘法求回归直线方程中的a,b有下面的公式:
其中a,b的上方加“^’,表示是由观察值按最小二乘法求得的估计值,
也叫回归系数,
求出后,回归直线方程就建立起来了.
如何使离差平方和为“最小”呢?
我们将离差平方和式展开,同时为了书写方便,一律省去“∑”号的上、下标,这样得
把上式看成a的二次函数,
的系数n>0,因此,当
时,取最小值.
其中
是样本平均数.
同理,把Q的展开式重新按6的降幂排列,看成b的二次函数,当
时,取最小值,于是:
从而解得回归系数:
和
7.回归直线方程的求法
根据最小二乘法,利用计算机或计算器,可以方便地求出回归方程.
(1)分别计算
(2)分别计算
(3)代入
可得回归方程,
利用回归直线,我们可以对总体进行估计.如回归直线方程为
当
时的估计值为:
8.回归直线方程的另外两种求法
回归直线方程的求法课本上是利用最小二乘法得到的,除了这种方法外,还有选点法、平均值法.
(1)选点法:
作出散点图,用一条透明的直尺边缘在这些点间移动,选出直线上的两点或最靠近直线的两点(选点不当,精确度就比较低).
(2)平均值法:
首先设出方程
把观测值代入得几个关于k,b的一次方程,将其平均分为两组,分别相加得到k,b的两个方程,联立解出k,b.
三种方法比较:
最小二乘法精确度最高,一般采用这种方法,
典例分类剖析
考点1变量间相关关系的理解
[例1]下面两个变量间的关系不是函数关系的是().
A.正方体的棱长与体积
B.角的度数与它的正弦值
C.单产为常数时,土地面积与粮食总产量
D.日照时间与水稻亩产量
[试解]____.(做后再看答案,发挥母题功能)
[解析]函数关系与相关关系都是指两个变量之间的关
系,但是这两种关系是不同的,函数关系是指当自变量一定时,函数值是确定的,是一种确定性的关系.
选D项.因为A项
B项
C项
D项是相关关系.
[答案]D
[点拨]相关关系是一种非确定性关系,因变量(非随机变量)的取值常有一定的随机性,不能由自变量唯一地确定,如D,再如:
人的身高与年龄、家庭的收入与支出、试验田的施肥与水稻的产量等都是相关关系.
[例2]下列四个关系中为相关关系的是
①正方形边长与其面积的关系;②某人的身高与年龄的关系;③圆柱体积与其底面半径的关系;④Rt△ABC中,锐角A的大小与斜边长度的关系.
[解析]由相关关系的定义不难作出判断,符合相关关系的是②③.
[答案]②③
1.在下列各变量之间的关系中:
①汽车的重量和百公里的耗油量;②正n边形的边数与内角度数之和;③一块农田的小麦产量与施肥量;④家庭的经济条件与学生的学习成绩,
以上是相关关系的有().
A.①②B.①③C.②③D.③④
考点2散点图的作用与作法
[例3]某农场经过观测得到水稻产量和施化肥量的统计数据如下:
施化肥量(x)
15
20
25
30
35
40
45
水稻产量(y)
330-
345
365
405
445
450
455
画出散点图,判断它们是否有相关关系,并考虑水稻的产量会不会随着化肥施用量的增加而一直增长.
[答案]画出散点图如图2-3-2所示.水稻产量和施化肥量之间有相关关系.由图可以看出,随着施化肥量的增大,水稻产量也在增大,但增大的速度在放缓,因此,水稻的产量不会随着化肥施用量的增加而一直增长.
[点拨]对于两条轴的长度单位可以取得不一致,点既可用空心点,也可用实心点.
[例4]在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据:
年龄
23
27
39
41
45
49
50
53
54
56
57
58
60161I
脂肪
9.5
17.8
21.2
25.9
27.5
26.3
28.2
29.6
30.2
31.4
30.8
33.5
35.2134.61
根据上述数据,判断人体的脂肪含量与年龄之间有怎样的关系?
[答案]绘出数据{(
)}的散点图如图2-3-3.从散点图可以看出,年龄越大,体内脂肪含量越高,且两个变量之间存在一定的相关关系.
[点拨]判断有无相关关系,一种行之有效的方法就是散点图,两个变量是否具有相关关系,主要依据散点图中,变量对应的点是否分布在一条直线附近,若是,则具有相关关系,否则,不具有相关关系,
2.
(1)如图2-3-4是两个变量统计数据的散点图,判断两个变量之间是否具有相关关系?
(2)有个男孩的年龄与身高的统计数据如下.
年龄/岁
l
2
3
4
5
6
身高/cm
78
87
98
108
115
120
画出散点图,并判断它们是否有相关关系.考点3散点图与回归直线
[例5]已知10只狗的血球体积及红血球数的测量值如下表:
(mm)(百万)
x:
血球体积y:
红血球数
456.53
426.30
469.52
487.50
426.99
355.90
589.49
406.20
396.55
508.72
(1)画出上表的散点图;
(2)求出回归直线并画出图形.
[解析]用散点图及回归直线的定义解题.
[答案]
(1)如图2-3-5所示.
设回归直线的方程为
则
所以所求的回归直线为
如图2-3-6所示.
[点拨]求回归直线的步骤:
(1)分别计算:
(2)分别计算
(3)代入
可得回归方程.
3.每立方米混凝土的水泥用量x(单位:
kg)与28天后混凝土的抗压强度y(单位:
之间的关系有如下数据.
x
150
160
170
180
190
200
210
220
230
240
250
260
y
56.9
58.3
61.6
64.6
68.1
71.3
74.1
77.4
80.2
82.6
86.4
89.7
(1)画出散点图;
(2)如果散点图中的各点大致分布在一条直线的附近,求y
与x之间的回归直线方程,
考点4利用回归直线对总体进行估计
[例6]假设关于某设备的使用年限x和所支出的维修费用y(万元),有如下的统计资料:
使用年限x
2
3
4
5
6
维修费用y
2.2
3.8
5.5
6.5
7.O
若由资料知y对x呈线性相关关系.试求:
(1)线性回归方程
的回归系数;
(2)估计使用年限为10年时,维修费用是多少?
[解析]因为y对x呈线性相关关系,所以可以用线性相关的方法解决问题.
(1)利用公式
来计算回归系数.有时为了方便常制表对应求出
以利于求和.
(2)获得线性回归方程后,取
即得所求.
[答案]
(1)制表
于是有
(2)回归直线方程是
当
(年)时,
(万元),即估计使用10年时维修费用是12.38万元.
4.炼钢是一个氧化降碳的过程,钢水含碳
量的多少直接影响冶炼时间的长短,必须掌握钢水含碳量和冶炼时间的关系,如果已测得炉料熔化完毕时,钢水的含碳量x与冶炼时间,,(从炉料熔化完毕到出钢的时间)的一列数据如下表所示:
x./0.01%
104
180
190
177
1