《变量间的相关关系统计案例》教学案文理通用.docx
《《变量间的相关关系统计案例》教学案文理通用.docx》由会员分享,可在线阅读,更多相关《《变量间的相关关系统计案例》教学案文理通用.docx(8页珍藏版)》请在冰豆网上搜索。
《变量间的相关关系统计案例》教学案文理通用
一、知识梳理:
1.散点图:
表示具有相关关系的两个变量组成一组数据,将各级数据在平面直角坐标系中描点,这种图形叫散点图。
2.两个变量的线性关系
(1)正相关:
在散点图中,点散布在从左下角到右上角的区域,两个变量的这种相关关系称为正相关;
(2)负相关:
在散点图中,点散布在从右下角到左上角的区域,两个变量的这种相关关系称为正负相关;
(3)线性相关关系,回归直线
如果散点图中的点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线。
3.线性回归方程:
(1)最小二乘法:
求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法。
(2)线性回归方程
方程是两个具有线性相关关系的变量的一组数据(1,y1),(2,y2),……,(n,yn)的线性回归方程,其中b是回归方程斜率,a是截距,计算公式如下:
它主要用来估计和预测取值及变化趋势。
4.回归分析:
通过散点图直观了解两个相关变量间的关系,然后通过最小二乘法建立回归模型,最后通过分析相关系数、随机误差评价回归模型的好坏,这就是回归分析的基本思想。
如果回归比较好地刻画了两个相关变量的关系,以自变量的某个值,就可以通过回归模型预测相应回归变量的值。
(1)相关系数:
统计中用相关系数r来衡量两个变量之间的线性关系的强弱,若相应于变量的取值i,变量y的观测值为yi
(1),则两个变量的相关系数的计算公式为r=,当r时,表明两具变量正相关,当r时,表明两个变量负相关,r的绝对值越接近1,表明两个变量的相关性越强,当r的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系,通常当r的绝对值大于时,认为两个变量有很强的线性相关关系()
(2)随机误差:
①在线性回归模型:
y=bae中,a,b为模型中的未知数,e是y与=ba之间的误差,通常e为随机变量,称为随机误差
②线性回归方程完整表达方式为:
随机误差e的方差越小,通过回归直线=ba预报真实值y的精确度越高
3残差分析:
①残差:
对于样本点(1,y1),(2,y2),……,(n,yn)而言,它们的随机误差为=-=--
()残差。
②残差图:
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形为残差图。
③残差平方和:
==,称为残差的平方和。
我们可以用残差的平方和衡量回归方程的预报精度;残差平方和越小,模型的拟合效果越好;残差的平方和越大,模型的拟合效果越差。
(4)相关指数:
我们也可以用=来刻画回归效果,越小,意味着残差平方和越大,模型的拟合效果越差;越大,意味着残差平方和越小,模型的拟合效果越好,说明解释变量和预报变量的线性相关性越强。
5、独立性检验:
(1)分类变量:
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量。
(2)列联表:
列出两个分类变量的频数表,称为列联表。
(3)2列联表:
假设有两个分类变量X和Y,它们的可能取值分别为和,其样本频数列联表称为2列联表。
总计
a
b
ab
c
d
cd
总计
ac
bd
abcd
(4)判断两个分类变量与y是否有关系的方法:
①通过等高条形图,可以直接地反映数据情况,粗略地判断两个分类变量是否有关系,但无法精确地给出所得结论的可靠程度。
②独立性检验:
利用随机变量来判断“两个分类变量有关系”的方法,具体做法如下:
a.根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误的概率上界,然后查表(如下表),确定临界值;
P
:
=,其中n=abcd为样本容量
>就以1-P的把握推断“X与Y有关系”,否则,就认为在样本数据中没有发现足够的证据支持结论“X与Y有关系”。
二、题型探究
[探究一]相关关系判断
例1:
下面是水稻产量与施化肥量的一组观测数据
施化肥量
15
20
25
30
35
40
45
水稻产量
320
330
360
410
460
470
480
(1)将上述数据制成散点图:
(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗水稻产量会一直随施化肥量的增加而增加吗?
[探究二]求回归直线方程
例2:
某地区2022年至2022年农村居民家庭纯收入y(单位:
千元)的数据如下表:
年份
2022
2022
2022
2022
2022
2022
2022
年份代号t
1
2
3
4
5
6
7
人均纯收入y
(Ⅰ)求y关于t的线性回归方程;
(Ⅱ)利用(Ⅰ)中的回归方程,分析2022年至2022年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2022年农村居民家庭人均纯收入
附:
回归直线的斜率和截距的最小二乘法估计公式分别为:
[探究三]线性回归分析:
(1)请根据上表所提供的数据,用最小二乘法求出y关于的线性回归方程
已知该厂改革技术前100吨甲产品的生产能耗为90吨标准煤,试根据
(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比改革技术前降低多少吨标准吨?
[探究四]独立性检验
例4:
某企业为了更好地了解设备改造前后与生产合格品的关系,随机抽取了180件产品进行分析,其中设备改造前的合格品有36件,不合格品有49件,设备改造后生产的合格品有65件,不合格品有30件.根据所给数据:
1写出2×2列联表;
2判断产品是否合格与设备改造是否有关.
解:
1由已知数据得
成绩
性别
不及格
及格
总计
男
6
14
20
女
10
22
32
总计
16
36
52
合格品
不合格品
合计
设备改造后
65
30
95
设备改造前
36
49
85
合计
101
79
180
2根据列联表中数据,K2的观测值为
=≈
由于>,有%的把握认为产品是否合格与设备改造有关.
三、方法提升
1、对于相关关系的理解应注意:
相关关系与函数关系不同,函数关系是一种确定的关系,而相关系是一种非确定的关系,它包括了两种情况:
(1)两个变量中,一个为可控制变量,另一个为随机变量,例如化肥的施肥量与农作物的产量之间的关系是相关关系,其中施肥量是一个可控制的变量,而农作物的产量是随机变量;两具变量均为随机变量。
2、线性回归分析以散点图为基础,具有很强的直观性,拟合效果的好坏可以通过观察图形直接判断;没有散点图时,可以用公式求出r,再做判断即可,其中r的大小只说明是否相关并不能说明拟合效果的好坏,才是判断拟效果好坏的依据。
3、独立性检验是一种假设性检验,没有直观性,须依靠的观测值来对假设进行判断,应注意是一个随机变量,则是取定的一组数a,b,c,d后的一个确定值。
四、反思感悟:
五、课时作业
一、选择题
1.下列选项中,两个变量具有相关关系的是
A.正方形的面积与周长B.匀速行驶车辆的行驶路程与时间
C.人的身高与体重D.人的身高与视力
答案:
C
2.对有线性相关关系的两个变量建立的回归直线方程=a+b中,回归系数b
A.不能小于0 B.不能大于0
C.不能等于0D.只能小于0
解析:
选C∵b=0时,r=0,这时不具有线性相关关系,但b能大于0也能小于0
3.对变量、y有观测数据i,yii=1,2,…,10,得散点图1;对变量u,v有观测数据ui,vii=1,2,…,10,得散点图2由这两个散点图可以判断 A.变量与y正相关,u与v正相关B.变量与y正相关,u与v负相关
负相关,u与v正相关D.变量与y负相关,u与v负相关
解析:
选C由题图1可知,各点整体呈递减趋势,与y负相关,由题图2可知,各点整体呈递增趋势,u与v正相关.
4.下列关系属于线性负相关的是
A.父母的身高与子女身高的关系
B.球的体积与半径之间的关系
C.汽车的重量与汽车每消耗1L汽油所行驶的平均路程
D.一个家庭的收入与支出
解析:
选、D中的两个变量属于线性正相关,B中两个变量是函数关系.
5.下列有关回归直线方程=b+a的叙述正确的是
①反映y与之间的相关关系;
②反映y与之间的函数关系;
③表示y与之间的不确定关系;
④表示最接近y与之间真实关系的一条直线.
A.①②B.②③
C.③④D.①④
解析:
选=b+a表示与之间的相关关系,而不是y与之间的函数关系;但它反映的关系最接近y与之间的真实关系,故选D
6.设有一个回归方程=3-5,变量增加一个单位时
A.y平均增加3个单位B.y平均减少5个单位
C.y平均增加5个单位D.y平均减少3个单位
解析:
选B∵-5是斜率的估计值,说明每增加一个单位,y平均减少5个单位.
7.如果有95%的把握说事件A和B有关系,那么具体计算出的数据
A.K2>.K2<
C.K2>.K2<
解析:
2的值和临界值的大小,95%的把握则K2>,K2>就约有99%的把握.
8.对两个变量y和进行回归分析,得到一组样本数据:
1,y1,2,y2,…,n,yn,则下列说法中不正确的是
A.由样本数据得到的回归方程=+必过样本中心,
B.残差平方和越小的模型,拟合的效果越好
C.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好
D.若变量y和之间的相关系数为r=-,则变量y和之间具有线性相关关系
解析:
选中应为R2越大拟合效果越好.