《回归分析的基本思想及其初步应用》课件2PPT文件格式下载.ppt

上传人:b****3 文档编号:15630593 上传时间:2022-11-09 格式:PPT 页数:39 大小:1.25MB
下载 相关 举报
《回归分析的基本思想及其初步应用》课件2PPT文件格式下载.ppt_第1页
第1页 / 共39页
《回归分析的基本思想及其初步应用》课件2PPT文件格式下载.ppt_第2页
第2页 / 共39页
《回归分析的基本思想及其初步应用》课件2PPT文件格式下载.ppt_第3页
第3页 / 共39页
《回归分析的基本思想及其初步应用》课件2PPT文件格式下载.ppt_第4页
第4页 / 共39页
《回归分析的基本思想及其初步应用》课件2PPT文件格式下载.ppt_第5页
第5页 / 共39页
点击查看更多>>
下载资源
资源描述

《回归分析的基本思想及其初步应用》课件2PPT文件格式下载.ppt

《《回归分析的基本思想及其初步应用》课件2PPT文件格式下载.ppt》由会员分享,可在线阅读,更多相关《《回归分析的基本思想及其初步应用》课件2PPT文件格式下载.ppt(39页珍藏版)》请在冰豆网上搜索。

《回归分析的基本思想及其初步应用》课件2PPT文件格式下载.ppt

回归直线必过样本点的中心回归直线必过样本点的中心3、回归分析的基本步骤回归分析的基本步骤:

画散点图画散点图求回归方程求回归方程预报、决策预报、决策这种方法称为回归分析这种方法称为回归分析.回归分析回归分析是对具有相关关系的两个变量进行统计是对具有相关关系的两个变量进行统计分析的一种常用方法分析的一种常用方法.回归分析知识结构图回归分析知识结构图问题背景分析问题背景分析线性回归模型线性回归模型两个变量线性相关两个变量线性相关最小二乘法最小二乘法两个变量非线性相关两个变量非线性相关非线性回归模型非线性回归模型残差分析残差分析散点图散点图应用应用注:

虚线表示高中阶段不涉及的关系比数学3中“回归”增加的内容数学数学统计统计1.画散点图画散点图2.了解最小二乘法的了解最小二乘法的思想思想3.求回归直线方程求回归直线方程ybxa4.用回归直线方程解用回归直线方程解决应用问题决应用问题选修2-3统计案例5.引入线性回归模型引入线性回归模型ybxae6.了解模型中随机误差项了解模型中随机误差项e产生产生的原因的原因7.了解相关指数了解相关指数R2和模型拟合和模型拟合的效果之间的关系的效果之间的关系8.了解残差图的作用了解残差图的作用9.利用线性回归模型解决一类非利用线性回归模型解决一类非线性回归问题线性回归问题10.正确理解分析方法与结果正确理解分析方法与结果教学情境设计教学情境设计问题一:

问题一:

结合例结合例1得出线性回归模型及随机误差。

并且得出线性回归模型及随机误差。

并且区分区分函数模型和回归模型。

函数模型和回归模型。

问题二:

在线性回归模型中,在线性回归模型中,e是用是用bx+a预报真实值预报真实值y的随的随机误差,它是一个不可观测的量,那么应如何研究随机误差机误差,它是一个不可观测的量,那么应如何研究随机误差呢?

呢?

问题三:

如何发现数据中的错误?

如何衡量随机模型的拟合如何发现数据中的错误?

如何衡量随机模型的拟合效果?

效果?

问题四:

结合例结合例1思考:

用回归方程预报体重时应注意什么思考:

用回归方程预报体重时应注意什么?

问题五:

归纳建立回归模型的基本步骤。

问题六:

若两个变量呈现非线性关系,如何解决?

(分析例若两个变量呈现非线性关系,如何解决?

(分析例2)例例1从某大学中随机选取从某大学中随机选取8名女大学生,其身高和体重数据如表名女大学生,其身高和体重数据如表1-1所示。

所示。

5943616454505748体重/kg170155165175170157165165身高/cm87654321编号求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重。

的女大学生的体重。

结合例问题一:

结合例1得出线性回归模型及随机误差。

并且区区分函数模型和回归模型。

分函数模型和回归模型。

解:

1、选取身高为自变量、选取身高为自变量x,体重为因变量,体重为因变量y,作散点图:

,作散点图:

2.回归方程:

回归方程:

探究:

身高为172cm的女大学生的体重一定是60.316kg吗?

如果不是,你能解析一下原因吗?

答:

用这个回归方程不能给出每个身高为答:

用这个回归方程不能给出每个身高为172cm的女大的女大学生的体重的预测值,只能给出她们平均体重的估计值。

学生的体重的预测值,只能给出她们平均体重的估计值。

由于所有的样本点不共线,而只是散布在某一由于所有的样本点不共线,而只是散布在某一直线的附近,所以身高和体重的关系可以用直线的附近,所以身高和体重的关系可以用线线性回归模型性回归模型来表示:

来表示:

其中其中a和和b为模型的未知参数,为模型的未知参数,e称为随机误差称为随机误差.函数模型与函数模型与“回归模型回归模型”的关系的关系函数模型:

因变量函数模型:

因变量y完全由自变量完全由自变量x确定确定回归模型:

回归模型:

预报变量预报变量y完全由解释变量完全由解释变量x和随机误差和随机误差e确定确定注:

注:

e产生的主要原因:

产生的主要原因:

(1)所用确定性函数不恰当;

所用确定性函数不恰当;

(2)忽略了某些因素的影响;

忽略了某些因素的影响;

(3)观测误差。

观测误差。

思考思考:

产生随机误差项产生随机误差项e的原因是什么?

的原因是什么?

在线性回归模型中,问题二:

在线性回归模型中,e是用是用bx+a预报真实值预报真实值y的随机误差,它是一个不可观测的量,那么应如何研究的随机误差,它是一个不可观测的量,那么应如何研究随机误差呢?

随机误差呢?

结合例结合例1除了身高影响体重外的其他因素是不可测量的,除了身高影响体重外的其他因素是不可测量的,不能希望有某种方法获取随机误差的值以提高预报变量的不能希望有某种方法获取随机误差的值以提高预报变量的估计精度,但却可以估计预报变量观测值中所包含的随机估计精度,但却可以估计预报变量观测值中所包含的随机误差,这对我们查找样本数据中的错误和模型的评价极为误差,这对我们查找样本数据中的错误和模型的评价极为有用,因此在此我们引入残差概念。

有用,因此在此我们引入残差概念。

e=y-(bx+a)随机误差随机误差e的估计量的估计量样本点:

样本点:

相应的随机误差为:

随机误差的估计值为:

称为相应于点称为相应于点的的残差残差.的估计量的估计量为为称为称为残差平方和残差平方和.问题三:

如何衡量随机模型的拟问题三:

合效果?

(1)我们可以通过分析发现原始数据中的可疑数据,判断我们可以通过分析发现原始数据中的可疑数据,判断建立模型的拟合效果。

建立模型的拟合效果。

残差图的制作和作用:

制作:

坐标纵轴为残差变量,横轴可以有不同的选择制作:

坐标纵轴为残差变量,横轴可以有不同的选择.横轴为编号:

可以考察残差与编号次序之间的关横轴为编号:

可以考察残差与编号次序之间的关系,系,常用于调查数据错误常用于调查数据错误.横轴为解释变量:

可以考察残差与解释变量的关横轴为解释变量:

可以考察残差与解释变量的关系,常用于研究模型是否有改进的余地系,常用于研究模型是否有改进的余地.作用:

判断模型的适用性若模型选择的正确,残差图作用:

判断模型的适用性若模型选择的正确,残差图中的点应该分布在以横轴为中心的带形区域中的点应该分布在以横轴为中心的带形区域.下面表格列出了女大学生身高和体重的原始数据以及相应的残差数据。

下面表格列出了女大学生身高和体重的原始数据以及相应的残差数据。

编号编号12345678身高身高/cm165165157170175165155170体重体重/kg4857505464614359残差残差-6.3732.6272.419-4.6181.1376.627-2.8830.382残差图的制作及作用。

残差图的制作及作用。

坐标纵轴为残差变量,横轴可以有不同的选择;

若模型选择的正确,残差图中的点应该分布在以横轴若模型选择的正确,残差图中的点应该分布在以横轴为心的带形区域为心的带形区域;

对于远离横轴的点,要特别注意对于远离横轴的点,要特别注意。

身高与体重残差图异常点错误数据模型问题几点说明:

几点说明:

第一个样本点和第第一个样本点和第6个样本点的残差比较大,需要确认在采集过程中是否有人为的错误。

个样本点的残差比较大,需要确认在采集过程中是否有人为的错误。

如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;

如果数据采如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;

如果数据采集没有错误,则需要寻找其他的原因。

集没有错误,则需要寻找其他的原因。

另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适,这样的带另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。

状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。

误差与残差,这两个概念在某程度上具有很大的相似性,误差与残差,这两个概念在某程度上具有很大的相似性,都是衡量不确定性的指标,可是两者又存在区别。

都是衡量不确定性的指标,可是两者又存在区别。

误差与测量有关,误差大小可以衡量测量的准确性,误差误差与测量有关,误差大小可以衡量测量的准确性,误差越大则表示测量越不准确。

误差分为两类:

系统误差与越大则表示测量越不准确。

系统误差与随机误差。

其中,系统误差与测量方案有关,通过改进测随机误差。

其中,系统误差与测量方案有关,通过改进测量方案可以避免系统误差。

随机误差与观测者,测量工具,量方案可以避免系统误差。

随机误差与观测者,测量工具,被观测物体的性质有关,只能尽量减小,却不能避免被观测物体的性质有关,只能尽量减小,却不能避免。

残差残差与预测有关,残差大小可以衡量预测的准确性。

与预测有关,残差大小可以衡量预测的准确性。

残差越大表示预测越不准确。

残差与数据本身的分布特性,残差越大表示预测越不准确。

残差与数据本身的分布特性,回归方程的选择有关。

回归方程的选择有关。

显然,显然,R2的值越大,说明残差平方和越小,也就是说模型拟合效的值越大,说明残差平方和越小,也就是说模型拟合效果越好。

果越好。

在线性回归模型中,在线性回归模型中,R2表示解析变量对预报变量变化的贡献率。

表示解析变量对预报变量变化的贡献率。

R2越接近越接近1,表示回归的效果越好(因为,表示回归的效果越好(因为R2越接近越接近1,表示解析变量,表示解析变量和预报变量的线性相关性越强)和预报变量的线性相关性越强)。

如果某组数据可能采取几种不同回归方程进行回归分析,则可以通如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较过比较R2的值来做出选择,即选取的值来做出选择,即选取R2较大的模型作为这组数据的模型。

较大的模型作为这组数据的模型。

相关指数注:

相关指数RR22是度量模型拟合效果的一种指标。

在线性模型中,它是度量模型拟合效果的一种指标。

在线性模型中,它代表自变量刻画预报变量的能力。

代表自变量刻画预报变量的能力。

(2)我们可以用相关指数)我们可以用相关指数R2来刻画回归的效果,其计算公式是来刻画回归的效果,其计算公式是相关系数相关系数相关系数的性质相关系数的性质

(1)|r|1

(1)|r|1

(2)

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 能源化工

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1