回归分析的基本思想及其初步应用_精品文档PPT文档格式.ppt
《回归分析的基本思想及其初步应用_精品文档PPT文档格式.ppt》由会员分享,可在线阅读,更多相关《回归分析的基本思想及其初步应用_精品文档PPT文档格式.ppt(37页珍藏版)》请在冰豆网上搜索。
):
注注对具有相关关系的两个变量进行对具有相关关系的两个变量进行统计分析的方法叫统计分析的方法叫回归分析回归分析。
22):
22、现实生活中存在着大量的相关关系。
现实生活中存在着大量的相关关系。
如:
人的身高与年龄;
产品的成本与生产数量;
商品的销售额与广告费;
家庭的支出与收入。
等等家庭的支出与收入。
等等回归分析的内容与步骤:
回归分析的内容与步骤:
统计检验通过后,最后是统计检验通过后,最后是利用回归模型,根据自变量去估计、利用回归模型,根据自变量去估计、预测因变量预测因变量。
回归分析通过一个变量或一些变量的变化解释另回归分析通过一个变量或一些变量的变化解释另一变量的变化。
一变量的变化。
其主要内容和步骤是:
首先根据理论和对问题的分析判断,首先根据理论和对问题的分析判断,将变量分为自变量和因变将变量分为自变量和因变量量;
其次,设法其次,设法找出合适的数学方程式(即回归模型)找出合适的数学方程式(即回归模型)描述变量间描述变量间的关系;
的关系;
由于涉及到的变量具有不确定性,接着还要由于涉及到的变量具有不确定性,接着还要对回归模型进行对回归模型进行统计检验统计检验;
最小二乘法:
称为样本点的中心称为样本点的中心。
回归直线过样本点的中心回归直线过样本点的中心33、对、对两个两个变量进行的线性分析叫做变量进行的线性分析叫做线性线性回归分析回归分析。
22、回归直线方程、回归直线方程:
2.2.相应的直线叫做相应的直线叫做回归直线回归直线。
11、所求直线方程、所求直线方程叫做叫做回归直回归直-线方程线方程;
其中;
其中相关系数相关系数1.1.计算公式计算公式22相关系数的性质相关系数的性质
(1)|r|1
(1)|r|1
(2)|r|
(2)|r|越接近于越接近于11,相关程度越大;
,相关程度越大;
|r|r|越接越接近于近于00,相关程度越小,相关程度越小问题:
达到怎样程度,问题:
达到怎样程度,xx、yy线性相关呢?
它线性相关呢?
它们的相关程度怎样呢?
们的相关程度怎样呢?
负相关负相关正相关正相关相关系数相关系数正相关;
负相关通常,正相关;
负相关通常,rr-1,-0.75-0.75-负相关很强负相关很强;
r0.75,1正相关很强正相关很强;
r-0.75,-0.3-负相关一般负相关一般;
r0.3,0.75正相关一般正相关一般;
rr-0.25,0.25-0.25-相关性较弱相关性较弱;
相关关系的测度相关关系的测度(相关系数取值及其意义)-1.0+1.00-0.5+0.5完全负相关完全负相关无线性相关无线性相关完全正相关完全正相关负相关程度增加负相关程度增加r正相关程度增加正相关程度增加例例1从某大学中随机选取从某大学中随机选取8名女大学生,其身高和体重数据如表名女大学生,其身高和体重数据如表1-1所示。
所示。
编号12345678身高/cm165165157170175165155170体重/kg4857505464614359求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重。
的女大学生的体重。
案例案例1:
女大学生的身高与体重:
女大学生的身高与体重解:
解:
1、选取身高为自变量、选取身高为自变量x,体重为因变量,体重为因变量y,作散点图:
,作散点图:
2、由散点图知道身高和体重有比较、由散点图知道身高和体重有比较好的线性相关关系,因此可以用线性好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系。
回归方程刻画它们之间的关系。
分析:
由于问题中分析:
由于问题中要求根据身高预报要求根据身高预报体重,因此选取身体重,因此选取身高为自变量,体重高为自变量,体重为因变量为因变量2.2.回归方程:
回归方程:
1.散点图;
散点图;
例例1从某大学中随机选取从某大学中随机选取8名女大学生,其身高和体重数据如表名女大学生,其身高和体重数据如表1-1所示。
3、从散点图还看到,样本点散布在、从散点图还看到,样本点散布在某一条直线的附近,而不是在一条某一条直线的附近,而不是在一条直线上,所以不能用一次函数直线上,所以不能用一次函数y=bx+a描述它们关系。
描述它们关系。
探究:
身高为身高为172cm的女大学生的体重一定是的女大学生的体重一定是60.316kg吗吗?
如果不是,你能解析一下原因吗?
我们可以用下面的我们可以用下面的线性回归模型线性回归模型来表示:
来表示:
y=bx+a+e,其中其中a和和b为模型的未知参数,为模型的未知参数,e称为随称为随机误差。
机误差。
思考思考:
产生随机误差项产生随机误差项e的原因是什么?
的原因是什么?
随机误差随机误差ee的来源的来源(可以推广到一般):
可以推广到一般):
1、忽略了其它因素的影响:
影响身高、忽略了其它因素的影响:
影响身高y的因素不只的因素不只是体重是体重x,可能还包括遗传基因、饮食习惯、生,可能还包括遗传基因、饮食习惯、生长环境等因素;
长环境等因素;
2、用线性回归模型近似真实模型所引起的误差;
、用线性回归模型近似真实模型所引起的误差;
3、身高、身高y的观测误差。
的观测误差。
以上三项误差越小,说明我们的回归模型的拟合以上三项误差越小,说明我们的回归模型的拟合效果越好。
效果越好。
函数模型与回归模型之间的差别函数模型与回归模型之间的差别函数模型:
回归模型:
可以提供选择模型的准则函数模型与回归模型之间的差别函数模型与回归模型之间的差别函数模型:
线性回归模型线性回归模型y=bx+a+e增加了随机误差项增加了随机误差项e,因变量,因变量y的值由自变量的值由自变量x和和随机误差项随机误差项e共同确定,即共同确定,即自变量自变量x只能解释部分只能解释部分y的变化的变化。
在统计中,我们也把自变量在统计中,我们也把自变量x称为解释变量,因变量称为解释变量,因变量y称为预报变量。
称为预报变量。
所以,对于身高为所以,对于身高为172cm的女大学生,由回归方程可以预报其体重为的女大学生,由回归方程可以预报其体重为思考:
思考:
如何刻画预报变量(体重)的变化?
这个变化在多大程度上如何刻画预报变量(体重)的变化?
这个变化在多大程度上与解释变量(身高)有关?
在多大程度上与随机误差有关?
与解释变量(身高)有关?
假设身高和随机误差的不同不会对体重产生任何影响,那么所有人的体重将相假设身高和随机误差的不同不会对体重产生任何影响,那么所有人的体重将相同。
同。
在体重不受任何变量影响的假设下,设在体重不受任何变量影响的假设下,设8名女大学生的体重都是她们的平均值,名女大学生的体重都是她们的平均值,即即8个人的体重都为个人的体重都为54.5kg。
54.554.554.554.554.554.554.554.5体重/kg170155165175170157165165身高/cm87654321编号54.5kg在散点图中,所有的点应该落在同一条在散点图中,所有的点应该落在同一条水平直线上,但是观测到的数据并非如水平直线上,但是观测到的数据并非如此。
此。
这就意味着这就意味着预报变量(体重)的值预报变量(体重)的值受解释变量(身高)或随机误差的影响受解释变量(身高)或随机误差的影响。
对回归模型进行统计检验对回归模型进行统计检验5943616454505748体重/kg170155165175170157165165身高/cm87654321编号例如,编号为例如,编号为6的女大学生的体重并没有落在水平直线上,她的体重为的女大学生的体重并没有落在水平直线上,她的体重为61kg。
解释。
解释变量(身高)和随机误差共同把这名学生的体重从变量(身高)和随机误差共同把这名学生的体重从54.5kg“推推”到了到了61kg,相差,相差6.5kg,所以所以6.5kg是解析变量和随机误差的是解析变量和随机误差的组合效应组合效应。
编号为编号为3的女大学生的体重并也没有落在水平直线上,她的体重为的女大学生的体重并也没有落在水平直线上,她的体重为50kg。
解析。
解析变量(身高)和随机误差共同把这名学生的体重从变量(身高)和随机误差共同把这名学生的体重从50kg“推推”到了到了54.5kg,相差,相差-4.5kg,这时解析变量和随机误差的组合效应为这时解析变量和随机误差的组合效应为-4.5kg。
用这种方法可以对所有预报变量计算组合效应。
数学上,把每个效应(观测值减去总的平均值)的平方加起来,即用数学上,把每个效应(观测值减去总的平均值)的平方加起来,即用表示总的效应,称为表示总的效应,称为总偏差平方和总偏差平方和。
在例在例1中,总偏差平方和为中,总偏差平方和为354。
5943616454505748体重/kg170155165175170157165165身高/cm87654321编号那么,在这个总的效应(总偏差平方和)中,有多少来自于解释变量(身高)?
那么,在这个总的效应(总偏差平方和)中,有多少来自于解释变量(身高)?
有多少来自于随机误差?
有多少来自于