整理多重线性回归.docx
《整理多重线性回归.docx》由会员分享,可在线阅读,更多相关《整理多重线性回归.docx(6页珍藏版)》请在冰豆网上搜索。
整理多重线性回归
多重回归与相关
(Multipleregressionandcorrelation)
一、基本概念:
由于大自然是复杂的,其中的现象大部分不是一对一的关系,不能用线性回归与相关来解决问题。
如:
人的体重与身高有关,也与胸围有关;血压值的大小除了与年龄有关外,还受到性别、劳动强度、饮食习惯、吸烟状况、家族史等因素的影响。
多重回归与多重相关是研究一个因变量和多个自变量之间线性关系的统计学分析方法。
1.多个自变量与一个因变量的数量关系多重回归
2.多个自变量与多个因变量的数量关系多元回归
3.多个变量与一个变量的相关关系多重相关
4.多个变量与多个变量的相关关系典则相关
5.扣除其它变量影响后一变量与另一变量的相关关系偏相关
本章仅讨论多重线性回归、多重线性相关和偏相关。
二、多重线性回归模型与参数估计:
(一)多重线性回归模型:
设观察了n个对象,每个对象观察了因变量Y和p个自变量,
模型表达式:
样本回归方程:
β0(a)为截距,β1,β2,…,βp(b1,b2,…,bp)为偏(部分)回归系数,βi(bi)表示除Xi外的其他自变量固定时,Xi改变一个单位后Y的平均变化。
标准回归系数:
偏回归系数因各自变量值的单位不同不能直接比较其大小,对变量值作标准化变换,得到的回归系数为标准回归系数,可直接比较其大小,反映各自变量对因变量的贡献大小。
(二)参数估计的方法:
最小二乘原则
最小。
对方程中的每个待估参数求导并设导数为零,得到一组线性方程组。
由于是线性方程组,可以直接求解。
具体的计算复杂,手工计算几乎不可能,一般需要计算机软件完成。
例:
重庆医科大学附属第二医院的资料,住院人数与门诊人数、病床利用率和病床周转次数的回归关系分析。
参数估计如下:
变量
回归系数
标准误
t
P
截距
-4848.944
3128.707
-1.55
0.1407
门诊人数X1
55.886
18.001
3.10
0.0068
病床利用率X2
21.930
39.813
0.55
0.5894
病床周转次数X3
319.047
96.593
3.30
0.0045
得到回归方程:
三、多重线性回归的假设检验:
1.回归方程的方差分析:
(1)检验假设:
H0:
H1:
不全为0。
(2)计算统计量F值:
SST=36528242
SSr=SST-SSe=36528242-9461837=27066405
(3)确定概率和判断结果:
p<0.001,拒绝零假设,认为各偏回归系数不全为零,多重回归方程成立。
2.回归系数的假设检验:
(1)检验假设:
H0:
H1:
(2)计算统计量:
(3)确定概率和判断结果:
P=0.0068,偏回归系数不是来自0的总体。
3.决定系数计算:
决定系数为:
说明在该医院住院人数的变异有74.1%可以用门诊人数,病床利用率及病床周转次数来解释。
由于引进变量越多,决定系数肯定越大,决定系数不能反映回归方程的优良性。
特别是作模型间的比较时,用校正决定系数较好。
四、回归分析中的变量筛选:
多重回归分析时,不是引入模型的变量越多越好。
与Y不相干的变量引入模型不但不能改善模型的预测效果,可能还会增加预测误差。
因此筛选“较优”的模型是多重回归分析的重要任务之一。
(一)筛选变量的统计学标准:
1.决定系数
或SSE最小。
2.MSE最小。
等价于
。
3.Cp最小。
1973年由MallowsCL提出,目前认为是较好的标准。
此统计量由两部分组成,当入选自变量增多即p增大时,上式中第一项变小,第二项变大;而p减小时,上式中第一项变大,第二项变小。
想得到较小的Cp值,必须是这两项的折衷,即入选自变量的数目p较为适中,不能过大也不能过小。
(二)逐步筛选变量的方法:
1.所有可能子集法:
较好的方法。
但计算量大。
1)地方环境标准是对国家环境标准的补充和完善。
在执行上,地方环境标准优先于国家环境标准。
2.后退法(Backward):
开始全部引入,然后逐个剔除(偏回归平方和最小,F(1)内涵资产定价法
第五章 环境影响评价与安全预评价3.向前法(Forward):
从引入一个自变量(偏回归平方和最大,F>F引入)开始,自变量由少到多逐个引入,使方程外有统计学意义的变量全部引入为止。
(1)内涵资产定价法优点:
计算量小。
缺点:
一次只能引入一个变量。
(2)环境影响后评价。
4.逐步法(Stepwise):
开始一个或全部变量引入,然后上述两种方法交替使用,引入变量后立即考虑是否要剔除,剔除变量后立即考虑是否要引入,直到方程内的变量全部有统计学意义,方程外的变量全部无统计学意义为止。
较好的方法。
发现规划存在重大环境问题的,审查时应当提出不予通过环境影响报告书的意见;
2.环境保护行政法规五、多重回归分析的主要用途:
1.筛选有关变量(主要用途)。
2.
3.安全评价的原理可归纳为四个基本原理,即相关性原理、类推原理、惯性原理和量变到质变原理。
获得有实际意义的回归方程。
(3)环境影响评价中应用环境标准的原则。
六、多重回归分析的一般步骤:
1.
2.环境总经济价值=环境使用价值+环境非使用价值单因子模型分析。
3.逐步筛选变量,建立多因素模型。
4.综合单因子和多因素模型的结果,当两者矛盾时,结合专业知识分析原因(因素之间是否存在拮抗或协同作用)。
七、多重相关和部分相关:
应用条件:
同简单线性相关一样,仅当X1,X2,…,Y为多元正态分布的随机变量时才能考虑相关分析。
1.复相关系数(多重相关系数):
多重相关的实质就是Y的实际观察值与由p个自变量预测的
值的相关。
前面计算的决定系数是Y与
相关系数的平方,那么复相关系数就是决定系数的平方根。
2.偏相关系数(部分相关系数):
部分相关系数反映校正其它变量后某一变量与另一变量的相关关系,校正的意思可以理解为假定其它变量都取值为均数。
计算公式:
3.偏相关系数的假设检验:
用t检验。
总体中扣除q个变量影响的偏相关系数为ρ(-q),样本中相应的偏相关系数为r(-q)。
检验假设:
H0:
ρ(-q)=0,H1:
ρ(-q)≠0
可采用统计量:
ν=n-q-2
偏相关系数的假设检验等同于偏回归系数的t检验。
复相关系数的假设检验等同于回归方程的方差分析。