1、线性回归分析法一元线性回归分析和多元线性回归分析一元线性回归分析简单介绍当只有一个自变量时,称为一元回归分析(研究因变量因和自变量因之间的 相 关关系);当自变量有两个或多个时,则称为多元回归分析(研究因变量因和自变量 冋,囤,冋之间的相关关系)。如果回归分析所得到的回归方程关于未知参数是 线性的,则称为线性回归分析;否则,称为非线性回归分析。在实际预测中,某些非 线性关系也可以通过一定形式的变换转化为线性关系,所以,线性回归分析法成为最 基本的、应用最广的方法。这里讨论线性回归分析法。2回归分析法的基本步骤回归分析法的基本步骤如下:(1) 搜集数据。根据研究课题的要求,系统搜集研究对象有关特
2、征量的大量历史数据。山于 回 归分析是建立在大量的数据基础之上的定量分析方法,历史数据的数量及其准确性 都直接影响到回归分析的结果。(2) 设定回归方程。以大量的历史数据为基础,分析其间的关系,根据自变量与因变量之间所表现 岀来的规律,选择适当的数学模型,设定回归方程。设定回归方程是回归分析 法的 关键,选择最优模型进行回归方程的设定是运用回归分析法进行预测的基 础。(3) 确定回归系数。将已知数据代入设定的回归方程,并用最小二乘法原则计算出回归系数,确 定 回归方程。这一步的工作量较大。(4) 进行相关性检验。相关性检验是指对已确定的回归方程能够代表自变量与因变量之间相关关 系的 可靠性进行
3、检验。一般有囲检验、呂检验和回检验三种方法。(5) 进行预测,并确定置信区间。通过相关性检验后,我们就可以利用已确定的回归方程进行预测。因为回归 方 程本质上是对实际数据的一种近似描述,所以在进行单点预测的同时,我们也需要给 岀该单点预测值的置信区间,使预测结果更加完善。3.元线性回归分析的数学模型用一元线性回归方程来描述冋和冈之间的关系,即+ + Ar (0=1, 2,式中,冋和回分别是自变量因和因变量国的第3观测值,囤和区是 回归系数,H是观测点的个数,百为对应于因的笫皿观测值区的随 机误差。假设随机误差囤满 足如下条件:服从正态分布;区的 均值为零,即|e,)=o|;百的方差等于囲;各个
4、区间相互独 立,即对于任何两个随机误差囤和囤,其协方差等 于零即, cov(A/,aJ=0 (/#7)0基于上述假定,随机变量的数学期望和方差分别是()1)=勺+也(兀)(22):()”,如果不考虑式中的误差项,我们就得到简化的式子X 二绳 + (2-3)该式称为因对匡的一元回归模型或一元回归方程,其相应的回归分析称为一元线性 回归分析。依据这一方程在直角坐标系中所作的直线就称为回归直线。4.回归参数的估计回归模型中的参数冋与冋在一般情况下都是未知数,必须根据样本观测数 据區 列来估计。确定参数囚与冋值的原则是要使样本的回归直线同观察值的 拟合状态最 好,即要使得偏差最小。为此,可以釆用最小二
5、乘法的办法来解决。对应于每一个因, 根据回归直线方程式(23)可以求出一个回,它就是区的一个估计值。估计值和观测 值之间的偏差要使模型的拟合状态最好,就是说要使凹个偏差平方和最小为标准来确 定回归模型。则式(21)用矩阵形式表示为为了方便起见,记V =Orf= a2B =11X2 J 订LAJAy = B a+ A (2-4)设冈为误差囚的负估值,称为匡的改正数或残差,G为回归参数回的估值,则 可以写岀类似于参数平差的误差方程7 = Ba y (2-5)根据最小二乘原理|v7V = mmL求自由极值,得 = 2VB = 0Ada即 BrV = 0(2-6)将误差方程(Z5)代入,即得法方程为B
6、TBa = BTy (2-7)二_力二切_喑2 ; =1 /=!B =BTy = 一 nsxy + nxyn nx 2 nx Sxx + flX于是可得回归参数的最小二乘估值为a =(BBYBry (2-8)参数4与的具体表达形式为八 1x =S疝(+ 门 xy1兀-抚 /_ -A 1 1m = y%/s(2-9)a = S Xj S 心求出参数与忖以后,就可以得到一元线性回归模型A A Ay = x(2-10)山此,只要给定了一个因值,就可以根据回归模型求得一个胡作为实际值的预测 值。5 精度分析对于给定的因,根据回归模型就可以求出冋的预测值。但是用曲来预测匡的精度如何,产生的误差有多大是我
7、们所关心的。这里釆用测量上常用的精度指标来 度量回归方程的可靠性。一个回归模型的精度或剩余标准离差定义式为(2-11)由于参数的个数是2,观测值总数是回,多余观测是阳可,因此式中分母是(-2)。运 用估计平均误差可以对回归方程的预测结果进行区间估计。若观察值 围绕回归直线服从正态分布,且方差相等,则有68.27%的点落在囲的范围内,的范圉 有95.45%的点落在 内,有99.73%的点落在|3b|的范用内。根据参数平差理论可知,M的协因数矩阵为4=何亦二丄匕+応2)/ -习(2_12)g S” T 1从而,HI的方差估值为6 线性回归效果的显著性检验对一元线性回归模型的统计检验包括两个内容:一
8、是线性回归方程的显著性检验;二是对回归系数进行统讣推断。在一元线性回归分析中,线性回归效果的好坏取决于匡与冈的线性关系是否密 切。若剧越大,因随因的变化趋势就越明显;若剧越小,匡随匡的变化趋 势就越不 明显。特别的,当囱时,意味着匡与匡之间不存在线性相关关系,所建立的线性 回归方程没有意义。所以,只有当嗣时,因与因之间才有线性相关关系,所建立的线 性回归方程才有实际意义。因此,对线性回归效果好坏的 检验,就归结为对统计假设 冋:舛=0;耳:旳工0|的检验。若拒绝回,就认为线性 回归有意义;若不能拒绝回,就认 为线性回归无意义。下面介绍两种检验方法:匡检验法和相关系数检验法。1 回检验法进行F检
9、验的关键在于确定一个合适的统计量及其所服从的分布。当原假设 成立 时,根据F分布的定义可知(2-14)当给定显著性水平0=0.05或0.01,由F分布分位数值表得临界值7a (I, -2)|,曲样本观测值计算出统计量F的实测值。若|Fnf;p (U -2) 1,则以显著水平叵拒绝囤;若f|则以显著水平叵接受闷。一般按下述标准 判断。(1) 若卩沁9 (仏列,则认为线性回归方程效果极显著。(2) 若|95(1, 2)SFv99_(1, 2)则认为线性回归方程效果显著。(3) 若卩5丿呵,则认为线性回归效果不显著。2.相关系数检验法相关系数检验法是通过因与因之间的相关系数对回归方程的显著性进行检
10、验的,由样本观测值,即陆,j 心,儿),儿),可以得到相关系数的实测值 为r 几s、f-l 1-1(2-15)相关系数|0“列,现作如下进一步分析。(1)当巨时,|5XV = 0|,因而|q=0|,此时线性回归方程$二总+ & ;二山茂 明因与囚之 间不存在线性相关关系。(2)当|0lrlo|,此时称匡与因正相关:,丨丨广v0|时,蛋 此时称匡与因负相关;当阿越接近于0时,此时因与因的线性关系越微弱;当回越接近于1时,此时因与囚 的线性关系越强。(3)当0二1时,匡与因完全线性相关,表明匡与因之间存在确定的线性函数关系;当T时,称匡与因正相关;当9时,称因与因负相关。当给定显著 性水平0.05
11、或0.01,由P (lrl A(/i-2)=1-a (2-16)来判断线性回归方程的效果。若本观测值算出的相关关系实测值|虫j(2)则以显著性 水平的关系叵拒绝囤;若卩虫(一2)1,则以显著性水平的关系叵接 受回。一般按 下述标准判断。(1)若匕込如辺则认为线性回归方程效果极显著。(2)若血血2)_%(h8),假设不成立,所求得的线性回归效果极显著。如果本例用相关系数检验法对线性回归效果进行显著性检验,可用式(215)计 算,即24.18-0.9565SgS-A372.4x1.716山式(217)计算相关系数临界值 皿-2)= 0.765山于r = 0.9565 0.765故因与因的线性(正)
12、相关关系极显著,此结果与F检验法得到的结论完全一致。多元线性回归分析2数学模型多元线性回归分析是研究一个因变量与多个自变量之间线性相关关系的统计分析 方法。多元线性回归考虑到多个自变量对因变量的影响,能够更真实地反映现象之间 的相互关系。假设一个随机变量冈与回个非随机变量因之间存在线性相关关系,则它们之间的 关系可以用多元线性回归模型来表示,即y = 3o + 3lX+32X2 V + BinXin + M ( 3-1 )己中,匡是因变 区(卩=12刖)是自变量,吗(心02.M )是模型的参数,称为回归方程的系数。囚是随机误差。与一元线性回归模型类似,如果多元线性回归模型中的误差项囚服从正态性
13、,并 具有无偏性,则 ()&),则E (y) = % “內 + a2X2 + .+ amx(3-2)E (y) =E (A) =a2VN由此可见,2 多元线性回归方程的确定多元线性回归模型的参数区丨(卩二0,1,2,,加丨)及囲在一般情况下都是未知数,必须根据样本观测数据来估计。假设我们进行了回次观测,得回组观测数据(门切,: “知),丿二12“2。它们应有的回归关系可写为)?i = 5 + d 內+他 +心 + 】2 = %+ + “2 冬 2 + + 5 沫七 A. 0 (3-3)L=o + 內“ +級+y =y*nA =AA2a =B =-1 r彳1 A12 2 几 2J 爲则式(33)
14、用矩阵形式表示为y = Ba + A (3-4)与其对应的误差方程为V = B 3 y (3-5)根据最小二乘原理JWV = mini.法方程为B1 Ba = By (3-6)于是可得回归参数的最小二乘估值为丄何疔叭(37)其中门 Dm D1何3)=工兀心BTy =2諾工 w .Z4 JEx-d当求出回归参数冲)丨后,就可以得到多元线性回归模型A A A A A兀二兔+5 召 +“2+.+ ?2 =o () + +a2x2 + .+ amx2 + 亠打(316)儿= 0 + 4+勺 +5他+只要设 弋.%A21 S/ mM .M-V2 x;刘 5 (3-17)就可以按线性回归方法进行回归计算o
15、5举例解算以某楼A1点累讣沉降量为因变量,时间间隔和承受的荷载为自变量进行回归 分析,设时间间隔为自变量XI,承受的荷载为自变量X2,累讣变化为因变量Y,利用 EXCEL软件的一工具中回归分析功能进行回归分析。时间间隔荷载FFA、I - | i CO累计下汎里010151. 5-0. 472122. 8-0. 584143. 5-0 826105-1. 171107. 5-1. 353198. 5-1. 4231710-1. 5691 1411-1. 6421213-1. 7141 1915-L. 8521616-1. 961616-2.1971516-2. 2121516-Z. 315经计算
16、得到:如下图的结果方莘外析df SSMS F mificance F归分析2 6.3284323.164216 101.7816 2. 9SE-08差12 0.373060. 031088计14 6 Coefficimrr 标准 i 天差 t Stat P-value Lover 95%UDDer 95%F 限 95. 5 眼 95.0% Intercept -0. 12613 0. 144981 -0. 86999 0. 401375 -0 - 44202 0. 189754 -0. 44202 0. 189754间间隔-0.01927 0.012163 -1.58471 0. 139017
17、 -0. 04578 0. 007226 0. 04572 0. 007226荷载 0.10831 0.00992 10.9176 1. 38E-07 -0. 12992 0. 08669 -0.12992 0. 08669观测值预测累计下沉量残差标准残差1-0 0. 2344371.4361522-0 0.105710. 64757430 0. 0766820. 4697544-0. 775045507-0. 05095-0.312155-0.860404639-0. 3106-1.90276-1.131167805-0.22183-1.358947-1. 412945297-0. 0100
18、5 06159-1.536853813-0. 03215-0.196931. 587335004-0. 05466-0. 3348810-1.7653961540. 0513960. 314851112.1169295280. 26493 1.622951122. 1674107190. 2074111.27059213-2 -0. 02959-0.1812614-0 06386-0. 39173152.148136028-0.16686-1.0222可得出 Y=-0.019Xr0.108X2-0.126(1) 回归方程的检验(F检验)通过回归分析可以知道,F统计量为101.782,取 a=0.05,查F分布表可得到自由度为(pjpl)的临界值为Fo.O5 (2,12) =3.89o显然 地,F统计量远大于临界值,说明两个自变量联合起来对因变量有显著影 响。(2) 回归系数的检验(t检验)从回归分析的结果可以看出,与时间间隔的参数所 对应的t统计量为2585,承受的荷载的参数所对应的t统讣量为-10.9180取 a=0.05,查t分布表可得ta/2 (n-k) =to,O25(15-3) =2.178o与分析计算的t统讣 量想比较可知,两个自变量的参数所对应的t统计量的绝对值都大于临界值 2178,说明两个自变量对沉降量累计变 化量的影响都是显著的。
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1