第五章相关与回归地理模型.docx
《第五章相关与回归地理模型.docx》由会员分享,可在线阅读,更多相关《第五章相关与回归地理模型.docx(11页珍藏版)》请在冰豆网上搜索。
第五章相关与回归地理模型
第五章相关与回归地理模型
地理系统是由多要素组成的系统。
各要素之间存在着相互联系、相互影响和相互制约。
为了定量地研究它们之间的数量关系,常用相关分析和回归分析法来确定它们之间的关系和性质,并概括成数学模型,进而作出地理预测。
第一节地理模型要素间的相关分析
一、地理相关的意义和类型
1、相关的意义
所谓相关,是指两个或两个以上的变数间相互关系是否密切。
在研究这种关系时并不专指哪一个是自变量,哪一个是应变量,可视实际情况确定。
相关分析仅限于测定两个或两个以上变数具有相关关系者,其目的是计算出表示两个或两个以上变数间相关程度和性质。
地理系统各要素
(或变量)间的关系
2、相关的类型
根据地理系统要素(或变数)的多少及其性质的不同,地理相关类型可表示为:
二、相关程度的度量方法
由于地理相关基本类型的不同,因而度量地理相关程度的指标也各异:
(一)简单直线相关程度的度量
在一般情况下,当探讨两个地理要素间为直线相关时,就要研究它们之间的相关程度和相关方向。
相关系数(r)
常用的相关系数(r)
顺序(等级)相关系数(rs)
(二)简单非线性相关程度的度量
由于曲线方向不固定,因此只研究相关程度而不研究相关方向。
表示简单非线性相关程度的统计量,通常用相关指数来度量,相关指数的性质,随相关曲线形状的不同而不同。
相关指数的性质
小测验
(三)多要素相关与相关阵
多要素相关矩阵(R)
2.偏相关
由于地理系统是一种多要素系统,所以一个要素的变化就要影响到其它要素的变化,因此它们之间存在着不同程度的相关关系。
当我们专研究某一个要素对另一个要素的影响或相关程度,而把其它要素的影响视为常数(或保持不变),即除去其它要素的影响,而单独研究那两个要素之间的相关关系不时,则你为偏相关。
偏相关系数可以由相关系数法来计算。
一级偏相关系数:
三个变量间的偏相关系数(共三个)
3.复相关
实际上,一个要素的变化往往受多种要素的综合影响,而用单相关或偏相关分析的方法则不能反映各要素的综合影响,因此就需要用复相关分析加以解决。
所谓复相关就是研究几个要素同时与某一个要素之间的相关关系。
而度量复相关程度的指标,可用复相关系数来达到。
复相关系数又可利用单相关系数和偏相关系数求得。
其计算公式:
复相关系数的性质(Ry.123……k)
三、相关系数的显著性检验
对简单线性相关系数的显著性检验
对偏相关系数的显著性检验
求出t值后,再查t分布表,可得出不同的显著水平的临界值tα。
对复相关系数的显著性检验
对复相关系数进行显著性检验,可用F检验:
Ry.12……kn-k-1
F=()
1-Ry.12……kk
式中,n为样本容量,k为自变量个数。
当我们研究地理相关时,计算出相关系数后,经显著性检验证明其相关程度是显著的,就可以对要素间数量关系进一步作回归分析。
第二节地理回归数学模型
一.地理回归分析的意义和作用
地理系统各要素间的相互关系,可通过大量的观测、试验或实验取得一定的地理数据,然后用数理统计的方法,寻找出隐藏在随机性后面的统计规律,而用回归方程来表示。
函数关系
相关分析
回归分析的主要内容
回归分析所研究的地理数学模型,依要素(变量)的多少可分为一元地理回归模型和多元地理回归模型两种。
二.地理系统两要素间的回归分析与预测
地理系统两要素间的回归所处理的问题,是要解决两个要素(变量)间的定量关系。
两个要素之间的数量关系,有的是非线性关系。
如何正确地分析与判断要素之间的关系是线性回归模型还是非线性回归模型,在非线性回归模型中曲线又属于哪种类型?
因此,只有首先判定了回归方程的类型,然后才能正确地求出回归模型的参数。
(一)一元地理回归模型类型的判断方法
图解法
若将地理要素(x,y)的数据点绘在普通方格纸上呈直线,则一元地理回归模型为直线型。
若将地理要素(x,y)的数据点绘在双对数格纸上呈直线,则一元地理回归模型为幂函数型。
若将地理要素(x,y)的数据点绘在单对数格纸上,其横坐标取对数分格,其纵坐标为普通分格时呈直线,则一元地理回归模型为对数型。
若将地理要素(x,y)的数据点绘在单对数格纸上,而其横坐标为普通分格,其纵坐标取对数分格时呈直线,则一元地理回归模型为指数型。
(二)线性关系的分析与预测
依上述方法已判定一元地理回归模型为直线型后,下一步就是要确定线性回归方程:
y=a+bx
中的两个参数a和b。
上式代表x和y之间的最佳拟合直线,通常称为回归直线。
a为常数,即y的截距;
b为回归系数,也就是直线的斜率,它表示在x变更一个单位则在y中变更b个单位。
回归系数b
1.参数a和b的最小二乘估计
2.模型建立方法与步骤
3.回归模型的效果检验
4.利用回归模型进行地理预测
(三)非线性关系的分析与预测
1.选配曲线的基本方法
2.常见地理模型建立方法
3.回归模型的效果检验
三.一元回归的SPSS软件应用
第三节多元回归地理模型的建立
一个地理系统,其结构特点具有多要素性,而且各要素间相互联系、相互影响和相互制约。
研究某一要素(y)与其它要素x1,x2,…,xn之间的定量关系,就需要用地理分析中常用的分析方法,即多元回归分析方法加以解决。
多元回归分析(多输入多输出)可用数学模型表示:
y1,y2,…,ym=f(x1,x2,…,xn)
一般情况下,分别考察几个输入和一个输出之间的关系,即把上述模型分解成:
y1=f1(x1,x2,…,xn)
y2=f2(x1,x2,…,xn)
..
..
..
..
..
ym=fm(x1,x2,…,xn)
运用多元统计分析方法,建立地理要素间的数学模型,并检验数学模型的效果,应用模型进行地理分析与预测,这就是与地理系统多要素(多元)特性相对应的一种计量地理方法,即多元回归分析方法。
一、多要素地理系统
分析与预测的线性模型
1.模型的建立
假设地理系统要素y和地理系统要素x1,x2,…,xn的内在联系是线性的,或经过变量转换后的关系是线性的,则对于同一系统状态中的不同区域或时间的要素间关系,可以写成下面的数据形式:
(xi1,xi2,yi)
i=1,2,……,m
i-区域或时间顺序号。
把它推广到有p个地理系统要素的情形,则为
(xi1,xi2,……,xip,yi)
i=1,2,……,m
这一组地理数据的形式是
β0+β1x11+β2x12……+βpx1p+ε1=y1
β0+β1x21+β2x22……+βpx2p+ε2=y2
..
..
..
β0+β1xm1+β2xm2……+βpxmp+εm=ym
这就是多要素地理系统分析与预测线性回归数学模型。
矩阵是多元的算术,是处理上述问题的有效工具,若用其表示,则地理系统要素间的线性模型为:
X=
Y=β=ε=
则上述地理系统要素间关系的线性模型可以表示为:
Xβ+ε=Y
2.模型的显著性检验
在多元线性回归问题中,同一元回归一样也需要对回归模型进行显著性检验。
如果经过检验是显著的,则说明建立的回归模型是有用的,否则就没有实际意义。
观测
值Y
的
波动
和
差异
为了从Y的总的变差中把它们区分开来,就需要对回归模型进行方差分析,也就是将Y的总的离差平方和(Lyy)分解成两个部分,即回归平方和(U)和剩余平方和(Q)
Lyy=U+Q
在多元回归分析中,回归平方和(U)表示的是所有K个自变量对Y的变差的总影响,因此,它可按以下公式计算:
U=∑(Y预测值-Y平均值)2=∑biLi
而剩余平方和(Q)则等于
Q=∑(Y实际值-Y预测值)2=Lyy-U
由此可知,它与一个自变量的情况完全相似,即回归平方和越大,则剩余平方和越小,线性关系越密切,回归的效果就越好,方程的预测精度越高。
多元回归各平方和的自由度的确定原则
剩余平方和(Q)除以它的自由度,称为方差(均方),即:
Q
S2=
n-k-1
其剩余标准差则为S。
在多元线性回归问题上,对整个回归进行显著性检验时,通常用F检验法。
U/kU
F==
Q/(n-k-1)k*S2
F分布表的两个自由度
分别求出F分布表中三种不同显著性水平的值和与其对应的自由度数。
F检验的结果
二、非线性回归模型的建立方法
在地理系统中,除部分问题是属线性关系外,还有大部分属于非线性关系。
因此,需要进一步研究多元非线性地理回归模型建立方法。
主要介绍两种多元非线性回归模型的建立方法。
两种多元非线性地理回归模型
的建立方法
在地理系统中,由于各要素间的关系十分复杂,有些回归曲线经过变量变换后可化为直线处理,但也有些曲线不能化为直线处理。
如二次多项式就不能通过变量变换直线化,但它可视为二元线性模型,然后按多元线性回归分析方法处理。
由此可以推广到包括多个要素(自变量)的任意多项式
y=b0+b1x+b2x2+…+bkxk
也可以通过变量变换化为多元线性回归模型。
若令:
x1=x,x2=x2,…,xk=xk
则y=b0+b1x+b2x2+…+bkxk
可化成
y=b0+b1x1+b2x2+…+bkxk
这种方法可处理相当一类非线性问题。
它在回归分析中占有重要地位。
主要是因为:
任何函数都可以在较小的区间内用多项式来逐步逼近。
在分析某一要素与其它要素的定量关系时,可不问y与x的确切关系,而直接用多项式回归进行分析计算,效果往往较好。
当多项式回归的自变量取两次幂时,便是二次多项式,即成抛物线,其数学表达式:
y=b0+b1x+b2x2
若令:
x1=x,x2=x2则可化成
y=b0+b1x1+b2x2
这可通过二元正规方程组的方法求出。
当多项式回归的自变量取三次幂时,便是三次多项式曲线,其数学表达式:
y=b0+b1x+b2x2+b3x3
若令:
x1=x,x2=x2,x3=x3则可化成
y=b0+b1x1+b2x2+b3x3
2.幂函数乘积模型的建立方法
这种方法的基本思路是:
把某一要素y与其它要素xi之间的函数关系写成
y=f(x1,x2…,xn)
并把它们之间的函数关系看成是幂函数的连乘积形式,即:
y=kx1ax2b…xnm
式中,k,a,b,…,m是待定地理参数。
建立幂乘积模型的过程,也就是确定参数的过程。
如建立四个要素x1,x2,x3,x4影响一个地理要素y的幂函数乘积模型时,可用相关分析法分别找出各要素间的相关程度,然后按相关系数的大小,依次求出参数d,c,b,a,最后确定常数k。
四个要素幂函数乘积模型的建立步骤
四个要素幂函数乘积模型的建立步骤(续)
按上述方法所建立的模型有一缺点,即k值含有不同的因次,为了解决这一问题,常常用无因次定律将以上公式改变成无因次的因素集合体。
三、地理分析与预测中的多元回归模型
例一:
利用历史资料,选择与之关系密切的四个要素预测某气象台的平均气温。
例二:
水文年径流与流域面积及年雨
量之间的关系。
例三:
马鞍山市钢铁生产运输系统的要素间关系。
四、预测模型的显著性检验
地理系统多要素关系分析与预测数学模型的有效程度,可以直接用拟合误差与误差百分比进行分析;也可以用统计方法对模型进行显著性检验。
所谓方程的显著性是指方程能否达到一定的精度要求,系统的输入与输出之间是否存在显著性的关系。
1、复相关系数的计算
复相关系数R判断模型显著性的定性指标,和单相关系数r不同,它只取值于0与1之间。
复相关系数是由回归平方和与总离差平方和的比决定的。
一般统计表上没有列出复相关系数R检验值,但可以由F分布表推求。
2、方差分析与F比的计算
多元回归方差分析表
3、预测精度的估计
在多因素影响下的一个地理系统要素的预测时,还必须事先估计其误差的大小,以确定预测的精确程度。
五、预测模型系数的显著性检验
在多输入与一个输出的地理系统中,如果通过方差分析表明预测模型是显著的,却并不表示每一个输入对输出的影响都是显著的。
在可能在几个影响因素中,存在着对输出要素没有重大影响的要素。
因此还必须对各个输入要素逐个进行显著性检验。
1、回归系数F比的计算
2、回归系数的T检验
3、标准回归系数的计算
4、偏回归平方和与偏相关系数的计算
不显著要素的剔除与预测方程回归系数的调整计算
偏回归平方和很小、F比或T检验不显著的要素,是可以忽略的要素。
这种情况下,可以剔除这些次要因素。
剔除一个要素,必须对保留下赤的要素的回归系数逐一重新计算。
可以看出这种过程相当麻烦,能否逐个选择具有重要意义的因素,建立不包括非重要因素的预测模型呢?
这就是最优预测模型的任务。