地理建模.docx
《地理建模.docx》由会员分享,可在线阅读,更多相关《地理建模.docx(28页珍藏版)》请在冰豆网上搜索。
地理建模
地理建模第一章
1.地理建模的步骤:
问题分析:
明确研究对象和研究目的,问题所依据的事实和数据资料来源是什么,是否真实,并确定问题的类型,是确定型还是随机型,是需要建模还是模拟?
模型假设:
列举并分析模型可能相关的许多因素,并通过假设把所研究的问题进行简化,明确模型中需要考虑的因素及在问题中所起的作用,以变量或参数的形式表达这些模型。
建立模型:
运用数学知识和数学技能技巧来描述问题变量之间的关系,通常可以用数学表达式来描述。
模型求解与分析:
对已建立的模型进行数学上的求解,对模型中的参数得出估计值,并对此进行分析,以得到最优决策或控制。
模型检验:
把模型的运行结果与实际观测进行比较,如果与实际相合或基本一致,则说明是符合实际问题的,反之则返回到建模时的假设,检查地理要素的选择是否准确合理,再给出修正,重复过程。
模型应用:
解决实际问题。
2.地理建模方法:
地理建模方法主要有两个过程,分别为地理系统分析和地理系统综合。
地理系统分析是地理系统综合的基础和前提,是简化、分解、建立简化数学模型的过程,而地理系统综合是把经过地理系统分析的客观系统,按其要素之间的关系,各级系统连接的规律,彼此逐级连接起来,形成从简单到复杂、从低级到高级的地理系统的过程,事实上也就是一个地理建模的过程。
地理系统综合的过程就是地理系统模拟和建模的过程,两者往往是同义的。
地理系统分析和地理系统这两种地理系统研究和建模方法,通过地理系统的各个地理要素间的数量分析而相互连接起来。
第二章:
一、地理数据的种类:
地理数据是用一定的测度标准去衡量地理要素而取得的地理信息,不同的测度标准可以产生不同类型的地理数据,它们分别反映地理要素的不同特征。
地理数据根据表达方式的不同,分为定量数据和定性数据两类。
定量地理数据包括间隔尺度数据、比例尺度数据;定性地理数据则包括有序数据、二元数据、名义尺度数据。
间隔尺度数据是一种定量地理数据(可以用数量表示),它以连续的量来表示地理要素,并根据地理要素不同的性质采用不同度量单位作为标准。
其特点是数据间不仅能比较大小,而且能定量表示这种差异,没有自然0值。
它是地理数据类型中最常见的一种,是统计分析的基础。
比例尺度数据是一种定量地理数据(可以用数量表示),以连续的量表示地理要素,但须事先规定一个基点(可以是间隔尺度数据的某个量),并将其它量换算为基点的比例,故又称指数/百分比。
在统计分析中,一般可以用于间隔尺度数据的技术也可以用于比例尺度数据。
有序数据是一种定性地理数据,不表示连续的量,而只表示次序或等级关系。
二元数据也称0-1数据,是一种定性地理数据,表示地理要素的性质,以列成矩阵的0、1变量表示,变量数比地理要素性质类型少1.通过二元数据矩阵将地理要素的定性、定量数据联系起来进行的数量分析方法称为数量化方法。
名义尺度数据是一种定性地理数据,可以用文字或字符表示,是用来表示地理要素的类型数据。
在众多事物中只根据其固有特征进行区分时,可采用名义尺度数据。
二、空间地理数据:
空间地理数据是空分析的对象,是描述地理空间一定范围内空间实体及其相互关系的数据。
根据地理系统的基本特征,空间数据可以分为属性数据、几何数据、关系数据。
属性数据:
描述空间实体的属性特征的数据。
几何数据:
描述空间实体的空间特征的数据。
关系数据:
描述空间实体之间拓扑关系的数据。
空间数据表示模型主要有三种:
栅格数据模型、矢量数据模型、栅格-矢量一体化数据模型。
栅格数据模型是指地理空间作为一个整体被划分为规则的格网,空间位置由格网的行、列表示。
格网的大小反映了数据的分辨率。
主要有三角形,正方形,六边形格网。
缺点是一个栅格只能赋予一个特定的值,不利于多要素内容的表达。
矢量数据模型:
将地理空间作为一个空域,地理要素根据其空间形态特征分为点、线、面等,点用空间坐标表示,线由一串坐标表示,面是由线形闭合多边形表示。
栅格矢量一体化数据模型:
是结合栅格和矢量数据模型的优点提出的一种数据模型。
在栅格矢量一体化数据模型中,面状数据用矢量边界的方式表示,同时也用栅格方式表示,线状数据一般用矢量方式表示,如果将矢量方式表示的现状对象也用像元空间填充表达,则能力、够将矢量和栅格的概念统一起来,形成栅格矢量一体化的数据模型。
栅格矢量数据一体化模型,本质上是以栅格为基础,结合栅格和矢量数据模型优点的空间数据模型。
三、地理系统要素统计量构造
地理系统要素统计量的建立,有利于定量地刻画某种地理要素特征,并且可以使其时间和空间差异的对比采取数值形式,还可以对各要素之间的关系做定量分析。
根据已经应用的地理系统要素统计量,它们的构造特点如下:
(1)对于现象分布的集中程度和离散程度,往往与平均值相联系或与最大、最小值相联系,构造出刻画地理特征的相对指标。
(2)构造地理要素在地区分布上的集中和离散程度,往往采取计算坐标或将分布范围面积进行比较,确定中心坐标或求出面积比例。
(3)构造地理要素的地区分布形态的统计量,往往采取实际分布状况与其最小外接圆面积作对比的方法。
(4)构造与发展速度有关的地理要素的统计量,往往采用指数函数或对数函数的形式,若是均一的发展速度,则采取线性函数的形式。
(5)构造与发展速度变化有关的地理要素的统计量,往往采取求导数或偏导数的方法。
(6)地理因素的复杂性,多元统计分析被引入。
对于统计量的构造要求:
信息便于收集、信息的可靠性大、在时间与空间上可比、并且能够准确反映要素的特征。
此外,在计算上还应简捷方便。
四、数据变换处理
为了使不同量纲、不同数量级的数据能放在一起比较,通常需要对数据进行变换处理。
所谓数据变换,是将原始数据矩阵中的每个元素,按照某种特定的运算把它变为一个新值,而且数值的变化不依赖于原始数据几何中其他数据的新值。
常用的变换方法有:
中心化变换、规格化变换、标准化变换和对数变换等。
标准化变换方法是对变量属性进行变换处理,首先对列中心化,再用标准差进行标准化。
设数据矩阵为(xij)m×n,(m为样本数,n为变量数),每列元素均值为
,方差为
,则元素xij经标准化变换为
,其中i=1,2,…,m;j=1,2,…,n.经变换后,每列数据的均值为0,方差为1.使用标准差标准化处理后,在抽样样本改变时,它仍然保持相对稳定性。
规格化变换方法是从数据矩阵的每一个变量中找出其最大值和最小值求差(极差),再从每一个原始数据中减去该变量的最小值后除以极差,得到规格化数据。
设数据矩阵为(xij)m×n,对于第j列(j=1,2,…,n)的元素xij,其最大值记为max{xij},最小值记为min{xij},则元素xij经规格化变换为
,其中i=1,2,…,m.经规格化变换后,每列最大值为1,最小值为0,其余数据取值在(0,1)中。
中心化变换方法是一种标准化处理方法,先求出每个变量的样本平均值,再从原始数据中减去它,就得到中心化后的数据。
设数据矩阵为(xij)m×n,每列元素均值为
,则元素xij经中心化变换为
,其中i=1,2,…,m;j=1,2,…,n.变换后,每列数据之和均为0,平方和为该列数据方差的(n-1)倍,任何不同两列数据的交叉积为这两列的协方差的(n-1)倍。
第三章:
相关与回归地理模型
一、相关系数及其衍生指标
相关是指两个或两个以上的要素间相互关系是否密切。
在研究这种关系时并不专指哪一个是自变量,哪一个是因变量,可视实际情况确定。
相关分析仅限于测定两个或两个以上变量具有相关关系者,其目的是计算出表示两个或两个以上变量间相关程度和性质。
相关系数是用来度量直线相关程度和方向的指标。
相关程度是指两个要素之间的关系有多密切,相关方向则是指两个变量变化方向是否相反,可分为正相关、负相关、零相关。
相关系数的常用计算公式为
。
当|r|>0.95为显著相关,|r|≥0.8为高度相关,|r|<0.3认为不相关。
偏相关系数
由于地理系统是一种多要素系统,所以一个要素的变化就要影响到其它要素的变化,因此它们之间存在着不同程度的相关关系。
如专门研究某一个要素对另一个要素的影响或相关程度,而把其它要素的影响视为不变(除去其它要素的影响),单独研究那两个要素之间的相关关系时,则称为偏相关。
对应地,偏相关系数可以由相关系数法来计算。
其中“.”后的是视为常量的要素。
举例:
.
复相关系数
实际上,一个要素的变化往往受多种要素的综合影响,用单相关或偏相关分析的方法不能反映各要素的综合影响,就需要用复相关分析加以解决。
复相关就是研究几个要素同时与某一个要素之间的相关关系。
复相关系数是度量复相关程度的指标,可利用单相关系数和偏相关系数求得。
有k个自变量时,因变量y与它们的复相关系数为
.
复相关系数必大于或等于单相关系数的绝对值,大于等于由同一系列资料所求得的偏相关系数的绝对值,即R1.23≥|r12.3|。
相关系数的显著性检验
记f为使用资料对数,α为信度。
偏相关系数的显著性检验一般用t-检验法,计算式为
,
其中,r12,34……m为偏相关系数,n为样本容量,m为自变量个数。
求出t值后,再查t分布表,可得出不同的显著水平的临界值tα。
t>tα表示偏相关显著;t≤tα表示偏相关不显著。
复相关系数的显著性检验,可用F-检验法:
,计算公式为
,
式中,n为样本容量,k为自变量个数。
求出F值后再查F分布表,可得出不同的显著水平的临界值Fα。
F>Fα0.01为极(0.01水平上)显著;Fα0.05≤F二、回归分析与相关分析的异同(应先名词解释)
回归分析是从针对完全精确但由于观测资料的误差而可能不确定的函数关系,以及没有确定性的关系、但在统计意义上存在着某种类型函数关系的统计相关关系进行,用数理统计的方法,寻找出并用回归方程来表示。
主要内容包括从一组地理数据出发,确定这些要素间的定量数学表达式,即回归模型;根据一个或几个要素的值来预测或控制另一个要素的取值;从影响某一地理过程中的许多要素中,找出哪些要素是主要的,哪些要素是次要的,这些要素之间又有些什么关系。
相关分析是计算出两个或两个以上变量相关程度或性质。
项目
相关分析(回归分析的基础)
回归分析
相同点
研究和处理变量之间相互关系的一种数理统计方法
研究对象和内容相同
不同点
主要研究要素(变量)间联系密切程度问题
主要研究要素(变量)间联系的数学表达式(地理建模)
没有严格的自变量和因变量之分
有严格的自变量和因变量之分
x,y均为随机变量
仅有y为随机变量
测定相关程度和方向
用回归模型进行预测和控制
第4章趋势面分析地理模型
一、趋势面分析
趋势面分析是运用数学方法,以数学模型来模拟地理数据的空间分布及其区域性变化趋势的方法。
它能够解决大量非线性模型的问题。
采用趋势面来拟合回归方程,计算趋势面的数学表达式主要有多项式函数和傅里叶级数,最常用的是多项式函数。
趋势面分析是一种光滑的数学曲面,它能集中地代表地理数据在大范围内的空间变化趋势,可以表示为实际曲面=趋势面+剩余面。
其中,趋势面对应于一个确定的函数,受大范围的系统性因素控制,反映地理系统及其要素的区域性变化的规律;剩余曲面则一般对应于一个随机函数,主要受局部因素和随机因素的控制,反映地理系统及其要素局部性的变化特点。
对应于趋势面上的某观测点上的观测值,也由确定性函数的趋势值和随机性函数的剩余值所组成。
在利用趋势面分析拟合回归模型进行地理预测时,所选择的趋势面模型必须使剩余值较小,趋势值较大,这样拟合度较高,预测结果才能达到足够的准确性。
二、趋势面拟合的模型检验
主要有R2-检验(拟合优度分析)、F-检验(显著性水平检验)和逐次检验(方差分析)。
1.R2-检验:
,式中U为回归平方和(自变量对因变量离差的总影响),Q为剩余平方和,(U+Q)表示总离差平方和。
R2越大,回归效果越好;
2.F-检验:
,式中U为回归平方和,Q为剩余平方和,n为使用的资料数,p为多项式项数。
当F的计算值大于F的临界值(F>Fα)时则显著;
3.逐次检验:
1)求出较高次多项式方程的回归平方和与较低次多项式方程的回归平方和之差;
2)将此差除以回归平方和的自由度之差,得出由于多项式次数增高所产生的回归均方差;
3)将此均方差除以较高次多项式的剩余均方差,得出相继两个阶次趋势面模型的适度性比较检验值F。
若所得的F值是显著的,则较高次多项式对回归作出了新贡献,若F值不显著,则较高次多项式对于回归并无新贡献。
在实际应用中,通常都会用次数低的趋势面去逼近起伏变换相对较小的数据;而运用次数较高的趋势面,逼近起伏变换相对比较复杂的数据。
一般情况下,次数较高的趋势面在观测点附近的效果比较好,但在进行外推或者内插时,其效果不佳。
第5章逐步回归地理模型
逐步回归数学模型的解法及其实际应用
实际研究中,常常需要建立多元(线性)回归方程预测模型,并对预测方程和其中的每一个影响因素进行显著性检验。
逐步回归就是指经“有进有出”的分析步骤后,引入都具有显著性且意义不互相重复的因素,“最优”刻画地理数据关系的回归方程的方法,是效率最高、实用性最好、应用最广泛的回归分析方法。
逐步回归分析方法可总结为“有进有出”。
首先,将因子一个个引入。
引入因子的条件是该因子的偏回归平方和在未进入方程的其余因子中最大,且经检验是显著的。
同时,每引入一个新因子,就剔除不显著因子。
在新的方程的基础上,再在已进入方程的因子中找出偏回归平方和最小的因子,并作检验,如不显著则剔除。
双重检验:
在每一步(引入或剔除变量)前后,都作F-检验,直到没有显著变量可以引入,也没有不显著变量可以剔除为止。
逐步回归的数学模型可表示为
,其中
是区域预测对象数值,
是影响
的地理要素值。
得出的回归数学模型为:
,式中
是选取的变量(要素),i=1,2,…,p,p≤n-1。
逐步回归的计算过程是:
1.进行数据变换处理,建立相关矩阵。
通常假定之前已对变量进行了筛选,选择了那些相关性不很显著且贡献大的指标,而剔除了相关性很强的变量。
对所获取的原始数据进行数据变换处理,一般采用标准化变换。
之后计算变量均值和偏回归平方和,得到相关系数矩阵R。
2.确定F-检验值。
在进行计算前要确定检验每个变量是否显著的F-检验水平,以作为引入或剔除变量的标准。
一般而言,为使最终的回归方程中包含较多变量,F水平不宜过高,即显著性水平α不宜太小。
F水平也与自由度有关,常按(n-p-1)计算自由度。
其中n为原始数据观测组数,p为估计可能选入回归方程的变量个数。
在引入变量时常取自由度f1=1,f2=(n-p-2)计算,F-检验的临界值记为F1,剔除变量时常取自由度f1=1,f2=(n-p-1),F-检验的临界值记为F2,要求F1≥F2,实际中常取F1=F2。
3.逐步回归计算。
如果已经计算t步(包括t=0),并且回归方程中已引入t个变量,则第t+1步的计算为:
(1)计算全部自变量的贡献(偏回归平方和)V’。
(2)在已引入的自变量中检查是否有需要剔除的不显著变量。
在已引入的变量中选取具有最小V’值的一个,并计算其F值,如果F≤F2,则表示该变量不显著,应将其从回归方程中剔除。
(转至第3步)
如F>F2,就不需要剔除变量,这时则考虑从未被引入的变量中选出具有最大V’值的一个,并计算F值,如果F>F1,则表示该变量显著,应将其引入回归方程。
(转至第3步)
如果F≤F1,则已无变量可选入方程,则逐步计算阶段结束,开始建立逐步回归方程。
(3)剔除或引入一个变量后,相关系数矩阵进行消去变换,第t+1步计算结束。
其后重复
(1)~(3)步再进行下步计算。
实际计算之中,并不总是先考虑剔除变量。
开头几步可能都是引入变量,其后的某几步也可能相继剔除几个变量。
当方程中已无变量可剔除,又无变量可引入时,逐步回归计算即宣告结束,而转入逐步回归方程的建立。
4.建立逐步回归方程。
主要计算回归方程入选变量的系数、复相关系数及残差等统计量。
实际情况证实,通常情况下逐步回归可以获得具有最小残差平方和的变量组合。
5.显著性检验。
引入回归方程的变量个数L与各变量贡献的F1与F2(F-检验的临界值)的取值大小有关。
当F-检验的显著性水平α增大(F1=F2减小),选入变量将会增多(F1=F2=0为一般的多元线性回归);反之,入选变量将减少。
实际问题中,应结合观测数据样本容量,适当选择F-检验的临界值(显著性水平)取值,来确定入选变量的个数。
第6章判别分析地理模型
费歇尔准则、贝叶斯准则的概念与计算步骤
判别分析是一种根据某一地理对象的各种数量特征指标或多种信息来分辨或判别其类型归属、确定各类型间的地理界线问题的多变量统计分析方法,研究内容主要有判别(已知样本类型,根据要素的属性特征分辨或判别归属某类)和分类(根据某地多要素特征进行合理分类和确定区域界线,校核鉴定准确性)。
其作用主要有对已分好的类型进行合理性检验、判别某地地理类型的归属问题并确定区域界线、评价各要素特征值在判别分析中贡献率的大小等。
判别分析时,要根据一批包括各种地理类型的特征指标或数据,按照一定的判别准则建立一个判别函数表达式,即给出一种衡量新样品与已知类别接近程度的描述标准。
判别准则主要有两种:
一、费歇尔准则
是通常应用于两组判别分析的一种判别函数的建立准则。
应用其进行判别分析时,要对原始地理数据经一定方式进行线性组合,使其形成一个新变量,即判别函数。
基本要点:
充分区分开各种不同的地理类型,保证各类之间的均值差别为最大,而使得各类内部的离差平方和达到最小。
或者说,要求类间均值差与类内方差比最大。
费歇尔判别法是一种先投影的方法,在只有两种已知类型的训练样本的情况下,寻找一个方向,使得沿此方向和垂直于此方向的投影会使得这两类分得最清楚,在此基础上利用距离远近的方法来得到判别准则。
其计算步骤如下:
1.推求判别函数式。
计算各变量(或指标)在其组内的累加和、均值和各变量组间的平均数之差。
再计算判别函数中的判别系数ck和判别函数式。
2.计算判别指标(临界值)yc。
计算判别指标时,需先求出A类和B类的判别函数均值
和
,表达式为:
再用加权平均数计算两组判别的综合指标-判别临界值
。
3.判别标准与研究对象判别。
(1)建立判别标准;
(2)对已知A、B类作判别验证;(3)对未知站点归属的判别。
4.判别能力的显著性检验。
进行F-检验。
首先计算出综合距离函数:
然后将D2代入F值计算公式:
5.计算各判别变量(xk)的贡献率:
a)贝叶斯准则
是通常应用于多组判别分析的一种判别函数的建立准则。
它将已知的地理数据分类,然后计算未知地理类型或区域归属于各已知类型的概率值,它归属于哪一类的概率最大,就把它划归该类。
另外,还可以利用比较划归各已知类的错分损失,判断错分哪一类的平均损失为最小,就可把未知类型/区域划分为该类。
计算步骤:
把m维空间划分为互不相交(每一个样品不能同时落在两个或更多个区域中)的多个区域,使错判的平均损失最小。
对于一个待判样品,分别计算其位于每一组的条件概率,比较这m个概率的大小,将这个样品归入概率最大的一组。
1.计算各个判别变量的组内均值和总均值;2.计算各组的离差矩阵和协方差矩阵;
3.计算协方差矩阵的逆矩阵;4.计算各组的判别系数,得到判别系数;
5.辅助性检验;6.对待判样品进行判别;
7.计算待判样品属于每一组的后验概率。
比较:
两组判别与多组判别的统计要求相同,即组内观测值的分布必须服从正态分布,各组的协方差矩阵也没有显著差别。
但计算方法略有不同。
贝叶斯准则要求的条件比费歇尔准则严格,要求各组变量必须服从正态分布,各组的协方差矩阵相等,各种变量的均值向量有显著的差别。
两组判别中的费歇尔准则主要要求两组变量的均值向量有显著的差别就可以了。
第七、八章主成分分析和因子分析
简述主成分分析和因子分析的异同
主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解,就是化简,降维,找出尽可能地反映原来变量的信息量,彼此之间互不相关综合因子的方法。
因子分析是在主成分的基础上,构筑若干意义较为明确的公共因子,以它们为框架分解原变量,研究相关矩阵的内部依赖关系,将多个变量综合为少数几个“因子”,再现原始变量与“因子”之间的相关关系,以此考察原变量间的联系与区别。
相同点:
主成分分析与因子分析是将多个实测变量转换为少数几个不相关的综合指标的多元统计分析方法,同是降维技术,应用范围十分广泛
不同点:
主分量数m与变量数p相等,它是将一组具有相关性的变量变换为一组独立的变量,并将主分量表示为原观测变量的线性组合;而因子分析是使m比p小,而且要尽可能地选取小的m以尽量简单的构造一个结构简单的模型,是将原观测变量表示为新因子的线性组合,即综合指标,他是主成分分析的发展。
列举主成分分析的主要步骤
1、建立资料库,并将其进行标准化处理;
2、计算标准化变量的协方差相关系数矩阵;
3、计算相关系数矩阵R的P个非负特征根和特征向量;
4、选择M(M〈P)个主分量,计算主成分资料矩阵;
5、估计各变量对主分量的作用,计算原变量属性(原坐标轴)对主分量(新坐标轴)的负荷量矩阵;
6、根据对总方差的累计贡献率,选择前R个主成分作为新的特征量,达到降维的目的,这时主成分资料矩阵中有用的部分为R阵的前R列,同理负荷系数矩阵有用的部分也为L阵的前R列。
解释因子旋转的目的
在因子分析中,公共因子是在各个变量中共同出现的因子,是高维空间中互相垂直的m个坐标轴,因子载荷是变量在公共因子上的权,因子载荷矩阵是因子分析的核心,因子旋转是用一个正交阵右乘使旋转后的因子载荷阵结构简化,便于对公共因子进行解释。
知道每个公共因子的意义,以便对实际问题进行分析。
相关系数矩阵:
由矩阵间各列相关系数构成的矩阵
变量共同度:
因子载荷矩阵中各行元素的平方和称为变量的共同度
公因子Fi的方差贡献:
各列元素的平方和Sj为公因子Fj的方差贡献。
第九章聚类分析
曼哈顿距离:
在系统聚类法中,常将所有数据点置于m维空间中,以不同方式定义点与点的距离。
其中曼哈顿距离指两个点在标准坐标系的绝对轴距总和,d(i,j)=∑|xik -xjk |。
其中xjk,xik是两点间在不同坐标轴上的坐标。
简述R型和Q型聚类分析的特点
聚类分析法是理想的多变量统计技术,是研究分类的一种多元统计方法,根据分类对象的不同可分为Q型(对应数据中的行)、R型(对应数据中的列)两种。
Q型:
是对样本进行的分类处理。
能综合利用多个变量对样本进行分类,结果直观,聚类谱系图能明确、清楚地表现其数值分类结果。
R型:
是对变量进行的分类处理。
不但可以了解个别变量之间的亲疏程度,而且可以了解各个变量的亲疏程度。
根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回归分析或Q型聚类分析。
简述系统聚类法的基本算法
系统聚类法是把个体逐个地合并成一些子集,直至整个总体都在一个集合之内为止的聚类分析方法。
适用于任何具有数值特征的变量或样品。
系统聚类方法的基本算法是将n个样品自成一类,先计算(1/2)n(n-1)个相似性测度,并且把具有最小测度的两个样品合并成两个元素的类;然后按照某种聚类方法计算这个类和其余n-2个样品之间的距离,这样一直持续下去,并类过程中,每一步所做的并类