1、5、空间统计分析陷阱1)空间自相关:“地理学第一定律”任何事物都是空间相关的,距离近的空间相关性大。空间自相关破坏了经典统计当中的样本独立性假设。避免空间自相关所用的方法称为空间回归模型。2)可变面元问题:随面积单元定义的不同而变化的问题,就是可变面元问题。古老但依然没有很好,简称MAUP。其类型分为:尺度效应(Scale effect):当空间数据经聚合而改变其单元面积的大小 、形状和方向时,分析结果也随之变化的现象。区划效应(Zoning effect):给定尺度下不同的单元组合方式导致分析结果产生变化的现象。尺度效应 区划效应3)边界效应:边界效应(edge effect)指分析中由于实
2、体向一个或多个边界近似时出现的误差二、空间基础和量测1、地理空间数据的特征:1)时空特征,地理数据区别于其他数据的根本性标志。2)多维结构:空间方面,描述地理对象所处的位置和空间范围,一般需要23个变量;属性方面,描述地理对象产生、发展和存在的时间范围,需要1个变量。如在一个坐标位置上,既包括地理位置、海拔高度、气候、地貌和土壤等自然地理特征,也具有相应的社会经济信息如人口、交通灯数据。3)多尺度性:地理数据的重要特征。分为空间多尺度、时间多尺度。4)不确定性:主要指介于清楚和模糊之间或清楚和模糊并存的现象。数据不确定性是数据“真实值”不能被肯定的程度。5)海量特征:更新速度快、分辨率提高。随
3、着对地观测技术的发展,每天可以获得上万亿兆的数据。由于样本数量庞大,地理数据统计必须进行适当方式的抽样,或者采用非统计方式进行数据分析。6)空间相关性:地理学第一定律,随距离增加,影响力越来越小,即存在距离衰减。随距离增加,某地理现象对周围的影响力逐渐变小;随距离增加,两个地理实体间的相互作用逐渐减弱。 2、地理空间问题在进行空间分析时,一般主要从以下几个方面入手:1)空间位置 :是借助于空间坐标系来传递空间物体的个体定位信息。GIS中,利用地图投影和坐标转换。2)空间分布与格局 :空间分布是从总体的、全局的角度来描述空间变量和空间物体的特性。在GIS中通常采用分布密度、均值、分布中心、离散度
4、等指标进行描述;通过空间分布检验来确定地理对象的聚集、分散、随机等。3)资源配置与规划 4)空间关系与影响:当考察两个或多个对象的时候,空间对象之间的关系就必然成为考察内容。空间对象类型和层次的多样性,决定了空间关系的多样性。一般空间关系可分成3种:一是由空间对象的几何特性引起的空间关系,二是由空间物体的几何和非几何特性共同产生的空间关系,三是由空间物体的非几何特性所导出的空间关系。空间相似是空间关系分析中的一种,一种是指空间对象形态上的相似,另一种是指空间对象结构上的相似。5)空间动态与过程三、探索性空间数据分析 1、茎叶图:单变量、小数据集数据分布的图示方法。优点是容易制作,让阅览者能很快
5、抓住变量分布形状。缺点是无法指定图形组距,对大型资料不适用。示例: 55 49 37 57 46 40 64 35 73 62 61 43 72 48 54 69 45 78 46 59 40 58 56 52 49 42 62 53 46 81茎叶图3 | 5 74 | 0 0 2 3 5 6 6 6 8 9 95 | 2 3 4 5 6 7 8 96 | 1 2 2 4 97 | 2 3 88 | 1茎叶图制作方法:选择适当的数字为茎,通常是起首数字,茎之间的间距相等;每列标出所有可能叶的数字,叶子按数值大小依次排列; 由第一行数据,在对应的茎之列,顺序记录茎后的一位数字为叶,直到最后一行
6、数据,需排列整齐(叶之间的间隔相等)。茎叶图行数的确定,主要有三个公式L=10 L=2 L= 其中,L为行数,表示取整数。2、箱线图&五数总结 箱线图(boxplot)也称箱须图(box-whisker plot)需要五个数,称为五数总结:最小值下四分位数:Q1中位数(median)上四分位数:Q3最大值。分位数差:IQR = Q3 - Q13密度估计是一个随机变量概率密度函数(pdf)的非参数方法。应用不同带宽生成的100个服从正态分布随机数的核密度估计。四、空间点模式分析1、空间点模式:一般来说,点模式分析可以用来描述任何类型的事件数据(incident data)。因为每一事件都可以抽象
7、化为空间上的一个位置点。空间模式的三种基本分布:1)随机分布:任何一点在任何一个位置发生的概率相同,某点的存在不影响其它点的分布。又称泊松分布2)均匀分布:个体间保持一定的距离,每一个点尽量地远离其周围的邻近点。在单位(样方)中个体出现与不出现的概率完全或几乎相等。3)聚集分布:许多点集中在一个或少数几个区域,大面积的区域没有或仅有少量点。总体中一个或多个点的存在影响其它点在同一取样单位中的出现概率。2、怎样描述点模式?1)一阶效应:事件间的绝对位置具有决定作用,单位面积的事件数量在空间上有比较清楚的变化,如空间上平均值/密度的变化。2)二阶效应:事件间的相对位置和距离具有决定作用,如空间相互
8、作用。3、空间点模式分析方法1)基于密度的方法:测度一阶效应样方分析,包括选取所有点和随机取样法。步骤:a)研究区域中打上网格,建议方格大小为OuadratSize=2A/n A:研究区域面积,n:点的个数。b)确定每个网格中点的个数。c)计算均值(Mean)、方差(Var)和方差均值比:VMR=Var/Mean 对于均与分布,方差=0,因此VMR的期望值=0;对于随机分布,方差=均值,因此VMR的期望值=1;对于聚集分布,方差大于均值。因此VME的期望值1.样方分析的缺点:结果依赖于样方的大小和方向;样方分析主要依据点密度,而不是点之间的相互关系,所以不能区别图示的两种情况。样方分析的统计检
9、验,包括K-S检验和方差均值比的检验。核密度估计基本思想:在研究区域内的任一点都有一个密度,而不仅仅是在事件点上。该密度通过计数一定区域内的事件点数量,或核(Kernel)进行估计。核以估计点为中心,一定距离为半径。C(s,r)是以点s为圆心、r为半径的圆域,#表示事件S落在圆域C中的数量。核密度估计(KDE)用途:a) 可视化点模式进行热点 (hot spot)探测;b) 离散连续。 如,疾病与污染。2)基于距离的方法:测度二阶效应最近邻距离计算每个点到其最近邻点之间的距离, 然后计算所有点最近邻距离的平均值。对每一个点,根据其欧几里德距离最小确定其最近邻点。平均最近邻距离的大小,反映点在空
10、间的分布特征。最近邻距离越小,说明点在空间分布越密集,反之,越离散。最近邻距离的方法G函数:欧几里德距离 F函数:与G函数仅仅基于事件间最近邻距离的频率分布不同,F函数基于区域内任意位置点与事件间最近邻距离的频率分布。K函数 :与G函数、F函数只使用事件或点的最近邻距离不同,K函数基于事件间的所有距离。因此,K函数不仅能探测空间模式,而且可以给出空间模式和尺度的关系。 定义 经验K函数估计的四个步骤:1) 对于每一个事件si ,以si为圆心、d 为半径画圆C(si,d) 2) 计算圆内其他事件点的数量3) 3) 计算同一半径下所有事件的均值4) 4) 均值除以研究区内事件密度 得:五、空间格数
11、据分析1、空间权重矩阵为了测度一组地理对象的空间自相关性,必须讨论识别多边形之间关系的方法。空间自相关衡量的是邻接区域内各单元属性值的相似程度,但首先必须定量地界定“邻接区域”的概念。即,在计算这些统计量之前,必须定量地界定区域单元之间的邻接关系,即,空间权重矩阵。 邻居的类型:两种规则 邻接 (公共边):二值或标准 距离 (距离带,K-近邻)2、连接数统计量 连接数统计量(Join Count Statistics):一般用于名义量(nominal)数据,尤其是二值变量数据。3. 全局空间自相关指标Morans I 指数及其统计检验 、Gearys C 指数、Getiss G 指数。三个指标
12、计算方法相似,一般用于间隔量(interval)和比率量(ratio)数据,最常用的是Morans I。4. 局部空间自相关指标 局部空间自相关指标: Local Indicators of Spatial Association (LISA) Proposed in Getis & Ord (1992) and Anselin (1995). 全局自相关:不能给出局部变化。 LISA:全局自相关的分解,描述一个面元在多大程度上与其邻居相似,或不同。 局部 Morans Ii 指数 局部 Gearys Ci 指数 局部 Getiss Gi 指数六、 空间插值与地统计1、倒距离权重差值、趋势面分
13、析倒距离加权 (IDW) 插值方法假定每个输入点都有着局部影响,这种影响随着距离增加而减弱。步骤:a) 计算未知点到所有点的距离;b) 计算每个点的权重: 权重是距离倒数的函数。C)计算结果2、 地统计学当一个变量的取值与其空间位置有关时,就称为区域化变量(regionalized variable)。区域化变量具有两个最显著,也是最重要的特征:随机性和结构性。地统计学是以区域化变量理论为基础,以变异函数为主要工具,研究那些在空间分布上既有随机性又有结构性,或空间相关和依赖性现象的学科。克里金方法(Kriging)就是建立在变异函数理论和结构分析基础之上的。区域化变量的组成部分:结构性 ,可以
14、用均值和常数趋势表示;空间相关,数据通常呈现正空间相关性 ;随机性 ,测量误差,其他误差 。经验半变异函数(semi-variogram):区域化变量的基本研究工具,半变异函数就是区域化变量增量平方的 数学期望之半。理论变异函数图模型:3、 理解不同的克立金模型克立金方法的基本形式:对误差项的假设:期望值为0,并且 和 之间的自相关不取决于s点的位置,而取决于位移量h。为确保自相关方差有解,必须允许某两点间的自相关可以相等。如,下面有箭头相连的两对位置点假设具有相同的自相关性。趋势值 可以被简单地赋予一个常量,即,在任何位置处 如果 未知,就是普通克里金模型。如果在任何时候趋势 已知,无论趋势
15、是否是常量,都形成简单克里金模型。趋势也可以表示为:若趋势中的系数未知,就是泛克里金模型。七、 空间回归1、 空间自回归模型的形式式中,y是因变量,为n1向量;X表示解释变量的nk阶矩阵;m是随空间变化的误差项;e是白噪声。W1,W2是空间权重矩阵。如果对式(1)施加某些限定,可导出多种不同形式的空间自回归模型。1 设X=0,W2=0,则由式(1)推出一阶空间自回归模型(SAR):意义:y的变化是邻接空间单元的因变量的线性组合,解释变量X对于y的变化没有贡献。包含空间效应的方法:通过因变量自身2 设W2=0,则由式(1)推出回归-空间自回归组合模型(MAR):y的变化不仅和邻接空间单元的因变量
16、有关,而且解释变量X对y的变化也有贡献。 y 是因变量,经过空间加权 (W1); r 为系数。3 设W1=0,则由式(1)推出空间误差模型(Spatial error model):m 是空间加权的(W2) 误差项; l 系数; e 不相关的、同方差的误差向量。 包含空间效应的方法:通过误差项。空间Durbin模型(SDM):将因变量的空间延迟(spatial lag)和自变量的空间延迟项加在模型中便得到空间Durbin模型。八、 地图代数&GIS空间建模 1. 栅格数据结构为空间分析提供了最强的建模环境及空间运算,法很多。类型栅格单元叠合分析方法数学运算算术运算符:+、-、*、/逻辑运算符:
17、and、or、xor、not 关系运算符:=、函数运算 指数、对数:exp、log 算术函数:abs、isnull 三角函数:sin、cos、tan、arcsin、arccos 幂函数:pow、sqrt统计运算 统计函数:majority(众数)、maximum、mean、median、minimum、minority (少数) 、range、standard deviation、sum、variety2. 地图代数中的函数与类型1) GIS空间分析的能力体现在回答“Where, What, When”等各类空间问题,即能够描述地理要素的空间分布特征、空间关系、动态过程等,需要定量刻画分布是否
18、聚集、距离对于相互之间的影响、分布的高低趋势等。2)函数是建立在基本运算符基础上的对栅格数据的高级操作,主要包括:局部函数、焦点函数、类区函数、块函数。局部函数函数运算:栅格数据以某种函数关系作为分析依据进行逐网格运算,从而得到新的栅格数据。又分为数学函数、选择函数、重分类函数、统计函数。2 焦点函数,又称邻域函数邻域分析也称窗口分析,主要应用于栅格数据模型。邻域函数计算出的栅格数据每个象元位置上的值都是输入数据中相应位置下指定的一些邻域单元的函数. 计算出的邻域统计值是一个移动窗口,它可以对数据进行扫描。窗口分析:对于栅格数据系统中的一个、多个栅格点或全部数据,开辟一个有固定分析半径的分析窗
19、口,并在该窗口内进行诸如极值、均值等一系列统计计算,或与其它层面的信息进行必要的复合分析,从而实现栅格数据水平方向上的扩展分析。分析窗口的类型 按窗口的形状可分为:1)矩形窗口:以目标栅格为中心,分别向周围八个方向扩展一层或多层栅格,从而形成矩形分析区域,矩形区域的大小,比如33、55、77的窗口。2)圆型窗口:以目标栅格为中心,向周围作一等距离搜索区,构成一圆型分析窗口。3)环型窗口:以目标栅格为中心,按指定的内、外半径构成环型分析窗口。4)扇型窗口:以目标栅格为起点,按指定的起始、终止角度构成扇型分析窗口。类区函数类区函数(zonal function)非常类似于邻域函数,特别是二者都基于
20、邻域的思想,但类区函数中的邻域是定义在地理空间的类型区上的。类区是栅格中所有具有相同值的单元格而不考虑它们在空间上是否相邻,栅格和图像数据集都能用作类型的数据集。九、域系统模型的层次和体系1、论述区域系统模型体系。区域系统模型体系是区域系统问题结构与方法结构的一种指向实用的耦合。其耦合的结果取决于区域系统的问题结构和方法结构两个方面,而这两个侧面则从根本上取决于区域发展的性质。由此可见,区域开发问题从研究的角度来看实际上就包括了四个基本内容:区域系统结构(S)、区域系统过程(E)、区域发展设计(D)和区域发展管理(M),并且这些内容还有着明显的层次性。显然,区域系统的结构和过程是基础层,属于认
21、识客观世界的问题,区域发展设计和管理则是上一个层次,属于改造客观世界的问题。从研究方法来说,顺序采用的是分析(A)、预测(F)、规划(P)和决策(D)方法。上述四类基本问题与方法在不同层次上的耦合就构成了区域系统模型体系上的四大基本模块。区域系统模型体系的耦合将区域系统模型用集合映射的形式表示为:式中:Re和Me分别为区域开发问题集和方法集;f是两集合之间的一种对应和耦合,包括已知的和未知的两种。通常已知的耦合是常见的现有区域系统模型,而未知的则是尚待进一步创造和发展的那些潜在的模型。已知耦合主要是:区域系统结构分析模型(SA)、区域系统演化预测模型(EF)、区域发展设计规划模型(DP)和区域
22、发展管理决策模型(MD)。下标s, p和t则分别表示空间型、部门型和时间型的模型。区域系统模型体系研究应当集中在对耦合f的探讨上。2、简述区域开发的理论模式。梯度开发模式增长极模式 点轴开发模式 网络开发模式一十、 可持续发展评价模型1、国际上几种可持续发展能力测度指标1 经济测度:绿色国民生产净值2 经济测度:真实储蓄3 社会-政治测度:可持续经济福利指数 和真实进步指标4 生态测度:净初级生产力和承载力5 生态测度:生态占用6 生态测度:环境空间2、构建指标体系的基础区域可持续发展的实质是区域社会、经济、资源、环境四大子系统的动态协调发展。因此,确切的把握区域人口、经济、资源、环境之间的相
23、互作用关系就成为构建区域可持续发展评价指标体系的基础。对于人口、经济、资源、环境之间的关系,可以归纳出两条主线,一个枢纽。两条主线是: (1)人口经济资源; (2)人口经济环境经济发展在这两条主线中处于枢纽地位。其它关系如:人口资源、人口环境、资源环境等关系在区域可持续发展中的重要性则相对降低,或均可以通过经济发展这个枢纽得到体现。所以两个主线、一个枢纽就构成了人口、资源、环境与经济发展之间的核心。区域可持续发展在人口、经济、环境、资源层次上需要协调好经济与资源、经济与环境、经济与人口三组主要关系。十一、区域投入、产出结构模型1. 简述区域投入产出平衡表、平衡式的基本结构。2. 区域投入产出模型有哪些主要参数?如何表达?3. 区域投入产出模型有何作用?
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1