ArcGIS地统计分析总结Word文档格式.docx
《ArcGIS地统计分析总结Word文档格式.docx》由会员分享,可在线阅读,更多相关《ArcGIS地统计分析总结Word文档格式.docx(7页珍藏版)》请在冰豆网上搜索。
这个模块的应用对象不计其数,可以使用这个工具包开发任何一种地理数据集(比如坐标和属性),下面列出几个成功应用ArcGISGeostatisticalAnalyst的典型领域:
气象学家和统计学家应用ArcGISGeostatisticalAnalyst来进行气象数据分析。
采矿行业广泛的应用ArcGISGeostatisticalAnalyst,涉及从最初的地质特征研究到产量控制的各个阶段。
石油工业成功的应用ArcGISGeostatisticalAnalyst,来分析包括地震数据和油井数据集成的空间数据,并且用来研究物理特性和地震属性之间的相关关系。
在环境问题的研究中,ArcGISGeostatisticalAnalyst的应用提供了一个分析空气、土壤和地下水污染高效和一致的模型。
演示、个例研究和研究教育论文提供了大量的应用ArcGISGeostatisticalAnalyst的例子。
同时,ArcGISGeostatisticalAnalyst也成为评估渔业产量的一个标准方法。
精细农业所应用的土壤特性的图形分析中,ArcGISGeostatisticalAnalyst也得到广泛应用。
越来越多的农民或者农村顾问使用ArcGISGeostatisticalAnalyst来增加作物产量、提高利润、减小对环境的不利影响。
2基本原理
地统计学与经典统计学的共同之处在于:
它们都是在大量采样的基础上,通过对样本属性值的频率分布或均值、方差关系及其相应规则的分析,确定其空间分布格局与相关关系。
但地统计学区别于经典统计学的最大特点即是:
地统计学既考虑到样本值的大小,又重视样本空间位置及样本间的距离,弥补了经典统计学忽略空间方位的缺陷。
地统计分析理论基础包括前提假设、区域化变量、变异分析和空间估值。
2.1前提假设
(1)随机过程
与经典统计学相同的是,地统计学也是在大量样本的基础上,通过分析样本间的规律,探索其分布规律,并进行预测。
地统计学认为研究区域中的所有样本值都是随机过程的结果,即所有样本值都不是相互独立的,它们是遵循一定的内在规律的。
因此地统计学就是要揭示这种内在规律,并进行预测。
(2)正态分布
在统计学分析中,假设大量样本是服从正态分布的,地统计学也不例外。
在获得数据后首先应对数据进行分析,若不符合正态分布的假设,应对数据进行变换,转为符合正态分布的形式,并尽量选取可逆的变换形式。
(3)平稳性
对于统计学而言,重复的观点是其理论基础。
统计学认为,从大量重复的观察中可以进行预测和估计,并可以了解估计的变化性和不确定性。
对于大部分的空间数据而言,平稳性的假设是合理的。
这其中包括两种平稳性:
一是均值平稳,即假设均值是不变的并且与位置无关;
另一类是与协方差函数有关的二阶平稳和与半变异函数有关的内蕴平稳。
二阶平稳是假设具有相同的距离和方向的任意两点的协方差是相同的,协方差只与这两点的值相关而与它们的位置无关。
内蕴平稳假设是指具有相同距离和方向的任意两点的方差(即变异函数)是相同的。
二阶平稳和内蕴平稳都是为了获得基本重复规律而作的基本假设,通过协方差函数和变异函数可以进行预测和估计预测结果的不确定性。
2.2区域化变量
当一个变量呈现一定的空间分布时,称之为区域化变量,它反映了区域内的某种特征或现象。
区域化变量与一般的随机变量不同之处在于,一般的随机变量取值符合一定的概率分布,而区域化变量根据区域内位置的不同而取不同的值。
而当区域化变量在区域内确定位置取值时,表现为一般的随机变量,也就是说,它是与位置有关的随机变量。
在实际分析中,常采用抽样的方式获得区域化变量在某个区域内的值,即此时区域化变量表现为空间点函数:
,,,,Zx,Zx,x,xuvw
根据其定义,区域化变量具有两个显著特征:
即随机性和结构性。
首先,区域化变量是一个随机变量,它具有局部的、随机的、异常的特征;
其次,区域化变量具有一定的结构特点,即变量在点x与偏离空间距离为h的点x+h处的值Z(x)和Z(x+h)具有某种程度的相似性,即自相关性,这种自相关性的程度依赖于两点间的距离h及变量特征。
除此之外,区域化变量还具有空间局限性(即这种结构性表现为一定范围内)、不同程度的连续性和不同程度的各向异性(即各个方向表现出的自相关性有所区别)等特征。
2.3变异分析
(1)协方差函数协方差又称半方差,表示两随机变量之间的差异。
在概率论中,随机变
量X与Y的协方差定义为:
,,,,,,,,,,,,CovX,Y,EX,EXY,EY
借鉴上式,地统计学中的协方差函数可表示为:
Nh,,1
,,,,,,,,,,,,,Ch,Zx,ZxZx,h,Zx,h,iiii,,,Nhi1
其中,Z(x)为区域化随机变量,并满足二阶平稳假设,即随机变量Z(x)的空间分布规律不因位移而改变;
h为两样本点空间分隔距离;
为Z(x)在空间点处的样本值。
,,Zxxii
是Z(x)在处距离偏离h的样本值[i=1,2,„,N(h)];
N(h)是分隔距离为h时的,,Zx,hi
样本点对总数;
和分别为和的样本平均数,即:
,,,,ZxZx,h,,,,ZxZx,hiiii
n1,,,,Zx,Zx,iin,i1
n1
,,,,Zx,h,Zx,h,iin,i1
(2)半变异函数半变异函数又称半变差函数、半变异矩,是地统计分析的特有函数。
区域化变量Z(x)在点x和x+h处的值Z(x)与Z(x+h)差的方差的一半称为区域化变量Z(x)的半变异函数,记为r(h),2r(h)称为变异函数。
根据定义有:
1,,rx,h,Var[Z(x),Z(x,h)]2
1122,,rx,h,E[Z(x),Z(x,h)],{E[Z(x)],E[Z(x,h)]}22
区域化变量Z(x)满足二阶平稳假设,因此对于任意的h有:
E[Z(x,h)],E[Z(x)]
因此,半变异函数可改写为:
12,,rx,h,E[Z(x),Z(x,h)]2
由上式可知,半变异函数依赖于自变量x和h,当半变异函数r(x,h)仅仅依赖于距离h而与位置x无关时,r(x,h)可改写为r(x),即:
12,,rh,E[Z(x),Z(x,h)]
2
具体表示为:
N(h)12,,rh,[Z(x),Z(x,h)],ii2N(h),i1
各变量的含义同前。
也有将r(h)称为变异函数,两者使用上不引起本质上的差别。
(3)变异分析半变异函数和协方差函数把统计相关系数的大小作为一个距离的函数,是地理学相近相似定理定量量化。
图10.1和图10.2显示,半变异值的变化随着距离的加大而增加,协方差随着距离的加大而减小。
这主要是由于半变异函数和协方差函数都是事物空间相关系数的表现,当两事物彼此距离较小时,它们是相似的,因此协方差值较大,而半变异值较小;
反之,协方差值较小,
而半变异值较大。
此外,协方差函数和半变异函数随着距离的加大基本呈反向变化特征,它们之间的近似关系表达式为:
r(h),sill,C(h)
半变异函数曲线图和协方差函数曲线反映了一个采样点与其相邻采样点的空间关系。
此外,它们对异常采样点具有很好的探测作用,在ArcGIS地统计分析模块中可以使用两者的任意一个,一般采用半变异函数。
在半变异曲线图中有两个非常重要的点:
间隔为0时的点和半变异函数趋近平稳时的拐点,由这两个点产生四个相应的参数:
块金值(Nugget)、变程(Range)、基台值(Sill)、偏基台值(PartialSill)它们的含义表示如下:
块金值(Nugget):
理论上,当采样点间的距离为0时,半变异函数值应为0,但由于存在测量误差和空间变异,使得两采样点非常接近时,它们的半变异函数值不为0,即存在块金值。
测量误差是仪器内在误差引起的,空间变异是自然现象在一定空间范围内的变化。
它们任意一方或两者共同作用产生了块金值。
基台值(Sill):
当采样点间的距离h增大时,半变异函数人r(h)从初始的块金值达到一个相对稳定的常数时,该常数值称为基台值。
当半变异函数值超过基台值时,即函数值不随采样点间隔距离而改变时,空间相关性不存在。
偏基台值(PartialSill):
基台值与块金值的差值变程(Range):
当半变异函数的取值由初始的块金值达到基台值时采样点的间隔距离称为变程。
变程表示了在某种观测尺度下,空间相关性的作用范围,其大小受观测尺度的限定。
在变程范围内,样点间的距离越小,其相似性,即空间相关性越大。
当h>
R时,区域化变量Z(x)的空间相关性不存在,即当某点与已知点的距离大于变程时,该点数据不能用于内插或外推。
当限定的样本点间隔过小时,可能出现曲线图上曲线为一近似平行于横坐标的直线,此时半变异函数表现为纯块金效应。
这是由于所限定的样本间隔内,点与点的变化很大,即各个样点是随机的,不具备空间相关性,区域内样点的平均值即是最佳估计值。
此时只有增大样本间隔,才能反映出样本间的空间相关性。
空间相关性的强弱可由Partial_Sill/Sill来反映,该值越大,空间相关性越强,相应地,Nugget/Sill称为基底效应,表示样本间的变异特征,该值越大,表示样本间的变异更多得是由随机因素引起的。
2.4空间估值
一个完整的地统计分析过程,或者说空间估值过程,一般为:
首先是获取原始数据,检查、分析数据,找寻数据暗含的特点和规律,比如是否为正态分布、有没有趋势效应、各向异性等等;
然后选择合适的模型进行表面预测,这其中包括半变异模型的选择和预测模型的选择;
最后检验模型是否合理或几种模型进行对比。
3克里格插值
克里格插值(Kriging)又称空间局部插值法,是以变异函数理论和结构分析为基础,在有限区域内对区域化变量进行无偏最优估计的一种方法,是地统计学的主要内容之一。
南
非矿产工程师D.R.Krige(1951年)在寻找金矿时首次运用这种方法,法国著名统计学家G.Matheron随后将该方法理论化、系统化,并命名为Kriging,即克里格方法。
克里格方法的适用范围为区域化变量存在空间相关性,即如果变异函数和结构分析的结果表明区域化变量存在空间相关性,则可以利用克里格方法进行内插或外推;
否则反之。
其实质是利用区域化变量的原始数据和变异函数的结构特点,对未知样点进行线性无偏、最优估计。
无偏是指偏差的数学期望为0,最优是指估计值与实际值之差的平方和最小。
也就是说,克里格方法是根据未知样点有限邻域内的若干已知样本点数据,在考虑了样本点的形状、大小和空间方位,与未知样点的相互空间位置关系,以及变异函数提供的结构信息之后,对未知样点进行的一种线性无偏最