3S综合应用论文GIS地统计分析在人口空间分布特征研究中的应用Word文件下载.docx

资源描述

3S综合应用论文GIS地统计分析在人口空间分布特征研究中的应用Word文件下载.docx

《3S综合应用论文GIS地统计分析在人口空间分布特征研究中的应用Word文件下载.docx》由会员分享，可在线阅读，更多相关《3S综合应用论文GIS地统计分析在人口空间分布特征研究中的应用Word文件下载.docx（15页珍藏版）》请在冰豆网上搜索。

3S综合应用论文GIS地统计分析在人口空间分布特征研究中的应用Word文件下载.docx

人口最少的有包头市白云矿区26800人；

锡林郭勒盟二连浩特市26728人；

阿拉善盟阿拉善右旗25383人；

阿拉善盟额济纳旗17883人。

表1各盟市年末常住人口（2000年-2012年）单位：

（万人）

2000

2001

2002

2003

2004

2005

2006

2007

2008

2009

2010

2011

2012

阿拉善盟

17.43

19.94

17.72

17.98

17.96

21.05

21.2

21.42

21.73

22.05

22.39

23.19

23.88

巴彦淖尔市

179.93

171.38

173.61

174.13

176.13

172.38

173.2

174.19

173.76

173.27

166.92

乌海市

40.24

43.49

40.59

41.2

41.6

45.91

46.5

47.01

47.7

48.27

48.76

53.45

54.84

鄂尔多斯市

129.67

139.54

132.83

134.42

135.97

146.66

149.5

151.45

154.79

159.13

162.54

194.95

200.42

包头市

203.01

229.74

206.16

208.02

209.33

240.78

243

245.76

249.61

253.22

257.21

265.61

273.16

呼和浩特市

207.78

243.79

211.83

213.45

213.89

254.43

258

260.63

263.52

267.21

270.85

287.36

294.88

乌兰察布市

272.87

232.63

270.28

270.59

270.6

219.31

215.4

214.12

213.82

213.19

212.55

214.06

212.94

锡林郭勒盟

92.37

99.34

91.83

93.31

93.97

99.59

100.6

100.9

101.68

102.71

103.6

102.86

104.06

兴安盟

161.3

161.89

161.95

162.94

163.84

160.54

160

159.86

160.34

160.14

160.09

161.32

160.73

呼伦贝尔市

271.37

273.65

264.95

267.65

269.7

271.23

270.2

269.96

270.56

269.88

269.75

254.62

253.47

通辽市

307.22

308.35

305.44

306.92

309.3

310.92

309.5

309.1

309.46

309.07

308.26

314.01

313.25

赤峰市

446.34

451.8

442.03

444.31

447.26

441.55

439.3

438.53

437.66

435.1

432.8

433.84

431.30

合计

2329.53

2375.54

2319.22

2334.92

2349.55

2384.35

2386.4

2392.35

2405.06

2413.73

2422.07

2472.19

2489.85

数据来源：

内蒙古统计局.内蒙古统计年鉴.北京:

中国统计出版社

2地统计分析基本原理

地统计（Geostatistics）又称地质统计，是在法国著名统计学家G.Matheron大量理论研究的基础上逐渐形成的一门新的统计学分支。

它是以区域化变量为基础，借助变异函数，研究既具有随机性又具有结构性，或空间相关性和依赖性的自然现象的一门科学。

凡是与空间数据的结构性和随机性，或空间相关性和依赖性，或空间格局与变异有关的研究，并对这些数据进行最优无偏内插估计，或模拟这些数据的离散性、波动性时，皆可应用地统计学的理论与方法。

地统计学与经典统计学的共同之处在于：

它们都是在大量采样的基础上，通过对样本属性值的频率分布或均值、方差关系及其相应规则的分析，确定其空间分布格局与相关关系。

但地统计学区别于经典统计学的最大特点即是：

地统计学既考虑到样本值的大小，又重视样本空间位置及样本间的距离，弥补了经典统计学忽略空间方位的缺陷。

地统计分析理论基础包括前提假设、区域化变量、变异分析和空间估值。

2.1前提假设

2.1.1随机过程

与经典统计学相同的是，地统计学也是在大量样本的基础上，通过分析样本间的规律，探索其分布规律，并进行预测。

地统计学认为研究区域中的所有样本值都是随机过程的结果，即所有样本值都不是相互独立的，它们是遵循一定的内在规律的。

因此地统计学就是要揭示这种内在规律，并进行预测。

2.1.2正态分布

在统计学分析中，假设大量样本是服从正态分布的，地统计学也不例外。

在获得数据后首先应对数据进行分析，若不符合正态分布的假设，应对数据进行变换，转为符合正态分布的形式，并尽量选取可逆的变换形式。

2.1.3平稳性

对于统计学而言，重复的观点是其理论基础。

统计学认为，从大量重复的观察中可以进行预测和估计，并可以了解估计的变化性和不确定性。

对于大部分的空间数据而言，平稳性的假设是合理的。

这其中包括两种平稳性：

一是均值平稳，即假设均值是不变的并且与位置无关；

另一类是与协方差函数有关的二阶平稳和与半变异函数有关的内蕴平稳。

二阶平稳是假设具有相同的距离和方向的任意两点的协方差是相同的，协方差只与这两点的值相关而与它们的位置无关。

内蕴平稳假设是指具有相同距离和方向的任意两点的方差（即变异函数）是相同的。

二阶平稳和内蕴平稳都是为了获得基本重复规律而作的基本假设，通过协方差函数和变异函数可以进行预测和估计预测结果的不确定性。

2.2区域化变量

当一个变量呈现一定的空间分布时，称之为区域化变量，它反映了区域内的某种特征或现象。

区域化变量与一般的随机变量不同之处在于，一般的随机变量取值符合一定的概率分布，而区域化变量根据区域内位置的不同而取不同的值。

而当区域化变量在区域内确定位置取值时，表现为一般的随机变量，也就是说，它是与位置有关的随机变量。

在实际分析中，常采用抽样的方式获得区域化变量在某个区域内的值，即此时区域化变量表现为空间点函数：

根据其定义，区域化变量具有两个显著特征：

即随机性和结构性。

首先，区域化变量是一个随机变量，它具有局部的、随机的、异常的特征；

其次，区域化变量具有一定的结构特点，即变量在点x与偏离空间距离为h的点x+h处的值Z（x）和Z（x+h）具有某种程度的相似性，即自相关性，这种自相关性的程度依赖于两点间的距离h及变量特征。

除此之外，区域化变量还具有空间局限性（即这种结构性表现为一定范围内）、不同程度的连续性和不同程度的各向异性（即各个方向表现出的自相关性有所区别）等特征。

2.3变异分析

2.3.1协方差函数

协方差又称半方差，表示两随机变量之间的差异。

在概率论中，随机变量X与Y的协方差定义为：

借鉴上式，地统计学中的协方差函数可表示为：

其中，Z（x）为区域化随机变量，并满足二阶平稳假设，即随机变量Z（x）的空间分布规律不因位移而改变；

h为两样本点空间分隔距离；

为Z（x）在空间点

处的样本值；

是

在

处距离偏离h的样本值[i=1，2，…，N（h）]；

N（h）是分隔距离为h时的样本点对总数；

和

分别为Z（

）和

的样本平均数，即：

上式中，n为样本单元数。

一般情况下，

≠

（特殊情况下可以认为近似相等）。

2.3.2半变异函数

半变异函数又称半变差函数、半变异矩，是地统计分析的特有函数。

区域化变量Z（x）在点x和x+h处的值Z（x）与Z（x+h）差的方差的一半称为区域化变量Z（x）的半变异函数，记为r（h），2r（h）称为变异函数。

根据定义有：

即

区域化变量Z（x）满足二阶平稳假设，因此对于任意的h有：

因此，半变异函数可改写为：

由上式可知，半变异函数依赖于自变量x和h，当半变异函数r（x，h）仅仅依于距离h而与位置x无关时，r（x，h）可改写为r（x），即：

各变量的含义同前。

也有将r（h）称为变异函数，两者使用上不引起本质上的差别。

2.3.3变异分析

半变异函数和协方差函数把统计相关系数的大小作为一个距离的函数，是地理学相近相似定理定量量化。

图1和图2为一典型的半变异函数图和其对应的协方差函数图。

图1半变异函数图图2协方差函数图

图1和图2显示，半变异值的变化随着距离的加大而增加，协方差随着距离的加大而减小。

这主要是由于半变异函数和协方差函数都是事物空间相关系数的表现，当两事物彼此距离较小时，它们是相似的，因此协方差值较大，而半变异值较小；

反之，协方差值较小，而半变异值较大。

此外，协方差函数和半变异函数随着距离的加大基本呈反向变化特征，它们之间的近似关系表达式为：

r（h）=still-C（h）

半变异函数曲线图和协方差函数曲线反映了一个采样点与其相邻采样点的空间关系。

此外值（Nugget）：

理论上，当采样点间的距离为0时，半变异函数值应为0，但由于存在变异函数r（h）从初始的块金值达到一个。

基台值时，采样点的间隔距离称，它们对异常采样点具有很好的探测作用，在ArcGIS地统计分析模块中可以使用两者的任意一个，一般采用半变异函数。

在半变异曲线图中有两个非常重要的点：

间隔为0时的点和半变异函数趋近平稳时的拐点，由这两个点产生四个相应的参数：

块金值（Nugget）、变程（Range）、基台值（Sill）、偏基台值（PartialSill）它们的含义表示如下：

块金测量误差和空间变异，使得两采样点非常接近时，它们的半变异函数值不为0，即存在块金值。

测量误差是仪器内在误差引起的，空间变异是自然现象在一定空间范围内的变化。

它们任意一方或两者共同作用产生了块金值。

基台值（Sill）：

当采样点间的距离h增大时，半相对稳定的常数时，该常数值称为基台值。

当半变异函数值超过基台值时，即函数值不随采样点间隔距离而改变时，空间相关性不存在。

偏基台值（PartialSill）：

基台值与块金值的差值。

变程（Range）：

当半变异函数的取值由初始的块金值达到为变程。

变程表示了在某种观测尺度下，空间相关性的作用范围，其大小受观测尺度的限定。

在变程范围内，样点间的距离越小，其相似性，即空间相关性越大。

当h>

R时，区域化变量Z（x）的空间相关性不存在，即当某点与已知点的距离大于变程时，该点数据不能用于内插或外推。

当限定的样本点间隔过小时，可能出现曲线图上所有r（h）≈Nugget，即曲线为一近似平越强。

相应地地统计分析过程，或者说空间估值过程，一般为：

首先是获取原始数据，检查行于横坐标的直线，此时半变异函数表现为纯块金效应。

这是由于所限定的样本间隔内，点与点的变化很大，即各个样点是随机的，不具备空间相关性，区域内样点的平均值即是最佳估计值。

此时只有增大样本间隔，才能反映出样本间的空间相关性。

空间相关性的强弱可由Partial_Sill/Sill来反映，该值越大，空间相关性，Nugget/Sill称为基底效应，表示样本间的变异特征，该值越大，表示样本间的变异更多得是由随机因素引起的。

2.4空间估值

一个完整的、分析数据，找寻数据暗含的特点和规律，比如是否为正态分布、有没有趋势效应、各向异性等等；

然后选择合适的模型进行表面预测，这其中包括半变异模型的选择和预测模型的选择；

最后检验模型是否合理或几种模型进行对比。

尽管在ArcGIS中利用地统计分析模块完成上述过程非常简单，但是遵循一个结构化处理过程仍很重要，如图3所示。

2.4.1数据显示

在ArcMap数据视图窗口中添加并显示待分析的数据图层。

2.4.2数据检查

分析数据集的统计属性，对数据进行深入了解。

数据检查内容包括检验数据分布、寻找数据离群值、全局趋势分析、探测空间自相关及方向变异，以及多数据集协变分析。

2.4.3模型拟合

基于对数据的认识，初步选择一个认为合适的模型创建表面。

全面的数据检查有助于选择出合适的模型。

2.4.4模型诊断

图3空间估值流程图

评估模型的输出（表面），了解所选模型对未知值的预测效果。

诊断的主要内容包括：

①预测的准确性。

②模型的有效性。

2.4.5模型比较

通过设置不同参数或者选择多个可选模型创建表面，通过对比分析可以确定哪个模型对未通过设置不知值的预测更好。

3技术方法

3.1数据分析

获取样本点数据后对样本点数据进行分析，了解数据分布接近正态分布时利用Kriging内插值法生成的最佳表面效果。

本文采用直方图与NormalQQPlot图法检查数据的分布判断是否符合正态分布，否则需进行数据变换。

3.2数据趋势分析

空间趋势反映了空间现象在空间区域上变化的主方向特征，利用趋势分析工具可以将样本点数据转换为以某属性值为高度的三维图，将样本点数据按两个方向投影到与地图平面正交的平面上，每个方向通过投影点作出最佳拟合线来模拟特定方向上存在的趋势。

3.3数据空间相关与变异分析

采用半变异函数进行空间相关与变异分析，通过PartialSill/Sill值测度各个县级行政单元人口空间分布相关性的强弱。

通过基底效应测度各个县级行政单元人口分布的变异特征。

4内蒙古人口空间相关与变异分析

内蒙古共包括101个旗县，各县级行政单元人口及面积数据来源于2010年内蒙古统计年鉴，在本文的研究中按距离原则将呼和浩特市市的赛罕区、玉泉区、新城区、回民区合并为呼和浩特市，将包头市的昆都仑区、青山区、东河区合并为包头市，将乌海市的海南区、海勃湾区、乌达区合并为乌海市，将赤峰市红山区、松山区、元宝山区合并为赤峰市，进行统计计算。

图4旗县级行政中心的几何中心

4.1数据分析

内蒙古2012年人口密度的空间分布极度不均衡（表2），其频率分布是偏态的。

均值Mean（110.38）大于中值median（43.8），偏度系数Skewness为4.6202，远大于对称值0，直方图向右延伸，大部分数据集中于左边，偏态系数大于0，因此为正偏分布；

峰值系数Kurtosis为27.285远大于正态分布值2，为高狭峰分布比正态分布集中于平均数附近。

表2对数变换前后统计值对应表

变换前

对数变换后

最小值Min

最大值Max

1538.6

7.3386

平均值Mean

110.38

3.5786

标准差Std.Dev

229.08

1.6003

s偏度系数Skewness

4.6202

偏度系数Skewness

-0.17389

峰度系数Kurtosis

27.285

2.6905

1/4分位数1-stQuartile

10.35

2.3284

中数Median

43.8

3.7796

3/4分位数3-rdQuartile

105.75

4.66

如果对人口密度进行对数变换（图5），新变量基本符合正态分布。

均值为3.5786，略小于中值3.7796，偏度系数为-0.17389，略小于对称值0，峰值系数为2.6905，略大于正态分布值2，可以看作基本服从正态分布。

图5对数先后的直方图

经过对数变换后的新变量NormalQQPlot图（图6），数据接近一条直线，没有明显的离群值，数据基本服从正态分布。

图6新变量NormalQQPlot图

4.2趋势分析

以内蒙古各旗县（X，Y，人口密度）为空间坐标，将所有旗县的（X，Y，人口密度）所确定的点投影到一个东西向的和一个南北向的正交平面上，通过投影点做出最佳拟合线，得到三维透视图（图7），从图中可以看出，东西方向和南北方向的最佳拟合线并非一条直线，表明内蒙古各旗县人口密度在特定方向上存在一定的空间趋势.在南北方向上，自北向南人口密度有增加趋势，在东西方向上，拟合曲线呈倒U型，说明人口密度的空间分布东西低，中部高。

图7人口密度分布趋势图

4.3空间相关与变异分析

半方差云图的横坐标为两个行政单元几何中心之间的空间距离，纵坐标为对数人口密度的变异函数值，它反映了对数人口密度的空间关系。

一般空间上愈接近的点对具有更相似的值；

距离愈远的点对具有更多的不相似性。

经过Circular、Spherical、Tetraspherical、Pentaspherical、Gaussian、HoleEffect、K-Bessel等各种模型对比研究，HoleEffect模型最佳（图8）由于样本点之间存在空间变异存在块金值（Nugget）Nugget=1.6182当样本点之间的距离h增大时半变异函数从初始的块金值达到一个相对稳定的常数即基台值Sill偏，经计算PartialSill/Sill的值为0.82154接近1说明内蒙区各个县市的人口密度存在较强的空间相关性。

图8人口密度半变异函数曲线图

4.4表面分析

通过Kriging差值计算得到内蒙古人口密度空间分布表面（图9、图10）。

可以看出，内蒙古人口密度的空间分布具有圈层结构，在人口高密度区域外测人口密度由高到低可以分成9个圈层，每一个圈层大致北京为界沿两个方向延伸：

北京-乌兰察布方向由东南-向西北延伸和北京-赤峰方向由西南-向东北延伸。

核心区是人口密度在210人/

以上的高密度区，是由呼和浩特市、包头市、乌兰察布市和赤峰市成的近似两个中心的区域。

人口密度在50人/

以上的较高密度区主要位于高密度区以东的广大地区；

人口密度在3-50人/

的中密度区主要位于乌海西部地区、锡盟中部地区和大兴安岭地区；

阿拉善盟大部分地区为人口低密度区。

图9OrdinaryKriging差值表面图

图10UniversalKriging差值表面图

5结论

内蒙古2012年人口密度的空间分布极度不均衡，为高狭峰分布；

在南北方向上，自东向西人口密度增加，在南北方向上，拟合曲线呈倒U型，人口密度的空间分布南北低，中部高人口的分布既有历史原因，又叠加了现代经济因素。

呼和浩特市、包头市和鄂尔多斯市是全省的金三角地区，呼市又是自治区首府，经济发达工作生活条件优越，吸引了大量人口，因此人口密度高；

乌海和乌兰察布人口大部分集中在个别地区，整体人口密度也很高；

赤峰市和通辽市人口密度高是历史原因造成的少数民族集聚的结果。

阿拉善盟地形复杂，自然条件相对较差，面积广大，耕地比例和地均GDP都偏低，因此人口密度低。

科尔沁、赤峰（辖区的小旗县区）还有很大单城市化潜力，同时自治区党委已确定蒙东地区科尔沁和赤峰建设百万人口城市分析得出内蒙有俩个两个大城市发展轴（东一个，西一个）来带动其他的中型城市发展，同时内蒙能多发展一些基础设施齐全交通便利的中小城市，但必须相应提高城市化水平。

GIS地统计分析以区域化变量为基础，已被广泛应用于众多领域，已成为空间统计学的重要分支。

对于那些与空间数据的结构性和随机性，或空间相关性和依赖性，或空间格局与变异有关的空间现象的研究均可应用此方法，该方法能够较精确地反映变量的空间的分布与变异。

展开阅读全文

3S综合应用论文GIS地统计分析在人口空间分布特征 研究中的应用Word文件下载.docx

3S综合应用论文GIS地统计分析在人口空间分布特征研究中的应用Word文件下载.docx