3S综合应用论文GIS地统计分析在人口空间分布特征 研究中的应用.docx
《3S综合应用论文GIS地统计分析在人口空间分布特征 研究中的应用.docx》由会员分享,可在线阅读,更多相关《3S综合应用论文GIS地统计分析在人口空间分布特征 研究中的应用.docx(15页珍藏版)》请在冰豆网上搜索。
3S综合应用论文GIS地统计分析在人口空间分布特征研究中的应用
3S综合应用论文
GIS地统计分析在人口空间分布特征
研究中的应用
院系:
地理科学学院
专业:
地图学与地理信息系统
学号:
20144017029
姓名:
元志辉
人口分布是指一定时间内人口群体在地理空间中的分布、集散及组合情况是重要的人口现象和社会经济现象,它受社会生产方式和经济发展水平的制约,生产力的发展往往伴随着人口地域分布的变化。
人口分布的时空演变是人口发展过程在时间和空间上的表现形式研究区域人口分布的时空演变过程,可揭示区域人口空间分布的规律性对制定合理的人口政策以及实现区域人口、资源、环境的协调发展具有十分重要意义。
GIS空间统计分析主要用于空间数据的分类和综合评价,其核心是认识与地理位置相关的数据间的空间依赖空间关联或空间自相关,通过空间的位置建立数据间的统计关系,空间自相关分析是空间统计分析的重要内容之一,是GIS研究领域中的重要研究方法,基于地理空间的现象或属性特征值在空间分布上都有一定规律,存在某种空间关联关系。
本文以内蒙古旗县级行政区为对象,选择行政区几何中心点、人口密度指标,借助ArcGIS软件进行人口密度空间分布的相关与变异分析。
人口密度的大小与研究区的位置相关,属于空间的数据,人口密度的空间分布是人口密度的区域化,以空间坐标为自变量,属于区域化的变量,符合地统计分析所要求的变量要求,可以借助地统计分析方法研究其空间分布。
1内蒙古人口现状分析
内蒙古人口密度较小,但人口分布极不平衡。
其特点为:
各盟市、旗县间人口分布非常悬殊;地区人口分布东多西少;农村、牧区人口多于城市;交通便利的地区人口稠密,交通闭塞的地区人口稀疏;各民族的人口分布相对较为集中。
内蒙古地域辽阔,各盟市、旗县(市、区)人口分布不平衡,有明显的地区差异。
据2013年内蒙古统计年鉴数据显示(表1),截止到2012年11月1日全区常住总人口为2489.85万人,土地面积为118.3万平方公里,全区人口密度为每平方公里21人。
全区人口密度最高的是乌海市,每平方公里323人,其次有呼和浩特市,每平方公里171人,包头市,每平方公里98人。
人口密度最低的是阿拉善盟每平方公里只有0.9人。
在全区12个盟市中,人口最多的有赤峰市431.3万人;通辽市313.25万人;呼和浩特市294.88万人;包头市273.16万人;呼伦贝尔市253.47。
人口最少的是阿拉善盟22.39万人。
旗县(市、区)的人口分布,人口在50万以上的有8个,分别有通辽市科尔沁区889628人;包头市昆都仑区750800人;赤峰市宁城县608166人;赤峰市敖汉旗601923人;巴彦淖尔市临河区561660人;赤峰市松山区549880人;通辽市科尔沁左翼中旗535011人;包头市东河区531000人。
人口在50万以下40万以上的旗县(市、区)有,6个,在40万以下30万以上的旗县(市、区)有24个,人口在30万以下20万以上的旗县(市、区)有19个,人口在20万以下10万以上的旗县(市、区)有22个,人口在10万以下的旗县(市、区)有22个。
人口最少的有包头市白云矿区26800人;锡林郭勒盟二连浩特市26728人;阿拉善盟阿拉善右旗25383人;阿拉善盟额济纳旗17883人。
表1各盟市年末常住人口(2000年-2012年)单位:
(万人)
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
阿拉善盟
17.43
19.94
17.72
17.98
17.96
21.05
21.2
21.42
21.73
22.05
22.39
23.19
23.88
巴彦淖尔市
179.93
171.38
173.61
174.13
176.13
172.38
173.2
173.61
174.19
173.76
173.27
166.92
166.92
乌海市
40.24
43.49
40.59
41.2
41.6
45.91
46.5
47.01
47.7
48.27
48.76
53.45
54.84
鄂尔多斯市
129.67
139.54
132.83
134.42
135.97
146.66
149.5
151.45
154.79
159.13
162.54
194.95
200.42
包头市
203.01
229.74
206.16
208.02
209.33
240.78
243
245.76
249.61
253.22
257.21
265.61
273.16
呼和浩特市
207.78
243.79
211.83
213.45
213.89
254.43
258
260.63
263.52
267.21
270.85
287.36
294.88
乌兰察布市
272.87
232.63
270.28
270.59
270.6
219.31
215.4
214.12
213.82
213.19
212.55
214.06
212.94
锡林郭勒盟
92.37
99.34
91.83
93.31
93.97
99.59
100.6
100.9
101.68
102.71
103.6
102.86
104.06
兴安盟
161.3
161.89
161.95
162.94
163.84
160.54
160
159.86
160.34
160.14
160.09
161.32
160.73
呼伦贝尔市
271.37
273.65
264.95
267.65
269.7
271.23
270.2
269.96
270.56
269.88
269.75
254.62
253.47
通辽市
307.22
308.35
305.44
306.92
309.3
310.92
309.5
309.1
309.46
309.07
308.26
314.01
313.25
赤峰市
446.34
451.8
442.03
444.31
447.26
441.55
439.3
438.53
437.66
435.1
432.8
433.84
431.30
合计
2329.53
2375.54
2319.22
2334.92
2349.55
2384.35
2386.4
2392.35
2405.06
2413.73
2422.07
2472.19
2489.85
数据来源:
内蒙古统计局.内蒙古统计年鉴.北京:
中国统计出版社
2地统计分析基本原理
地统计(Geostatistics)又称地质统计,是在法国著名统计学家G.Matheron大量理论研究的基础上逐渐形成的一门新的统计学分支。
它是以区域化变量为基础,借助变异函数,研究既具有随机性又具有结构性,或空间相关性和依赖性的自然现象的一门科学。
凡是与空间数据的结构性和随机性,或空间相关性和依赖性,或空间格局与变异有关的研究,并对这些数据进行最优无偏内插估计,或模拟这些数据的离散性、波动性时,皆可应用地统计学的理论与方法。
地统计学与经典统计学的共同之处在于:
它们都是在大量采样的基础上,通过对样本属性值的频率分布或均值、方差关系及其相应规则的分析,确定其空间分布格局与相关关系。
但地统计学区别于经典统计学的最大特点即是:
地统计学既考虑到样本值的大小,又重视样本空间位置及样本间的距离,弥补了经典统计学忽略空间方位的缺陷。
地统计分析理论基础包括前提假设、区域化变量、变异分析和空间估值。
2.1前提假设
2.1.1随机过程
与经典统计学相同的是,地统计学也是在大量样本的基础上,通过分析样本间的规律,探索其分布规律,并进行预测。
地统计学认为研究区域中的所有样本值都是随机过程的结果,即所有样本值都不是相互独立的,它们是遵循一定的内在规律的。
因此地统计学就是要揭示这种内在规律,并进行预测。
2.1.2正态分布
在统计学分析中,假设大量样本是服从正态分布的,地统计学也不例外。
在获得数据后首先应对数据进行分析,若不符合正态分布的假设,应对数据进行变换,转为符合正态分布的形式,并尽量选取可逆的变换形式。
2.1.3平稳性
对于统计学而言,重复的观点是其理论基础。
统计学认为,从大量重复的观察中可以进行预测和估计,并可以了解估计的变化性和不确定性。
对于大部分的空间数据而言,平稳性的假设是合理的。
这其中包括两种平稳性:
一是均值平稳,即假设均值是不变的并且与位置无关;另一类是与协方差函数有关的二阶平稳和与半变异函数有关的内蕴平稳。
二阶平稳是假设具有相同的距离和方向的任意两点的协方差是相同的,协方差只与这两点的值相关而与它们的位置无关。
内蕴平稳假设是指具有相同距离和方向的任意两点的方差(即变异函数)是相同的。
二阶平稳和内蕴平稳都是为了获得基本重复规律而作的基本假设,通过协方差函数和变异函数可以进行预测和估计预测结果的不确定性。
2.2区域化变量
当一个变量呈现一定的空间分布时,称之为区域化变量,它反映了区域内的某种特征或现象。
区域化变量与一般的随机变量不同之处在于,一般的随机变量取值符合一定的概率分布,而区域化变量根据区域内位置的不同而取不同的值。
而当区域化变量在区域内确定位置取值时,表现为一般的随机变量,也就是说,它是与位置有关的随机变量。
在实际分析中,常采用抽样的方式获得区域化变量在某个区域内的值,即此时区域化变量表现为空间点函数:
根据其定义,区域化变量具有两个显著特征:
即随机性和结构性。
首先,区域化变量是一个随机变量,它具有局部的、随机的、异常的特征;其次,区域化变量具有一定的结构特点,即变量在点x与偏离空间距离为h的点x+h处的值Z(x)和Z(x+h)具有某种程度的相似性,即自相关性,这种自相关性的程度依赖于两点间的距离h及变量特征。
除此之外,区域化变量还具有空间局限性(即这种结构性表现为一定范围内)、不同程度的连续性和不同程度的各向异性(即各个方向表现出的自相关性有所区别)等特征。
2.3变异分析
2.3.1协方差函数
协方差又称半方差,表示两随机变量之间的差异。
在概率论中,随机变量X与Y的协方差定义为:
借鉴上式,地统计学中的协方差函数可表示为:
其中,Z(x)为区域化随机变量,并满足二阶平稳假设,即随机变量Z(x)的空间分布规律不因位移而改变;h为两样本点空间分隔距离;
为Z(x)在空间点
处的样本值;是
在
处距离偏离h的样本值[i=1,2,…,N(h)];N(h)是分隔距离为h时的样本点对总数;
和
分别为Z(
)和
的样本平均数,即:
上式中,n为样本单元数。
一般情况下,
≠
(特殊情况下可以认为近似相等)。
2.3.2半变异函数
半变异函数又称半变差函数、半变异矩,是地统计分析的特有函数。
区域化变量Z(x)在点x和x+h处的值Z(x)与Z(x+h)差的方差的一半称为区域化变量Z(x)的半变异函数,记为r(h),2r(h)称为变异函数。
根据定义有:
即
区域化变量Z(x)满足二阶平稳假设,因此对于任意的h有:
因此,半变异函数可改写为:
由上式可知,半变异函数依赖于自变量x和h,当半变异函数r(x,h)仅仅依于距离h而与位置x无关时,r(x,h)可改写为r(x),即:
各变量的含义同前。
也有将r(h)称为变异函数,两者使用上不引起本质上的差别。
2.3.3变异分析
半变异函数和协方差函数把统计相关系数的大小作为一个距离的函数,是地理学相近相似定理定量量化。
图1和图2为一典型的半变异函数图和其对应的协方差函数图。
图1半变异函数图图2协方差函数图
图1和图2显示,半变异值的变化随着距离的加大而增加,协方差随着距离的加大而减小。
这主要是由于半变异函数和协方差函数都是事物空间相关系数的表现,当两事物彼此距离较小时,它们是相似的,因此协方差值较大,而半变异值较小;反之,协方差值较小,而半变异值较大。
此外,协方差函数和半变异函数随着距离的加大基本呈反向变化特征,它们之间的近似关系表达式为:
r(h)=still-C(h)
半变异函数曲线图和协方差函数曲线反映了一个采样点与其相邻采样点的空间关系。
此外值(Nugget):
理论上,当采样点间的距离为0时,半变异函数值应为0,但由于存在变异函数r(h)从初始的块金值达到一个。
基台值时,采样点的间隔距离称,它们对异常采样点具有很好的探测作用,在ArcGIS地统计分析模块中可以使用两者的任意一个,一般采用半变异函数。
在半变异曲线图中有两个非常重要的点:
间隔为0时的点和半变异函数趋近平稳时的拐点,由这两个点产生四个相应的参数:
块金值(Nugget)、变程(Range)、基台值(Sill)、偏基台值(PartialSill)它们的含义表示如下:
块金测量误差和空间变异,使得两采样点非常接近时,它们的半变异函数值不为0,即存在块金值。
测量误差是仪器内在误差引起的,空间变异是自然现象在一定空间范围内的变化。
它们任意一方或两者共同作用产生了块金值。
基台值(Sill):
当采样点间的距离h增大时,半相对稳定的常数时,该常数值称为基台值。
当半变异函数值超过基台值时,即函数值不随采样点间隔距离而改变时,空间相关性不存在。
偏基台值(PartialSill):
基台值与块金值的差值。
变程(Range):
当半变异函数的取值由初始的块金值达到为变程。
变程表示了在某种观测尺度下,空间相关性的作用范围,其大小受观测尺度的限定。
在变程范围内,样点间的距离越小,其相似性,即空间相关性越大。
当h>R时,区域化变量Z(x)的空间相关性不存在,即当某点与已知点的距离大于变程时,该点数据不能用于内插或外推。
当限定的样本点间隔过小时,可能出现曲线图上所有r(h)≈Nugget,即曲线为一近似平越强。
相应地地统计分析过程,或者说空间估值过程,一般为:
首先是获取原始数据,检查行于横坐标的直线,此时半变异函数表现为纯块金效应。
这是由于所限定的样本间隔内,点与点的变化很大,即各个样点是随机的,不具备空间相关性,区域内样点的平均值即是最佳估计值。
此时只有增大样本间隔,才能反映出样本间的空间相关性。
空间相关性的强弱可由Partial_Sill/Sill来反映,该值越大,空间相关性,Nugget/Sill称为基底效应,表示样本间的变异特征,该值越大,表示样本间的变异更多得是由随机因素引起的。
2.4空间估值
一个完整的、分析数据,找寻数据暗含的特点和规律,比如是否为正态分布、有没有趋势效应、各向异性等等;然后选择合适的模型进行表面预测,这其中包括半变异模型的选择和预测模型的选择;最后检验模型是否合理或几种模型进行对比。
尽管在ArcGIS中利用地统计分析模块完成上述过程非常简单,但是遵循一个结构化处理过程仍很重要,如图3所示。
2.4.1数据显示
在ArcMap数据视图窗口中添加并显示待分析的数据图层。
2.4.2数据检查
分析数据集的统计属性,对数据进行深入了解。
数据检查内容包括检验数据分布、寻找数据离群值、全局趋势分析、探测空间自相关及方向变异,以及多数据集协变分析。
2.4.3模型拟合
基于对数据的认识,初步选择一个认为合适的模型创建表面。
全面的数据检查有助于选择出合适的模型。
2.4.4模型诊断
图3空间估值流程图
评估模型的输出(表面),了解所选模型对未知值的预测效果。
诊断的主要内容包括:
①预测的准确性。
②模型的有效性。
2.4.5模型比较
通过设置不同参数或者选择多个可选模型创建表面,通过对比分析可以确定哪个模型对未通过设置不知值的预测更好。
3技术方法
3.1数据分析
获取样本点数据后对样本点数据进行分析,了解数据分布接近正态分布时利用Kriging内插值法生成的最佳表面效果。
本文采用直方图与NormalQQPlot图法检查数据的分布判断是否符合正态分布,否则需进行数据变换。
3.2数据趋势分析
空间趋势反映了空间现象在空间区域上变化的主方向特征,利用趋势分析工具可以将样本点数据转换为以某属性值为高度的三维图,将样本点数据按两个方向投影到与地图平面正交的平面上,每个方向通过投影点作出最佳拟合线来模拟特定方向上存在的趋势。
3.3数据空间相关与变异分析
采用半变异函数进行空间相关与变异分析,通过PartialSill/Sill值测度各个县级行政单元人口空间分布相关性的强弱。
通过基底效应测度各个县级行政单元人口分布的变异特征。
4内蒙古人口空间相关与变异分析
内蒙古共包括101个旗县,各县级行政单元人口及面积数据来源于2010年内蒙古统计年鉴,在本文的研究中按距离原则将呼和浩特市市的赛罕区、玉泉区、新城区、回民区合并为呼和浩特市,将包头市的昆都仑区、青山区、东河区合并为包头市,将乌海市的海南区、海勃湾区、乌达区合并为乌海市,将赤峰市红山区、松山区、元宝山区合并为赤峰市,进行统计计算。
图4旗县级行政中心的几何中心
4.1数据分析
内蒙古2012年人口密度的空间分布极度不均衡(表2),其频率分布是偏态的。
均值Mean(110.38)大于中值median(43.8),偏度系数Skewness为4.6202,远大于对称值0,直方图向右延伸,大部分数据集中于左边,偏态系数大于0,因此为正偏分布;峰值系数Kurtosis为27.285远大于正态分布值2,为高狭峰分布比正态分布集中于平均数附近。
表2对数变换前后统计值对应表
变换前
对数变换后
最小值Min
1
最小值Min
0
最大值Max
1538.6
最大值Max
7.3386
平均值Mean
110.38
平均值Mean
3.5786
标准差Std.Dev
229.08
标准差Std.Dev
1.6003
s偏度系数Skewness
4.6202
偏度系数Skewness
-0.17389
峰度系数Kurtosis
27.285
峰度系数Kurtosis
2.6905
1/4分位数1-stQuartile
10.35
1/4分位数1-stQuartile
2.3284
中数Median
43.8
中数Median
3.7796
3/4分位数3-rdQuartile
105.75
3/4分位数3-rdQuartile
4.66
如果对人口密度进行对数变换(图5),新变量基本符合正态分布。
均值为3.5786,略小于中值3.7796,偏度系数为-0.17389,略小于对称值0,峰值系数为2.6905,略大于正态分布值2,可以看作基本服从正态分布。
图5对数先后的直方图
经过对数变换后的新变量NormalQQPlot图(图6),数据接近一条直线,没有明显的离群值,数据基本服从正态分布。
图6新变量NormalQQPlot图
4.2趋势分析
以内蒙古各旗县(X,Y,人口密度)为空间坐标,将所有旗县的(X,Y,人口密度)所确定的点投影到一个东西向的和一个南北向的正交平面上,通过投影点做出最佳拟合线,得到三维透视图(图7),从图中可以看出,东西方向和南北方向的最佳拟合线并非一条直线,表明内蒙古各旗县人口密度在特定方向上存在一定的空间趋势.在南北方向上,自北向南人口密度有增加趋势,在东西方向上,拟合曲线呈倒U型,说明人口密度的空间分布东西低,中部高。
图7人口密度分布趋势图
4.3空间相关与变异分析
半方差云图的横坐标为两个行政单元几何中心之间的空间距离,纵坐标为对数人口密度的变异函数值,它反映了对数人口密度的空间关系。
一般空间上愈接近的点对具有更相似的值;距离愈远的点对具有更多的不相似性。
经过Circular、Spherical、Tetraspherical、Pentaspherical、Gaussian、HoleEffect、K-Bessel等各种模型对比研究,HoleEffect模型最佳(图8)由于样本点之间存在空间变异存在块金值(Nugget)Nugget=1.6182当样本点之间的距离h增大时半变异函数从初始的块金值达到一个相对稳定的常数即基台值Sill偏,经计算PartialSill/Sill的值为0.82154接近1说明内蒙区各个县市的人口密度存在较强的空间相关性。
图8人口密度半变异函数曲线图
4.4表面分析
通过Kriging差值计算得到内蒙古人口密度空间分布表面(图9、图10)。
可以看出,内蒙古人口密度的空间分布具有圈层结构,在人口高密度区域外测人口密度由高到低可以分成9个圈层,每一个圈层大致北京为界沿两个方向延伸:
北京-乌兰察布方向由东南-向西北延伸和北京-赤峰方向由西南-向东北延伸。
核心区是人口密度在210人/
以上的高密度区,是由呼和浩特市、包头市、乌兰察布市和赤峰市成的近似两个中心的区域。
人口密度在50人/
以上的较高密度区主要位于高密度区以东的广大地区;人口密度在3-50人/
的中密度区主要位于乌海西部地区、锡盟中部地区和大兴安岭地区;阿拉善盟大部分地区为人口低密度区。
图9OrdinaryKriging差值表面图
图10UniversalKriging差值表面图
5结论
内蒙古2012年人口密度的空间分布极度不均衡,为高狭峰分布;在南北方向上,自东向西人口密度增加,在南北方向上,拟合曲线呈倒U型,人口密度的空间分布南北低,中部高人口的分布既有历史原因,又叠加了现代经济因素。
呼和浩特市、包头市和鄂尔多斯市是全省的金三角地区,呼市又是自治区首府,经济发达工作生活条件优越,吸引了大量人口,因此人口密度高;乌海和乌兰察布人口大部分集中在个别地区,整体人口密度也很高;赤峰市和通辽市人口密度高是历史原因造成的少数民族集聚的结果。
阿拉善盟地形复杂,自然条件相对较差,面积广大,耕地比例和地均GDP都偏低,因此人口密度低。
科尔沁、赤峰(辖区的小旗县区)还有很大单城市化潜力,同时自治区党委已确定蒙东地区科尔沁和赤峰建设百万人口城市分析得出内蒙有俩个两个大城市发展轴(东一个,西一个)来带动其他的中型城市发展,同时内蒙能多发展一些基础设施齐全交通便利的中小城市,但必须相应提高城市化水平。
GIS地统计分析以区域化变量为基础,已被广泛应用于众多领域,已成为空间统计学的重要分支。
对于那些与空间数据的结构性和随机性,或空间相关性和依赖性,或空间格局与变异有关的空间现象的研究均可应用此方法,该方法能够较精确地反映变量的空间的分布与变异。