探索性数据分析工具.docx
《探索性数据分析工具.docx》由会员分享,可在线阅读,更多相关《探索性数据分析工具.docx(12页珍藏版)》请在冰豆网上搜索。
探索性数据分析工具
探索性数据分析工具
来源:
互联网
1.刷光(Brushing)与链接(Linking)
刷光指在ArcMap数据视图或某个ESDA工具中选取对象,被选择的对象高亮度显示。
链接指在ArcMap数据视图或某个ESDA视图中的进行选取对象操作,则在所有视图中被选取对象均会执行刷光操作。
如在下面章节将要叙述的探索性数据分析过程中,当某些ESDA工具(如:
直方图、Voronoi地图、QQplot图,以及趋势分析)中执行刷光时,ArcMap数据视图中相应的样点均会被高亮度显示。
当在半变异/协方差函数云中刷光时,ArcMap数据视图中相应的样点对及每对之间的连线均被高亮度显示。
反之,当样点对在ArcMap数据视图中被选中,在半变异/协方差函数云中相应的点也将高亮度显示。
2.直方图直方图指对采样数据按一定的分级方案(等间隔分级、标准差分,等等)进行分级,统计采样点落入各个级别中的个数或占总采样数的百分比,并通过条带图或柱状图表现出来。
直方图可以直观的反映采样数据分布特征、总体规律,可以用来检验数据分布和寻找数据离群值。
在ArcGIS9中,可以方便的提取采样点数据的直方图,基本步骤为:
(1)在ArcMap中加载地统计数据点图层。
(2)单击GeostatisticalAnalyst模块的下拉箭头选择ExploreData并点Histogram命令。
(3)设置相关参数,生成直方图。
1)Bars:
直方图条带个数,也就是分级级数。
2)Translation:
数据变换方式。
3)None:
对原始采样数据的值不作变换,直接生成直方图。
4)Log:
首先对原始采样数据取对数,再生成直方图。
5)Box-cox:
首先对原始采样数据进行博克斯-考克斯变换(也称幂变换),再生成直方图。
6)Layer:
当前正在分析的数据图层。
7)Attribute:
生成直方图的属性字段。
羽a恥啟’谢图10,11直方图示童圈閹bSS变換宜方d
从图a和图b的对比分析可以看出,该地区GDP原始数据并不服从正态分布,经过对数变换处理,
分布具有明显的对数分布特征。
并且在最右侧有一个明显的离群值。
在直方图右上方的小视窗中,显示了一些基本统计信息,包括:
个数(Count)、最小值(Min)、
最大值(Max)、平均值(Mean)、标准差(Std.Dev.)、峰度(Kurtosis)、偏态(Skewness)、
1/4分位数(1-stQuartile)、中数(Median)、3/4分位数(3-rdQuartile),通过这些信息可以对数据有个初步的了解。
第1/4N分位数个数就是第二个四分位数I,即中位数;第1/4N个数就是第三个四分位数’•,
四分位距即为:
'一'■'。
它将极端的前1/4和后1/4去除,而利用第三个与第一个分位数的差距来表示分散情形,因此避免了极端值的影响。
但它需要将数据由小到大排序,且没有利用全部数据。
峰度(Kurtosis):
用于描述数据分布高度的指标,正态分布的峰度等于0。
如果数据的峰度大于0,那么该数据的分布就会比正态分布高耸且狭窄,此时数据比正态分布集中于平均数附近。
反之,如果峰度
小于0,数据的分布就比正态分布平坦且宽阔,此时数据比正态分布分散。
偏态(Skewness):
用于描述数据分布左右对称性的指标,正态分布的偏态等于0。
如果数据的直
方图向右延伸,即大部分的数据集中于左边,则偏态大于0,称为正偏态或右偏态。
如果数据的直方图向
左延伸,即大部分的数据集中于右边,则偏态小于0,称为负偏态或左偏态。
如图2,由原始数据的直方图上可看岀,原始数据的分布属于正偏态,经过变换后的数据比正态分布
的数据更加集中于平均值附近。
3.Voronoi地图
Voronoi地图是由在样点周围形成的一系列多边形组成的。
某一样点的Voronoi多边形按下述方法
将要近。
Voronoi多边形
生成:
多边形内任何位置距这一样点的距离都比该多边形到其它样点的距离要生成之后,相邻的点就被定义为其Voronoi多边形与选择样点的Voronoi多边形具有公共边的其它样点。
在ArcGIS9.0中生成数据的Voronoi地图的基本步骤为:
(1)在ArcMap中加载地统计数据点图层。
(2)单击GeostatisticalAnalyst模块的下拉箭头选择ExploreData并点击VoronoiMap命令。
3)设置参数,生成Voronoi图,如图2
1)Type:
分配和计算多边形值的方法。
2)Layer:
当前正在分析的数据图层。
3)Atrribute:
生成直方图的属性字段。
VoronoiMap对话框Type选项提供了多种分配和计算多边形值的方法:
(1)简化(Simple):
分配到某个多边形单元的值是该多边形单元的方法。
(2)平均(Mean):
分配到某个多边形单元的值是这个单元与其相邻单元的平均值。
(3)模式(Mode):
所有的多边形单元被分为五级区间,分配到某个多边形单元的值是这个单元与其相邻单元的(级发生频率的)模式。
(4)聚类(Cluster):
所有的多边形单元被分配到这五级区间中,如果某个多边形单元的级区间与它的相邻单元的级区间都有不同,这个单元用灰色表示,以区别于其它单元。
图2Voronoi地图
(5)熵(Entropy):
所有单元都根据数据值的自然分组分配到这五级中。
分配到某个多边形单元的值是根据该单元和其相邻单元计算岀来的熵。
(6)中值(Median):
分配给某多边形的值是根据该单元和其相邻单元的频率分布计算的中值。
(7)标准差(StDev):
分配给某多边形的值是根据该单元和其相邻单元计算出的标准差。
(8)四分位数间间隔(IQR):
第一和第三四分位数是根据某单元和其相邻单元的频率分布计算出
来的。
分配给某多边形单元的值是用第三四分位数减去第一四分位数得到的差。
Voronoi地图可以了解到每个采样点控制的区域的范围,也可以体现岀每个采样点对区域内插的重
要性。
利用Voronoi地图中就可以找出一些对区域内插作用不大且可能影响内插精度的采样点值,可以
将它剔除。
用聚类和熵的方法生成的Vonoroi图可也可用来帮助识别可能的离群值。
自然界中,距离相
近的事物比距离远的事物具有更大的相似性。
熵值是量度相邻单元相异性的一个指标。
因此,局部离群值
可以通过高熵值的区域识别岀来。
同样,一般认为某个特定单元的值至少应与它周围单元中的某一个的值
相近。
因此聚类方法也能将那些与它们周围单元不相同的单元识别出来。
4.QQPlot分布图
QQ图提供了另外一种度量数据正态分布的方法,利用QQ图,可以将现有数据的分布与标准正态
分布对比,如果数据越接近一条直线,则它越接近于服从正态分布。
(1)正态QQPIot(NormalQQPIot)分布图
正态QQPIot分布图主要用来评估具有n个值的单变量样本数据是否服从正态分布。
构建正态
QQPIot分布图的通用过程为(图3)
图3正态QQPIot示意图
1)首先对采样值进行排序;
2)计算岀每个排序后的数据的累积值(低于该值的数据的百分比);
3)绘制累积值分布图;
4)在累积值之间使用线性内插技术,构建一个与其具有相同累积分布的理论正态分布图,求岀对应
的正态分布值。
5)以横轴为理论正态分布值,竖轴为采样点值,绘制样本数据相对于其标准正态分布值的散点图,
此图为样本数据的正态QQPIot分布图。
如果采样数据服从正态分布,其正态QQPIot分布图中采样点分布应该是一条的直线。
如果有个别采
样点偏离直线太多,那么这些采样点可能是一些异常点,应该对其进行检验。
此外,如果在正态QQ图
中数据没有显示岀正态分布,那么就有必要在应用某种克里格插值法之前将数据进行转换,使之服从正态分布。
在ArcGIS9.0中生成数据的正态QQPIot分布图的主要步骤为:
1)在ArcMap中加载地统计数据点图层。
2)单击GeostatisticalAnalyst模块的下拉箭头选择ExploreData并点击NormalQQPIot的命
3)设置参数,生成NormalQQPlot图
ATranslation:
数据变换方式。
a)None:
对原始采样数据的值不作变换,直接生成直方图。
b)Log:
首先对原始采样数据取对数,再生成直方图。
c)Box-cox:
首先对原始采样数据进行博克斯-考克斯变换(也称幂变换),再生成正态QQPlot图
BLayer:
当前正在分析的数据图层。
CAtrribute:
生成NormalQQPlot分布图使用的属性字段。
图4正态QQPlot分布图
从图a可以看出,该地区GDP的采样数据不符合正态分布,但对其进行对数变换处理后(图b),
对数变换数据近似符合正态分布。
仅从采样点值的分布看,在小值区域和大值区域,存在个别离群点值。
(2)构建一个普通QQPlot分布图
普通QQPlot(GeneralQQPlot)分布图用来评估两个数据集的分布的相似性。
普通QQPlot分布
图通过两个数据集中具有相同累积分布值作图来生成,如图所示。
累积分布值
图5普通QQPIot示意图
的作法参阅正态QQPIot分布图内容。
在ArcGIS9.0中生成数据的普通QQPIot分布图的主要步骤为:
1)在ArcMap中加载地统计数据点图层。
2)单击GeostatisticalAnalyst模块的下拉箭头选择ExploreData并点击GeneralQQPIot
3)设置参数,生成GeneralQQPlot图
图6普通QQPIot分布图
普通QQPIot图揭示了两个物体(变量)之间的相关关系,如果在QQPIot图中曲线呈直线,说明两物体呈一种线性关系,可以用一个一元一次方程式来拟合。
如果QQPIot图中曲线呈抛物线,说明两物
体的关系可以用一个二元多项式来拟合。
5.趋势分析工具
趋势分析工提供用户研究区采样点转换为以感兴趣的属性值为高度的三维透视图,允许用户从不同视角分析采样数据集的全局趋势。
在ArcGIS9.0中对使用趋势分析的主要步骤有:
(1)在ArcMap中加载地统计数据点图层。
(2)单击GeostatisticalAnalyst模块的下拉箭头选择ExploreData并点击Tren
Analysis的命令。
(3)检查中数据层层名对话框(Layer)的设置是否正确,在字段属性对话框(Attribute)选择参见趋势分析的字段名称。
(4)Rotate选择Locations,通过其右侧旋转水平螺旋按钮可以任意改变投影视角;选择Graph,
通过其右侧旋转按钮可以任意改变整个投影视图的视角,即同时投影图已经固定,只是用户在不同水平方
向观察它,此时试图右侧上下螺旋按钮可以动态改变透视图的仰角(观测者与视图的相对高低位置)。
(5)趋势分析工具GraphOptions中提供了多种显示功能:
(6)Grid:
调整X、Y、Z方向上的格网数,以及格网线条的粗细
(7)ProjectedData:
选择落在X、Y、Z方向格网上投影点的颜色及点的大小。
(8)TrendonProjection:
选择东西、南北方向趋势面投影线用多项式拟合的次数以及趋势线的
粗细。
(9)Sticks:
选择点到X、Y平面垂线的粗细和颜色。
(10)Axes:
选择X、Y、Z坐标轴的粗细和颜色。
(11)InputDataPoints:
选择高程点的颜色和大小。
趋势分析图中的每一根竖棒代表了一个数据点的值(高度)和位置。
这些点被投影到一个东西向的和
一个南北向的正交平面上。
通过投影点可以作岀一条最佳拟合线,并用它来模拟特定方向上存在的趋势。
如果该线是平直的,则表明没有趋势存在。
在图7,在图中,可以看到投影到东西向上的较细的趋势线,
从东往西呈阶梯状平滑过渡,而南北方向上,趋势线(较粗的黑色线条)呈U形,从中我们可以大致可
以得知,此区域的地势为从东往西逐渐下降,南北方向上两边高、中间低的地形。
分析岀的结果和此区域的真实地形基本吻合。
可见趋势分析工具对观察一个物体的空间分布具有简单、直观的优势,还可以找
岀拟合最好的多项式对区域中的散点进行内插,得到趋势面。
图7趋势分析图
6.方差变异分析工具
(1)半变异/协方差函数云半变异/协方差函数云表示的是数据集中所有样点对的理论半变异值和
协方差,并把它们用两点间距离的函数来表示,用此函数作图来表示。
在ArcGIS9.0中生成数据的半变异/协方差函数云图主要步骤有:
1)在ArcMap中加载地统计数据点图层。
2)单击GeostatisticalAnalyst模块的下拉箭头选择ExploreData并点击
Semivariogram/CovarianceCloud的命令。
3)检查中数据层层名对话框(Layer)的设置是否正确,在字段属性对话框(Attribute)选择参见趋势分析的字段名称。
4)LagSize为最大步长,NumberofLags为步长分组个数,如图8.a所示。
5)如果空间变异具有方向性,可以选择ShowSearchDirection(方向搜索),然后点击方向控
制条、重设它或改变它的方向来浏览半变异函数云的某个方向子集,如图8.b所示。
图8半变异/协方差函数云图
(2)正交协方差函数云正交协方差函数云表示的是两个数据集中所有样点对的理论正交协方差,并把它们用两点间距离的函数来表示。
在ArcGIS9.0中生成数据的正交协方差函数云图的主要步骤:
1)在ArcMap中加载地统计数据点图层。
2)单击GeostatisticalAnalyst模块的下拉箭头选择ExploreData并点击CrosscovarianceCloud的命令。
3)检查中数据层层名对话框(Layer)的设置是否正确,在字段属性对话框(Attribute)选择参见趋势分析的字段名称。
如果空间变异具有方向性,可以选择ShowSearchDirection(方向搜索),然后点击方向控制条、
重设它或改变它的方向来浏览半变异函数云的某个方向子集,如图9所示。
具体方向的确定应根据形成该
现象的成因及各方向结果的比较。
图9正交协方差函数云图