空间统计空间数据预处理.docx-资源下载

空间统计空间数据预处理.docx

1、空间统计空间数据预处理第 1 章空间数据处理1. 1.1 数据预处理现实中采集的原始数据很多可能都是杂乱的、不完整的、有噪声的，常常还有多种不同类型，而且往往是高维度的，也就意味着有极多的可测量特征。在数据分析步骤之前，必须对数据进行预处理，这样可以提高需要分析的数据质量，从而提高数据分析的效率和效果。数据预处理一般包括两个部分，分别是数据准备和数据归约。要把杂乱、有噪音的原始数据集变成具有标准形式、优化后的分析数据集，要经过清洗、转换（数据准备），以上工作对于中小型数据集就可以了，如果是大型数据集还需要进行缩减（数据归约）。见图 22数据预处理过程。数据预处理过程1.1.1 数据准备数据准

2、备包括两个部分，分别是数据清洗和数据转换。前者解决数据的完整和准确问题，后者解决数据分析的效果和效率问题。数据清洗(Datqina Cleaning)过程将数据集中的噪声数据识别、删除，同时纠正不一致的数据。错误的数据容易干扰数据分析过程的正常进行，甚至导致结果的准确性降低。包括两个部分，缺失值补齐和异常点分析。初始数据集应包含丢失值、失真、误记录和不当样本等，对于缺失值，要么补全，要么选择健壮模型来降低敏感性。对于异常值需要非常小心，不能轻易丢弃，也有可能是研究母体的不寻常样本。一些数据分析方法可以接受丢失值，其他方法则需要所有的值。若样本足够大可以去除包含丢失值的所有样本，否则需要补齐缺失

3、值。一般可以采用三种方法。首先，对于数量较小的数据，可以手动检查缺失值样本，根据经验加入可能的合理的值，但这样做可能会引入一个噪点值。其次，可以应用一些常量自动替换缺失值，如使用一个全局常量、特征平均值、给定类型的特征平均值去替换缺失值。这样可能会形成一个未经客观证明的正因素。最后，可以生成一个预测模型来推断每个丢失值。如果丢失值总能预测就证明这个特征在数据集中是冗余的，带有丢失值的特征和其他特征之间的关联应该是不完全的。不是所有的自动方法都能补上正确的丢失值。通常有一些样本不符合数据模型的一般规则，这些样本和其他数据有很大的不同，叫做异常点。如年龄为负数，子女达到23个，前者肯定错误，后者不

4、寻常，需要核对。需要在数据中检测出异常观察值，并在适当时候去出。自动去处异常点时要非常小心，因为所去处的异常数据可能是正确的，而且包含重要的隐藏信息。寻找异常点分为两个步骤，首先找出“正常”行为规律，然后使用“正常”规律来检测结果。常用方法主要有图形或可视化技术，基于统计、距离、模型的技术。数据转换(Data Transformation)操作，是指将数据源数据变换为适合数据分析的数据形式。有三种方法，标准化、数据平整、差值和比例。将测量值按照比例映射到一个特定范围，如-1，1，0，100，等，常用的三种简单方法包括小数缩放、最小-最大标准化、标准差标准化。数值型特征y可能包含许多有微小差别的

5、值，如对于数据集0.99，0.98，1.03，2.97，3.06，通过下舍上入，给定精度平整化后应该为1，1，1，3，3。对于数据分析来说，这些差别并不重要，让其保留不仅消耗大量计算资源，而且影响分析结果。即使对特征很小的改变，也能显著地提高数据分析的能力，两类简单转换，差值和比例可以改进对目标描述。如实际数据分析应用范围包括时间强相关、时间弱相关、时间无关问题。在空间统计分析中，常常会涉及到时间问题，因此对含时间数据的准备和转换非常重要。如某个地区每4个小时测量的PM2.5读数就是一个典型一元时间序列问题。在这个问题中，变量X在某个时点的值应和它的以前值有关系。其值序列可表示如下：X = t

6、(1)，t(2)，t(n)，其中，t(n)是最近的观察值。多数情况下，把 t(n+1)-t(n) 作为预测结果比t(n+1) 更好，同样，t(n+1)/t(n) 比率揭示了变化率，有时用这个比值能得到更好的预测结果。以上描述了数据准备阶段涉及到的数据清洗和数据转换内容，对于大型数据集来说，以上的结果数据维度太大，特征值的取值范围太广、样本量太大，会消耗太多的计算资源，分析结果不一定好，所以需要化简，就是要进行数据归约。数据归约包括三种方法，特征规约、值规约和案例规约。1.1.2 数据归约数据归约(Data Reduction)策略是从一个大型数据集中得到一个小型的数据集，并且这个小型数据集有原

7、数据集的完整性。小型是指在特征数量、取值结果、样本数量上相较于原始数据都要小。使用该小型数据集进行数据分析可以使计算效率更高，并且分析结果与使用原数据样本集的结果基本相同。实际上是对原始数据集的一个保真约减过程，以便于数据分析时聚焦和降低计算复杂度。大多数现实中的数据维度都很高，但是并非所有特征都很重要，甚至可能包含许多不相干的干扰信息，造成所谓的“维度灾害”。通过减少数据维度不仅可以加快计算速度，还能确保合理的准确性。因此需要特征规约，维规约技术即可以把已有的特征转换为一组新的规约特征，还可以选择已有特征的一个子集，前者是 “特征提取”，后者是“特征选择”。二者都是一个降维操作。用新的较小的

8、包含了输入所有特征的函数得到的特征集来表达就是特征提取。结果维度是初始维度的线性或非线性组合。常用方法包括因子分析（FA）、独立成份分析（ICA）和多维缩放（MDS）。从数据中删除大多数非相关特征和冗余特征，选择出相关特征的一个子集就是特征选择。需要对特征的重要性进行计算并排序，然后根据排序确定选择哪些靠前的特征。常用的有Relief 算法，熵度量方法，主成分分析等方法。值规约就是减少已知特征的离散值数目。技术上是将连续性特征的值离散到少量区间，对每个区间赋予一个离散符号。从而达到简化技术描述，数据及分析结果易于理解。传统的离散化是根据以前特征知识手工完成的，如人的年龄指定为连续型变量（01

9、50岁），实际中可以分为几段：儿童、青少年、成人、中年、老年。这种规约有两个问题，怎样确定分割点，怎样选择区间表述。而在自动离散化有如下技术，如根据均值和众数将值进行分箱处理，还有一种是利用 𝝌2统计进行自动离散的 ChiMerge 技术。案例规约是在已经进行了数据准备的数据集中选出一个有代表性样本子集。确定适当子集大小，需要考虑计算成本、存储要求、估计量精度、算法和数据的其他特性等因素。通常，子集的大小要满足如下条件：使整个数据集的估计误差不超过样本规定的误差限𝛿。根据取样方法的应用范围来分，可以分为普通用途和特殊用途的。一般只针对属于前者的技术，一种是系统化

10、取样，如等距取样，第二种是随机取样，这是使用最多的，包括不放回和放回两种方式。第三种是分层取样，第四种是逆取样。总而言之，数据源中的数据一般都是含有噪声、不完整、不一致、高维度、过多取值、数量庞大。所以对数据源数据通过数据准备和数据归约进行预处理是十分重要的。从而提高数据质量，提高数据分析结果的有效性和准确性。数据预处理过程数据预处理思维导图如上。在其步骤中并非都是必选的，更具实际情况进行选择。1.2 空间数据整理在我国监测数据采取统一上报的形式，因此监测数据一般是存储在数据库中的，在录入数据时是某一地区某一样本检测某一物质为录入的一条数据，例如食品污染物监测数据的原始数据格式如表21所示。但

11、该数据格式无法直接连接到ArcMap中，必须经过一些必要的数据整理，使之变成一个地区某一污染物含量为一个值，如表 22所示。全国各省大米污染物监测数据样品编号监测单位地区样品名称检测物质类别检测值#11湖南省早籼米镉#11湖南省早籼米总汞#11湖南省早籼米铅#11湖南省早籼米总砷#12湖北省晚稻153镉#12湖北省晚稻153总汞#12湖北省晚稻153铅#12湖北省晚稻153总砷#注：#为任意值全国各省大米污染物平均水平监测单位地区镉总汞总砷铅河北省#湖南省#湖北省#四川省#注：#为任意值【案例 21】利用Excel和R软件，将数据库导出的数据整理成可以导入ArcMap的数据形式。本节所用的数据

12、为全国各省矢量地图（sheng.shp）、食品稻谷污染物数据（全国稻谷污染物数据.csv，数据为随机生成数据），数据在光盘中获取。部分数据分别展示如表 23、图 25、图 26所示。案例分析导图图 24 数据整理思维导图（1）了解数据表 23全国稻谷污染物数据（模拟数据）样品产地样品编号样品名称污染物类别检测值安徽省1稻谷镉0.0873安徽省2稻谷镉0.156安徽省3稻谷镉0.0619安徽省4稻谷镉0.147安徽省5稻谷镉0.0543安徽省6稻谷镉0.633安徽省7稻谷镉0.0988安徽省8稻谷镉0.403安徽省9稻谷镉0.125安徽省10稻谷镉0.0725图 25全国地理数据属性图 26全国

13、地市地图（2）数据变形首先使用R软件将一维数据变多维数据，R语言程序如下：步骤1：去除R工作空间中可能遗留的变量。rm(list=ls()步骤2：加载数据变形命令包，第一次使用前必须先进行安装，在弹出的镜像中就近选择，如“Beijing”。install.packages(reshape)步骤3：设置R的工作目录为数据文件所在目录，并读取数据。一般数据保存为.csv格式，header=T说明表中第一行为目录。rice-read.csv(C:ExampleData2.1CleanData全国稻谷污染物数据.csv,header=T)步骤4：数据变形。cast命令使用方法如下：cast(data,

14、 formula = . variable, fun.aggregate=NULL, value = guess_value(data)其中：data：需要变形的数据集formula：变形公式，格式参照变形后目录顺序，“”右边为需要变为目录的变量，在该例中为各种污染物的检测污染物。fun.gggregate：对数据的计算，取mean时表示符合某条件的值有一个时，对应值为原值，当符合某条件的值有多个时，对应值为平均值。guess_value(data)：指定将该数据从一维变为多维，在这里是各种污染物的检测值。library(reshape)rice1-cast(rice,样品产地+样品编号+样品

15、名称+采样日期污染物类别,mean,value=”检测值”)得到的数据形式如表 24所示：表 24全国各省大米污染物监测数据样品产地样品编号样品名称镉铅总铬总汞总砷安徽省1稻谷0.0873-0.00350.0819-0.00350.191安徽省2稻谷0.156-0.00350.0724-0.00350.171安徽省3稻谷0.06190.2390.1040.00540.182安徽省4稻谷0.1470.1340.0801-0.00350.302安徽省5稻谷0.05430.1610.142-0.00350.098安徽省6稻谷0.6330.1780.124-0.00350.101安徽省7稻谷0.098

16、80.1810.221-0.00350.074安徽省8稻谷0.403-0.00350.0794-0.00350.119安徽省9稻谷0.125-0.00350.08040.00880.133安徽省10稻谷0.07250.02290.162-0.00350.175（3）数据透视用R程序对各地区污染物含量求平均值，R语言程序如下：Hg_me140000 AND CNTY_CODE 150000】（图 212c），【验证】成功后【应用】，结果就能在全国矢量地图看见山西省被选中（图 212d）。abc图 212按属性选择要素步骤2：导出山西矢量地图（图 213）右击内容列表图层中的quxian，点击【数

17、据】-【导出数据】，导出刚才剪切下来的地图，保存的格式为ShapeFile，命名为Guangdong.shp（路径可设为C:ExampleTrain2.2MapCutting）。在导出文件的目录下或有shp、dbf、prj、sbn、sbx、shx这六种格式的地图文件。其中最重要的是shp和dbf文件，shp包含各地理单元的边界和位置关系；dbf文件包含各地理单元的基本地理信息，以数据表形式存储，可用Excel打开。abcd图 213导出山西矢量地图步骤3：查看山西矢量地图（ab图 214）经过以上操作步骤，Guangdong.shp已出现在内容列表。为了显示出山西矢量地图，先将图层quxian

18、的勾去掉，再右击图层Guangdong，选择【缩放至图层】，山西矢量地图就会铺满画布。此时，可参考3.1专题地图的内容，制作山西省专题地图（图 215）。ab图 214查看山西省矢量地图图 215山西省各区县矢量地图【案例2-3】本案例将模拟分别从A县和B县各分割出一部分地区，并将该两部分合并成一个新县C。数据是C:ExampleData2.2MapClippingAndMerging中的ABcounty.shp，将其拖入地图编辑窗口，A、B县的情况如图 216所示。图 216 A、B县矢量地图案例分析导图图 217地图分割与合并的案例分析思维导图步骤1：备份AB县矢量地图（图 218）在分割

19、前需要注意一点的是，直接在原始矢量地图上操作会使地图的属性表直接被更改，因此如果仍需原始矢量地图，可复制原始矢量地图至另一文件夹操作，本案例就将Data文件夹下的ABcounty复制到Train文件夹对应的路径下，因最终要生成C县，故重新命名为ABCcounty。ab图 218备份AB县矢量地图步骤2：依次分割A、B县（图 219）选中点击工具栏的【编辑器】-【开始编辑】，使图层ABcounty处于编辑状态。点击选中A县，点击编辑工具栏里的【裁剪面工具】（图标为），将鼠标点放至A县的边界开始点击（可通过拨动鼠标滚轮放大地图，这样可以更加精确地点击在边界上）并逐步往A县内部点击，至到A县的另一头

20、双击边界结束，即可将A县切割，分出一块新的区域。同样用此法分割B县，点击【编辑器】-【保存编辑】，保存编辑内容，结果如图 220。abcd图 219分割A县图 220 AB县分别被分割后的结果展示步骤3：合并两地区为新县（图 221）在编辑状态下，同时选中，点击【编辑器】-【合并】，若要先保留A县信息，选择A县后，点击【确定】，分割出的A、B县即合并为新的A县。ab图 221合并AB县步骤4：修改更新属性表在编辑状态下，右击图层中的ABCcounty.shp，点击【打开属性表】，直接编辑数据，例如更新合并后的县名称为C县；经纬度、周长和面积需要重新计算。更新经纬度、周长和面积的方法：右击x字段，点击【计算几何】，弹出对话框（图 222），属性选择【质心的X坐标】，单位选择【十进制度】，点击确定，新的X坐标就生成；Y坐标也按此方法，只需将对话窗口的属性选为【质心的X坐标】；计算周长时，属性则选择【周长】，单位可选【千米】；计算面积时，属性则选择【面积】，单位可选【平方千米】。ab图 222计算几何最终，更新后的属性表和地图结果如图 223所示。ab图 223编辑更新后的属性表及矢量地图展示

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？