面向表层海水温度的时空数据挖掘研究模板Word格式.docx
《面向表层海水温度的时空数据挖掘研究模板Word格式.docx》由会员分享,可在线阅读,更多相关《面向表层海水温度的时空数据挖掘研究模板Word格式.docx(6页珍藏版)》请在冰豆网上搜索。
Spatio-TemporalDataMining;
Spatio-TemporalClustering
1引言
时空数据挖掘是数据挖掘从单一时间和空间延伸到时空的产物,能够揭示时空数据的发展变化趋势和规律。
按照挖掘任务,时空数据挖掘主要分为以下几类:
时空模式挖掘、时空聚类、时空分类、时空异常检测等。
其中时空聚类是指基于空间和时间相似度把具有相似行为的时空对象划分到同一组中,使组间差别尽量大,而组内差别尽量小。
时空聚类在气候变化、公共安全、交通运输、预报监测等领域有重要的应用价值。
因此选择时空聚类分析对东海区表层海水温度数据进行挖掘,以便更好的发现和分析其数据的变化趋势、规律和本质特征[1][2]。
2时空聚类分析的研究方法
根据时空聚类分析的研究目标可将时空聚类分析能够归纳为三个步骤:
首先,需要对时空数据进行探索性分析,掌握时空数据的特性。
其主要包括:
(1)空间相关性分析,判断时空数据是否能够进行时空聚类分析;
(2)时间平稳性分析,分析时空数据的时空异质特征。
其次,根据时空数据的具体特点发展专门性的时空聚类方法。
最后,需要对时空聚类分析的结果进行分析和评价[3][4]。
3表层海水温度数据时空聚类分析实验
3.1数据选择与预处理
本文选择东海区四十五个海洋站1月-1月间的月平均表层海水温度作为研究对象,剔除其每月缺测超过30%的数据月。
观测点空间分布如图3-1所示,表层水温平均值存储于数据库表中如表3-1所示。
图3-1东海区表层海水温度观测点空间分布图3-2东海区某月表层海水温度Delaunay三角形
属性名
类型
描述
站名称
Text
观测点名称
时间(月)
DateTime
1月-1月
经度
Integer
WGS84坐标系
纬度
月平均温度
表层水温月平均值
表3-1东海区表层海水温度月平均数据库表结构
3.2数据探索性分析
数据探索性分析作为时空聚类的第一步,主要包含时空相关性分析和时空平稳性分析。
本文同月平均表层水温数据的空间相关性分析采用Moran’I指数分析的方法进行,Moran指数I分为全局和局部两种,根据需求在此选择全局I利用ArcGIS构建泰森多边形进行计算[6][7],采用相连海洋观测点连接成Delaunay三角形(如图3-2),三角形各边垂直平分线围成一个多边形,根据泰森多边形代替站点数据方式直接关联邻接方式确定空间权重矩阵
进行空间相关性分析。
多边形中气象观测站的气温I的计算公式如
(1)
(2)
其中取值1是i和j的距离<
d时,而其它情况均取值0
(1)
(2)
全局I取值在[-1,1],当I<
0时,属性表现空间负相关,属性空间分布表现为离散特性;
当I>
0时,表示空间正相关,表现为聚集特性。
经过计算得到东海海洋表层按月平均温度的Moran’I指数约为0.6~0.7之间,具有显著的聚集特性。
1月
2月
3月
4月
5月
6月
7月
8月
9月
10月
11月
12月
I指数
0.632
0.610
0.608
0.613
0.621
0.633
0.643
0.667
0.614
0.629
0.630
0.627
表3-2东海区表层月平均水温按月的I指数
进而分析数据的时间平稳性,从1月-1月中任选冬季的两个月(11月、2月),观察其海水表层水温数值从北到南具有明显逐渐升高的趋势性,并从时间序列上看出有较强的时间平稳性,同一季节时变化趋势基本相同(如图3-3)。
图3-3海洋观测点月平均值变化趋势
3.3数据时空聚类
首先构建时空邻近域,采用STARIMA建模获取时间窗口时,需借助Gauss变差函数定权[7~10],权重能够定义为空间延迟h的函数:
(3)
公式中的r,C,
取各月的平均值。
根据STARIMA模型中时空自相关函数和时空偏相关函数的求解公式,观察截尾获得时间延迟为1.4,即时间窗口半径为1.4个月。
各站点空间邻近关系构建如图3-4所示。
图3-4空间邻近关系图3-6时空聚类结果
STARIMA模型的时空聚类方法需要输入两个参数:
和
分别用于判断时空可直达与时空相连。
时空聚类一方面要求同一时空簇中实体的非空间属性差异尽可能少;
另一方面时空簇的数目不能过多,当聚类参数设置过低时,虽然时空簇内部的差异较小,可是过多较小的时空簇缺乏实际的意义。
参数设置过高时,虽然时空簇的数量减少,可是簇内部的差异过大[11]。
因此,需要在时空簇的数量与时空簇内部非空间属性的差异性之间寻找平衡,本文参数设置时采取了反馈调节的策略,即进行多次聚类操作并记录每个聚类结果时所有空间簇中非空间属性标准差的平均值,绘制变化曲线如图3-5。
开始时随着参数逐渐增大,非空间属性标准差缓慢增大,即簇内实体非空间属性差异逐渐增大;
当参数增大到一定程度时,非空间属性标准差将达到一个临界值,并出现一定的跃迁,随后再增大参数时非空间属性的平均标准差将保持稳定,接近整体的标准差.当参数使非空间属性标准差达到临界值时,能够视为时空簇的数量与时空簇内部差异性之间的平衡点,故能够经过寻找非空间属性标准差平均值出现拐点时的参数设置作为最佳的聚类参数。
如图3-5所示,当
=2.2,
=2.2时,参数曲线出现了第一次明显拐点,故采用该参数进行时空聚类分析。