1、AIS数据融合平台方案(讨论稿)2014.01.06目录1.简介2.系统架构2.1.用户场景2.1.1.海上导航2.1.2.异常警报2.2.整体架构2.2.1.AIS数据融合系统功能2.2.2.AIS数据融合总线架构2.2.3.AIS数据融合业务流程2.3.技术支撑2.3.1.数据获取和归档系统2.3.2.数据融合支撑系统2.3.3.数据服务提供系统3.当前进展3.1.数据融合支撑3.2.算法模型验证3.2.1.数据清洗3.2.2.L1级港口分析3.3.服务框架搭建3.4.数据可视设计1.简介本文档中会简述面向AIS(Automatic Identification System, 船舶自动识
2、别系统)数据的数据融合平台,包括系统功能架构、技术可行性分析以及当前项目进展及规划。下图为平台的整体业务流图。2.系统架构本章节会从整体架构、用户场景、系统功能、和技术支撑四部分来对整体系统架构来做规划。2.1.用户场景AIS数据融合平台主要面向两种应用场景来进行数据融合:海上导航和异常捕获。下面对该两种场景进行详细描述。2.1.1.海上导航问题:目前的海上导航更多的是船长基于航行经验,集合海图信息(符合IHO关于电子海图数据的国际规范标准,提供港口、水深、沉船等保障航行安全的海洋信息),来进行决策,还不能达到像陆上交通一样的精细化导航。解决:AIS数据融合平台能够针对不同种类的海洋航行需求,
3、利用AIS数据挖掘得到的区域、航道、港口、船舶信息,同时融合海洋气象数据、海事热点数据、海洋交通流量等多方面信息,进一步丰富和完善电子海图,同时规划合理高效的海上航行轨迹并进行亚实时导航。数据源:1.电子海图数据、(推进途径一:从公开渠道查询看以何种形式结合,by陈攀、莫老师;推进途径二:直接与宝船网沟通看有无可能合作形式,by吴先斌、徐老师;推进途径三:也请海信院帮忙协调查找电子海图数据)2.AIS融合数据、(来源为宝船网、海信院)3.海洋气象数据、(推进路径同电子海图数据)场景功能子项:1.海上航线导航:选定某一个港口或者某一渔场,输入或者直接定位当前位置,便可以规划到该港口或者渔场的路径
4、。其中,可以推进最短、最快、常见和安全四种类型的航线。2.航线偏离报警:当船在行驶过程中偏离了推荐航线的安全区域(根据基准航线以及区域阈值两个取值来标定),会发起报警。3.航线热点播报:船在行驶过程中,会播报航线过程中经过或者可能经过的海上热点地点,比如港口、渔场、失联飞机地点、沉船多发地点等等。(请提供界面示意图,原型设计工具来做吧,AXTURE,包含的功能子项说明, by 莫老师)2.1.2.异常警报问题:目前无论是通过岸基雷达还是通过第三方数据源,AIS数据本身以及围绕AIS数据融合得到的区域、航道、港口、船舶等等实体信息可能存在多种类型的异常,具体包括:(描述具体的异常)。但由于海事航
5、行中AIS设备使用不够规范、对多源AIS数据缺乏整理和归纳、不能结合其他源数据进行高层融合等原因,导致大量的异常信息不能够被及时捕获。解决:AIS数据融合平台能够针对不同种类的海事监控需求(初期针对海警),及时捕获各个层次的异常,进行当前异常查询、历史异常查询、实时异常报警等等,这对于海警等海上执法机构规范海洋航行、捕获海上异常有很强的现实意义。数据源:1.AIS融合数据、(来源为宝船网、海信院)2.海洋气象数据、(推进路径同电子海图数据)场景功能子项:1.原始信息异常:原始AIS数据中MMSI、船类型、船名、国别、船长、船宽等静态信息以及时间、位置、航行状态等动态信息中存在的数据错误、缺失、
6、重复、伪装等等进行捕获2.实体异常:根据AIS数据进行数据融合的L1层分析,对包括区域、船舶、港口、渔场、航线等进行分析,根据该实体的历史特征(比如同一艘船在历史上多次航行的特征)以及同类实体特征(比如同样吨位和用途的船的特征),根据其当前实际的AIS数据发现其可能的特征异常,具体可能存在异常的特征的类型包括:l区域异常:船型分布、AIS更新率、交通流量l船舶异常:静态属性、特征、轨迹、其他l港口异常:位置、吞吐量、船型l渔场异常:时间、位置、热度、停留时间l航线异常:时间、起止位置、航速、吞吐量、宽度3.实体关系异常:根据L1产品实体状态数据,进行数据融合的L2层处理,对区域、船舶、港口、渔
7、场、航线等实体之间的关系进行分析,发现与历史模式的偏离以及与其他实体间关系模式的偏离,具体可能存在的异常类型包括:l船与船:船队、集会、碰撞l船与港口:货运量、入港模式、停泊时间l港口与港口:贸易关系、发展趋势l船与渔区:偏好渔区l船与航线:偏离航线、异常速度4.推测事件异常:结合多类异常、L0L3层的数据融合产品与专家知识,推测可能发生的异常事件。(请提供界面示意图,原型设计工具来做吧,包含的功能子项说明,by莫老师)2.2.整体架构本子章节从AIS数据融合功能分层、AIS数据融合总线架构、AIS数据融合业务流程三个方面来描述和讨论系统的整体框架和设计。2.2.1.AIS数据融合系统功能AI
8、S数据融合系统功能分层图(请对各个层次中系统功能逻辑进行描述和细化 by黄博士)2.2.2.AIS数据融合总线架构AIS 数据融合总线架构图在L1进行的工作是将存在噪声和错误的原始AIS数据处理得到各个实体的状态、属性。这一层处理主要使用多目标跟踪领域的算法,对海上的多艘船只进行持续跟踪,建立它们的档案和历史轨迹资料。常用的算法是卡尔曼滤波,对实体状态进行最小均方根误差估计。在跟踪过程中,通过聚类、贝叶斯推理、证据理论等方法区分多个目标。以分析五年历史数据为例,多船舶跟踪算法的复杂度预计为:100*总船数*单只船上报AIS总数100*1M*5*365*1K1014需要查询指定区域指定时间的船的
9、信息:总船数*单只船上报AIS总数1M*5*365*1K1012次。当每次查询用时1S时,总时间为1012/86400107天完成多目标状态后,实体状态估计的算法复杂度和查询次数近似为多目标跟踪。L1产品中的船舶动态信息存储到时空数据库中,为后续的L2、L3分析提供基础。L2的实体关系分析主要采用聚类算法,分析实体间关系的模式与特征,从而为异常分析等L3处理提供基础。L3的异常发现主要使用聚类找到偏离度较大的点。导航功能可以使用图论的方法来寻找代价最小的路径。(请对各个模块中系统采用的算法进行描述,by吴琳、吴先斌)2.2.3.AIS数据融合业务流程AIS数据融合平台主要由数据清洗与归档系统,
10、数据融合支撑平台和数据服务提供系统三部分技术模块组成。输入数据源主要包括第三方AIS数据,岸基AIS数据,海图数据和海洋气象数据。经数据融合平台清洗,归档,融合,整理后,最终面向海警和渔业相关受众,提供丰富多样的可视化结果呈现。AIS数据融合平台业务流图(请对整体业务流程、数据容量和系统功能进行简单描述,by刁博宇)2.3.技术支撑数据支撑平台主要由数据清洗与归档系统和数据融合支撑平台组成。数据清洗与归档系统主要将缺失,错误,不规范的AIS数据,海图数据,气象数据等进行恢复,插值,删除等操作,进而得到可用,可靠的数据集合。同时,屏蔽不同数据源存储结构的不同,将各类异构数据库归档到统一的数据存储
11、平台。数据融合支撑平台主要由基于HadoopV2& Spark开源框架的全量数据分析平台和基于Oracle关系型数据库的样本数据分析平台组成。经过优化后的Hadoop V2 & Spark全量数据分析平台向上可提供两类复杂的机器学习,数据挖掘算法接口和高效的SQL查询接口;建立多级检索的Oracle样本数据分析平台可向上提供快速查询接口,方便融合算法的快速迭代研发和验证。全量数据分析平台和样本数据分析平台相辅相成,前者在融合算法上更加灵活,可向上提供复杂的融合算法开发接口;后者检索快速,适用于在线快速研发融合算法。AIS数据融合支撑平台架构前期,数据融合支撑平台将为融合算法研发提供可用,可靠,
12、高效的检索接口,算法接口等;随着融合算法研发的不断成熟,典型的融合算法将作为一个任务模块与数据平台紧密耦合,全天候运行在平台上,进而实现数据的实时导入,自动化分析和实时服务提供等。2.3.1.数据清晰与归档系统数据清洗与归档系统旨在将来自不同存储结构的岸基AIS数据,第三方AIS数据,海图数据和海洋气象数据等,以统一的结构化标准归档如数据支撑平台。由于通信环境恶劣,数据量大且复杂等因素,直接得到的岸基AIS数据和星载AIS数据存在大规模的数据缺失,错码误码,不可用消息,歧义消息等。经过对样本AIS数据的初步分析,AIS目的地字段缺失率超过50%,不符合规定的MMSI消息超过20%,GPS时间误
13、差达到分钟级别等。对于这些数据,清洗系统会对可恢复的消息通过清洗算法最大限度的进行恢复,对于无法恢复的消息则进行删除操作,避免扰乱最终的数据分析结果。各方的AIS数据目前主要保存在传统关系型数据库中,如宝船网采用Oracle数据库进行数据存储和检索。传统关系型数据库的缺点是检索性能无法承受TB级别的数据,扩展性受限,且很难对复杂的机器学习迭代算法进行有效的支撑。当前,主流大数据分析平台的数据采用的是NoSql存储架构,SQL和NoSQL的底层原理有着巨大的差别,因此需要考虑异构引擎数据向大数据存储平台导入过程中的各类兼容问题。拟采用Apache Sqoop开源框架实现关系型数据库向大数据分析平
14、台的数据导入工作,Sqoop支持任何一款JDBC规范的关系型数据库向HDFS或HBASE导入数据。主流的企业级关系型数据库包括Oracle,MySql,SqlServer以及DB2等,这些关系型数据库都支持JDBC规范的访问。因此都可以兼容Sqoop框架。数据清洗与归档系统架构2.3.2.数据融合支撑平台数据融合支撑平台主要由基于HadoopV2& Spark开源框架的全量数据分析平台和基于Oracle 11g关系型数据库的样本数据分析平台组成。Hadoop V2在架构上相比于早期版本有了质的改变,在HDFS中引入Cache机制,大大提升磁盘IO效率,并在HDFS之上封装了一层资源调度层,这样
15、就允许更多的分布式计算框架运行在同一个分布式系统上,共享数据和计算资源,极大降低了运维成本。Spark是由美国加州伯克利大学研发的一套内存计算框架,在复杂迭代算法,尤其是TB级大数据的机器学习算法上有卓越的性能,相比于传统的MapReduce计算框架,性能提升可达数十倍乃至上百倍。不仅如此,Spark原生提供了丰富的机器学习算法库,支持基于DAG的SQL查询接口,这都将极大降低开发成本,缩短开发周期。Oracle11g作为新版本的Oracle数据库,在GB级规模的数据上有很高的检索性能,可作为前期算法初步验证的数据平台,实现实时在线数据抽取等。数据融合支撑平台架构前期,数据融合支撑平台将为融合算法研发提供可用,可靠,高效的检索接口,算法接口等;随着融合算法研发的不断成熟,典型的融合算法将作为一个任务模块与数据平台紧密耦合,逐渐构成一个内部算法库,并可全天候运行在平台上,进而逐步实现数据自动化分析和实时服务提供等2.3.3.数据服务提供系统请黄博士和莫老师落实到人进行方案补充3.当前进展3.1.数据融合支撑数据融合支撑平台已经初步完成了系统验证性工作,并且已经基于Hadoop V2开源框架部署了一套数据支撑平
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1