大数据平台架构方案 v10Word文档下载推荐.docx
《大数据平台架构方案 v10Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《大数据平台架构方案 v10Word文档下载推荐.docx(8页珍藏版)》请在冰豆网上搜索。
这些数据可以存放在大数据中心也可以存放在各部门数据中心;
这些数据可以是存储在数据库中的数据,也可以是存储到文件中的数据;
还可以是声音、图片、文件等非结构化数据。
这些数据为大数据平台提供基础数据源。
2.2交换层
由于大数据平台拥有复杂的数据来源,交换层的存在目的是消除各个数据来源的数据库的异构性。
由于数据源中的各种数据存放在不同的数据库、不同的应用中,直接从业务系统中进行数据转换并不容易。
交换层将不同部门的业务系统中的数据抽取到统一的数据结构中,而数据之间的逻辑关系都与业务系统保持一致,大大降低了数据整合的复杂性。
2.3数据整合层
数据整合层包括通过数据交换平台将各部门业务数据交换过来的原始业务库和通过数据运行管理平台整合(清洗、比对等)后的人口、法人、自然资源与空间地理、宏观经济以及面向需求的(如:
低保、教育、医疗、征信等)专题数据库。
其中,数据运行管理平台是一个利用专业工具并需要人为干预的对数据持续更维护、分析和更新的管理平台。
2.4共享层
共享层通过服务的形式对数据、分析模型和大数据平台的计算能力对上层的业务应用的功能需求提供全方位支撑。
2.5应用层
应用层和数据源层一样是大数据平台范围之外的一层,本层次主要是一些面向具体业务应用的需要大数据平台提供数据支撑的各业务系统。
3大数据平台软件建设
3.1数据交换平台
通过数据交换工具(SIToolkit)构建大数据平台交换层数据交换平台。
实现跨区域、跨网段、跨部门的数据实时交换、集成与共享。
通过数据交换平台,按照统一的标准和规范,将各个部门的数据资源汇总到数据整合层的原始业务库,各部门数据的汇聚和传递,满足融合数据库的基本数据需求,为政务协同、公共服务和辅助决策等提供信息交换和共享服务。
数据交换的目的是实现传输过程中的“不错、不丢、不重”。
数据交换系统核心的功能包括数据桥接子系统、消息总线系统、前置交换子系统和交换管理监控子系统。
(1)交换桥接子系统
桥接系统的功能完成部门业务系统信息库与前置信息库(或交换平台)之间双向安全、可靠的信息交换,并实现数据格式转换。
桥接实现方式包括直接连接、通过网闸等定时或实时传输。
主要功能包括数据映射、数据提取、数据抽取、过滤规则配置、数据转换、数据导出、数据导入、监控管理等功能。
(2)消息总线系统
消息总线系统即交换传输系统,作为前置交换系统之间的信息交换通道,实现交换信息的打包、转换、传递、路由、解包日志服务等功能。
消息总线系统功能和特点如下:
Ø
消息传送应支持HTTP协议;
采用SOAP1.2作为消息封装格式;
提供消息寻址功能,支持信息路由功能;
提供消息确认和消息选择性重发机制以实现前置交换子系统之间安全的、可靠的信息传递功能;
提供消息差错处理功能;
支持各种主流操作系统;
提供信息转换功能,支持基于规则配置的格式转换与内容转换功能。
(3)前置交换子系统
为确保各部门的原有系统的运行不被资源整合所影响,保障原系统的数据安全,使用前置机作为各部门与数据交换平台进行数据交换的窗口,一方面从各业务系统提取数据,向中心提交,另一方面从数据中心接收数据,并向业务系统传递数据。
前置机应具备缓存交换数据,对数据进行过滤、加工和展现的功能。
主要由网络通信系统、操作系统、交换信息库、前置交换环境、交换服务配置工具等组成。
(4)交换管理监控子系统
交换监控子系统作为交换系统的中心管理模块,协同部门交换前置机和中心交换前置机的运行并对交换系统的运行情况进行管理和监控。
管理监控子系统提供对整体的监控、业务域的管理、节点的管理、传输管理、安全管理、路由管理、统计分析和日志服务等功能。
3.2数据运行管理平台
数据运行管理平台是为实现大数据平台数据持续更新和平稳运行的一系列软件和制度流程。
为保证数据的动态准确性,需要对城市基础数据库的信息进行加工处理。
数据加工处理流程如下图所示:
(1)数据清洗
对各部门采集或交换来的数据按照基础数据的标准格式要求进行检查整理,对不符合质量要求或者错误的数据进行更正,最终确保数据的准确。
数据清洗的目的是数是保证数据库数据质量。
(2)数据比对
对数据的字段、条件、合理数值范围、检查时段、预警方式等内容,按照不同数据类型、数据来源、变动方式进行单独或组合设置,由系统按照设置的比对指标,对各基础数据库的信息进行综合比对分析,并生成比对结果,并根据授权情况,将比对结果分类下发到相关部门,对数据进行核查。
核查后反馈的数据,将再次进入数据加工环节。
在核查过程中,系统按照设置的监管指标对各部门核查信息进行综合分析,并生成监察结果。
(3)异常数据反馈
异常数据反馈实现数据采集、清洗、比对同数据采集部门形成互动,将清洗和比对工作中发现的异常数据反馈给数据提供部门,提醒数据提供单位核实的同时,也帮助提高部门自身业务数据准确性。
(4)数据入库
在数据入库时,配置定义入库规则和配置定义入库流程,支持顺序入库,并行入库。
新增数据字段在入库前,要完成新增信息资源目录服务登记工作,包括进行入库元数据和入库目录的编目、注册、发布、审核等工作。
3.3共享服务平台
共享服务平台是共享层的具体实现。
它通过城市数据目录(SDCatalog)实现对原始数据、融合数据、专题模型分析结果及专业计算能力的发布、申请、审核与管理。
城市数据目录(SDCatalog)
城市数据目录用于组织、存储、管理政务信息资源元数据,通过对元数据信息的发布、查询、定位和管理机制,实现城市元数据的共享。
城市数据目录是信息组织的一种方式;
同时城市数据目录是管理资源实现共享的一种工具。
它是一套标准化的城市元数据信息管理系统,为建设城市数据中心提供数据发布共享的软件支撑。
数据目录业务流程图
4大数据平台软件建设情况
名称
涉及软件
是否完成
说明
数据交换平台
数据交换开发工
完成
交换平台建设时根据客
具(SIStutio)
户实际网络环境和部门
数据交换执行服
条件,由此三款软件组合
务(SIWorker)
根据数据交换平台,实现
数据交换远程监
数据的动态交换。
控管理系统(SI
Monitor)
数据运行管理平台
数据运行管理平台是根
据客户数据实际情况由
多款软件构成的一个工
作平台。
如:
通过SIStudio实现
对数据的清洗、比对和交
换;
通过数据库客户端工具
编写存储过程,实现对数
据的动态分析。
共享服务平台
用户发布大数据平台数据、专题及计算能力服
务。
空间信息支撑引擎(SSGIS)
使大数据平台具备空间计算能力,并实现以服务
的方式对外发布。