信用信息体系平台建设详细设计方案.doc

资源描述

信用信息体系平台建设详细设计方案.doc

《信用信息体系平台建设详细设计方案.doc》由会员分享，可在线阅读，更多相关《信用信息体系平台建设详细设计方案.doc（213页珍藏版）》请在冰豆网上搜索。

信用信息体系平台建设详细设计方案.doc

信用信息体系平台建设详细设计方案

1.1.标准规范建设

1.1.1.数据规范编制

1.1.1.1.数据标准

·元数据标准。

元数据是指对数据的描述，例如数据交换频率、数据字段、共享范围等信息。

元数据标准制定是为各监管部门数据收集、整合与应用时提供统一的指引作用，本项目元数据标准定义市场监管信息资源的核心元数据及扩展方法，分别定义关系数据表、文件格式数据、服务数据三类格式数据的核心元数据定义，为市场监管目录设计与资源目录模块开发奠定标准模板基础；

·数据元标准。

数据元是指数据库中字段的格式规定。

因历史原因，各监管部门在信息化建设过程中，没有统一的数据标准统一开发规范，当前跨部门监管数据资源不对称、格式不统一等问题严重，本项目在整合数据过程中，数据元标准制定统一规范了跨部门监管数据的字段与格式要求，向各监管部门明确提供数据的统一格式要求，也是本平台数据ETL过程的重要标准。

·信用信息分类规范：

为加强社会信用信息资源的记录、整合、应用，规范和指导各部门信用信息管理系统建设，将制定信用信息分类规范。

规范是在梳理市信用信息资源基础上，参照省、国家信用信息相关标准规范编制而成。

1.1.1.2.目录标准

l信息资源目录编码标准。

根据资源提供部门、数据类型等提出社会信用信息目录、资源、市场监管号、资源目录版本的统一编码规则；

l社会信用信息共享目录。

基于数据标准与信息资源目录编码标准制定规范的《社会信用体系信息共享目录》，通过定期更新发布方式提供各监管部门使用。

1.1.2.技术规范编制

1.1.2.1.开放接口接入规范

为方便第三方系统接入，以加快数据实时共享性，提供丰富的数据应用方式本期为第三方系统提供开放接口，开放接口包括第三方系统向《社会信用体系信息平台》提供数据的接口，以及第三方系统应用《社会信用体系信息平台》的数据接口。

数据交换接入规范提出数据开放接口的提供与应用规范，为第三方接入单位提供标准的指引技术文档。

1.1.2.2.信息资源公开技术规范

社会信用体系信息平台信息资源部署在政务外网环境，而信用信息等系统将部署在互联网环境。

在统一的社会信用体系信息专题库下，信息资源公开技术规范将指引实现信息资源从政务外网定时推送到互联网功能。

1.1.2.3.数据接口标准规范

制定数据对外服务的应用接口标准，用于规范数据对外服务的接口实现数据的接口查询，包括数据查询和预警数据查询。

1.1.3.管理办法编制

管理制度本身是由人来制定和执行的，定应尽量做到科学全面，符合实际情况，使人们在接受制度管理时，能够乐于接受。

平台数据归集涉及信息资源提供方、信息资源管理方、信息资源使用方、平台管理运维单位、平台建设单位等其他相关部门及人员，管理对象包括信息资源、技术平台。

信息资源共享交换体系自制订管理制度分为信息资源管理维护制度、技术平台管理维护制度两类。

1.1.3.1.信息资源管理维护制度

1、信息资源责任公开制度

通过本制度，鼓励政府部门公开本部门可共享信息资源，规范约束信息资源提供方及时、准确提供最新共享信息资源，明确信息资源提供方的信息公开职责，公开信息资源的备案制度，奖惩考核办法等。

2、信息资源动态管理制度

明确共享交换信息资源注册、更新、注销管理办法，保证共享数据库中信息资源的鲜活性，对共享数据库中数据实现动态管理。

3、信息资源安全管理办法

本办法明确信息资源提供方和使用方共享交换信息资源的安全保密协议制度，保证共享信息资源在采集、存储、备份、访问授权、传输、使用等过程中的安全。

4、信息资源共享查询制度

本制度明确信息资源使用方共享查询信息资源的管理流程，获取信息资源后的备案制度等。

1.1.3.2.技术平台管理维护制度

1、平台管理办法

本办法明确信息资源提供方、信息资源使用方、技术平台管理运维单位、技术平台建设单位等其他相关部门及人员在平台运行维护、日常管理中的责权利关系，岗位职责等。

主要依据《信息资源共享交换平台使用管理办法》制定本管理办法。

2、平台对外服务指南

本指南说明技术平台为各部门应用系统提供的支撑服务，技术平台支持的不同接入方式，每种接入方式的特点及适用范围，各政府部门、单位在将应用系统接入到技术平台过程中，应该填写的表单、所遵循的工作流程等。

主要依据《信用信息资源共享交换体系规划》、《信用信息资源共享交换平台对接指南》制定本服务指南。

3、平台安全运营管理制度

本制度从技术平台环境设备安全、运行安全、信息安全、人员安全、运营管理、安全审计等各方面做出规定，全面保护技术平台安全运营。

1.2.社会信用体系信息平台基础支撑设计

1.2.1.大数据基础支撑分布式数据库存储系统设计

本期只作设计，不包括在本期项目建设范围内。

分布式、高性能、交互式SQL并行查询数据库系统，用于查询存储在ApacheHadoopHDFS或HBase之上的大数据。

分布式数据库存储系统除了提供业界广泛使用的Hadoop大数据的存储平台，也提供同Hive一致的元数据、SQL语法、JDBC/ODBC驱动程序。

分布式数据库存储系统是基于Hadoop及Hive的实时交互式SQL大数据查询工具，通过使用与商用并行关系数据库中类似的分布式查询引擎，可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据，从而大大降低了查询的延迟时间，具有较高的查询性能。

分布式数据库存储系统主要有以下特性：

l面向实时查询，结果秒级返回

l兼容Hive的类SQL语法，包括自定义函数及自定义聚合函数

l可以和Hive共享元数据存储

l支持从HDFS和HBase读取数据

l运行时环境用C++实现，并利用了LLVM的技术，动态优化执行代码

l支持JDBC接口

要求支持的功能还包括：

l高可用、高容错

可配置为高可用的部署模式，即将单台主节点架设在两台主机上，一台处于活动状态，别一台处理待命状态。

活动主节点响应正常操作，实时同步数据到备份主节点。

活动主节点失效时，实时切换到备份主节点。

数据块多副本分布式存储，保证某个数据节点失效的情况下，其它数据节点上仍然有可用的数据块，保证数据不会丢失。

l列式存储

数据是存储在HDFS之中，支持多种常见的ApacheHadoop文件格式和压缩编码。

分布式数据库存储系统可以加载和查询由其他Hadoop组件，如Hive、HBase、Pig等生成的数据文件。

l负载均衡

分布式数据库存储系统集群提供查询负载均衡功能，将查询请求分摊到不同的集群节点上执行，达到负载均衡的目的。

分布式数据库存储系统集群各节点对应用是透明的，应用只需要连到一台主节点，而不用关心集群中的其它节点。

在某个集群节点失效情况下，应用仍然可以正常连接，负载均衡器会将请求转发到其它可用的节点上。

支持多种负载均衡策略，如轮询、权重、最少连接等。

l范式模型

支持三范式模型。

灵活的视图处理。

支持星形模型。

三范式模型与量型模型互相转化。

l海量数据查询

亿级数据规模下，性能全面超越商业的RDBMS数据库。

TB级数据下，性能比Hive有数倍甚至上百倍的提升。

更适合海量数据，特别是TB级及以上的数据处理。

lSQL标准兼容

兼容SQL-99标准，支持大部分SQL-2003标准。

对于DDL语句，除常规的建库、建表、建视图外，还支持表分区、表缓存等特性。

DML方面，提供LOADDATA批量加载数据，能支持非常复杂的多表JOIN和UNION。

支持丰富的数学、字符串、日期时间、聚集、分析函数等，还支持用户自定义函数。

SQL语法基本同HiveSQL兼容，语法上同其它数据库SQL语法大体一致。

lETL支持

分布式数据库存储系统提供了JDBC/ODBC接口，能支持几乎所有的ETL工具产品。

分布式数据库存储系统能友好支持Sqoop，将外部数据源的数据抽取到分布式数据库存储系统直接使用。

也可以将分布式数据库存储系统数据导出到外部数据源。

采用分布式数据库存储系统作为数据仓库，还可以简化ETL环节，在分布式数据库存储系统内进行数据转换，节省大量时间。

l可视化管理

Web控制台提供监控仪表盘界面，对分布式数据库存储系统数据库信息、集群CPU、内存、磁盘空间、数据库会话以及节点状态进行实时监控。

通过图形界面对集群进行整体控制、资源监控，也可以对单个节点进行管理，了解各节点资源使用情况，进行会话管理等。

类PL/SQLDeveloperIDE的数据库管理界面，可完成建库、建表、SQL查询编辑器、执行计划、数据导入、导出、数据复制等常用操作。

l线性可扩展

分布式数据库存储系统可通过添加廉价的服务器实现性能更好的分布式计算。

随着集群节点数的扩充，其查询并发能力将随节点数增加而增大。

查询的响应时间，会随着节点数的增多而缩短。

可轻松扩展到上千台集群规模，满足TB甚至PB级数据查询。

l分布式并行查询引擎

提交到分布式数据库存储系统的SQL查询由查询计划器进行解析，生成并行执行计划。

各节点由下至上，并行方式完成数据局部计算，中间结果不写磁盘。

分布式数据库存储系统使用Pull方式获取各节点的局部数据结果，以流式传递汇集到执行计划根节点完成计算。

l多级I/O压缩缓存

采用列存储压缩技术，压缩存储具有较高的压缩比，压缩率最高可以达到30%以下，极大的减少I/O的吞吐量。

采用零拷贝技术相比传统技术节省了一半的拷贝操作，在数据传输性能上要节省65%的时间。

表缓存技术，可以提升分布式数据库存储系统数据库集群整体的内存使用率，可以提升50倍以上的I/O性能。

l支持第三方应用接口

分布式数据库存储系统提供多种应用程序接口，包括JDBC、ODBC、CLI、Thrift等。

JDBC/ODBC为第三方应用连接到分布式数据库存储系统提供了便利性。

CLI（命令行界面）可以让数据库管理人员、数据仓库工程师方便、灵活的进行数据库管理、数据查询、SQL脚本调优及诊断等Thrift接口是跨语言的访问接口，可以让Java、C++、Python、PHP开发者采用一致的接口进行编程，灵活定制访问分布式数据库存储系统的数据库应用。

1.2.2.社会信用体系舆情分析设计

本期只作设计，不包括在本期项目建设范围内。

l采集能力要求

实现对新闻、论坛、博客、微博、图片、SNS、视频网站、QQ群、云数据中心、电子报、WAP、微信、搜索、文档、境外媒体等，监测人员能够自行添加、修改、移除目标监测网站；

支持多语种、少数民族语言采集；

支持至少5000以上采集站点目标；

支持注册论坛需要验证码的数据抓取、虚拟帐号登录等采集方式

支持自动识别语言和网站编码：

可对任何形式的网站进行采集（RSS、PHP、JAVA、HTML、AJAX等）；

基于C、C++或者C#开发的C/S架构的采集软件，可以实现客户端的自由安装，配置、可视化的用户操作管理，自由添加关键词，添加网址即加即用；

数据采集引擎可视化，能够独立运行，采集引擎数据接口开放，可以推送到指定数据库，可以自动清理自定义时间段内的数据，保留有效时间段内的数据；

可以自定义采集频率周期，最快频率周期必须在5分钟以内。

l分析

单机分析效率达到每天30万条数据以上

可根据自定义类似进行数据自动分类

可实现专题事件的分析（网站分布、载体分布、地域分布、传播情况、趋势情况等）

可实现对指定作者、虚拟身份的发帖情况分析（发帖平率、感情倾向性、敏感性等）

可实现对不同站点内容进行分析，对于敏感数据进行提示等

l舆情预警

可以通过邮件、弹窗、手机短信（短信预警不少于10人）或者自动刷新等方式第一时间获取舆情信息。

支持用户定制个性化预警信息，各用户定制的个性化舆情信息只有自己可以看到；

无需事先设置关键字，系统自动推送预警业务相关

展开阅读全文