数据资源共享与大数据分析招标文件编写参考.docx
《数据资源共享与大数据分析招标文件编写参考.docx》由会员分享,可在线阅读,更多相关《数据资源共享与大数据分析招标文件编写参考.docx(95页珍藏版)》请在冰豆网上搜索。
数据资源共享与大数据分析招标文件编写参考
服务内容及指标要求
(一)应用软件定制开发技术要求
1、资源共享服务中心
序号
重要性
指标项
指标要求
1
★
应用软件成熟度要求
投标人需根据招标要求,采用成熟的应用软件进行投标,并基于投标的应用软件提供面向招标人的定制开发服务,完成各项功能要求。
2
★
投标人采购原厂商成熟应用软件及定制开发服务,要求资源共享服务中心项目下只涉及同一家原厂商。
3
#
投标人须提供能够证明软件数据支撑类功能模块成熟度的相关证明:
投标人所投软件的原厂商须提供数据元管理系统、业务对象管理系统计算机软件著作权登记证书(须加盖原厂商公章,2017年12月31日之前获得的证书为准)。
原件备查。
4
#
投标人须提供能够证明软件数据支撑类功能模块成熟度的相关证明:
投标人所投软件的原厂商须提供元数据管理系统、数据目录管理系统、数据推荐系统计算机软件著作权登记证书(须加盖原厂商公章,2017年12月31日之前获得的证书为准)。
原件备查。
5
#
投标人须提供能够证明软件应用支撑类功能模块成熟度的相关证明:
投标人所投软件的原厂商须提供应用自动化部署系统、应用集群管理系统、应用容器管理系统计算机软件著作权登记证书(须加盖原厂商公章,2017年12月31日之前获得的证书为准)。
原件备查。
6
#
投标人须提供能够证明软件应用支撑类功能模块成熟度的相关证明:
投标人所投软件的原厂商须提供应用命名解析系统、服务命名解析系统计算机软件著作权登记证书(须加盖原厂商公章,2017年12月31日之前获得的证书为准)。
原件备查。
7
#
投标人须提供能够证明软件数据交换类功能模块成熟度的相关证明:
投标人所投软件的原厂商须提供数据交换管理系统、数据汇聚管理系统计算机软件著作权登记证书(须加盖原厂商公章,2017年12月31日之前获得的证书为准)。
原件备查。
8
#
总体技术要求
系统应具备完备的访问控制机制,每个用户使用各自的信息登录访问系统,并能支持两种以上的认证模式。
9
#
系统应具备完备的权限控制和越权防护功能,根据用户和角色赋予使用权限,用户不可访问未赋予使用权限。
10
#
系统应具备基本的安全防护能力,能够防护如sql注入、csrf跨站请求攻击、xss跨站脚本注入等常见的网络请求攻击行为。
11
#
系统应支持跨平台部署,同时支持windows和linux操作系统服务器,也可支持基于docker容器进行部署。
12
#
系统支持SQLServer、Mysql、MPP、Hbase等多种数据库类型。
13
#
系统应具备分布式架构部署的能力,可以支持横向拓展。
14
#
系统容量要求支撑现有信息资源的存量,并能支持未来3年的信息资源增长的能力。
15
#
在网络稳定的环境下操作界面单一操作的系统响应时间小于3秒。
16
#
系统应提供7×24小时的连续运行,平均年故障时间<5天,平均故障修复时间≤2小时。
17
#
本系统在满足上述要求以外,还须满足:
18
#
满足B/S分布式应用模式要求。
19
技术路线
20
#
要求采用主流、先进、成熟的信息技术:
要求采用“安全可靠、自主可控”的应用软件为定制开发基础。
以J2EE为核心技术路线,严格遵循SOA的设计理念,融合云计算和大数据领域的相关技术,综合运用如虚拟化技术、分布式存储技术、分布式计算技术、分布式缓存技术等先进的技术。
21
#
要求采用“一体化”的统一数据服务架构:
支持关系型数据库、非关系型NoSQL数据库和分布式文件系统三种存储方式,能根据需要对数据层进行进一步的封装,实现系统建设中数据源与数据访问之间解耦,数据访问与数据源分离后,形成“一体化”的统一的大数据存储和访问服务层。
22
#
要求采用基于元数据的全生命周期数据标准化管理:
必须采用数据统一管控技术,统一管控数据的全生命周期管理。
采用元数据驱动设计理念,规划元数据对象的创建、运行、评估、维护各环节。
23
#
要求采用综合分布式、集群化等应用架构模式构建国家政务服务平台资源共享服务中心的技术架构。
24
#
要求采用基于虚拟化技术实现应用和服务资源的按需供给和弹性扩展:
要求采用虚拟化技术实现软件应用与底层硬件相隔离,将单个资源划分成多个虚拟资源的裂分模式,将多个资源整合成一个虚拟资源的聚合模式。
25
大数据基础服务要求
26
#
技术通用性强,便于开放应用,实现通用化接口、图形化管理。
大数据支持的基础服务组件及支持多种接口类型。
27
#
支持高并发毫秒级数据插入/修改/查询/删除。
28
#
非硬件原因和非业务需求的情况下,保证平台7*24小时无故障运行。
29
#
支持集群节点的下线,具备高扩展性,减少物理节点时,原有应用不受影响,数据快速重分布。
集群性能与节点数量应呈线性关系。
节点下线时,正在进行的作业如不存在数据副本全部丢失的情况,不会异常中断,新作业提交正常。
30
#
支持集群节点的扩展,具备高扩展性,增加物理节点时,原有应用不受影响,平滑扩容,数据快速重分布。
集群性能与节点数量应呈线性关系。
节点扩展时正在进行的作业不会异常中断,新作业提交正常。
31
#
600条/每秒数据上传压力下,数据无堆积、不丢失。
32
#
大数据入库速度>10000条/每秒,入库延迟不大于1秒。
33
#
支持基于自定义SQL语句的数据抽取。
34
#
支持多种抽取模式,包括:
实时抽取、定时抽取、手工抽取;支持任务调度方式管理抽取过程,支持多任务并行数据抽取,提高数据抽取效率。
35
数据汇聚要求
36
#
支持汇聚多种类型数据资源。
37
#
支持基于业务规则的数据正确性验证。
具备完善的数据整合故障处理机制。
解决数据整合过程中出现的数据冲突等问题,确保数据完整性、一致性、有效性。
38
#
支持对汇集的政务服务信息进行必要的数据质量管理功能,以保证汇聚的各种动态信息的准确性,具有一定的信息冗余手段对出错的信息进行纠正,对缺失数据进行融合补偿。
39
数据存储要求
40
#
应支持海量结构化、半结构化和非结构数据的存储。
41
#
支持非结构化和半结构化数据,通过分词等技术进行结构化信息的提取,将结构化数据存储到数据库中。
42
#
分布式存储TB级数据规模下,秒级响应查询指定Key值的数据。
43
#
分布式存储支持1W+/s的插入。
44
#
分布式存储支持数据多版本存储。
45
#
分布式存储提供基于数据块的数据操作功能,批量操作数据的写入、修改等。
46
#
分布式存储支持高可用性,支持HA,HighAvailability。
47
#
分布式存储支持节点级别的容错,至少允许一个节点离线。
48
大数据检索与查询要求
49
#
核心的分布式搜索引擎结合存储路由算法提供高效快速的实时检索服务。
50
#
提供丰富的对外服务接口,支持JavaSDK,RESTful等方式访问。
51
#
支持多种数据源检索与查询。
52
#
支持精确、模糊查询、任意字段组合查询功能。
53
#
支持分页查询,跨页跳转。
54
#
无单点故障,服务可平滑扩容。
55
#
检索服务接收到关键字之后,在索引库中进行检索,并根据影响因子对检索内容进行排序;同时可以做到拼写检查。
56
#
支持精确、模糊和多条件组合查询。
支持对查询结果按指定字段进行降序或升序排序,给出查询结果的同时要给出符合条件的总记录数。
57
#
百亿数据规模,进行单表分组统计响应时间≤5s。
58
数据共享与交换
59
#
为了保证消息中间件的高可用,要求消息中间件采用集群方案。
60
#
当出现网络异常、上传程序服务异常、消息中间件服务异常或其他异常情况导致数据推送中断时,要求具备数据补传机制,即当服务恢复正常时,服务异常期间的历史数据要全部补传至消息中间件上。
大数据中心提供RESTful、消息总线、JavaSDK或JDBCAPI方式进行数据共享和交换,且数据共享和交换时延需满足业务要求。
61
#
数据交换对接要求支持部门业务信息库与交换信息库之间的双向信息同步;支持国内外主流数据库管理系统;支持结构化与非结构化文件;提供增量数据自动识别功能。
在不修改业务信息库结构的情况下,系统能自动识别需交换的信息,包括新增,被修改或被删除的数据;支持图形化的信息交换及配置管理工具;支持基于规则配置的格式转换与内容转换功能。
62
#
数据交换服务要对数据汇聚、处理、整合等全过程进行调度和控制,监测数据质量,识别问题数据,保证国家平台政务数据的准确、完整和可靠。
在网络情况良好,数据库性能足够,平均每行的字节数不大的情况下,同构数据库之间的数据交换可达每分钟10万条,异构数据库之间的数据交换可达每分钟5万条。
63
#
数据安全要求系统可以监控数据交换全过程,实时掌握数据流转状态和日志,保证交换过程的数据安全。
且系统需具有数据追溯功能,全程记录和跟踪每一条交换数据的交换轨迹,记录交换数据所经过的路径和属性信息,直观展示数据在各个环节传输情况,实现通过路径追踪的功能对每个消息包进行路径跟踪和数据追溯。
64
多租户技术
65
#
要求提供基于多租户的数据开发能力共享服务:
当各个系统的数据集中之后,系统提供大数据开发的能力,用户根据各自的业务需求,进行数据作业的开发及调试工作;
66
#
用户可以进行算法实验和机器学习,将现有的基础数据经过加工后,提供给其他应用使用。
67
#
功能
要求
资源共享服务中心汇聚全国各部门各地方需共享的政务服务数据资源,为整个国家政务服务平台提供数据支撑,包含信息资源数据标准管理、信息资源规划、信息资源数据库逻辑设计、数据交换对接子系统、数据支撑子系统、应用支撑子系统、数据交换服务子系统、数据共享服务子系统等8部分建设内容。
68
信息资源数据标准化管理
69
#
建立统一的数据标准体系,确保国家政府服务平台系统间数据融合共享、部门平台及地方平台的数据汇聚共享,并为今后的系统扩展、完善奠定基础。
70
#
建立统一的数据管理体系:
明确数据元的描述方法、标识符、说明名称的命名规则、数据类型及格式的表示方法;在数据元标准化基础上定义业务对象,根据业务属性,应用系统的具体业务需求进行业务对象的标准化定义。
71
#
建立统一的编码体系:
明确代码标识符、代码名称、版本、说明、数据类型及格式、编码方法和代码表;明确校验代码的验证规则,用于数据元规范性校验,且被应用系统调用。
72
#
信息资源标准流程管理:
基于数据支撑子系统,实现数据从数据元定义、验证规则、业务对象和数据库表设计,到数据标准化持久层服务接口的部署注册的标准流程管理,完成数据源层与数据访问层之间的解耦。
73
信息资源规划
74
#
将各部门、各地方政务系统产生的数据进行调研梳理,规划的信息资源包括事项信息、办件信息、服务能力评估信息、监督信息、用户身份信息、用户行为信息、咨询投诉信息、证照信息、投资项目信息和法律法规信息等业务信息资源;包括元数据库、专题库、索引库、分析模型库、知识库、日志信息库等大数据分析数据;包括事项、办件、监督、评估、人口、法人国家基础信息等信息资源。
75
信息资源数据库逻辑设计
76
#
将各部门、各地方政务系统产生的数据逐步汇总到资源共享服务中心信息资源数库中,最终形成覆盖全国所有可集成的政务系统数据的国家综合信息资源数据库。
在系统设计过程中,以业务需求为基础,结合业务流程的特点,对信息资源数据库所需要的业务数据元进行定义,在技术方案中提出业务对象、关键数据表的设计方案,以此为基础,最终形成信息资源数据库建设方案。
本次建设的信息资源共享数据库事项信息库、办件信息库、证照信息库、监督信息库、服务能力评估库、咨询投诉库、投资项目信息库、用户身份信息库、用户行为信息库、法律法规库。
77
#
对规范的境外投资数据结构导出的数据格式充分了解,了解度以提供5张的数据表为准。
78
#
对规范的人口库数据结构、导出的数据格式充分了解,了解度以提供5张的数据表为准。
79
数据交换对接子系统
80
#
数据交换对接子系统在国家统一数据共享交换平台的基础上,通过数据适配器、规则引擎、数据质量控制等技术,实现地方和部委政务服务数据和国家政务服务资源共享服务中心的对接,支撑政务服务数据资源在国家政务服务平台的汇聚和共享。
要求提供数据处理、数据连接配置、数据转换规则、数据质量、数据传输等功能模块。
81
数据处理
82
#
数据处理模块提供数据抽取、数据关联、数据冲突检测与处理、数据缓存、数据路由和数据读写优化等功能。
实现政务服务业务库数据的抽取、读写等任务。
83
#
数据处理模块,包括以下五个部分:
84
数据预处理。
提供多种数据抽取方式,实现在不同业务场景下、从不同政务业务系统中抽取所需数据。
85
#
数据关联。
提供不同类型的数据进行关联的能力,支持一对一、一对多、多对一等多种数据类型的关联与转换。
86
#
数据智能路由。
支持复杂逻辑条件下的数据加载。
当数据出现重复、丢失时,平台自动进行逻辑判断,进行容错。
87
#
数据冲突处理。
包括冲突检查与处理策略两部分。
首先根据冲突检查的设置,对数据进行主动或被动的冲突检查;然后根据配置的处理策略,进行相应的处理。
88
#
数据缓存。
提供对临时数据的缓存,待传输数据的缓存、历史发布数据的缓存、中转数据的缓存、低优先级数据的缓存。
89
数据连接配置
90
#
包含参数配置、配置管理、连接管理、连接测试、数据预览等功能项,实现政务服务业务数据库的连接和交换数据库的连接配置。
91
数据转换规则
92
#
包括规则的编辑和适配,实现源数据和交换所需数据的转换规则定制及服务。
93
数据质量
94
#
实现对交换数据质量的控制和提升,包括完整性检测、规范性检测、一致性检测、准确性检测、关联性检测。
95
数据传输
96
#
数据传输模块实现对数据的传输,主要包含智能路由、协议转换、流量控制、传输优先级管理、数据传输优化和数据传输安全保障。
97
#
智能路由,可根据网络状况与业务压力以及业务优先级,自动调整传输顺序与传输路径。
优化平台传输效率,为平台提供智能化的传输优化。
98
#
流量控制,在数据传输层提供强大的流量管控能力,当发生较大业务压力时,能够对传输流量进行控制,实现峰值平移。
提升平台的稳定性与可靠性。
99
#
传输优化,为减少网络传输的消耗,提供高强度的消息与文件压缩能力。
可以有效较低网络消耗,提升传输效率。
100
#
传输安全,可选用非对称加密技术,保证数据传输的安全性与不可以伪造性。
101
数据支撑子系统
102
#
数据支撑子系统是资源共享服务中心的核心部分,实现政务服务数据的统一管理和应用。
利用统一的数据支撑子系统,完成政务服务数据进行处理和主题对象构建等功能,实现政务服务数据的统一的标准化存储管理。
同时,为大数据分析提供支撑服务。
要求提供以下功能:
103
#
元数据
包括业务对象、数据元、代码集、验证规则、元数据分析的管理。
提供系统功能截图。
104
#
业务对象管理:
业务对象是对数据元集合进行管理,使应用系统的数据对象标准化。
用户可以对数据元新增、修改、删除等操作。
提供系统功能截图。
105
#
数据元管理:
数据元是标准服务中最小的单位,结合业务情况定义,使得使用者在各个业务场景中遇到同一个数据元时,能够有统一的理解。
用户可以对数据元做新增、修改、删除等操作。
数据元支持继承,支持按业务属性分类继承、选择具体的数据元进行继承,明确数据源的描述方法、标识符、说明名称的命名规则、数据类型及格式的表示方法。
提供系统功能截图。
106
#
代码集管理:
代码集是用户单位业务信息化中所需要的分类与代码,是业务数据规范中所用到所有代码的汇总。
用户可以对代码集做新增、修改、删除等操作。
提供系统功能截图。
107
#
验证规则管理:
用于数据元规范性校验。
用户可以对验证规则做新增、修改、删除等操作。
提供系统功能截图。
108
#
元数据分析:
以业务数据元流向为主线的血缘追溯,并结合业务场景,统一数据口径、标明数据方位、分析数据关系。
提供系统功能截图。
109
#
数据元管理:
支持图形化分布展示数据血缘关系和元数据分析的血缘追溯功能。
提供系统功能截图。
110
#
业务对象管理属性分类继承、自定义函数功能。
提供系统功能截图。
111
#
元数据管理实现可视化展示物理库和物理表的结构和组成元素。
提供系统功能截图。
112
#
数据标准库管理能对用户、数据库、数据表进行维护。
提供系统功能截图。
113
#
提供规范的5个办件信息业务对象的数据元组成情况表、3个监督信息业务对象的数据元组成情况表、本项目发改委、公安部、教育部、人社部、商务部、工商总局试点部门5个行政许可业务对象的数据元组成情况表。
114
#
数据接入
包括数据源、数据维护、日志输出。
115
#
注册到数据支撑子系统的数据资源,通过数据资源注册的唯一标识,建立到数据资源(数据库)的连接,然后执行DML操作,并将执行的DML操作内容、执行时间和执行时长记录至大数据日志提供监控。
116
#
外部的数据资源,通过数据资源接入提供数据访问服务。
数据资源接入,避免数据访问服务和数据资源之间的耦合。
当数据资源移动到新的实现或其它物理环境时,只需重新注册新的接入地址,无需修改应用,即可继续工作。
117
#
数据目录
包括核心元数据制定、目录分类、目录编制、目录传输、目录注册、目录审核、目录校验、目录修改、目录维护。
118
#
核心元数据制定:
政务数据资源的分类、核心元数据描述、代码规划,以及目录编制的组织、程序、要求等制定。
119
#
目录分类:
目录的数据属性分类、涉密属性分类、层级属性分类。
120
#
目录编制:
基于核心元数据标准的目录生成,提供从不同形态的政务数据资源中手工或自动抽取数据,并生成目录。
121
#
目录传输:
政务部门前置机上的目录数据向目录中心的报送,包括目录信息获取、目录信息交换桥接、信息传输和目录信息入库。
122
#
目录注册:
向政务数据资源目录节点注册目录内容。
123
#
目录审核:
审核目录内容。
记录审核结果和审核意见,并能够返回目录编制岗位重新修改。
124
#
信息校验:
检查员对操作员生成的目录数据进行合法性检查。
未通过审核要求的政务数据资源目录数据需要操作员重新修订后提交。
125
#
目录修改:
提供对目录内容的修改,并对目录重新提交、审核和注册发布。
目录修改需经过审批,审批通过后生效。
126
#
目录维护:
目录分类维护、目录维护。
127
#
数据检索
提供数据索引与检索以及查询服务。
128
#
基础检索功能:
提供精确、模糊查找功能;
高级检索功能:
提供业务特定的复杂逻辑查询和分析类查询;
关联检索功能:
通过后台数据挖掘建立数据之间的关联,提供关联查找、推荐。
129
#
提供关键字、词组合对系统内相关信息进行查找,根据系统表单内设定的字段对指定的关键字、词进行排查。
130
#
提供索引元数据管理、索引配置管理、索引维护。
提供系统功能截图。
131
#
提供国家政务服务平台、地方/部门政务服务平台、国家基础数据库等进行数据的采集及写入搜索引擎,从而创建索引及对数据进行整理分析入库,提供政务数据的检索等自下而上的五层数据检索逻辑结构图。
132
#
数据推荐
基于个人查询习惯、条件匹配、个人身份的数据推荐。
133
#
数据收集:
业务系统将数据发送至数据收集服务,数据收集服务将数据记录原始记录库。
134
#
模型分析:
对所有系统词条进行分词并去重操作,得到一个Item列表。
根据用户历史浏览记录中的词条出现情况,计算用户对Item列表中每个分词词汇的偏好权重,得到User列表。
根据User列表中的偏好权重,计算出每个待推荐的词条中各分词词汇的总得分情况,形成推荐信息列表。
135
#
推荐服务:
将推荐信息列表中的数据按词条的得分高低作降序处理,筛选出指定时间段内的前N个词条所指代的网页ID,在该时间段内推荐给目标用户,完成此推荐服务。
136
#
数据监控
对国家政务服务平台数据汇聚、数据共享全流程的数据库、数据资源进行监控,包括数据资源监控、结构化数据库监控、非结构化数据监控。
提供系统功能截图。
137
#
数据资源监控:
监控数据资源的健康状态、访问量、执行时间、访问日志。
提供系统功能截图。
138
#
针对各种突发异常情况,能够快速的定位。
支持设定各种监控指标和监控阈值。
139
#
结构化数据库监控:
监控系统中各数据库的运行情况,包含IP地址、CPU使用率、iops、版本、连接数、设备状态。
提供系统功能截图。
140
#
提供磁盘占用、数据库基础信息、DML、线程连接、CPU使用率、磁盘IO监控系统功能截图。
141
#
提供Solr集群拓扑图、Core信息监控系统功能截图。
142
#
提供任意增加减少字段、值查询条件进行数据搜索预览监控截图。
提供监控系统功能截图。
143
#
数据接口定制
针对地方和部门共享数据需求,在提供明确数据需求后,通过数据接口服务定制服务提供特定的数据接口,无需改变平台即可满足新的数据需求。
包括数据服务申请、数据服务配置、数据服务审核、数据服务发布等。
144
#
数据安全
采用数据传输加密和数据存储加密两个场景方式。
145
#
数据传输加密关注调用数据服务和业务服务时的数据传输加密场景,开发人员在数据服务目录上注册数据服务时,支持http、https两种协议。
146
#
数据存储加密,字段级加密。
加密算法支持可逆或不可逆。
对于可逆的加密算法,提供相应的解密算法。
147
#
数据审计
实时记录国家政务服务平台各系统的数据库活动,对数据库操作进行细粒度审计的合规性管理,对数据库遭受到的风险行为进行告警,对攻击行为进行阻断。
148
#
多层业务关联审计:
通过应用层访问和数据库操作请求进行多层业务关联审计,实现访问者信息的完全追溯,包括操作发生的URL、客户端的IP、请求报文等信息进行多层业务关联审计。
149
#
细粒度数据库审计:
通过对不同数据库的SQL语义分析,提取出SQL中相关的用户、SQL操作、表、字段、视图、索引、过程、函数等要素,实时监控来自各个层面的所有数据库活动的审计分析,对违规的操作进行阻断。
对数据库返回结果进行完整的还原和审计,并根据返回结果设置审计规则。
150
#
数据操作审计,审计应用系统对共享中心数据库访问的操作用户、操作的数据库、执行时间,执行的SQL语句等操作记录情况。
提供系统功能截图。
151
#
精准化行为回溯:
一旦发生安全事件,提供基于数据库对象的完全自定义审计查询及审计数据展现,摆脱数据库的黑盒状态。
152
#
全方位风险控制:
提供灵活的策略定制,根据登录用户、源IP地址、数据库用户、数据库表、数据库字段、操作时间、SQL操作命令、返回的记录数或受影响的行数、关联表数量、SQL执行结果、SQL执行时长、报文内容的灵活组合来定义客户