国家统计基础数据库开发服务项目技术需求.docx
《国家统计基础数据库开发服务项目技术需求.docx》由会员分享,可在线阅读,更多相关《国家统计基础数据库开发服务项目技术需求.docx(45页珍藏版)》请在冰豆网上搜索。
![国家统计基础数据库开发服务项目技术需求.docx](https://file1.bdocx.com/fileroot1/2022-10/29/f2d1b7af-8803-4c13-8f8f-d64029ed5d37/f2d1b7af-8803-4c13-8f8f-d64029ed5d371.gif)
国家统计基础数据库开发服务项目技术需求
国家统计基础数据库开发服务项目技术需求
一、项目介绍
本次采购的主要服务的名称、人员数量、服务时长:
详见采购服务一览表
项目名称:
国家统计基础数据库项目
资金来源:
中央财政资金
立项背景:
在“互联网+”政务的时代大背景下,国家统计局不断的利用新技术,提升数据生产和服务水平,建成了以企业一套表联网直报系统为代表的一系列数据采集系统,服务于企业调查、经济普查、人口普查、农业普查以及各种专项调查等工作。
这些信息系统的陆续建成并投入使用,为统计工作提供了丰富的数据资源,全面反映国民经济发展的方方面面。
经过多年的运行,各采集系统、专业数据处理系统中累积了大量的基础数据,以企业一套表联网直报系统为例,目前包含全国约100万家“四上”企业数据,包括规模以上工业企业、有资质的建筑业企业、限额以上批发零售和住宿餐饮业企业、房地产开发经营业企业、以及其他规模以上服务业企业。
未来可能还会增加到200万家企业。
从2011年截止到2016年,全国有上千亿条数据。
此外,还包括规模更加庞大的历次的经济普查数据、人口普查、农业普查的数据。
为了满足国家各级政府、企事业单位、普通民众越来越高决策、分析要求,对国家统计局现有的数据资源以及未来产生的数据资源进行更好的管理、建设能够支撑更科学、更复杂分析工作的高性能统计数据库,国家统计局将建设基础数据库。
按照国家统计系统信息化建设“十三五”规划,国家统计局已经全面开始采集中心、交换中心、处理中心的“三中心”架构建设。
基础数据库的数据来源于“三中心”,未来又需要能够借助“三中心”的架构与省级统计机构进行数据和分析成果的共享,全面服务国家、省两级数据分析业务。
预算金额:
人民币965万
所要达到的目标前景:
国家统计基础数据库的建设目标是整合各种原始数据资源,使用标准化的元数据来描述来自不同调查的原始数据;使各种格式的原始数据都能够方便的进入到基础数据库中,实现对统计原始数据资源的整合和统一管理,按照时间序列进行数据的查询;为统计分析工作提供支撑,使各种分析应用、分析工具都能够方便的访问基础数据库中的数据资源,提高数据资源的利用效率,提升数据资源的价值。
二、采购服务一览表
序号
服务项目名称
服务时间(天数)
服务人数
1
国家统计基础数据库软件开发
180天
100
2
国家统计基础数据库运维服务
365天
10
三、项目履约时间、地点
履约时间:
中标合同签订后30日内
履约地点:
国家统计局
现场踏勘:
否
四、采购人信息
单位名称:
国家统计局
单位地址:
北京月坛南街75号
联系人姓名:
张冰
联系电话:
68783561
电子邮箱:
zhangbing@
五、服务内容及指标要求
(一)总体要求
基础数据库项目的建设内容包括以下几个方面:
1、资源整合工具
使各种数据能够方便的进入基础数据库,使原始数据文件能够被对应的元数据描述,形成可以利用的数据资源。
2、数据管理子系统
用于管理和监控基础数据库中的各种资源及其使用情况;调度基础数据库中的资源,按照数据利用的场景和需求形成各种数据集市;管理对外数据发布;提升数据质量,进行系统管理等。
3、数据资源建设
基础数据库的数据资源包括整合数据资源库、数据仓库以及元数据库。
整合数据资源库使用非关系型数据库技术建设,用于存储大部分数据资源及其描述信息;数据仓库是关系型数据库,用于存储使用比较频繁、价值密度较高的数据,以及根据业务需求形成的数据集市数据;元数据库存储基础数据库的所有元数据信息。
数据资源建设工作还包括数据实施工作,包括标准元数据的整理以及数据的入库工作。
4、资源服务平台
资源服务平台是用于访问基础数据库的统一入口,资源服务平台具备对关系型数据库、非关系型数据库以及文件型数据等多种数据资源的访问能力,并通过并行加载、智能索引等大数据技术提升数据查询访问的效率。
资源服务平台还提供对数据分析、数据展示的基础支撑,平台内置了多种基本的分析公式、图表展示工具等。
资源服务平台对外提供统一的API,各种外部工具和应用可以通过调用这些API来实现对数据库的访问。
5、元数据管理系统
元数据管理系统基于国家统计局设计管理部门发布的元数据标准建立,用于统一管理标准化的元数据信息。
6、分析应用工具集
基础数据库提供基于R语言的分析工具,方便用户使用各种复杂的条件检索获取所需要的数据资源,可以对查询到的数据进行分析和处理,同时可以将数据导出成多种格式,供其他常用统计分析工具使用。
7、数据查询门户
用于查询和展示基础数据库中所有数据资源的门户系统。
通过数据查询门户用户可以用图表形式快速的查看不同调查对象各项指标的时间序列情况,并可以将查询到的数据导出成各种数据文件供使用。
8、系统监控平台
用于监控基础数据库系统的整体运行情况,系统监控平台采用图形化界面,方便用户随时查看基础数据的入库情况、数据库的运行情况、各项系统服务的调用情况以及数据资源的整体情况。
基础数据库的数据流程如下图所示:
(二)软件开发服务指标要求
满足招标文件要求的全部服务指标得满分,★代表最关键指标,不满足该指标项将导致投标被拒绝,#代表重要指标,不满足将导致扣1分,无标识则表示一般指标项,不满足扣0.5分,扣完为止。
序号
重要性
指标项
指标要求
功能要求
1.
#
需求理解要求
投标人需要对采购人相关系统和业务现状进行充分的分析,对采购人需求有准确的把握,结合项目建设目标阐述开展项目建设意义。
2.
#
技术难点理解要求
充分分析项目建设所可能遇到的技术难点,并结合项目设计提出解决方案。
3.
#
项目总体设计思路要求
需结合项目需求,从标准规范、元数据、数据、工具等几个方面阐述项目设计思路。
4.
#
架构设计要求
进行合理的架构设计,体现大数据技术的应用,符合基础数据库管理数据、支撑分析的定位。
5.
#
数据架构设计
进行合理的数据架构设计,体现数据如何进入到基础数据库中以及如何提供给用户使用的详细过程。
6.
#
资源获取
将数据文件抓取、上传到资源整合工具中。
7.
#
文件解析
解析各种上传的文件,识别其中的数据信息,至少包括对国家统计局现有主要数据文件格式的解析功能,并提供为未来解析国际标准文件的实现方案。
投标人需要说明国家统计局现有主要标准数据文件类型的情况并分别说明文件解析的步骤,至少包含cspro标准文件格式。
投标人需列举主要国际统计数据标准,分析国际标准文件的格式,并结合本项目的实际设计来给出解决方案。
8.
#
数据描述工具
主要功能是将元数据和数据文件的内容进行匹配,并完成配套的校验工作,形成标准化数据文件和描述文件
9.
元数据读取
读取元数据管理系统中的元数据资源。
10.
#
元数据选择
选择将要使用到的元数据内容。
用户可以根据制度、报表等信息精确圈定一次数据描述中所使用的元数据。
11.
数据文件变量读取
选择一个将要入库的数据文件,将解析出来的变量元数据对象读取出来,供元数据匹配使用。
12.
#
数据列匹配
用元数据来描述数据文件的列信息。
使用指标元数据与数据文件的变量一一匹配。
13.
#
变量计量单位识别匹配
为识别出来的有计量单位的变量匹配相应的元数据。
14.
#
目录匹配
为识别出来的是目录项的变量,匹配相应的目录元数据。
15.
#
时间框架匹配
为识别出来的时间框架信息匹配相应的元数据。
16.
#
关键数据列标识
每个数据文件,经过解析、识别、匹配,形成一组用元数据描述的变量组,标识变量组中用于入库唯一索引列,用于数据写入时保存数据用。
17.
#
数据描述文件生成
对于每个数据文件所识别出来的变量组,补足必要的管理信息等,生成xml格式的数据描述文件,用于入库和交换。
18.
#
非结构化文件描述
根据文件的名称以及相关联的结构化数据,生成文件的描述信息。
19.
#
数据写入
将元数据文件、标准化数据文件、数据描述文件、非结构化数据统一写入整合资源库进行存储。
20.
结构化文件写入
主要功能是将元数据文件、标准化数据文件、数据描述文件、非结构化数据统一写入整合资源库进行存储
21.
非结构化文件入库
22.
数据卸载
用于将不需要的数据或有问题的数据从整合资源库中剔除和卸载。
23.
资源获取日志
记录获取数据资源的情况
24.
数据写入日志
记录从数据资源整合工具写入到整合资源库的情况。
25.
数据卸载日志
记录数据卸载的情况。
26.
#
数据管理子系统
对基础数据库中的数据进行统一管理。
27.
#
变量使用情况统计
从资源整合工具中获取变量元数据的描述和使用情况,并展示出来。
28.
#
变量数据采集情况统计
统计每一个变量(指标)在哪些报告期采集了数据。
29.
#
元数据引用情况统计
展示每一个元数据对对象的引用情况。
如一个制度中有多少个报表,一个报表下有多少指标、分组、目录等。
30.
数据量统计
统计当前已经入库的数据数量、指标数量。
31.
#
调查对象统计
按照不同的维度统计调查对象的数量,如某一行业有多少个企业,某一地区有多少个企业、多少个房地产项目。
32.
#
数据集市管理
支持根据数据来源(调查制度)、专业、行业等划分成不同的主题数据集,用户可以根据特定的研究需求灵活定制所需要的分析主题,并形成数据集。
33.
#
数据发布管理
按不同维度和不同目标将指定的数据抽取转换到指定的数据库中
34.
数据抽取转换
根据发布目标和发布内容将数据推送到指定的数据库中
35.
#
资源管理工具
管理数据在整合资源库和数据仓库之间的调度。
36.
★
数据调度
根据规则将数据从整合资源库抽取到数据仓库,形成供数据分析使用的数据集市,投标人需要给出数据调度的机制、策略,说明数据抽取的优先级和方法等。
37.
#
调度规则配置
配置从整合资源库到数据仓库调度数据的规则。
38.
#
数据调度执行
按照规则,将整合资源库中的热数据装载到数据仓库,并记录调度情况。
39.
数据卸载
按照规则,将数据仓库中的不常用的数据卸载出来。
40.
数据清除
清除基础数据中的数据或非结构化数据文件。
41.
#
资源日志管理
记录资源调度过程中的日志
42.
数据调度日志
记录数据调度的情况。
43.
资源使用日志
记录数据资源的使用情况,如数据分析、数据汇总等。
44.
#
奇异数检查工具
负责对入库的数据进行检查,可以根据用户要求进行检查规则的配置,制定检查执行的方式和时间,最后根据检查执行结果生成报告。
45.
#
检查规则配置
配置奇异数检查的规则,如空值检查、阀值设置、关键指标逻辑关系等。
46.
检查执行
执行检查,并展示检查的进度和状态。
47.
检查报告
将奇异数检查的结果形成检查报告,并展现出来。
48.
★
资源服务平台
集成对多种数据库的高性能访问、支撑数据分析工具和数据展现、提供数据计算引擎、对外提供丰富的数据访问服务接口。
投标人需要结合自身对系统的设计说明资源服务平台进行数据查询的流程。
49.
#
数据服务管理
统一管理基础数据库对外提供的数据查询检索服务。
针对不同用户、不同的应用场景提供可定制的数据服务。
50.
#
关系型数据库访问
资源服务平台提供访问关系