XXX市政务大数据平台建设方案.docx
《XXX市政务大数据平台建设方案.docx》由会员分享,可在线阅读,更多相关《XXX市政务大数据平台建设方案.docx(87页珍藏版)》请在冰豆网上搜索。
XXX市政务大数据平台建设方案
XXX
第一章需求分析和项目建设的必要性
1.1项目建设目标、内容
1.1.1项目建设目标
电子政务公共数据开放共享平台项目建设目标是,依托统一的“云”数据中心建设统一的公共数据开放共享平台。
集中机关各部门业务应用进行,制定相关的数据规范和信息交换标准,使机关各部门业务系统依托统一的开放平台进行开发建设。
确保部门之间系统之间的互联互通、数据共享,为大数据分析提供数据依据。
1.1.2项目建设内容
电子政务公共数据开放共享平台项目建设内容包含:
一套标准规范、两个数据门户、四大应用平台、四大基础数据库和一个应用支撑平台。
具体建设内容包括:
1、一个应用支撑平台
为了对需要调用电子政务公共数据开放共享平台信息资源的政府部门应用系统进行有效管理,面向各类电子政务应用,规划建设统一的应用支撑平台,统一标准规范,通过用户管理、应用管理、服务管理等核心组件,可以对接入系统有效管理、实现统一认证及单点登录、统一消息服务。
2、两个数据门户
针对政府部门用户建设信息资源政务门户,针对企业、公众用户建设信息资源开放门户。
3、四大应用系统
建设承载电子政务公共数据汇聚平台、数据治理平台、数据运营平台和数据应用平台。
4、四大基础数据库
通过电子政务信息资源梳理,制定四大基础数据库的建库、入库和管理规则,建立四大基础数据库管理平台,提供基础库内容管理、数据处理、共享和应用功能。
四大基础数据库包括人口库、法人库、经济库和地理库。
5、一套标准规范
形成标准规范体系,包括管理制度、标准规范、数据标准等。
1.2编制依据
1、中办、国办《2006-2020年国家信息化发展战略》;
2、国办《关于促进电子政务协调发展的指导意见》;
3、国务院《促进大数据发展行动纲要》;
4、《国家电子政务总体框架》;
5、《国家电子政务“十二五”规划》(工信部规〔2011〕567号);
6、《关于印发“十二五”国家政务信息化工程建设规划的通知》
(发改高技〔2012〕1202号);
7、《GB/T21063-2007政务信息资源目录体系》
8、《GB/T21062-2007政务信息资源交换体系》
9、《国家电子政务工程建设项目管理暂行办法》
10、《政府信息公开条例》
1.3社会问题和政务目标分析
1.3.1社会问题分析
作为世界人口大国,理论上我国数据资源储量极为丰富,但大部分政府数据(例如:
交通、社保、税收等),属于结构化数据,距离海量(volume)、速度(velocity)和多样性(variety)的3V属性还有一定距离,但从战略角度而言差距并不大。
从数据规模来说,政府拥有国内最为庞大的数据储量。
政府数据广泛存储于各地、各级政府机关院所等不同单位、不同部门、不同系统甚至不同网络环境中,海量超脱于地理空间的政府数据亟待存储与处理。
从数据来源来说,由于各行业、各地采用的法律法规和标准并不统一。
传统的电子政务信息系统,仅为满足特定功能而生,数据结构差异性大,大量数据存放于历史遗留应用中,委办局间碎片化、零散化、低效率的数据交互和分析普遍存在,导致政府数据来源极为复杂。
从数据质量和价值来说,企业的数据种类单一化程度较高,而
政府数据涉及工商、税务、交通、医疗、教育等领域,数据种类繁
多,事关百姓生活的方方面面,数据质量较高,数据的潜在价值十分可观。
如上所述,政府数据的特点可以概括为:
数据规模大、数据来源和结构复杂、数据价值高但利用率低。
政府收集了大量有价值的数据,通过这些数据,可以更好地了解国家资源使用情况,政府开支情况,土地交易和管理情况,这些将不仅强化政府责任,提升治理能力,还能提高资金支出效率,为人民提供更多更好的服务选择。
1、政府数据体量越来越大
截至2014年,中国共有664个城市,2852个行政县,40446
个行政乡。
当前,中国中央和省级政务部门主要业务电子政务覆盖率已经达到70%。
据粗略估算,全国政府大数据加起来相当于数百个阿里巴巴的体量。
而随着硬件技术的进步,对于数据采集精度、采集频率、数据存储等能力在增强,使得数据规模仍有提升空间,近几年数据中心的新建和扩容呈现井喷式的发展,这是以硬件基础设施带动的变革,促使软件技术也得到了快速发展。
随着数据体量的增长,大数据处理、大数据应用分析的门槛将会逐渐提高。
2、多部门协作成为常态化
复杂的城市治理问题,对跨部门的协作提出了更高的要求,过去个别部门间存在的职责交叉分散、协调运行不畅等问题。
随着“大部制”完善,建立健全了部门间协同运行机制,逐步实现“多个部
门、一个政府”目标。
随着部门与部门的边界越来越模糊,政府数据跨部门共享共用已不再是亮点和创新,建立常态化共享机制成为政府大数据建设的入门。
3、国家治理不能仅仅依靠政府
由于时间和技术的局限性,以往国家治理基本是政府下达指令、向下逐层执行的“开环过程”。
如今随着互联网发展,人民对于政府的期望越来越高,国家不仅要在政策出台前广泛征求、准确把握民意;出台后还需要获得执行反馈,并适时调整,政府治理变为下达指令—执行—反馈的“闭环过程”,需要借助社会各方面力量参与到国家治理过程之中。
无论是社会自治还是合作共建,政府数据共享开放都是大前提。
4、社会普遍开始重视数据安全和隐私
数据如同一把双刃剑,在带来便利的同时也带来了很多安全隐患,随着全球各地用户信息安全事件频出,让人们开始感受到“数据”与生活接触如此紧密,数据泄露可以对个人的生活质量造成极大的威胁。
数据安全和隐私保护不仅是公民个人的责任,对采集数据和共享数据的政府单位,也有义务保障数据的安全和隐私,此过程中,政策、技术、意识缺一不可。
需严格依照相关规范文件,将安全运营意识渗透到政府数据开放中。
1.3.2政务目标分析
1、实现政务公开,打造透明政府
电子政务公共数据开放共享促进政府和公众互动,让政务透明,帮助政府进行社会管理和解决社会难题,大数据时代下,政府是整合开放的平台,是一个大数据共享平台,它建立了公众与政府间的沟通渠道,越来越多的国家和组织利用其开展民意调查,通过在线交互让民众成为政务流程的节点,透明政务,让公众参与到政策制定与执行、效果评估和监督之中,使民众参政议政成为可能。
大数据推进政府信息资源进一步开放,政府信息开发利用效率倍增,促进经济社会快速发展。
2、实现数据融合,打造智慧政府
电子政务公共数据开放共享真正跨越了政府内部协同的鸿沟,大大提高工作效率,降低政府运行成本。
其一,政府内部协同除思想理念上的障碍外,技术上也存在一定障碍,随着大数据技术发展,跨越系统、跨越平台、跨越数据结构的政府将在技术上使政府内部纵向、横向部门得以流畅协同。
其二,由于利用大数据技术,数据获取、处理及分析响应时间大幅减少,工作效率明显提高,同时降低了政府开支。
例如,政府利用大数据对社会人群进行细分,对不同人群进行针对性服务和政策施行。
3、实现科学决策,打造责任政府
电子政务公共数据开放共享提高政府决策的科学性和精准性,提高政府预测预警能力以及应急响应能力,越来越多的政府摈弃经验和直觉,依赖电子政务的数据和分析进行决策。
现在大数据又超越了传统的数据分析方法,不但是对大数据分析挖掘,对言论、图
表等都可以进行深度挖掘、人工智能。
大数据的深入及广泛应用会给政府带来科学和精准的决策支持。
4、为**电子政务提供一个安全可靠的信息资源存储中心
对各部门的共享交换的数据资源进行统一的规划管理和应用,建设集约化的数据资源存储中心,从而避免了各部门重复建设工作;同时提高数据安全方面的建设,从硬件设备、网络、信息资源、应用系统、管理平台、数据库等方面的全面保证数据的安全性,并根据用户的不同访问需求、防止恶意入侵、病毒防护、分区域的安全设计,并在应用服务上提供安全检测服务。
5、为**电子政务提供一个高效的应用服务平台
**电子政务公共数据开放共享平台的建设,为政府应用系统和信息资源的高效管理和服务提供手段,通过对相关的基础信息、业务信息、服务信息进行管理,实现**电子政务公共数据开放共享平台的信息管理和服务功能。
城市级交换共享平台则对各部门的信息资源提供交换共享支撑,以提高信息资源的综合利用水平。
通过整
合各部门数据信息,建设基础信息库,并提供对外服务,实现**电
子政务公共数据开放共享平台的服务功能。
6、为**电子政务提供一个长效和可维护的信息服务体系
**电子政务公共数据开放共享平台的建设要对**电子政务体系提供长久的服务,因此在管理和运维上必需配备相应的支撑。
这一方面取决于管理制度的完善、管理手段的完备和对管理本身的技术支撑,另一方面,也取决于人员的配备和运维体系的建立。
1.4业务功能、业务流程和业务量分析
1.4.1用户角色分析
**电子政务公共数据开放共享平台的用户分为:
领导、各部门、企业单位及社会公众。
1.4.1.1政府领导
**电子政务公共数据开放共享平台有价值的数据、行政地图、决策方法和应急进行融合,采用大数据分析技术,有利于各级领导、管理决策人员方便、直观、形象地进行各种分析,从而使统计决策的科学化、人性化、智能化管理走上一个新台阶。
1.4.1.2政府部门
可以向**电子政务公共数据开放共享平台提供数据或使用平台提供的数据;业务部门之间可以通过系统平台交换共享数据;遵循标准规范进行业务系统的建造和改进,可实现业务系统和数据开放共享平台的对接。
1.4.1.3社会公众
可以依托**电子政务公共数据开放共享平台提供的应用服务对公众需求做出快速反应,公众可以更直接广泛的获得政府提供的服务,如证照协同、社保电子传递等。
1.4.1.4企业单位
通过**电子政务公共数据开放共享平台提供的应用服务可以方
便企业进行业务级信息查询,并可通过业务协同对企业提供事项审批、信息推送服务。
1.4.2业务功能分析
1.4.2.1数据共享
在政府部门内部强调的是共享共用。
先把政府部门内部及部门之间数据共享的工作做起来。
各级政府都以数据应用为导向,需要什么数据就共享什么数据。
部门间的信息共享,综合考虑管理难度和技术难度建议分为三个阶段:
“条线内部门共享”、“平级跨部门共享”、“跨层级和跨区域的共享”,通过统一规划,逐步推进的策略,打造部门间信息资源共享共用的新格局。
1.4.2.2数据开放
对社会的数据开放,先从方便百姓生活又不是很敏感的数据开始。
特别是涉及公共安全、公共利益的数据,提供公共服务的机构或企业有义务在一定前提条件下开放,这样一些可以预警、预防的群体性事件就能够避免。
按照社会关注程度、数据量大小和具体实施难度,数据开放建议分为三个阶段:
“业务统计数据”、“少量高频数据”、“重点业务数据”。
通过以安全为前提,重点关注优先试点,逐步扩大范围为原则,稳步推行数据服务开放。
1.4.2.3数据融合
政务大数据归根结底,还是要面向行业应用的,需要基于不同的业务部门开展,并和现有平台建立联系。
融合应用可以分为“数据融合”、“业务融合”、“产业融合”三个层次:
其中,数据融合是把本单位数据、从其他单位共享的数据,以及互联网等社会相关的数据,相互融合,相互比对,建立融合数据资源中心,统一数据标准和口径。
业务融合主要围绕各行业的特定业务场景,比如交通出行、医疗保障、民生服务等领域,建设智慧应用,形成行业业务的决策分析体系,支撑城市运行和城市治理的方方面面。
产业融合,随着一大批大数据处理、大数据分析、大数据运营企业的兴起,政府数据将不单单是自建自用,通过建设数据运营平台,数据交易平台等形式,引入社会资本共同参与城市建设和社会治理,实现向集约型、服务型、智慧型政府的转变。
1.4.3业务流程
开始
从缓冲区增量数据表中获取人口增量数据
根据证件类型判断证件号是
否否符合规范
将该条增量数据插入异常表中
通过证件号判断该人是否存
在于人口主表中否
将人口库【人口增量数据表】中该人口记录删除
是
是
通过【部门业务系统提供字段配置表】得到该业务系统需采集的字段且循环这些字段
判断人口库该字段值的来源
是否是该业务系统是
将该人口记录插入到【人口基础信息表】及【专题表】
否根据证件号码和类型更新
【人口基础信息表】及【专题表】的字段
否
判断新采集的字段值是否为空
否将该人口记录字段来源插入到
否
否
判断人口库库该字段值是否为空
【字段来源表】
是
判断该业务系统的数据是否是业务上的新增?
是
判断该业务系统是否为该字段的权威来源
否根据证件号码和类型更新【人口基础信息表】及【专题表】的字段值
是
更新【字段来源表】中该字段的来源
循环人口库需采集该业务系统的字段是否结束
将人口库【人口增量数据表】中该人口记录删除
结束
1.4.4业务量分析
业务量分析可以从平台交互量、每天总用户数(个)、每天每个用户平均执行操作数、高峰时段交互量占全天交互量的百分比、高峰时段持续时间(小时)、高峰时段在线用户数(个)等方面指标进行综合估算。
**互联网大数据分析平台的业务量估算如下表所示:
表3-1业务量估算
序号
数据名称
数据量
1
平台交互量
200(日均)
2
每天总用户数(个)
100
3
每天每个用户平均执行操作数
1000
4高峰时段交互量占全天交互量的
百分比
60%
序号数据名称数据量
5高峰时段持续时间(小时)
6高峰时段在线用户数(个)
4(9:
00-11:
00,15:
00-17:
00)
60(日均)
1.5信息量分析和预测
1.5.1存储量分析
本项目中存储的数据主要包括两大部分:
系统网站群的在线行为数据和国内外互联网重点渠道、信息源以及政府网站群的在线内容数据。
在线用户行为数据以符合W3C格式标准的日志形式进行存储。
网站内容更新数据直接存到关系型数据库或其他非关系型数据库中。
1、在线行为数据存储量
网站群的在线行为数据存储主要分为三部分:
(1))接收数据,是系统储存的原始数据。
(2))结构化数据,将原始数据进行数据清洗和去重后进行结构化后存储。
(3))分析数据库,将结构化的数据进行分析预计算后存储。
按照本项目需要涵盖**系统网站群的500个网站,每个网站的
日平均访问按照10000个PV计算,预计每日需要处理的总的PV数为500万。
接收数据的测算依据及结论
其中接收数据库的主要条目占用空间,如下表所示:
单个PV所要储存的信息空间大小(字节)
访问路径信息1600
来源路径信息
1120
其他信息(会话标识、Cookie标识、时间信息等)
256
汇总
2976
单个Session所要储存的信息(1个Session大约产生
访问路径信息
4PV)
512
来源路径信息
1120
客户端信息(IP、浏览器等)
128
其他信息(会话标识、Cookie标识、时间信息等)
256
汇总
2016
单个Cookie所要储存的信息(1个Cookie大约产生1.25Session)
访问路径信息
512
其他信息(Cookie标识、时间信息等)
256
汇总
768
例如:
按照其他同类项目的数据估算,PV和Session数量比为4:
1,
Session和Cookie的数量比为1.25:
1。
则500万的PV会产生125万的Session以及产生100万的Cookie,总占据空间为5000000*2976+1250000*2016+1000000*768=18G,包括索引以及其他
表占用的空间之后,约为20G。
原始日志存储到SQLServer中会采用压缩技术,大小将降为5G。
结论:
对于接收数据库,采用了压缩和优化技术后,每500万
PV至少需要25G的储存空间。
结构化数据的测算依据及结论
**系统政府网站群监测分析调度系统的结构化数据库和原始数
据库存储的数据一致,但是经过对原始数据库的数据去冗余以及结构化,用外键压缩了原来直接存储在各表里的信息,大小会变为原始数据的一半,也就是2.5G。
结论:
对于结构化数据库,采用了压缩和优化技术后,每500
万PV至少需要2.5GB的储存空间。
分析数据的测算依据及结论
**系统政府网站群监测分析调度系统的分析数据库内容基本是
结构化数据库的拷贝,大小与结构化数据库基本一致,也为2.5G。
结论:
对于“决策支持系统”的分析数据库,采用了压缩和优
化技术后,每500万PV至少需要2.5GB的储存空间。
综上所述,在不做任何备份的情况下,每500万的PV,需要文件存储空间为:
25GB+2.5GB+2.5GB=30G。
接收日志
明细
汇总数据
合计
单月数据量(G)
25*30=750
2.5*30=62.5
2.5*30=62.5
875G
保留周期(月)
60
60
60
60
一年内需要存储
9000
750
750
10.5T
五年内需要存储
45000
3750
3750
52.5T
到2015年底的存储量为10.5T,到2019年底的存储量为52.5T,具体测算如下表所示:
2、在线内容数据存储量
国内外互联网重点渠道和信息源
按照本项目需要面向国内外互联网重点渠道和信息源进行在线内容采集爬取,按照覆盖包括主流媒体在内的200个信息源,每个
信息源爬取3级计算,平均每天可以爬取更新的总的页面数约为30
万个,每个页面按照100KB计算,共需要占用的空间为
30W*1000KB=30。
G
到2015年底的存储量为10.8T,到2019年底的存储量为54T,
具体测算如下表所示:
单月数据量(G)一年内需要存储五年内需要存储
**级以上政府网站群
国内外互联网重点渠道和信息源
30万*30=900G
10.8T
54T
**级以上政府网站群网站内容更新数据主要包括以下三部分:
网站更新页面、网站更新的入口,网站更新的白名单。
按照本项目需要涵盖**系统网站群及**各级政府网站群的
6500个网站,平均每个网站每天更新10个页面,就是6.5万个。
如果每天爬取10次,就是10×6500=6.5万个入口,每个网站
算10个白名单,那就是10×6500×10=65万个白名单。
总共是6.5万+6.5万+65万=78万,共需要占用的空间为78万页*100KB/页=78G。
到2015年底的存储量为28.08T,到2019年底的存储量为
140.4T,具体测算如下表所示:
单月数据量(G)
更新页面数据
6.5*30=195
网站入口数据
6.5*30=195
白名单数据
65*30=1950
合计
2340G
一年内需要存储
2.34T
2.34T
23.4T
28.08T
五年内需要存储
11.7T
11.7T
117T
140.4T
综上所述,系统的数据存储总量如下表所示:
表3-2数据量估算表
序号
数据名称
初始量
5年内的增量
1
在线行为数据
10.5T
52.5T
2
互联网重点渠道和信息源
10.8T
54T
3
**团以上政府网站群
28.08T
140.4T
合计
49.38T
246.9T
1.5.2处理量分析
(1)网站群用户访问行为数据处理量分析
以每天725万个客户端访问(包括500万PV、100万Session、
125万Cookie)并发计算,结合在线行为数据的接收主要集中在工作时间,7250000/8小时/60分钟/60秒=251个/秒,日志接收服务器接受每秒钟接收日志请求251个,远远低于系统的每秒接收到的正常数(该值通常为7000-9000)。
根据日志接收每秒钟的并发量为251,因此系统的数据接收只需要再用两台服务器做负载均衡即可。
但是为了防止数据接收网站的域名出现单点故障,因此系统的数据接收采用双域名备份,即每个域名对应两台数据接收服务器,一共四台。
根据系统需要满足**政府网站智能分析系统诊断的需要,目前系统的单台服务器的数据处理能力为400家左右,因此需要4台数据库服务器,另外需要两台相同配置的数据库服务器作为备份。
(2)其他在线内容数据处理量分析
一是系统需要支持对不少于108万个数据采集点每天至少一次轮询抓取,同时对抓取回的数据进行数据预处理和清洗入库工作,二是需要实现对存量数据和增量数据的指标自动抽取和更新工作,三是需要支持前台交互系统的交互分析挖掘需求。
结合以上几部分需求,预计所需的内容数据处理服务器约50
台。
其中较高性能处理服务器(单机20核服务器CPU:
2660*2MEM:
144GDISK:
SSD480G*2+SAS4T*6,万兆网卡,远程管理,双电
源)10台,中等性能处理服务器(单机12核服务器,CPU:
2620*2MEM:
32GDISK:
4T*10,万兆网卡,远程管理,双电源)10台。
较低性能服务器(单机12核服务器,CPU:
2620*2MEM:
72GDISK:
SSD480G*2+SAS600G*4,万兆网卡,远程管理,双电源)30台。
1.5.3网络流量分析
按每天处理725万在线行为数据,每条数据为10KB大小,108万条在线内容数据,每条100KB计算,需要的平均带宽为17Mbps,高峰时期按3倍带宽需求计算为:
51Mbps,GE链路接入可以满足需求,出于冗余考虑,建议使用双GE链路(主备)进行接入。
1.6系统功能和性能需求分析
1.6.1系统功能指标
1.6.1.1数据存储功能
政府数据量很大,海量数据的处理与传统架构完全不同,原有小型机加商业数据库的方式已不能完全胜任,部分领域数据需要引入新架构。
大数据存储于处理架构包括分布式存储、分布式资源管理及分布式文件架构。
1.6.1.2数据汇聚功能
数据汇聚功能要求实现将各部门相关的信息资源统一采集交换到数据中心前置库中,满足多种采集方式