1、市民订阅环保信息,上传个人采集数据。3.数据处理场景平台将形成以生态环境数据为中心的开放式数据中心,数据来源有来自环保厅的自有行业数据,广泛收集与环境有关系的第三方数据, 定期抓取互联网数据,也接受来自市民提交的数据。如下图-叔赛原始数据 对象数据 结构化数据 成果数据数据处理场景为了数据安全,平台提供了数据安全子系统,用于数据安全,数 据进入平台有两种方式,一种是直接进入处理中心,另一种是通过数 据安全中心加密后进入处理中心,加密后的数据与其它数据在平台里 是没有区别的,处理进程在使用数据內容时需先行解密后方可使用。 进入平台的数据存放在数据仓库中。永久存放的数据就内容来说,分 为原始数据,
2、对象数据,结构化数据,成果数据;原始数据是指没进 行任何处理的裸数据,对象数据是有属性,能用元数据来标识的数据, 结构化数据通常指数据库,成果数据由处理系统来确定格式,是其它数据经处理后的有实用意义的成果。当然平台也会把数据处埋緒输 出给用户,在原始数据拥有者的许可下,成果可以共享。4.架构设计概要系统采用分层设计方案,如下图所示,系统分为三个层次:应用 表示层、数据处理层、并行计算环境层;另有两个子系统:数据接口 子系统、运行保障子系统。把与实际业务有关的模块集中在应用表示 层,把数据处理有关的放在数据处理层,由并行计算环境层提供海量 的存储与大规模计算,数据接口系统作为平台统一的数据来源,
3、及输 岀接口;运行保障子系统给整个平台提供不间断的运行维护及安全保障。空气质虽监控与展示系线专家决策値助系纯监檸与展示系統环境应急詰挥系线环境舆情管理系线水.販疑监揑与展示系統污染源综合耸理系统业交互接口系统监测敷据历史数据片入固体废物监控亲统坏境移动执法监察系犬历GlS系统第二方数据采矢环保推荐引竽(人工智能互联网弹性处多维分析樓型汚族溯禅怏型环保平台数据处理层 常燥大数据处理可决化数站挖掘鉴块环境综合 分析棋型鬆据管理模块lS4ff化模块市尺徹倍 上传接口环境斤常 预警模坐环境輿怙 分析模型环保统讣与报表喫数抽安仝爭件开发楼块敬锯矽出接门ravL调处现系并行式计数誥仓库并行式文件有储运行保
4、障子系统总体构成4.1 数据接口子系统平台数据办输入与输出功能全部由数据接口子系统来完成,核心 数据由环保部门的监测数据以及从手工导入历史数据构成;第三方采 集数据,互联网抓取数据,市民上传数据是重要的补充部分;数据全 集必须在内在的逻辑方面形成一个完整有效的数据琏,以便人工智能 模块进行多维度分析。针对核与辐射的土壤监控,采用数据动态同步方式,数据来源主 要来自XX辐射监督站开展的年度监测工作,包括土壤样本的实验分 析结果、辐射本底调查数据等。将核电厂周边区域的土壤环境质量进 行动态监控。同时,在历史数据挖掘的基础上,研究放射性物质在土 壤中的迁移规律。4.2.应用表示层应用表示层通过调用数
5、据处理层的功能来完应用系统的功能,凡 是与具体应用无关,可以抽象出来的功能,均在数据处理层实现,各 应用系统不用单独开发相应功能。总体上来看应用表示层完很刃;助 能:a.实时动态按省市具区域、按类别、按管理功能的数据可视化显b.掌握生态环境数据库,实时掌握生态环境的变化。C.区域生态环境信息、企业生态环境信息、工业生产过程生态环 境量、能源种类生态环境量、废弃物生态环境量、生态环境汇集等。d.可视化运行监测,全面能耗监测,为宏观分析和决策提供数据 分析支撑。e.辐射环境大气监测应用XX省核电发展迅猛,在建的宁德核电厂与福清核电厂分别于 2012年和2013年投产发电,规划建设的三明快中子反应堆
6、项目已通 过可研,目前XX省规划建设和在建的核电机组共十几台,这些能源 项目的启动和建设,将大大缓解XX省电力能源供应紧张的局面,奠 定海西大型能源基地的地位。同时,也树立了 XX省作为核电大省的 地位。由于核辐射看不起,摸不着,但却是人民群众密切关注的,这就 需要与之相匹配的辐射环境大气自动监测网。未来XX省将建成核电 厂辐射监测系统、监督性监测系统、国控点、省控点等多个监测平台, 提供各类的大气辐射环境在线、离线监测数据,但对于这些多来源的 数据如何处理、整合,进而开发相关的数据功能,还需进一步的工作。 通过对辐射环境类大气监测数据的大数据挖掘,实现核与辐射数据的 相关业务应用。4. 3.
7、数据处理层 :S方宪数据处理层建立在并行计算环境层基础之上,为应用层提供数据 计算服务,本层分为两个部分:环保推荐引擎,常规大数据处理;常 规大数据处理为上层及推荐引擎的数据统计、数据分析、数据预警、 数据挖掘提供支撑平台。环保推荐引擎完成数据挖掘与专题分析任务,为上层提供判定结 果。集成多种模型算法,优化核算模型,温室气体排放因子测算,对 排放因子测算和数据质量控制,进行准确性判断。为城市管理者提供 现状评估、趋势预测、潜力分析、目标制定分解及跟踪等辅助决策服 务。通过成立专家评估委员会,对排放系数的有效性进行分析,特别 是对一些强制性指标加以深入推敲。控制指标包括排放系数统计信息 分类的所
8、有指标。建立企业生态环境价值评估模型,分析研究主要行 生态环境对比研究行业不同规模、不同性质、不同层次的温室气体排 放情况,融合生态环境的核算、因素分解分析、模型、峰值预测、情 景潜力研究和XX省减排路径分析,为低生态环境策略制定提供可量 化的决策依据。建立生态环境评价与挖掘平台,自动完成主要行业基 于温室气体排放分析研究报告,为工业源的温室气体排放研究、评估 以及未来的控制政策提供支撐支持。主要实现功能如下:a.为实现生态环境交易提供数据决策支撑服务。b.针对环境发展通过大数据建模,对生态环境未来进行预测和预C.针对生态环境的决策,依据生态环境基础数据,建立大数据模 型,并进行深度分析,得出
9、生态环境配额,生态环境足迹分济華齡 专业问题的结论。d.建模,以支持节能减排降生态环境目标的预警调控方案。C.低能耗低排放产业分析。f.为调整优化能源消费结构提供数据支撑等h.气象数据耦合计算所有的大气环境污染,都在在大气环流中弥散传播的。如果要通 过监测数据对污染源进行追踪,则需要同时耦合大气扩散数据进行反 向的溯源计算。环保气象数据处工功能主要负责接入全省实时气象数据和预报 数据,将其处理为可供各个其它应用的基础数据,并提供相关的计算 模型进行反向耦合计算。4. 4.并行计算环境层并行计算环境层是大数据平台的核心驱动层,其基础计算能力直 接影响上层的运行效率与运行速度。并行计算环境层为上层
10、提供大规 模计算与存储服务,并行计算环境层由工作流协调处理系统,并行式 计算系统.数据仓库,并行式文件系统组成;并行计算环境层由一个服务器集群组成,集群规模随着平台的计算需求进行扩充。5.平台建设关键技术大数据是指一般的软件工具难以捕捉、管理和分析的大容量 数据,通常以PB来计量(IP=IO24T, IT=IO24G);其意义不霍後馨于 容量之大,更大的意义在于通过对海量数据的交换、整合和分析, 发现新的知识,创造新的价值;通常大家用4V特性来描述大数据; 回VOIinnc (容量)根据IDC(国际数据公司)的监测统计,2011年全球数据总量 已经达到1.8ZB(IZB等于1万亿GB, 1.8
11、ZB也就相当于18亿个 ITB移动硬盘的存储量),而这个数值还在以每两年翻一番的速度 增长,预计 到2020年全球将总共拥有35邓的数据量,增长近 20倍。 Variety(多样性)大数据的异构和多样性很多不同形式(文本、图像、视频、机 器数据)无模式或者模式不明显不连贯的语法或语义。器数据)无模式或者模式不明显不连贯的语法或语义。回VaIUe (价值)价值通常也被理解为价值密度,也就是说依据大量的不相关 信息进行深度复杂分析,对未来趋势与模式的做出可靠的判定, 从而发现数据的价值。回VeIOCity(高速率)大量的数据需要进行快速的,实时的处理,才能在指定时间 内得到结果;数据的处理方法多以
12、批量化,分布式为主要处理方 式。从以上大数据的特性分析可知,我们生态环境的海量数据价 值发现的核心前提条件是:1.大规模的基础运算能力与海量的存储能力。 V-秀万堯2.高效的数据价值提取算法。在分布式/并行式计算系统没有出现之前,大规模的计算资源 只能由超级计算机来提供,这是一种昂贵的资源,把大部分中小 团队拒之门外;约2006年云计算技术开始发芽,至2010前左右 随着云计算技术的发展成熟,大规模分布式/并行式计算系统也得到了发展壮大,并快速成熟起来;分布式/并行式计算系统能把廉 价的大批量硬件组合起来,提供一种廉价的大规模运算能力与海 量存储能力;因而当前技术发展已能满足第一个前提条件。仅
13、有大规模运算能力还是不够的,使用人工智能技术是解决 复杂非线性计算的关键;女“美国超级计算机深蓝,仅使用其强 大的计算能力,没有使用人工智能技术的情况下,与围棋大师的 较量中最终还是败下阵来;而使用了深度学习技术的智能象棋程 序,在自我学习8年后轻易就打败了象棋大师。人工智能的发展 历史很长,几乎是和计算机技术一起发展的,但是大部分人工智 能算法不能应用于人们实际生活中,直到近年深度学习算法的发 展与成熟,深度学习算法被证实在处理大数据时是行之有效的, 其成果已经在人们实际生活中起到了的很好的作用,如:苹果的 SIRI,微软小冰,多种BI产品,人脸识别等。因而深度学习算法 的成熟是满足第二个核
14、心条件的最佳解决方案之一。秀万家6.平台模块设计整个平台是松耦合的,多模块并行开发;数据接口系统,与大数 据处理层及资源层是应用系统的基础,因而在各系统设计开发之初必 须优先拟定好各个接口定义,方可各自设计与开发。6.1.环保平台应用表示层设计应用系统分为平台通用功能模块以及各种专题子系统构成;应用 系统通过调用生态环境推荐引擎和其它大数据分析技术来完成就用 系统的功能,不须要单独开发自己的底层数据分析功能。平台可视化 功能是通用功能,可以为各个应用系统所用。7.1.1通用功能设计7.1.1.1可视化展现功能可视化展现,就是把所有的最终结果数据以全息地图方式呈现在 使用者面前,其所有的信息均具
15、备地理属性。主要功能如下:a.实时动态按区域、按行业、按企业的数据排放可视化显示。b.掌握温室气体排放数据库,实时掌握资源的利用。c.区域生态环境信息、企业生态环境信息、工业生产过程生态环境量、能源种类生态环境量、废弃物生态环境量、生态环境量等。d.可视化运行监测,全面能耗监测,为宏观分析和决策提供数据分析 支撑。展现方式: 忌莠方案1.全省生态环境区域能量图,纵览全省生态环境。2.环境生态环境健康图谱,大数据挖掘建立综合评价体。3.全省生态环境指标看板,企业排放TOPlOO,区域排放排。4.生态环境预警分析,按排放类型等预警分。5.全省生态环境趋势,按行业按区域趋。7.1.1.2搜索化平台搜
16、索分析平台在丰富的业务模板库的基础上可以快速的为使用 在搜索中发现关键信息,可以使你轻松的在1到3秒以内完成85%以 上的生态环境分析。智能检索系统依托全文检索、自动分词、结果聚类等先进技术, 提供对不同类型、不同格式环境资源数据的快速检索及关键字模糊查 询,同时可业务明细、业务报表、相关文档、地理空间数据等聚类类 别进行搜索结果展示,可极大满足用户的数据共享、快速查找需求。7.1.1.3系统管理系统管理属于数据分析平台的功能。通过使用授权来控制不同岗 位、不同用户的业务操作权限。并采用用户组的方式对用户权限进行 管理,一个用户组可以包括多个权限相同的用户,用户组设定遵循便 于生产、灵活管理的
17、原则,以生产过程中的职能为依据,可以以岗位 为基础进行划分,也可以按照实际需要重新进行划分。系统用户角色不同,则使用的系统功能不同,不同岗位的用户不 能越权操作系统功能。权限管理就是保障大数据分析平台-Z他 据安全性的手段,也是企业强化管理的手段。7.1.1.3.1访问权限管理按功能模块和操作权限划分多层级多职能角色,建立不同权限的 角色和用户。通过配置权限功能、操作模块和拥有窗体的操作类型(如 读、写、删除、显示等),决定不同角色的授权范围或者不同角色及 用户访问的数据资源范围。角色与用户可指定映射,一个用户可属于 一个或几个角色,系统管理员给相关人员分配相应的管理权限。具体 实现上系统将提
18、供所有角色或用户信息列表、所有的功能界面列表、 每个功能界面上所有的资源操作类型列表,只要对角色或用户权限范 围内的业务信息及操作权限进行打勾选择即可,配置灵活。访问权限管理釆用口令认证手段支持身份认证系统。系统对登录用户的密码以加密形式保存,对多次(比如三次)尝 试登录失败的用户进行封锁,并记入系统日志。7. 1.1. 3.2系统日志管理记录所有登录人员访问系统的关键操作信息以及系统更新信息 等,如增加、修改、删除记录以及系统更新时间、更新人、更新版本 等。并提供按人员、功能操作、时间等多种条件的系统日志查询,支 持对重大安全事件(如数据修改)的追踪和回溯。 秀万察6.2.环保平台并行计算环
19、境层设计并行计算环境层提供海量存储与大规模计算资源,由极融并行计 算系统与建立在并行计算系统之上的数据仓库组成。7.3.1数据仓库设计生态环境数据中心的主体是生态环境数据仓库,数据仓库以主题的方式建立。生态环境大数据中心,底层依托可扩展的大数据存储平台,能够支撑省级乃至国家级大规模的生态环境数据。 S 方累生态环境数据中心根据数据采集后的数据,根据排放因子等进行 计算,形成温室气体排放数据库。并根据不同的专题,形成各种分析 的专题数据库。7. 3.2并行计算系统7. 3. 2.1极融并行计算系统特性与优势极融并行计算系统的主要设计思想是软件定义一切,高度的抽象 化;所有的资源均虚拟化以提髙自动
20、化管理能力及容错能力。极融并 行计算系统主要特性如下:1.领先的并行计算架构,使用分布式的元数据管理模型,元数 据分散在集群中,这种架构使得整个存储系统没有单点故障。2.远程内存直接访问(RDMA)技术的深度运用,从本质上改变 平台的使用场景,平台开发者可以如同使用一台超级计算机 一样,在一个开发平面上开发与运行自已的业务系统。3.真正的近线性扩展能力,在从三个节点扩展到上万个节点的 过程中,不需要考虑元数据迁移和扩展问题。4.本地化I/O,在平台中,由于计算资源的虚拟化,会尽量移 动计算到数据所在的节点,而不是移动数据自身,因而大部 分的数据不需要跨越网络读写。5.高度的自我修复能力,当集群
21、中某个节点出现故障时,数据 会自动迁移至完好节点中。6.高度数据安全,所有存放在平台中的数据均有2个以上的副 本,同时也在更低层次提供多种数据安全保障。7.全方位多视角的运行时监控,平台置于运行保障系统的多维 度监控下,能实时报警,并能自动修复一部分常见故障。8.软件定义网络(SDN),网络吞吐能力不再是固定的,而是依据需要进行动态的扩张。 秀方案7. 3. 2. 2极融并行计算系统概述极融并行计算系统的设计目标旨在把大批量普通的、不可靠的、 廉价的服务器组织起来,向外提供海量的、无差别的、高可用的数据 处理服务。从外部的角度看,InfinityFusion如同一个巨大的,有 序的,可伸缩的存
22、储池,同时也具备大规模的抽象化计算能力,如下 图所示。【用户眼中的InfinityFUSiOnl因而,InfinityFusion从宏观角度上来说分成两部分,一部分 是把硬件资源组织起来,另一部分把资源抽象化后,组织成标准的服 务接口。从外部的角度看,InfinityRision的运行实体是一个存储 集群,一个集群是一个整体的存储单位,不管集群由多少台物理计算 机组成。7. 2. 2. 1集群层次极融并行计算系统从逻辑功能的角度看,包括:由统一存储服务 提供层、集群管理层、存储层、ChUnk层、资源层。集群构成分层如 下图所示: ,匕秀万案大数据分析技术平台【集群层次图】统一存储服务提供层提供
23、用户交互界面;集群管理层调用存储层 接口为服务提供层提供管理接口,同时负责节点的角色定位;存储层 把ChUnk层提供的服务转化成数据存放接口 ; ChUnk层直接与资源层 交互,向上层提供定长存储区,向下通过本地文件系统读写硬盘;资 源层在这里指的是所有的集群内的硬盘。以上各层唯有统一存储服务 提供层可以单独存在一台服务器上,其它均分布在整个集群范围内。 另外,并不是所有的分层都要通过上一层的调用才能被使用,存储层 在运行时直接与客户端交互。7. 2. 2. 2数据安全真实存放在集群中的数据最终会存放于chunk所指向的物理数据 块中,ChUnk有多个副本,多个副本中数据是一致的,从而保证存放
24、 数据的安全;InfinityFUSiOn尊守顺序一致性(SeqUentiaI ConSiStenCy)以保证副本间的数据一致性。Chunk副本位置选择是 为了实现两大目标:最大化数据可靠性和可用性,最大化网络带宽利 用率;对于任意副本的读写,只要满足顺序一致性要求,其结果是一 致的。7. 2. 2. 3元数据元数据是集群范围里的概念,是全局的,每个集群有且C評釜 完整的元数据;如同向外部声明自身所拥有的资源的整体情况,外部 无需考虑具体的物理细节;对内则详细记录object和ChUnk的命名 空间、ObjeCt和ChUnk的对应关系、每个ChUnk副本的存放地点等。 其中承载元数据内容的重要
25、数据表有:mot表,ChUnk表两个,它们 在运行时在内存中形成树状关系;元数据均匀地分布在整个集群所有 物理节点中。6.3.数据接口系统数据接口系统的功能是:把各种内外部数据导入到平台内,并进 行清洗后,内含一个数据引擎把数据进行初步整合后,分类存入平台 数据仓库里。同时结果数据也从数据接口系统向外输出数据。数据来源有:监测数据采集、历史数据导入、第三方数据采集、 互联网弹性搜索、市民微信上传接口五种方式。其中第三方数据采集面向多个行业,其中污染源数据接入主要从 能源消费和非能源消费2个角度出发,将城市生态环境源分成工业能 源、交通能源、居民生活能源、商业能源、工业过程和废物等6个单除了历史
26、数据通过离线方式导入外,其它数据需要实时采集,数 据实时采集:1.通过环保部门内置网络采集生态环境信息。2.通过气象部门采集全省及部分东部省份信息。3 .重点工业企业用电数据、用煤数据。数据通过电力二荻襯务公司等实时采集数据。通过行业管理部门、统计局收集综合数据。4.城市交通能源的数据采集,从中石油,中石化实时采集能源 消耗数据。5.居民生活能源数据,可以从煤气公司、液化气公司、电力公司 实时采集数据。6.商业能源数据,从电力公司、热力公司实时采集数据。7.工业过程数据,从重点基础企业进行数据采集。7.4.1数据接入引擎:数据接入引擎,高效快诔适配各行业企业数据源,实时、稳定的数据接入6.4.
27、运行保障子系统设计运行保障子系统的特点为采用源于数据库的应用通信协议,动态扩展被监控对象,能动态增加通信协议,而无须重新更改运台代码在分布式软件体系中,各个模块通信方式不同,系统规模体 系统与规模随着使用时间的推移不断发生变化,很难在系统设计之初 定义各个模块之间的通信协义;这要求我们把通信协义的定义分布到 系统的整个生命周期之中,也就是说协义是随时可以”热添加”的, 后续添加的协义不影响已运行协义;这就要求我们定义的协议是抽象 的,协议的具体化由数据源(如存放在数据库的数据)来细化运行保障子系统的另一个特点是多视角多维度的展示系统运行 状态。例如硬件设备供应商只看硬件设备运行状态,应用软件开
28、发商 只关注自身软件系统的运行状态,而云计算管理软件只关注各个虚拟 机的运行状态;他们可以从各自的角度出发,从运行保障子系统中查 看相关数据并做出处理动作.7.5.1运行保障子系统应用场景在分布式体系中,参与众多,且时常变动,参与者切入系统的角 度不同;这种体系规模比较大且在运行中不断地动态扩展或缩减;整 个体系的责任团队需要从多个视角,多个层次把所有的参与要素的运 行状态集中到统一界面中进行监视与管控通常由作为基础软硬件 设施服务商或集成商为责任团队提供这个功能.这就是运行保障子系 统应用场景.从具体项目的角度看,需要运行保障子系统的有:云计 算,各种大型功能中心(如移动通信短信中心,IlO指挥中心等),各 种大型平台(如医保平台)等;简单的应用软件不适合,规模很小的7
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1