大数据治理平台建设与应用解决方案.pptx
《大数据治理平台建设与应用解决方案.pptx》由会员分享,可在线阅读,更多相关《大数据治理平台建设与应用解决方案.pptx(41页珍藏版)》请在冰豆网上搜索。
大数据治理平台建设与应用解决方案目录大数据治理平台背景大数据治理平台应用场景分析大数据治理平台建设方案大数据时代到来,我们已被海量数据信息包围刑侦信息舆情信息监测数据用户信息风险信息管理数据数据广告数据舆情数据搜索数据研发数据社交数据第三方数据电信持有大量用户数据,对数据资产的售出,将成为行业的新增长点。
金融各行业的金融信息流可结合第三方数据,更深入分析客户情况。
制造从传统制造到互联网+的转型,大数据是核心动力政府大数据已经成为国家战略,政府机构大数据将能够更好的治理社会电力大数据资产已经成为电力行业的关注重点,利用大数据在生产,营销,物资等多方面提高效率现阶段我们已经应用了很多大数据技术n大数据存储应用广泛,具备大数据必备因素现阶段大数据技术Hive、Spark、Storm、Hbase已使用广泛,解决了大数据存储问题。
nETL工具、FLUME组件负责大数据交换问题大数据存储数据的传输问题也有大数据组件解决,如Flume,主流ETL工具等。
n数据BI、数据挖掘通过数据BI软件、数据分析挖掘通过大数据平台的相关组件也可以进行相关分析。
实施了大数据项目,所采用的技术众多SparkHiveStorm流处理HBase列存储数据挖掘BI分析模型算法现阶段已经有了众多的大数据技术团队产品提供商数据分析厂商n数据产品厂商,缺乏场景使用经验数据平台厂商与数据应用厂商往往不是一家,平台厂商缺乏数据应用建设经验。
我们还需要哪些数据建设厂商?
数据提供商平台提供商解决方案提供商业务算法提供商n数据应用厂商不能理解平台内数据业务含义具有涉密数据开发资质的厂商有限,但并不了解大数据平台内部数据的含义。
n各厂商之间交换的数据质量得不到保证大数据建设项目被分为数据平台、应用、业务等多个独立项目和厂商,之间的衔接部分没有人管理,造成数据质量差。
众多数据建设厂商,还缺哪个?
能否有效的解决大数据快速、透明化的使用大数据平台没有创新需求点数据使用者无法理解数据模型平台建设厂商不懂数据拿到的使用数据根本没法用业务需求业务需求集中响应众多大数据厂商难以协调厂商管理之间的空隙没填补数据质量问题来回推诿管理需求需要专业的大数据管理团队大文件数据传输慢大数据量实时传输没有解决方案没有统一的技术管理平台跨平台数据问题无法追述技术需求需要全面支撑的落地平台目录大数据治理平台背景大数据治理平台应用场景分析大数据治理平台建设方案大数据平台化的发展趋势与现状数据源存储层访问层数据应用数据应用数据应用厂商X厂商Y厂商Z应用百花齐放传统的应用按照业务建设,一个厂商需要负责数据采集、存储、数据应用等全部过程;大数据时代,技术更加专注和专业,系统建设趋势是采用横向切分模式。
数据中心集中建设需要解决“应用和平台分离”建设模式带来的新问题。
厂商X:
只了解业务系统特性,对于大数据平台需求平台产品特性不清楚。
厂商Y:
我只是提供数据存储平台,不了解业务建设需求。
厂商Z:
我只是提供数据共享平台,厂商X的数据特性平台无法支持,产品不能动。
应用:
我有数据分析经验,但是我拿不到高质量的数据。
目前拿到的数据不能用。
大数据项目实施中遇到的哪些问题?
电信政府个人电商数据管理数据源基础数据区专题数据区大数据平台建设厂商1大数据平台数据服务数据应用厂商2数据服务BI分析3质量监控数据接入管理不规范:
数据模型管理缺乏规范化体系,大数据平台内数据的技术、业务属性不清晰,没有完善的数据模型管理体系与规范。
数据挖掘数据使用使用不明确:
由于数据业务特性与使用方法不统一,难以对结构化数据、半结构化、非结构化数据的快速集成和共享。
监控不到位:
在实际数据运行中,会出现数据信息发生中断异常或数据量发生突然变化等数据异常监控。
无法通过传统的监控手段及时发现。
管理使用监控批量导入实时同步场景一:
建好数据管理体系,快速识别数据大数据平台数据分析数据挖掘数据接口数据使用元数据数据如何快速识别数据?
如何自动化管理?
如何快速找到样例数据?
我的数据都在哪里?
数据的业务特点是?
我该找谁要数据?
建议:
1.自动化获取元数据信息通过自动化采集与解析手段,建立技术、业务、过程元数据的注册输入,标明数据方位。
2.标明数据方位,整理业务属性将数据资产按业务属性编目,梳理数据的属性、共享方式、特性、映射。
3:
建立业务数据服务目录以数据资产为驱动方式,实现数据集成和共享。
建立数据服务目录。
数据资产模型元元模型元模型场景二:
建立专业的数据共享通道,高效使用数据大数据资源空间资源实例数据模型数据资产服务数据资源模型数据资源服务内存数据服务数据库服务资源服务内存数据模型CRUDCRUD资源获取资源同步元数据库批量数据交换?
我需要秒级更新数据?
数据太大无法传?
建议:
1.梳理数据交换需求梳理数据集成、交换需求。
按技术特征划分为实时、准实时、批量等。
2.数据资产与服务对接基于数据资产的数据开发,实现资产与数据服务的对接。
通过服务目录直接获取所需数据。
批量实时场景三:
提供专业的数据监控体系,快速发现问题。
数据源头监控针对调度监控和数据源相关监控过程中的数据进行整合形成数据源头调度监控的分析报表。
数据波动监控数据抖动监控是指通过对数据记录数的监控,在一段时间周期内,通过折线图的方式可以查询一段时间内数据的峰值和低谷。
及时性监控数据文件及时性监控是指通过对要采集到大数据平台的内部或外部文件进行存在性和按时到达性的监控手段。
一致性监控数据一致性监控是对采集时的数据记录条数和入库的数据条数进行一致性比对,对不一致的数据采集作业进行标记的一种监控。
202530354045每日数据变化量检测日使用流量(MB)6月7月数据不一致怎么办?
数据量异常波动?
数据源变更怎么办?
建议:
1.明确重要监控指标梳理数据平台、MPP、Hadoop平台的重要数据监控指标与监控需求。
2.建立多渠道监控方式对接数据监控平台,以以邮件、短信等通知方式告警。
我们需要什么样的大数据治理平台?
n可以灵活扩展支撑业务变化,保证业务数据保质量、标准化基于模型的数据获取数据,基于数据模型管理,可以让技术与业务人员通过平台可以迅速找到对应的数据资源。
n数据获取方式灵活多样,可支持配置化数据订阅管理支持灵活的数据订阅方式,以支推,拉的数据订阅数据与服务接口对接。
可以快速的获取到想要的数据活文件。
n支持多种数据预警机制,随时发现数据任务执行过程中所遇到的问题支持执行任务的全过程监控,执行数量监控,数据波动、数据到达预警监控等,并支持多种信息通知方式,如短信、邮件等。
基于数据模型管理提供数据监控预警机制可对接多种数据源支持多种数据获取方式n支持现有主流的大数据技术平台的对接可对接现有的大数据Hive,Spark,Strom流数据等主流的数据结构,分为实时数据和批量数据的对接方式。
目录大数据治理平台背景大数据治理平台应用场景分析大数据治理平台建设方案大数据平台的核心价值转变管理思路管理职责管理组织自己应用方便别人提供数据服务数据管理数据开发数据应用专业的服务团队业务开发运维全栈能力团队通过大数据治理,提供数据服务,从管理中心转变为服务中心通过大数据治理,变现数据价值,从成本中心转变为利润中心传统数据管理创新数据管理大数据治理平台的定位采集数据传感器数据社交媒体IT/OT图像视频三方数据信用数据通信数据网络数据客户数据大数据非结构化数据非/结构化数据实时流数据数据发布交易运营生产分析交易运营生产分析业务创新业务创新业务创新业务创新交易运营财务人力数据数据数据数据大数据治理平台治理数据用大数据治理连接大数据与业务创新服务服务数据开发大数据治理平台的架构特征传统大数据平台框架大数据平台分析展现应用数据源大数据治理平台数据服务总线大数据平台需求规范以数据存储、处理为核心的传统数据管理平台过度到大数据治理平台数据应用数据开发平台数据监控平台数据资产平台1大数据治理平台传统大数据平台234企业中哪些角色会直接使用到大数据治理平台业务运营人员业务系统开发人员大数据中心管理者大数据中心开发者业务运营人员是企业各业务部门一线的业务人员,拥有大量的数据使用的需求。
但通常并不了解大数据中心的数据能力与企业内部其他部门的数据情况。
业务所属部门的系统开发人员,主要提供所负责业务系统功能开发与业务创新的IT实现。
但往往不清楚大数据中心数据的特性。
往往把业务人员提出的需求交给数据中心实现。
大数据中心的管理员,负责大数据中心的运营与管理。
负责采集与各业务系统的数据,接收各业务系统的提出的数据业务需求。
并负责给数据消费者提供必要的大数据支撑。
大数据中心的开发人员,负责大数据中心的数据ETL加工,并数据管理中心批准的数据需求进行开发。
通常需要面对各业务部门的需求,难以了解业务部门的数据特点。
大数据治理平台的数据使用流程业务运营人员1.提出数据需求业务系统开发人员2.查找数据5.确认数据需求大数据治理平台3.返回数据4、7.交付数据大数据中心管理者大数据中心数据中心开发人员6.返回数据80%数据使用需求20%需开发数据需求交易运营生产分析数据消费方数据提供方大数据治理平台总体功能架构图关系数据库对接数据资产平台数据监控平台日志监控性能监控主机告警安全管理需求/流程服务标准与流程数据使用流程元数据规范数据申请规范数据质量规范服务共享规范数据管理流程等标准管理流程应用治理规范数据服务总线标准检查数据地图版本管理流向分析质量检查资产编辑数据使用分析应用调度管理服务管理路由管理文本数据对接流数据对接内存数据对接波动监控数据开发平台模型设计接口应用资产采集适配器资产维护编目资产使用运营管理调用管理审计管理模型开发过程开发服务开发目录管理策略管理接口开发模型管理资源查询服务规范大数据治理平台总体技术架构图DBFIleStream业务数据RPC调用ETL调度监控大数据平台专题库分析模型数据模型服务发布服务服务监控服务安全数据服务总线服务分类服务注册服务订阅服务查询数据订阅数据分发服务目录库存储模型组件转换模型组件文件模型组件数据开发数据接口应用数据分析应用业务分析应用数据加工应用数据预测应用资源层开发层数据共享/发布层数据应用层BFTHiveSparkESB采集组件解析组件加工组件大数据治理平台架构-数据资产平台功能架构图数据资产采集采集调度管理采集适配器管理数据资产使用数据资产关系维护数据资产管理/编目数据资产维护采集模板管理数据资产数据源管理采集任务管理采集模板映射管理采集日志管理数据资产分析数据资产权限数据资产访问资产变更服务资产分析服务数据资产检索数据资产统计影响分析血统分析资产订阅资产使用情况数据资产地图全链路分析编目管理打标签数据资产认责管理数据资产质量管理应用企业全局数据资产升级影响数据问题定位辅助开发元模型管理元模型关系维护元模型设计器元模型设计器元模型设计执行元模型反向生成图形模型框架元模型版本管理数据资产模型设计Excel采集Hive采集DB采集视图管理版本管理状态管理大数据治理平台架构-数据资产平台逻辑架构图DB文件接口数据资产接口服务数据资产管理数据资产分析统计数据资产存储元模型管理数据资产采集资产存储数据开发数据监控数据应用大数据治理平台架构-数据资产平台关键技术与特性多类型企业数据源数据资产采集解析算法采集调度入库策略采集解析模型组装数据入库数据采集适配技术采集适配业务采集适配数据模型技术模型业务模型数据资产存储TDDB2Oracle数据资产存储数据资产元模型存储采集配置存储2、可插拔的采集适配器,支持数据资产管理的无限扩充1、解析、组装、入库过程分离,实现数据资产采集和存储解耦3、采用MOF模型规范实现数据资产扩展存储数据资产平台给客户带来的价值建立统一的第三方数据审核机制,不依附于某个业务单元的数据特性,对数据资产重新定位;基于系统运行态环境的元数据采集,真正做到以系统落地环境为基础的数据资产梳理;建立统一的数据模型视图,为业务管理人员方便的获取到数据提供先决条件;基于MOF可扩展模型,对业务模型扩展无需改动代码,节省团队管理成本;快速辅助定位问题,出现数据问题可辅助定位与分析问题的根源,迅速响应业务需求;数据资产平台权威落地统一扩展分析大数据治理平台架构-数据开发平台功能架构图批量资源导入基本信息维护资源关系管理资源展示配置资源目录管理编目管理在线数据维护模型检索资源检索基础查询维度查询人员管理权限管理角色管理条件查询策略定义策略管理策略开发自定义开发模型设计模型管理交换模型开发交换作业开发加密策略交换策略关系维护配置管理交换作业开发交换组件管理脱敏策略监控策略策略开发数据开发数据资源管理存储模型开发数据交换开发策略配置数据资源探查系统管理模型设计模型管理关系维护存储开发文件交换开发服务接口开发服务接口配置应用组件配置组件管理服务接口开发策略管理资源探查大数据治理平台架构-数据开发平台逻辑架构图数据资产数据开发层数据共享层批量数据HadoopMPPFile策略管理数据模型开发数据开放门户资源发布开发者门户运营者门户数据交换作业开发文件交换作业开发数据资源管理数据服务目录数据库文件数据接口使用者门户数据资产管理数据资源目录资源探查大数据治理平台架构-数据开发平台技术与特性大数据模型数据服务层结构描述约束结构描述约束关系资源模型服务资源池服务资源池服务服务服务服务接口目录接口应用服务服务服务服务数据开发1、以数据服务目录为基础的目录提供形式,快速找到所需数据。
2、数据开发层,以数据资产、模型为基础的资源开发。
将模型开发与数据发布共享剥离。
数据开发平台给客户带来的价值提供图形化的开发界面,颠覆以往的数据只能写SQL代码的情况。
直观并可提升开发效率;复用结构化的组件,利于知识积累与复用。
避免人员变动带来的无形中的学习成本;针对业务特性对现有的数据资产进行编目开发,让数据使用者直观理解数据的含义;以数据资产模型为驱动力,实现数据集成与共享的服务创新开发模式;让项目中的各数据实施厂商都使用统一的数据开发方式,避免技术实现不同所带来的壁垒;数据开发平台提升复用易懂创新统一大数据治理平台架构-数据服务总线功能架构图服务资源目录中心数据服务总线总线监控中心节点管理服务管理节点注册服务信息的全网同步节点审批服务注册服务审批扩展管理分类管理发布管理服务检索服务维护服务管理服务调度调度管理资源扩展路由管理路由服务路由规则数据交换消息交换文件交换服务调用鉴权管理资源查询流交换断点续传重发处理优先级访问控制服务编排缓存管理节点监控启动管理停止管理异常管理服务审计传输监控质量管理统计及上报服务监控启动管理停止管理异常管理数据服务总线基础服务组织机构管理用户管理角色管理日志管理流控管理元数据管理服务视图系统安全标准规范大数据治理平台架构-数据服务总线逻辑架构图文件服务开发接口服务开发数据消费者接入认证接入路由服务路由配额管理接口服务文件服务流媒体服务数据共享层数据传输引擎统计引擎数据服务处理引擎数据开发层数据/文件订阅接口运行监控引擎元数据管理数据采集管理数据资产资产运营管理数据服务注册管理大数据治理平台架构-数据服务总线关键技术与特性标点数据服务总线重点解决高性能和高可用性能力p单Server处理能力:
采用SEDA架构、轻量级部署架构(直接部署JVM之上)、异步Servlet接入等技术p分布式横向扩展能力:
采用灵活的集群部署模式、配置热更新、资源统一监控超量请求资源配额请求积压基于队列有策略丢弃外部不稳定异步通知异步多线程模型-SEDA特点逻辑分段段之间基于队列通信资源分配ESB实例2ESB实例3ESB实例4ESB实例5硬件C硬件DESB管理服务器ESB实例1ESB实例n硬件A硬件B通过控制台对多个ESBServer进行统一管理跨机器、跨JVM部署配置更新、统一监控单实例处理能力分布式扩展能力数据服务总线带来的价值多渠道的数据共享方式,包括数据接口,文件,数据库等,保证业务实现的可行性;提示实时的数据解决方案,支持流数据传传输方式,保证业务数据的及时性;对于海量数据与音视频文件,提供快速的大文件传输机制,快速获得大数据;全方位的数据流量统计方式,让数据的获取与使用更加的透明化;数据的集成与共享,提供数据加密、数据脱敏等配置策略,保证数据的安全性;数据服务总线渠道快速海量统计安全大数据治理平台架构-数据监控平台功能架构图导入导出资源操作日志用户权限管理数据文件及时性监控数据文件完整性监控数据条数监控数据文件大小监控数据源连通性监控服务运行情况监控服务访问情况监控服务依赖关系监控数据抖动监控数据源管理ETL服务器配置邮件服务器配置调度服务器配置代理服务器配置数据一致性监控作业异常监控监控规则及方法专题库质量监控执行源数据质量监控执行文件元模型监控数据库元模型监控接口模型监控元数据变更影响范围监控前台告警短信告警邮件告警元数据监控分析报表数据质量监控分析报表数据传输监控报表数据服务监控分析报表数据传输调度监控统计分析质量监控数据标准落地监控数据服务监控告警提醒系统配置元数据监控大数据治理平台架构-数据监平台逻辑架构图数据服务总线政府数据城市数据内部数据数据资产人口数据.外部数据E(抽取)流处理数据开发T(转换,清洗)L(加载)离线数据采集实时数据采集大数据平台其他应用平台业务应用分析类应用人员类应用预测类应用挖掘类应用大数据平台治理七条监控线A专题库B专题库C专题库大数据治理平台架构-数据监控平台关键技术与特性数据采集监控是指对外部和内部的离线数据和实时数据进行采集记录数据层面的监控,如:
数据文件大小,数据文件记录数,数据文件增全量采集,采集频率等的监控及预警实现大数据平台中离线数据计算处理ETL执行的监控,如作业的启动情况,作业的执行情况,作业的依赖情况,作业的执行时效,作业状态,作业执行日志。
对数据质量进行统一闭环管理,覆盖数据质量的定义、监控、问题分析、整改和评估,推动质量问题的解决。
围绕数据质量管理,建立监控机制,如,及时性、完整性、准确性、有效性等监控及预警。
实现大数据平台数据到达情况监控和数据分发成功与否监控,数据到达是指采集的数据文件或DB数据是否按约定的时间节点准备就绪,对问题实现预警;数据分发是指大数据平台中的数据及时传递到目标端的监控。
数据服务总线服务监控管理,服务监控包括,服务运行情况,消费者访问情况,提供者提供情况,SLA满足程度,提供者与消费者之间的依赖关系,依赖分析,从而能确定哪个客户端在使用服务大数据平台中数据模型,与大数据交互数据源数据模型变更的监控,包括数据库表结构,数据文件结构,指标定义,数据标准规范的技术,业务,管理属性监控,数据字典的监控及预警。
实现数据标准的变更监控,数据标准的落地映射监控,在数据标准发生现在后调整的时候,能快速的定位变更的影响,也能知道哪些系统,哪些部门的哪个数据库表落地了数据标准规范。
数据质量监控数据采集监控线作业调度监控线数据传输监控线数据服务监控线元数据监控线标准执行监控线1276543数据监控平台给客户带来的价值监控用户的使用安全,通过邮件、短信等方式无需登录系统可发现数据问题;及时发现数据的波动、缺失等变化,在影响业务开展之前及时发现问题原因;以提高数据质量为目标,定期数据做质量检查,建立闭环质量管理机制;通过数据质量监控手段,自动化发现数据标准问题,提供数据标准落地检查机制;提供集中的数据监控平台,统一监控环境,无需在不同环境配置多套监控产品;数据监控平台便捷及时准确集中标准总结:
大数据的全生命周期闭环管理大数据治理数据保障管理共享开发使用资产管理开发利用共享协作运营分析普元大数据治理平台特色涉及数据全生命周期跨行业、经验丰富国内最权威的大数据治理厂商全体系全框架全过程全行业全自主全部平台自主研发顶层规划,平台建设,过程服务实践提炼稳定框架大数据治理平台实施的实践路线一阶段:
建立平台二阶段:
项目实施三阶段:
治理数据建立大数据运营平台建立大数据治理平台(数据基础监控,数据传输监控,数据管理监控,数据服务监控)根据数据治理平台的建立,以大数据平台为依托,实施数据治理项目,实现数据管理目的逐步推进项目实施数据管理,建议先实施元数据建立数据服务支撑体系,使数据管理实现为数据服务提供支撑的目的。
建立治理数据的一体化数据治理体系,实现全方位的数据管理,提升大数据平台数据质量。
平台验证项目实施全面提升THANKS