大数据技术重构数据仓库应用架构x.pptx

上传人:b****9 文档编号:1016723 上传时间:2022-10-15 格式:PPTX 页数:33 大小:10.03MB
下载 相关 举报
大数据技术重构数据仓库应用架构x.pptx_第1页
第1页 / 共33页
大数据技术重构数据仓库应用架构x.pptx_第2页
第2页 / 共33页
大数据技术重构数据仓库应用架构x.pptx_第3页
第3页 / 共33页
大数据技术重构数据仓库应用架构x.pptx_第4页
第4页 / 共33页
大数据技术重构数据仓库应用架构x.pptx_第5页
第5页 / 共33页
点击查看更多>>
下载资源
资源描述

大数据技术重构数据仓库应用架构x.pptx

《大数据技术重构数据仓库应用架构x.pptx》由会员分享,可在线阅读,更多相关《大数据技术重构数据仓库应用架构x.pptx(33页珍藏版)》请在冰豆网上搜索。

大数据技术重构数据仓库应用架构x.pptx

,大数据技术重构数据仓库应用架构,目录,平台建设背景数仓应用体系建设风控领域创新应用取得成果与未来展望,烟囱式应用现状存在的问题,应用野蛮生长数仓地位尴尬,01,硬件资源分散,峰值服务能力和大数,据量处理能力受限,04,数据治理目标难实,现:

企业数据模型、,数据标准统计口径,03,跨应用数据共享困难,大量的数据冗余,02,大数据技术助力构建大规模数据处理平台,1,高性价比,1.相同计算与容错能力,基础环境软硬件成本只需原来的,1/3-1/5,大幅降低项目预算2.分布式并行计算技术解决传统数据库架构海量数据的加工能力难题,2,弹性伸缩,1.构建大规模计算与存储资源池,用个平台承载以数据仓库,为核心的大部分数据应用;SSD介质加速随机读写速度,2.在线横向扩容,实现资源弹性分配与隔离,快速满足应用需求,变化,3,开放便利,1.开源技术促进平台快速升级迭代,提升核心技术自主,掌控能力2.整合存储、加工、实时流处理、机器学,习等多样化能力,降低集成难度,基础数据平台技术选型,性能优异兼顾大数据批量处理和小样本数据精确查询统计的性能需优化的数据存储与访问技术,支持索引、分区、行列混合存储尽量避免GC引发的性能抖动,避免大数据量广播计算资源有效管控,容易开发1.支持SQL2003标准和存储过程,原有应用迁移成本低,2.编程接口与开源主流兼容,支持ODBC/JDBC标准接口,运维简单,高度容错,无单点故障完善的运维监控管理,开放的监控输出接口,3.支持在线弹性扩容,支持到位,厂商掌握核心技术有经验的运维支持团队晌应及时的产品开放团队,24.11.2015,构建统的数据管理平台释放软件开发生产力,构建统的数据管理平台释放软件开发生产力,强化数据仓库核心地位,促进数据应用开放协同,统规划企业信息模型,从全局视角规划设计,整合提炼多应用共性需求,构建公共数据模型层,01,应用轻装上阵削减基础数据加工任务,应用数据集市瘦身,共享融合的企业级信息视图,03,份数据,直接共享统调度,集中授权,直接访问,统计口径致,实现数据标准化目标,02,数据服务专业化聚焦专业领域数据价值提炼,开放专业数据视图与应用服务,04,拓展数据仓库新能力,业务数据开放能力开放高时效性的业务主题应用集市,提供自主数据探索与业务建模的可视化工具,多样化数据整合能力内外部结构化与非结构化数据的整合加工与共享,构建更全面的客户信息视图,准实时数据应用能力全渠道数据实时整合,实现客户营销、风险管理、业务分析等领域的实时智能应用,技术平台规划,海量数据实时智能,A数据管理平台,B,应用服务平台,D高性能计算平台,C数据探索平台,海量数据高效采集、存储、加工数据标准化治理、数据生命期管理多租户数据服务资源管理,高并发低延迟的微服务架构大数据技术集成,业务数据可视化交互式数据分析图形化的挖掘建模工具,CPU/GPU混合并行计算架构并行挖掘算法和深度学习框架并行处理语言、实时流与图计算,构建企业级数据应用能力,决策支持,数据探索与业务预测,统计分析,数据存储与联机查询,自主学习,无监督深度学习自适应进化演算,产品差异化定价,业务数据探索模型测试验证,即席业务统计报表,生产数据实时与T+1复制作业数据直接存储,事件触发式自动推理引擎自然语言理解与虚拟机器人,区域行业规划,业务趋势预测客户行为预测,客户细分统计分析,支持历史数据在线查询,离线批处理,准实时,实时,目录,平台建设背景数仓应用体系建设风控领域创新应用取得成果与未来展望,数仓基础应用架构,非结构化数据接入,非结构数据台区社交媒体信息第三方数据,.,统一调度数平据台运维体大系数据,数接据,数,据存,储,公共数据模型层CDM,源数据基础数历史层据模型,HDM层FDM,源数据基础数历史层据模型,HDM层F源DM数据缓冲区ODM/结构化数据接入文件交换区FSA,数据集市数据服务,客户关系管理集市,综合监管集市,数据分析集市历史数据服务接口历史数据平,审计、反洗钱等其他数据服务接口DSI在线数据平台公共数据模型层CDM,数据应用总体技术架构,Sign,微服务Akka,Skyline大数据应用服务平台,互联网数据采集与文本分析平台,数据挖掘工具Discover/Midas,可视化报表工具Tableau,数据库基础工具Waterdrop,公共实时智能知识图谱与技术决策引擎认知计算平台,FarMfaQra-Kwaafyk,abehindthew缓o存rdRmeoduisntains,farfromthe服c务ountriesVokaliaandConsonantia,therelivetheblind,texts.SeparatedtheyliveinBookmarksgroveright组at件thecoastofthe大Se数m据an实tic时s,流a处lar理ge平la台nguageo非ce结an构.化数据服务平台,数据库工具,分行数据集市,各应用集市部门分析集市,Spark,企业级数据模型/公共数据模型,贴源层数据集市,应用服务技术平台,数据仓库,Hadoop+SparkTDH数据库,内存数据库Voltdb,半结构化数据库SDB,数据库平台,应用系统,关联应用系统,数据应用服务,ESB,手机银行,微信,网银,信贷评审,贷后管理,柜面系统,智能顾投服务,客户营销服务,家庭金融服务,信贷平台风险预警服务,实时反欺诈,非结构化数据应用服务,CRM系统,财富管理系统,家庭金融,精准营销平台,统一绩效考核平台,客户生命周期管理系统,业务发展规划台,大数据资讯平台,全面风险预警,运营风险监测系统,“恒丰足迹”,公共数据模型层设计,数据的准确性数据具有可逆性,能够真实地反映原始数据的面貌数据具有可回溯性,能够准确地反映历史数据清况,模型的稳定性、可扩展性结构上应该是稳定的、灵活的、可扩展的足够的灵活性才能适应复杂业务清况以及业务的变化高抽象化的模型能便于扩展,模型的可用性便于最终用户理解统的规范、规则定义、业务语言层次、关系清晰数据无二义性文档完备,采用维度建模为主面向主题覆盖银行分析决策的各个方面满足维度模型的高效性和易理解性,数据的整合性SingleSource,SingleView数据共享平台为各种分析应用提供单的、整合的数据来源统的数据定义标准和编码规则,数据的完整性性能涵盖银行现有的业务范畴以及数据范围重要实体、重要关系、重要分析维度属性均保持完整,模模型型设设计计原原则则,公共数据模型主题成果,产品,协议,银行,客户,客户信息,财务,绩效,汇总层,明细层交易,指标层,财务绩效,资产,主要是科目总账和统计科目信息,主要是银行持有资产和押品信息,交易,主要是交易、传票以及特定业务、渠道的交易,产品,协议,主要是通用产品信息以及特定产品信息,主要是容器账户、结算账户、授信业务和国结业务,客户信息,主要是客户基本信息、客户关联信息和客户分类信息,实施过程遇到的问题与对策,技术支持工具,问题:

跨集群数据自动复制,系统监控、SQL性能分析诊断等技术工具尚不完善。

对策:

与平台厂商合作,自开发技术工具,作为补充,避免复杂的SQL编写问题:

编译器难以判断嵌套SQL在每个节点上的初始结果集是否可以驻留直接使用,结果往往需要汇聚后,再广播给每个节点,增加大量的网络IO成本对策:

尽可能把过滤条件放到嵌套SQL内部执行,减少中间结果集大小,降低数据广播带来的处理延迟,跨节点的数据网络传输带来的IO成本问题:

IO成为性能瓶颈对策:

客户号存在并作为分片键,并且在表关联,操作中将客户号相等的计算条件作为必要条件;,元数据表尽可能设计为复制表;避免在分片键上出现空值,导致数据分在过度倾示,分布式计算任务带来的调度协调成本,问题:

看似较小成本的SQL实际执行成本(时间)比传统数据库要高很多,对策:

包括规避存储过程内游标使用,尽可能用聚,合成复合SQL语句或拆分成若干批量数据更新处理步骤,基础数据平台技术优化工作,数据权限管理多分支机构行级权限管控列级权限,用户级数据脱敏定义,服务质量管控1.任务级资源管控避免不良设计影晌整体性能2.SQL执行成本、执行时间、排队时间等多维质量管控策略,实时监控预警针对实例和组件不同层级的实时监控搭建实时采集组件可用性、资源占用情况、任务排队数、平台事件等信息配置智能告警规则,数据权限管控,实时获取数据,缩短数据获取路径,分行数据集市,数据权限划分,行级权限空制,歹级权限空制,公共数据模型,行级权限行级权限实现数据的行级授权,分行用户只能查询该分行数据基础模型统口径加工歹级权限歹级权限实现数据脱敏,针对不同用户设定不同的查询结果,集群灾备以及数据同步,在线数据平台在线跑批集群数据集市对接业务系统提供数据服务,灾备历史数据平台,历史数据平台,1.历史数据备份,2.提供历史数据服务,灾备在线数据平台灾备在线集群可做灾备切换,灾备历史集群可做历史集群切换,同步,同步,同步,数据同步,集群间日常增量同步针对ORC类型表,从在线数据平台每日获取增量数据,同步到其他三套数据平台针对Hbase表类型,使用Hbase表同步功能进行准实时同步,集群间全表同步,集群间区间同步,1.从在线数据同步获取需同步区间的增量数据,同步到其他三套数据平台,针对ORC类型表,从在线数据平台获取表结构及全表数据,同步到其他三套数据平台,并保留历史平台的授权情况针对Hbase表类型,使用Hbase表同步功能进行整表数据同步,技术实施关键点,01,02,04,性能优化设计建立性能设计规范始千开发阶段的性能监控分布式数据平台与传统数据平台性能问题的异同点,应用项目管理数据模型设计管控资源按需弹性分配批处理任务集中调度,知识传递细分主题多波次培训成立技术兴趣小组技术反模式案例总结,03,数据质量管控自动化数据质量检核构建加工路径上多个系统相对独立的数据质量防火墙,目录,平台建设背景数仓应用体系建设风控领域创新应用取得成果与未来展望,思路-风险管理的两种思考体系,需要准确财报数据才能判断企业经营状况选取合适的变量和模型,通过对历史数据的拟合验证,可以预测客户是否将出现信用违约评审与贷后环节对人的判断能力非常依赖外部环境复杂多变,系统性风险难以防范,1.大部分客户财报数据不准确,是否能从公开信息变化辅助判断客,户经营是否正常,2.信用违约的原因很复杂,没有足够多数据支撑模型精准预测,但多个关联信息可以推测违约概率是否在变大,多个环节引入并更多的客观数据可减少人为判断风险可以建立数字化监控体系来对系统性风险感知预警,风险管理应用规划,大数据风控,业务规划平台,移动信贞应用,交易反欺诈系统,全面的信用风险预警服务:

1、多维风险视图提升决策效率2、知识图谱技术分析风险传导,提升风险感知能力3、智能决策引擎汇聚专家智慧,降低人员要求4、信用欺诈检测有效防范道德风险,客户交易风险管理:

1、流处理技术实现实时欺诈风险识别2、自主学习和优化的反欺诈模型3、识别和阻断事中风险,业务协作、风控前置:

1、便捷采集申请信息,提升流程效率2、自动交叉验证外部数据3、减少人为判断,规避人员道德风险,行业数字地图:

1、自动遴选、组织数据,提升规划效能2、量化分析提升授信决策效率,3、感知行业趋势变化,敏捷应对系统性风险,风险管理全生命期系统支持,业务规划,客户引入,业务办理,客户存续,风险预警系统-业务能力规划,基础数据支撑服务,统一联机接口服务,统一风险防控规则配置服务,综合风险分析、决策支持,分区域行业宏观分析,客户风险综合分析,风险事件跟踪分析,历史信息趋势分析,风险演变分析,风险预测及其跟踪验证分析,数据价值挖掘群体信用违约预测模型,要解决的问题识别股权、交易、担保网络的系统性风险规避循环担保、过度授信星化企业违

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 农林牧渔 > 林学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1