ImageVerifierCode 换一换
格式:PPTX , 页数:43 ,大小:5.84MB ,
资源ID:13000357      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/13000357.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(银行业大数据解决方案PPT文件格式下载.pptx)为本站会员(b****9)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

银行业大数据解决方案PPT文件格式下载.pptx

1、根据麦肯锡全球 研究院(MGI)估计,全 球企业2010 年在硬盘上 存储了超过7ZB(1ZB等 于10 亿GB)的新数据,而消费者在PC和笔记本 等设备上存储了超过6EB 新数据。1ZB数据相当于 美国国会图书馆中存储的 数据的4000 多倍。“大数据是指无法在一定 时间内用常规软件工具对 其内容进行抓取、管理和 处理的数据集合”维基 百科,8万亿GB,2015全球信息量,1s数据处理速度,85%非结构化数据占比,数据价值,Volume 数 据体量大,Variety数据类型多,Velocity 处 理速度快,Value,大数据的4V特点:Volume,Variety,Velocity,Val

2、ue传统DW系统不适用于大数据的分析数据量过于庞大绝大部分大数据是垃圾大数据的多样化格式时效性高需要革新性的技术手段海量数据“分而治之”-批量 分布式并行计算Hadoop海量数据“灵活多变”-实时 分布式高吞吐高并发数据存取处理 NoSQL海量数据“实时响应”-大数 据流计算模型,5,大数据改变数据分析思维 过去,由于数据获取的困难程度,人们在分析数据时倾向于使用抽样数据,并通过不 断改进抽样方法以提升样本的 精确性,从而对整体数据进行推算,并竭力挖掘数据间的因果关系。但当前数据 处理思维方式正逐步向全体性、混沌性以及相关性演变,以适应数据量的爆发式增长。,6,全体数据,混杂数据,精确数据,抽

3、样数据,因果关系,相关关系,采样的目的在于用最少的数据得到最多的信息,但在 样本。分析过程中不可避免会有一部分信息 丢失。在可 以获得海量数据的情况下,对全体 数据进行挖掘和分 析可以获得更多信息,只有15%的数据是结构化且能适用于传统数据化 的,接受不精确性能使更多的非结构化数据得 到利用。,建立在相关关系分析法上基础上的预测是大数据的 核心。,传统,大数据,传统BI分析,7,批处理,大数据分析,集群化,事务,关系型数据库,数据仓库,分析,非结构化,流式,分析,组织,多种数据源,(MapReduce),结构化数据数据规模一般为TB规模集中式,为了分析进行大量数据移动,数据向计算靠近批处理为主

4、,结构化/非结构化混合分析的能力数据规模从数十TB到PB级别分布式,计算向数据靠近支持流式分析,11,8,来源:Forrester Research,2012 年 6 月全球大数据在线调查,集成大数据和数据仓库功能以增加运营效率,需要利用多种类型数据,扩展仓库基础架构,通过将很少使用的数据迁移到 Hadoop 来优化存储、维 护和许可成本通过智能处理流数据来降低存储成本通过确定仓库中要填充的数据来改善仓库性能,深度分析所需要的结构化、非结构化和流数据源低延迟要求(几小时,而非几周或几个月)提供对数据的查询访问,流,10,Internet级别,传统 数据仓库,In-Motion Analytic

5、s,Data Analytics,Data Operations&Model Building,Results,Internet Scale,Database&Warehouse,At-Rest Data Analytics,Results,Ultra Low Latency Results,传统/关系型,数据源,非传统/非关系型 数据源,传统/关系型 数据源,非传统/非关系型 数据源,1,011,01,STREAMING,大数据技术是一系列技术的集合,是传统数据结构化数据与非结构化技术与数据的整合,并基于这些技术与数据进行综合的商业智能应用,包括数据分析与数据挖掘等。,11,BI/报告,探索

6、/可视化,行业 应用,预测分析,BI内/容报分告析,应用程序功能 应用,系统,目录,大数据分析挑战,微软解决方案介绍,大数据案例分享,深刻的数据洞察自助式服务|协作|移动化|实时/准实时,13,非结构化数据,1 1 1,多样的数据管理,结构化数据,0 0 1流数据,共享与治理,挖掘与关联分析,转换清洗,丰富的数据加工,非结构化数据,14,c.建立对非结构化数 据进行SQL语法查 询的支持,实现与 结构化数据的集成 关联(key),主分类 关键词 标签地名人名,全国统一分类 分词,倒排搜索 共性、个性文本识别,处理 功能 模块,网页分类,关键词分析日志关联,内容分词,索引建立,索引分析,反向搜索

7、日志合并,类别,标签,摘要,结构用户 化元信息,网页信 息分类,数据获取,语义分析,数据 解析,数 据 获 取,结构化数据,数据集市数据集市,EDW,结构化 元数据,Hadoop,a.建立非结构化 信息的标签、摘要、索引、日志、内容等,b.提取结构化的元数据信息,如类别、标引、摘要等;实现与结构化数据的整合,ODS,SQL,声誉度分析品牌分析,服务质量分析,竞争产品分析,产品评价,市场动态跟踪,EDW,15,APPSBiz process ERP,CRM,DM,DM,DM,E T L,数据源,基础架构,业务用户,Structured:e.g.MM/DD/YYYYKnown,known,Semi

8、-structured:e.g.web logs,sensor dataKnown,unknown,Un-structured:e.g.text,video,audio,Unknown,unknown,Business Users,MachinesDevicesThe Internet of Things,Data Scientists,Collaboratio n&SocialEmail,blogs,documents,Everyone,Indexing engine Algorithms,Visualization Analytics Data,Search,分析组件Presentatio

9、n Reporting Analysis Data,HDFS HDF,S HDF,S HDF,S HDF,S HDF,S HDF S,HDFHDFS HDFSHDF,S HDFSHDF,S HDFSHDF,S HDFSHDF,S HDFSHDF,S HDFSHDFSS,HDFS HDF,S HDF,S HDF,S HDF,S HDF,S HDF S,16,Information Flow Traditional BI,Information Flow Unstructured data to BI,Information Flow Semi-structured data to BI,Info

10、rmation Flow Search,常见架构,17,+,PB,TB,一体机,MPP DW,MPP DM传统的BI系统架构并非一无是处,同样值得我们学习借鉴,+,+,MS大数据解决方案总体架构,18,微软大数据产品架构,19,aF,ts,oL,a,d,Historical Data(Beyond Active Window),Summarize&Load,Big Data Sources(Raw,Unstructured),Alerts,Notifications,Data&Compute Intensive Application,ERP,CRMLOBSource Systems,APPS

11、,Integrate/Enrich,SQL Server StreamInsight,SQL Server Parallel Data Warehouse,Enterprise ETL with SSIS,DQS,MDS,Hadoop on Windows Azure,Hadoop on Windows Server,SQL Server FTDW Data Marts,SQL Server Reporting Services,SQL Server Analysis Server,Business Insights,Interactive Reports,Performance Scorec

12、ards,Crawlers,Bots,Devices,Sensors,结构化数据Microsoft SQL Server 2012和 SQL Server Parallel DataWarehouse 设备提供一种方法来管理结构化数据。,20,流数据SQL Server StreamInsight 组 件实现了对新的数据格式的支 持,其中包括流数据。,非结构化数据部署在Windows Azure 和Windows Server 上的基于Hadoop 的服务使您能够快速 处理PB级的非结构化的数据。,大规模并行处理引擎Massively Parallel Processing(MPP)PDW作为

13、SQL Server 的横向扩展解决方案,21,MPP 提供线性横向扩展能力Massively Parallel Processing(MPP)大规模并行处理架构横向扩展:按需添加硬件实现线性扩展无共享架构最小(0TB)到最大(6PB)从几个TB的小型数据仓库开始,比SMP DW快10 倍,复杂作业计线性扩展 算,扩扩展展灵到活方6 PB 聚沙成塔容量最大,便(No成长无限随需扩容forklift),PB,宕机为零 高枕无忧,Hadoop 的典型应用场景,22,用户行为分析跟踪用户在网站上的点击路径,分析其购买习惯 根据用户属性,猜测用户感兴趣的商品,定向推广 根据N度客户,发掘潜在的客户群体

14、日志存储、分析日志分布在多台服务器,查找问题困难,跨系统应用日志分析、系统性 能分析等上传文件存储各业务系统上传的文件、图片统一保存,MS与Hadoop,23,基于Apache Hadoop的Windows Server和,Windows Azure,,以及AD的支持,数据,HDInsight ServerHDInsight ServiceHive ODBC Driver和 Add-in for ExcelJavaScript Framework for HadoopSQL Server and SQL Server Parallel Warehouse connections for Had

15、oop,和Powerview 作为前,Sharepoint,Powerpivot端展示,数据价值&访 问频度,24,MPP数据库 结构化数据 传统BI工具,HDP半结构化和非结构化数据 历史数据分析,数据生命周期&数据规模,HDP在hadoop 上增加了:集群管理能力,工作流,安全管理,并融入了数据分析,机器学习技术以及文本数据分析挖掘。所有的这些增强都是为了更好的使得该方案能适用于复杂的,海量数据的分析。HDP是对传统数据仓库的一种补充和延伸,整体构成一个更广义的海量数据仓库。,HDP 海量大数据仓库,当前大数据分析面临的挑战,25,Warehouse,要求学习和掌握Map-Reduce 技术,HDFS(Hadoop),HDFS(Hadoop),大量新技术需要学习掌握、周期长、见效慢,传统BI,EDW Connector for Hadoop ETL/ELT需要IT人员将 HDFS 中的数据倒入数据仓 库或集市中,才能用于后继的分析,Hadoop:成本低、扩展性好、数据加 载快、并发处理强Hive、SqoopEDW:SQL查询执行性能高,包括 Ad-hoc、OLAP、报表等,Hive ODBC Driver,基于PolyBase 的全方位数据整合能力,26,穿

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1