银行业大数据解决方案.pptx

上传人:b****9 文档编号:70182 上传时间:2022-10-02 格式:PPTX 页数:43 大小:5.84MB
下载 相关 举报
银行业大数据解决方案.pptx_第1页
第1页 / 共43页
银行业大数据解决方案.pptx_第2页
第2页 / 共43页
银行业大数据解决方案.pptx_第3页
第3页 / 共43页
银行业大数据解决方案.pptx_第4页
第4页 / 共43页
银行业大数据解决方案.pptx_第5页
第5页 / 共43页
点击查看更多>>
下载资源
资源描述

银行业大数据解决方案.pptx

《银行业大数据解决方案.pptx》由会员分享,可在线阅读,更多相关《银行业大数据解决方案.pptx(43页珍藏版)》请在冰豆网上搜索。

银行业大数据解决方案.pptx

,银行业大数据解决方案,目录,大数据分析挑战,微软解决方案介绍,大数据案例分享,数据复杂度:

多元性和速度,Terabytes,Gigabytes,Megabytes,Petabytes,Web2.0,付款薪资货存,ERP/CRM联系人订单跟踪销售管道,Web日志数字市场搜索市场网上推荐,广告移动,协作电子商务,网页点击流Wikis/博客,传感器/RFID/设备,社交网络音频/视频,BigData日志文件空间&GPS坐标数据数据集市电子政务气候文本/图像,未来数年数据量会呈现指数增长。

根据麦肯锡全球研究院(MGI)估计,全球企业2010年在硬盘上存储了超过7ZB(1ZB等于10亿GB)的新数据,而消费者在PC和笔记本等设备上存储了超过6EB新数据。

1ZB数据相当于美国国会图书馆中存储的数据的4000多倍。

“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合”维基百科,8万亿GB,2015全球信息量,1s数据处理速度,85%非结构化数据占比,数据价值,Volume数据体量大,Variety数据类型多,Velocity处理速度快,Value,大数据的4V特点:

Volume,Variety,Velocity,Value传统DW系统不适用于大数据的分析数据量过于庞大绝大部分大数据是垃圾大数据的多样化格式时效性高需要革新性的技术手段海量数据“分而治之”-批量分布式并行计算Hadoop海量数据“灵活多变”-实时分布式高吞吐高并发数据存取处理NoSQL海量数据“实时响应”-大数据流计算模型,5,大数据改变数据分析思维过去,由于数据获取的困难程度,人们在分析数据时倾向于使用抽样数据,并通过不断改进抽样方法以提升样本的精确性,从而对整体数据进行推算,并竭力挖掘数据间的因果关系。

但当前数据处理思维方式正逐步向全体性、混沌性以及相关性演变,以适应数据量的爆发式增长。

6,全体数据,混杂数据,精确数据,抽样数据,因果关系,相关关系,采样的目的在于用最少的数据得到最多的信息,但在样本。

分析过程中不可避免会有一部分信息丢失。

在可以获得海量数据的情况下,对全体数据进行挖掘和分析可以获得更多信息,只有15%的数据是结构化且能适用于传统数据化的,接受不精确性能使更多的非结构化数据得到利用。

建立在相关关系分析法上基础上的预测是大数据的核心。

传统,大数据,传统BI分析,7,批处理,大数据分析,集群化,事务,关系型数据库,数据仓库,分析,非结构化,流式,分析,组织,多种数据源,(MapReduce),结构化数据数据规模一般为TB规模集中式,为了分析进行大量数据移动,数据向计算靠近批处理为主,结构化/非结构化混合分析的能力数据规模从数十TB到PB级别分布式,计算向数据靠近支持流式分析,11,8,来源:

ForresterResearch,2012年6月全球大数据在线调查,集成大数据和数据仓库功能以增加运营效率,需要利用多种类型数据,扩展仓库基础架构,通过将很少使用的数据迁移到Hadoop来优化存储、维护和许可成本通过智能处理流数据来降低存储成本通过确定仓库中要填充的数据来改善仓库性能,深度分析所需要的结构化、非结构化和流数据源低延迟要求(几小时,而非几周或几个月)提供对数据的查询访问,流,10,Internet级别,传统数据仓库,In-MotionAnalytics,DataAnalytics,DataOperations&ModelBuilding,Results,InternetScale,Database&Warehouse,At-RestDataAnalytics,Results,UltraLowLatencyResults,传统/关系型,数据源,非传统/非关系型数据源,传统/关系型数据源,非传统/非关系型数据源,1,011,01,STREAMING,大数据技术是一系列技术的集合,是传统数据结构化数据与非结构化技术与数据的整合,并基于这些技术与数据进行综合的商业智能应用,包括数据分析与数据挖掘等。

11,BI/报告,探索/可视化,行业应用,预测分析,BI内/容报分告析,应用程序功能应用,系统,目录,大数据分析挑战,微软解决方案介绍,大数据案例分享,深刻的数据洞察自助式服务|协作|移动化|实时/准实时,13,非结构化数据,111,多样的数据管理,结构化数据,001流数据,共享与治理,挖掘与关联分析,转换清洗,丰富的数据加工,非结构化数据,14,c.建立对非结构化数据进行SQL语法查询的支持,实现与结构化数据的集成关联(key),主分类关键词标签地名人名,全国统一分类分词,倒排搜索共性、个性文本识别,处理功能模块,网页分类,关键词分析日志关联,内容分词,索引建立,索引分析,反向搜索日志合并,类别,标签,摘要,结构用户化元信息,网页信息分类,数据获取,语义分析,数据解析,数据获取,结构化数据,数据集市数据集市,EDW,结构化元数据,Hadoop,a.建立非结构化信息的标签、摘要、索引、日志、内容等,b.提取结构化的元数据信息,如类别、标引、摘要等;实现与结构化数据的整合,ODS,SQL,声誉度分析品牌分析,服务质量分析,竞争产品分析,产品评价,市场动态跟踪,EDW,15,APPSBizprocessERP,CRM,DM,DM,DM,ETL,数据源,基础架构,业务用户,Structured:

e.g.MM/DD/YYYYKnown,known,Semi-structured:

e.g.weblogs,sensordataKnown,unknown,Un-structured:

e.g.text,video,audio,Unknown,unknown,BusinessUsers,MachinesDevicesTheInternetofThings,DataScientists,Collaboration&SocialEmail,blogs,documents,Everyone,IndexingengineAlgorithms,VisualizationAnalyticsData,Search,分析组件PresentationReportingAnalysisData,HDFSHDF,SHDF,SHDF,SHDF,SHDF,SHDFS,HDFHDFSHDFSHDF,SHDFSHDF,SHDFSHDF,SHDFSHDF,SHDFSHDF,SHDFSHDFSS,HDFSHDF,SHDF,SHDF,SHDF,SHDF,SHDFS,16,InformationFlowTraditionalBI,InformationFlowUnstructureddatatoBI,InformationFlowSemi-structureddatatoBI,InformationFlowSearch,常见架构,17,+,PB,TB,一体机,MPPDW,MPPDM传统的BI系统架构并非一无是处,同样值得我们学习借鉴,+,+,MS大数据解决方案总体架构,18,微软大数据产品架构,19,aF,ts,oL,a,d,HistoricalData(BeyondActiveWindow),Summarize&Load,BigDataSources(Raw,Unstructured),Alerts,Notifications,Data&ComputeIntensiveApplication,ERP,CRMLOBSourceSystems,APPS,Integrate/Enrich,SQLServerStreamInsight,SQLServerParallelDataWarehouse,EnterpriseETLwithSSIS,DQS,MDS,HadooponWindowsAzure,HadooponWindowsServer,SQLServerFTDWDataMarts,SQLServerReportingServices,SQLServerAnalysisServer,BusinessInsights,InteractiveReports,PerformanceScorecards,Crawlers,Bots,Devices,Sensors,结构化数据MicrosoftSQLServer2012和SQLServerParallelDataWarehouse设备提供一种方法来管理结构化数据。

20,流数据SQLServerStreamInsight组件实现了对新的数据格式的支持,其中包括流数据。

非结构化数据部署在WindowsAzure和WindowsServer上的基于Hadoop的服务使您能够快速处理PB级的非结构化的数据。

大规模并行处理引擎MassivelyParallelProcessing(MPP)PDW作为SQLServer的横向扩展解决方案,21,MPP提供线性横向扩展能力MassivelyParallelProcessing(MPP)大规模并行处理架构横向扩展:

按需添加硬件实现线性扩展无共享架构最小(0TB)到最大(6PB)从几个TB的小型数据仓库开始,比SMPDW快10倍,复杂作业计线性扩展算,扩扩展展灵到活方6PB聚沙成塔容量最大,便(No成长无限随需扩容forklift),PB,宕机为零高枕无忧,Hadoop的典型应用场景,22,用户行为分析跟踪用户在网站上的点击路径,分析其购买习惯根据用户属性,猜测用户感兴趣的商品,定向推广根据N度客户,发掘潜在的客户群体日志存储、分析日志分布在多台服务器,查找问题困难,跨系统应用日志分析、系统性能分析等上传文件存储各业务系统上传的文件、图片统一保存,MS与Hadoop,23,基于ApacheHadoop的WindowsServer和,WindowsAzure,,以及AD的支持,数据,HDInsightServerHDInsightServiceHiveODBCDriver和Add-inforExcelJavaScriptFrameworkforHadoopSQLServerandSQLServerParallelWarehouseconnectionsforHadoop,和Powerview作为前,Sharepoint,Powerpivot端展示,数据价值&访问频度,24,MPP数据库结构化数据传统BI工具,HDP半结构化和非结构化数据历史数据分析,数据生命周期&数据规模,HDP在hadoop上增加了:

集群管理能力,工作流,安全管理,并融入了数据分析,机器学习技术以及文本数据分析挖掘。

所有的这些增强都是为了更好的使得该方案能适用于复杂的,海量数据的分析。

HDP是对传统数据仓库的一种补充和延伸,整体构成一个更广义的海量数据仓库。

HDP海量大数据仓库,当前大数据分析面临的挑战,25,Warehouse,要求学习和掌握Map-Reduce技术,HDFS(Hadoop),HDFS(Hadoop),大量新技术需要学习掌握、周期长、见效慢,传统BI,EDWConnectorforHadoopETL/ELT需要IT人员将HDFS中的数据倒入数据仓库或集市中,才能用于后继的分析,Hadoop:

成本低、扩展性好、数据加载快、并发处理强Hive、SqoopEDW:

SQL查询执行性能高,包括Ad-hoc、OLAP、报表等,HiveODBCDriver,基于PolyBase的全方位数据整合能力,26,穿

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科 > 文化宗教

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1