ImageVerifierCode 换一换
格式:PPT , 页数:97 ,大小:11.30MB ,
资源ID:15479529      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/15479529.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(大数据体系结构_精品文档PPT格式课件下载.ppt)为本站会员(b****2)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

大数据体系结构_精品文档PPT格式课件下载.ppt

1、分层架构大数据架构:分层架构u从从数数据据在在生生命命周周期期看看,大大数数据据从从数数据据源源经经过过分分析析挖挖掘掘到到最最终终获获得得价价值值需需要要经经过过5个环节,包括个环节,包括数据准备、数据存储与管理、计算处理、数据分析和知识展现。数据准备、数据存储与管理、计算处理、数据分析和知识展现。大数据的系统架构:整体系统架构整体系统架构新一代编程语言大数据架构:大数据架构:整体逻辑功能架构整体逻辑功能架构大数据架构理解:搜索引擎大数据架构理解:网页内容抓取大数据架构理解:网页内容抓取大数据系统架构大数据系统架构HadoopuHadoop分布式系统组成分布式系统组成大数据系统架构大数据系统

2、架构Hadoop在图中,在图中,Hadoop主要的功能组件有:主要的功能组件有:nHadoop Common:包含包含HDFS、MapReduce和其他项目公共内容;和其他项目公共内容;nHDFS:Hadoop分布式文件系统;分布式文件系统;nMapReduce:一个用于并行处理大数据集的软件框架。:Map 函数接受一组数据函数接受一组数据并将其转换为一个键并将其转换为一个键/值对列表,输入域中的每个元素对应一个键值对列表,输入域中的每个元素对应一个键/值对。值对。Reduce 函数接受函数接受 Map 函数生成的列表,然后根据它们的键(为每个键生成一个键函数生成的列表,然后根据它们的键(为每

3、个键生成一个键/值对)值对)缩小键缩小键/值对列表;值对列表;nHBase:类似类似Google BigTable的分布式的分布式NoSQL列数据库;列数据库;nHive:是基于:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的张数据库表,并提供完整的sql查询功能,可以将查询功能,可以将sql语句转换为语句转换为MapReduce任任务进行运行;务进行运行;nZookeeper:分布式锁,提供类似:分布式锁,提供类似Google Chubby的功能;的功能;nAvro:新的数据序列化格式与传输工具,

4、将逐步取代:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的原有的IPC机制;机制;nPig:大数据数据流分析平台,为用户提供多种接口;nSqoop:在:在HADOOP与传统的数据库间进行数据的传递。与传统的数据库间进行数据的传递。大数据系统架构大数据系统架构Hadoop:功能定位功能定位1.大数据系统架构大数据系统架构Hadoop:层次对应层次对应大数据:分布式计算架构大数据:分布式计算架构大数据架构大数据架构:MapReduce工作原理工作原理1大数据架构大数据架构:MapReduce工作原理工作原理2三、大数据的关键技术三、大数据的关键技术大数据关键技术到底有哪些?大数据关键技

5、术到底有哪些?核心问题是:(计算、存储、分析计算、存储、分析)算法算法大数据:恐怖的大数据大数据:恐怖的大数据(生活示例生活示例)智能性:数据分析、自然语言理解智能性:数据分析、自然语言理解 逻辑推理逻辑推理(演示演示)艺术性:分形算法、视频动画艺术性:分形算法、视频动画(演示演示)大数据关键技术大数据关键技术1:大数据存储技术大数据存储技术u数数据据的的海海量量化化和和快快增增长长特特征征、以以及及数数据据格格式式的的多多样样化化是是大大数数据据对对存存储储技技术术提提出出的的首首要要挑挑战战。要要求求底底层层硬硬件件架架构构和和文文件件系系统统在在性性价价比比上上要要大大大大高高于于传传统

6、技术,并能够弹性扩展存储容量。统技术,并能够弹性扩展存储容量。大数据关键技术大数据关键技术2:并行计算能力并行计算能力u大数据的分析挖掘是数据密集型计算,需要巨大的计算能力。u针对不同计算场景发展出特定分布式计算框架。Yahoo 提提出出的的S4 系系统统、Twitter 的的Storm,谷谷歌歌2010 年年公公布布的的Dremel系系统统,MapReduce内存化以提高实时性的内存化以提高实时性的Spark 框架框架.数据爆炸,知识贫乏数据爆炸,知识贫乏 苦恼:淹没在数据中;不能制定合适的决策!数据数据知识知识决策决策n模式模式n趋势趋势n事实事实n关系关系n模型模型n关联规则关联规则n序

7、列序列n目标市场目标市场n资金分配资金分配n贸易选择贸易选择n在哪儿做广告在哪儿做广告n销售的地理位置销售的地理位置n金融金融n经济经济n政府政府nPOS.n人口统计人口统计n生命周期生命周期大数据关键技术大数据关键技术3:数据分析技术数据分析技术u基基于于计计算算流流体体力力学学的的三三维维呈呈现现:如如用用能能场场所所3D场场景景及及CFD温温度度及及能能效效云场呈现如下图。云场呈现如下图。大数据关键技术大数据关键技术4:数据显示技术数据显示技术大数据分析大数据分析u世界杯:英格兰世界杯:英格兰vs意大利意大利 1:2。数据热图。数据热图大数据关键技术大数据关键技术5:数据挖掘算法数据挖掘

8、算法代代特征特征数据挖掘算法数据挖掘算法集成集成分布计算分布计算模型模型数据模型数据模型第一代第一代数数据据挖挖掘掘作作为为一一个个独独立立的的应应用用支持一个或者支持一个或者多个算法多个算法 独立的系独立的系统统单个机单个机器器向量数据向量数据第二代第二代和和数数据据库库以以及及数据仓库集成数据仓库集成多多个个算算法法:能能够够挖挖掘掘一一次次不不能能放放进内存的数据进内存的数据数数据据管管理理系系统统,包包括括数数据据库库和和数数据据仓库仓库同质同质/局局部区域部区域的计算的计算机群集机群集有有些些系系统统支支持持对对象象、文文本本、和和连连续续的媒体数据的媒体数据第三代第三代和预言模型系

9、和预言模型系统集成统集成 多个算法多个算法数数据据管管理理和和预预言言模模型型系系统统intranet/extranet网网络计算络计算支支持持半半结结构构化化 数数 据据 和和webweb数据数据第四代第四代和移动数据和移动数据/各种计算数据各种计算数据联合联合 多个算法多个算法数数据据管管理理、预预言言模模型型、移动系统移动系统移移动动和和各各种种计计算算设设备备普普遍遍存存在在的的计计算算模模型型Debt$40KQ QQ QQ QQ QII123456factor 1factor 2factor n神经网络神经网络 Neural NetworksNeural Networks聚类分析聚类

10、分析 ClusteringClusteringOpenAccntAdd NewProductDecreaseUsage?Time序列分析序列分析 Sequence AnalysisSequence Analysis决策树决策树 Decision TreesDecision Trees 倾向性分析 客户保留 客户生命周期管理 目标市场 价格弹性分析 客户细分 市场细分 倾向性分析 客户保留 目标市场 欺诈检测关联分析关联分析 AssociationAssociation 市场组合分析 套装产品分析 目录设计 交叉销售大数据关键技术大数据关键技术5:数据挖掘算法数据挖掘算法数据挖掘的主要方法分类(

11、分类(Classification)聚类聚类(Clustering)相关规则相关规则(Association Rule)回归回归(Regression)其他其他知识发现系统需要一个前处理知识发现系统需要一个前处理过程过程数据抽取数据抽取数据清洗数据清洗数据选择数据选择数据转换数据转换知识发现系统是一个自动知识发现系统是一个自动/半自半自动过程动过程知识发现系统要有很好的性能知识发现系统要有很好的性能知识发现KDD系统特征数据挖掘主要方法:数据挖掘主要方法:ETLuETL Process Framework ETL工工具具有有:OWB(Oracle Warehouse Builder)、ODI(

12、Oracle Data Integrator)、Informatic PowerCenter、AICloudETL、DataStage、DataSpider,等。等。ApplicationApplication&Operations&OperationsServicesServicesTransportTransportServicesServicesLoadLoadTransformTransformExtractExtractTarget adaptorsTarget adaptorsSource adaptorsSource adaptorsETL Data import/ETL Dat

13、a import/Rule importRule importETL Data ExportETL Data ExportRuntimeRuntimeMata dataMata dataServicesServicesDesign Design managementmanagementMeta data Meta data Import/Import/exportexportMeta data Meta data managementmanagement四、物联网与云计算架构四、物联网与云计算架构互联网上的物联网:概念互联网上的物联网:发展互联网上的物联网:发展u2009年年8月月7日日,温温家家宝宝视视察察中中科科院院嘉嘉兴兴无无线线传传感感网网工工程程中中心心无无锡锡研研发发分分中中心心,提提出出“在在传传感感网网发发展展中中,要要早早一一点点谋谋划划未未来来,早早一一点点攻

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1