大数据体系结构_精品文档PPT格式课件下载.ppt
《大数据体系结构_精品文档PPT格式课件下载.ppt》由会员分享,可在线阅读,更多相关《大数据体系结构_精品文档PPT格式课件下载.ppt(97页珍藏版)》请在冰豆网上搜索。
分层架构大数据架构:
分层架构u从从数数据据在在生生命命周周期期看看,大大数数据据从从数数据据源源经经过过分分析析挖挖掘掘到到最最终终获获得得价价值值需需要要经经过过5个环节,包括个环节,包括数据准备、数据存储与管理、计算处理、数据分析和知识展现。
数据准备、数据存储与管理、计算处理、数据分析和知识展现。
大数据的系统架构:
整体系统架构整体系统架构新一代编程语言大数据架构:
大数据架构:
整体逻辑功能架构整体逻辑功能架构大数据架构理解:
搜索引擎大数据架构理解:
网页内容抓取大数据架构理解:
网页内容抓取大数据系统架构大数据系统架构HadoopuHadoop分布式系统组成分布式系统组成大数据系统架构大数据系统架构Hadoop在图中,在图中,Hadoop主要的功能组件有:
主要的功能组件有:
nHadoopCommon:
包含包含HDFS、MapReduce和其他项目公共内容;
和其他项目公共内容;
nHDFS:
Hadoop分布式文件系统;
分布式文件系统;
nMapReduce:
一个用于并行处理大数据集的软件框架。
:
Map函数接受一组数据函数接受一组数据并将其转换为一个键并将其转换为一个键/值对列表,输入域中的每个元素对应一个键值对列表,输入域中的每个元素对应一个键/值对。
值对。
Reduce函数接受函数接受Map函数生成的列表,然后根据它们的键(为每个键生成一个键函数生成的列表,然后根据它们的键(为每个键生成一个键/值对)值对)缩小键缩小键/值对列表;
值对列表;
nHBase:
类似类似GoogleBigTable的分布式的分布式NoSQL列数据库;
列数据库;
nHive:
是基于:
是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的张数据库表,并提供完整的sql查询功能,可以将查询功能,可以将sql语句转换为语句转换为MapReduce任任务进行运行;
务进行运行;
nZookeeper:
分布式锁,提供类似:
分布式锁,提供类似GoogleChubby的功能;
的功能;
nAvro:
新的数据序列化格式与传输工具,将逐步取代:
新的数据序列化格式与传输工具,将逐步取代Hadoop原有的原有的IPC机制;
机制;
nPig:
大数据数据流分析平台,为用户提供多种接口;
nSqoop:
在:
在HADOOP与传统的数据库间进行数据的传递。
与传统的数据库间进行数据的传递。
大数据系统架构大数据系统架构Hadoop:
功能定位功能定位1.大数据系统架构大数据系统架构Hadoop:
层次对应层次对应大数据:
分布式计算架构大数据:
分布式计算架构大数据架构大数据架构:
MapReduce工作原理工作原理1大数据架构大数据架构:
MapReduce工作原理工作原理2三、大数据的关键技术三、大数据的关键技术大数据关键技术到底有哪些?
大数据关键技术到底有哪些?
核心问题是:
(计算、存储、分析计算、存储、分析)算法算法大数据:
恐怖的大数据大数据:
恐怖的大数据(生活示例生活示例)智能性:
数据分析、自然语言理解智能性:
数据分析、自然语言理解逻辑推理逻辑推理(演示演示)艺术性:
分形算法、视频动画艺术性:
分形算法、视频动画(演示演示)大数据关键技术大数据关键技术1:
大数据存储技术大数据存储技术u数数据据的的海海量量化化和和快快增增长长特特征征、以以及及数数据据格格式式的的多多样样化化是是大大数数据据对对存存储储技技术术提提出出的的首首要要挑挑战战。
要要求求底底层层硬硬件件架架构构和和文文件件系系统统在在性性价价比比上上要要大大大大高高于于传传统技术,并能够弹性扩展存储容量。
统技术,并能够弹性扩展存储容量。
大数据关键技术大数据关键技术2:
并行计算能力并行计算能力u大数据的分析挖掘是数据密集型计算,需要巨大的计算能力。
u针对不同计算场景发展出特定分布式计算框架。
Yahoo提提出出的的S4系系统统、Twitter的的Storm,谷谷歌歌2010年年公公布布的的Dremel系系统统,MapReduce内存化以提高实时性的内存化以提高实时性的Spark框架框架.数据爆炸,知识贫乏数据爆炸,知识贫乏苦恼:
淹没在数据中;
不能制定合适的决策!
数据数据知识知识决策决策n模式模式n趋势趋势n事实事实n关系关系n模型模型n关联规则关联规则n序列序列n目标市场目标市场n资金分配资金分配n贸易选择贸易选择n在哪儿做广告在哪儿做广告n销售的地理位置销售的地理位置n金融金融n经济经济n政府政府nPOS.n人口统计人口统计n生命周期生命周期大数据关键技术大数据关键技术3:
数据分析技术数据分析技术u基基于于计计算算流流体体力力学学的的三三维维呈呈现现:
如如用用能能场场所所3D场场景景及及CFD温温度度及及能能效效云场呈现如下图。
云场呈现如下图。
大数据关键技术大数据关键技术4:
数据显示技术数据显示技术大数据分析大数据分析u世界杯:
英格兰世界杯:
英格兰vs意大利意大利1:
2。
数据热图。
数据热图大数据关键技术大数据关键技术5:
数据挖掘算法数据挖掘算法代代特征特征数据挖掘算法数据挖掘算法集成集成分布计算分布计算模型模型数据模型数据模型第一代第一代数数据据挖挖掘掘作作为为一一个个独独立立的的应应用用支持一个或者支持一个或者多个算法多个算法独立的系独立的系统统单个机单个机器器向量数据向量数据第二代第二代和和数数据据库库以以及及数据仓库集成数据仓库集成多多个个算算法法:
能能够够挖挖掘掘一一次次不不能能放放进内存的数据进内存的数据数数据据管管理理系系统统,包包括括数数据据库库和和数数据据仓库仓库同质同质/局局部区域部区域的计算的计算机群集机群集有有些些系系统统支支持持对对象象、文文本本、和和连连续续的媒体数据的媒体数据第三代第三代和预言模型系和预言模型系统集成统集成多个算法多个算法数数据据管管理理和和预预言言模模型型系系统统intranet/extranet网网络计算络计算支支持持半半结结构构化化数数据据和和webweb数据数据第四代第四代和移动数据和移动数据/各种计算数据各种计算数据联合联合多个算法多个算法数数据据管管理理、预预言言模模型型、移动系统移动系统移移动动和和各各种种计计算算设设备备普普遍遍存存在在的的计计算算模模型型Debt$40KQQQQQQQQII123456factor1factor2factorn神经网络神经网络NeuralNetworksNeuralNetworks聚类分析聚类分析ClusteringClusteringOpenAccntAddNewProductDecreaseUsage?
Time序列分析序列分析SequenceAnalysisSequenceAnalysis决策树决策树DecisionTreesDecisionTrees倾向性分析客户保留客户生命周期管理目标市场价格弹性分析客户细分市场细分倾向性分析客户保留目标市场欺诈检测关联分析关联分析AssociationAssociation市场组合分析套装产品分析目录设计交叉销售大数据关键技术大数据关键技术5:
数据挖掘算法数据挖掘算法数据挖掘的主要方法分类(分类(Classification)聚类聚类(Clustering)相关规则相关规则(AssociationRule)回归回归(Regression)其他其他知识发现系统需要一个前处理知识发现系统需要一个前处理过程过程数据抽取数据抽取数据清洗数据清洗数据选择数据选择数据转换数据转换知识发现系统是一个自动知识发现系统是一个自动/半自半自动过程动过程知识发现系统要有很好的性能知识发现系统要有很好的性能知识发现KDD系统特征数据挖掘主要方法:
数据挖掘主要方法:
ETLuETLProcessFrameworkETL工工具具有有:
OWB(OracleWarehouseBuilder)、ODI(OracleDataIntegrator)、InformaticPowerCenter、AICloudETL、DataStage、DataSpider,等。
等。
ApplicationApplication&
Operations&
OperationsServicesServicesTransportTransportServicesServicesLoadLoadTransformTransformExtractExtractTargetadaptorsTargetadaptorsSourceadaptorsSourceadaptorsETLDataimport/ETLDataimport/RuleimportRuleimportETLDataExportETLDataExportRuntimeRuntimeMatadataMatadataServicesServicesDesignDesignmanagementmanagementMetadataMetadataImport/Import/exportexportMetadataMetadatamanagementmanagement四、物联网与云计算架构四、物联网与云计算架构互联网上的物联网:
概念互联网上的物联网:
发展互联网上的物联网:
发展u2009年年8月月7日日,温温家家宝宝视视察察中中科科院院嘉嘉兴兴无无线线传传感感网网工工程程中中心心无无锡锡研研发发分分中中心心,提提出出“在在传传感感网网发发展展中中,要要早早一一点点谋谋划划未未来来,早早一一点点攻