ImageVerifierCode 换一换
格式:DOCX , 页数:8 ,大小:22.93KB ,
资源ID:19205896      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/19205896.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(纵横大数据云计算数据基础设施Word文档格式.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

纵横大数据云计算数据基础设施Word文档格式.docx

1、任何资料中 关于各种技术的适用场景描述,即使是正确的,也都有其特殊的上下文环境,不可以当成普遍真理去盲目遵从。这里所说的对技术的了解,并不是指具体如何去使用 它,而是指其内在本质、特点与相互联系,这些往往比使用方法更重要,也是本书区别于其他大数据资料的主要特点之一。首先,让我们看看云计算与大数 据的关系,目前人们对此的理解更是混乱不堪,有人认为两者完全不同,有人则认为大数据技术其实就是云计算。对“云”,最开始,人们普遍认为那是一种采用一 堆闲散资源完成一件重大任务的技术。后来,人们又意识到现代社会对“云”的诠释,其实更多的是指一种以服务为主的商业模式,而不是一种技术。现在,绝大多 数人对“云”

2、的理解停留于此,认为“云计算”与技术无关的人大都是这种思路。但在对“云”业务模式的实践中却发现,要搞“云”服务,必须从技术手段与商业 模式两个维度同时入手才有意义,只拥有其中任何一个方面都是不行的,甚至可以说前者要比后者重要得多。大多数情况下,在“云”能适用的领域内,如果没有前 者,后者所能提供的服务水平自然也就很有限,从而也就自然失去了“云”的含义。所以说,云计算的本质是商业模式,但其核心却仍然是技术问题。而云 在技术层面的核心问题又是什么呢?有人认为是“小变大”的分布式计算,有人认为是“大变小”的虚拟化,而本书认为,云计算最核心的问题是数据,具体地讲, 是现代业务环境下的数据管理问题,也就

3、是能实现海量、多类型、高负载、高性能、低成本需求的数据管理技术,这实际上就是传统数据管理技术在现代的最大挑 战。这其中最耀眼的,就是各种新兴的大数据家族成员的出现,包括开源体系的Hadoop、各种NoSQL数据库、NewSQL数据库(关系数据库联邦)、 分布式文件系统等,甚至还包括非开源体系的新一代关系数据库。这样看来,“大数据”应该是“云计算”业务模式得以实现在数据管理层面的核心技术支撑,两者 密不可分。而从纯技术的角度看,“云计算”概念最初出现时就是指采用网络互联起来的设备共同完成一项庞大任务的技术策略,而Hadoop等流行大 数据技术的核心思路大多如此。因此,我们又可以说:“云计算”是大

4、数据的技术实现方法。这便是云计算与大数据的联系,两者无论是在业务上,还是技术上,都 是相互依存的。一句话,无论叫什么名称,其实都是代表现代IT发展的最新进展而已。再来看看各种流行的大数据技术本身,包括 Hadoop,NoSQL,NewSQL,甚至一些新一代的关系数据库等。对它们,在现代数据管理领域内,目前的状态却是:人们普遍困惑的并不是能不能掌 握这些技术的具体用法,而是到底什么时候,在什么场景下,如何定位与使用这些技术?这主要表现在以下几个方面。一是如何定位新旧技术。即指新兴的以Hadoop为代表的开源技术,与传统的关系数据库技术,到底是新技术彻底颠覆传统技术,还是两者共存?如果是共存,如何

5、共存?这是目前各个企业普遍感到困惑的最重要的问题。二 是部分技术人员对新事物只是盲从。大家在应用实践中或多或少地会遇到一些困难,于是很多技术人员就会把希望寄托在新出现的技术上,认为只要一用上如 Hadoop或NoSQL这些新东西,目前的问题就会迎刃而解。接下来就立即紧张地投入到新技术的学习与使用上去,而不做是否适合自己需求的合理判断。很 显然,这种对新技术的崇拜是盲目的。三是各种技术之间出现了互相攻击、互相否定的态势。一度以来,传统的主流关系数据库(如Oracle,DB2 等)在实践中出现了一些问题,主要是对高负荷环境下的海量数据应用出现了力不从心的现象,同时,其水平扩展性的限制与高昂的成本问

6、题使客户越来越难以忍 受。于是,一些非关系型的NoSQL数据库,或者一些低端数据库集群方案(如MySQL集群)就在一些场合替代了主流的商业数据库,并且表现出很优秀的性 价比;另外,有些企业在分析领域也出现了以Hadoop MapReduce等开源产品全面替代关系型数据仓库的现象。于是,便出现了一种思潮,认为关系数据库最终将退出历史舞台。而另有一部分人则认为,所谓极 其成功的新技术,只是昙花一现的暂时现象而已,传统的关系数据库经过改良以后,依然会是数据管理领域的王者,其他的技术会像30多年前关系数据库与其他数 据管理技术之争的结果一样,逐渐消失。这些观点中,大多都是凭直觉、凭感觉、凭个人经验的判

7、断得出,虽然不能说是武断,但如果没有令人信服的技术分析做支 撑,就很难说谁对谁错。四是新技术本身在实践中也出现了很多的问题。例如Hadoop MapReduce,虽然已经出现了Hadoop 2.0中的各项重要改进,但相信只要是真正用过它的人都知道,其在方便性、可靠性、可用性、效率等方面都还很不尽如人意。笔者记得一位很熟悉Hadoop 的朋友说:“如果企业能用关系数据库解决问题,就尽量不要用它!”再如Twitter放弃了用Cassandra替代MySQL的决策,Digg使用 Cassandra后出现的一系列严重问题等,都使很多人开始重新审视这些新技术。其实,究其根本,以上现象出现的主要原因是:人

8、们只是去学习如 何使用这些新技术,却很少独立思考,对它们进行较为深入的学习与剖析;很少在设计思想、技术架构、内在本质等方面将它们与其他技术进行对比,以能在真正掌 握后,做出属于自己、适合自己的判断。而这些又正是本书的主体内容。如果在数据库技术领域继续探究,会发现NoSQL技术虽然适合海量数据的快速 存取,却无法满足较复杂的关系模型数据管理及人们对习惯使用SQL语言的要求,而标准的关系数据库在水平扩展性上又严重受限。那么,是否存在一种技术,既 可以使用关系模型存储数据,使用SQL操作数据,又可以像NoSQL一样方便扩展?于是,本书还与读者分享了笔者自主研发的一个关系型云数据库的设计与实 践,它既

9、不同于目前流行的Hadoop/NoSQL等开源技术,也不同于传统的关系数据库,是一种介于两者之间的技术模式,目前的状态正好满足 Hadoop与传统关系数据库都不太适用的企业级海量历史数据管理的需求,并已经在实践中取得一定的成果。接着,由该自主产品的设计实践活动出发,我们产 生了对Hadoop本身许多固有技术问题更大胆的、更进一步的深入思考:PB级海量数据的批量分析能不能比Hadoop再提高一个数量级,例如,达到秒 级?在保守的认识中,这样的要求似乎是不合理的,也是不可能实现的。然而大数据领域最新的技术进展Hadoop的缔造者Google近年来一系列更前沿 的、被称为“Google新三驾马车”的

10、研究成果,通过模式(Schema)的回归与精巧的设计,已经向这样似乎是“不可能的任务”的宏伟目标迈出了一大 步。这使我们意识到:技术的发展瞬息万变,Hadoop本身已不见得有多么先进了,想要在实践中做出正确的决策,就必须不断学习,勇于创新,不断经历破与 立的过程,而不能故步自封,原地不动。除了需要对各种大数据技术手段进行深入剖析以外,当今IT界还在云计算技术两个不同的技术策略上有着广泛的 争议,即“分”为云与“合”为云,前者是指数据切分后以小变大,后者是指以大变小,将分散的小资源集中整合起来管理后,再将资源进行统一的按需调度与分 配。两者都称自己是云计算技术(或者说是大数据技术)的正宗,相互攻

11、击与否定的现象极为激烈,并且各自都有坚实的成功实践为基础。表现最明显的就是以淘宝 为代表的新兴互联网技术力量与IBM、Oracle等老牌的数据库厂商之间关于以“分”为主的开源技术及以“合”为主的一体机技术之间的争论与竞争,可以 说已经到了白热化的阶段。他们各说各话,各有千秋,已经成为企业技术决策者的主要困惑之一。而实际上,经过研究与分析,很容易就可以发现,他们所争论的 “分”与“合”,看起来是完全相反的,实际上并不矛盾,其实是你中有我,我中有你,两者是有机结合的统一体,在现代数据管理的需求中都有各自的定位。企业 所要做的并不是对技术策略进行非你即他的选择,而是根据自己的实际情况与需求,对各种技

12、术与产品进行合理的定位;同时,更加重要的工作并不是某一项技术的 正确定位与使用,而是能站在云数据中心建设的高度,将传统关系数据库资源与Hadoop集群资源集中起来形成PaaS平台,再对外提供分散的、数据相关的 云服务,包括数据库云与Hadoop平台云,可以将之统称为大数据云。将大数据的话题提高到这样的层面,虽然相关的资源池调度与分配技术也非常重要,但更 重要的却已经是面向云计算的大数据服务模式了。另一方面,虽然关系数据库将与Hadoop等技术共存的思想被大多数人接受,也是本书所认同的观 点,但广大读者可能还注意到一个现象:新兴的Hadoop/NoSQL等非SQL技术在不断发展的过程中,已经在逐

13、步引进一些原本属于SQL技术体系的功 能,如索引与事务;而关系数据库领域,也在逐步将这些新兴的技术引入其技术体系,如AsterData与最新Oracle 12C所具备的InDB MapReduce功能,都是除原有的SQL引擎以外,在其数据库内引入MapReduce处理引擎。那么,未来数据管理技术的发展趋势究竟如何呢?我们 说,在物理基础设施上,分布式集群架构应该是未来发展的大趋势,而在软基础设施层面,虽然SQL与非SQL技术体系在相当长的时间内会共存,但未来的趋势 是相互融合的。现在看来,起码对数据管理技术来讲,开源是大趋势,摒弃产品销售为主导的商业模式,以技术服务为主体应该是各大厂商应该尽早

14、考虑的策略。在 本书最后,笔者结合企业数据架构规划的实际,针对当今各个企业在响应大数据潮流时最为关心、最为困惑的问题:“到底如何在本企业实施与推广大数据”给出了 切实可行的建议。可以看到,企业引入大数据的本质就是:以适合更多更广的数据源,以及提供更强大的数据管理处理能力为目标,面向新时代的业务规划(如互联 网金融),对现有数据体系的各个层面(包括采集、传输、加工、集成、分析、展现等)进行全面改造,推出大数据时代的新一代企业级数据架构,并将其作为现代 企业IT架构的重要组成部分之一。笔者认为,企业引入云计算与大数据的战略思想应该是:“业务上是改造,技术上是改进;业务上是创新,技术上是补充”,仅

15、供企业参考。最后借此机会向王建波、李鹏、葛荪葳等朋友表示感谢,与他们的讨论使我受益匪浅,也一并感谢所有对我的写作有过帮助的人。希望本书是一个成功的尝试,同时也希望能为广大读者与企业的相关设计、规划与实践活动提供有用的借鉴与帮助。目录第1部分大数据概论第1章 大数据与云计算1.1 云计算概论1.2 大数据概论1.2.1 现代数据管理需求分析1.2.2 大数据的引入1.2.3 大数据的定义与特征1.2.4 大数据与互联网1.2.5 大数据战略、大数据与大数据技术1.3 大数据的技术实现云计算1.4 本章小结第2章 关系数据库的挑战与应对2.1 关系数据库技术的核心特征2.2 主流关系数据库的挑战2

16、.2.1 经典DBMS的挑战2.2.2 Share2.2.3 Shared N2.3 改进型关系数据库2.3.1 技术改进2.3.2 主要产品代表2.4 本章小结第3章 非SQL技术简介3.1 大数据技术家族3.1.1 NoSQL3.1.2 关系数据库联邦N3.1.3 分布式海量文件管理3.1.4 Map3.2 分与合云计算的两种技术路线3.3 本章小结第2部分 “分”为云数据切分第4章 NoSQL4.1 NoSQL的引入4.1.1 概念诠释与特征分析4.1.2 NoSQL的本质4.2 NoSQL家族4.2.1 NoSQL产品目录与分类4.2.2 Hadoop?4.2.3 Facebook之C

17、as4.2.4 MongoDB与C4.2.5 Oracle No4.2.6 Memcached?4.2.7 图数据库4.2.8 其他NoSQL数据库4.2.9 问题与疑惑4.3 NoSQL技术探研4.3.1 NoSQL理论基础4.3.2 NoSQL技术手段4.3.3 NoSQL技术解析4.4 NoSQL与关系数据库4.5 本章小结第5章 NewSQL关系数据库联邦5.1 数据库联邦的引入5.1.1 企业业务数据管理面临的问题5.1.2 垂直分库5.1.3 水平分表5.1.4 读写分离5.1.5 联邦的引入5.2 “联邦”的设计与实践5.2.1 企业级“联邦”架构设计5.2.2 公共基础服务设计

18、5.2.3 联邦的元数据库5.2.4 联邦的应用实践5.3 “联邦”技术分析5.3.1 关于“垂直分库”5.3.2 如何“水平分表”5.3.3 关于“读写分离”5.3.4 基本方法分布与聚合5.3.5 关于分布式事务5.3.6 关联操作5.2.7 冗余策略5.2.8 异步解耦策略5.2.9 使用缓存5.2.10 其他问题5.4 数据库联邦、NoSQL与主流关系数据库5.4.1 技术与应用八仙过海,各显神通5.4.2 互联网的神话5.5 本章小结第6章 文件系统联邦6.1 问题的引入6.1.1 关于几个数据概念的澄清6.1.2 文件数据管理的困难6.1.3 文件系统联邦的引入6.2 典型开源技术

19、介绍6.2.1 Mog6.2.2 Fa6.2.3 MogileFS与FastDFS的对比6.3 技术分析6.4 本章小结第7章 平民化的分布计算MapR7.1 分布式计算概述7.1.1 几个概念的澄清7.1.2 分布式计算技术综述7.1.3 MapReduce的引入7.2 MapReduce技术介绍7.2.1 设计思想7.2.2 MapReduce框架介绍7.3 MapReduce技术分析7.3.1 关于效率7.3.2 关于扩展性7.3.3 关于可靠性与可用性7.3.4 关于MapReduce与关系数据库7.3.5 关于适用的数据类型7.3.6 关于数据存储与管理7.4 MapReduce的应

20、用实践7.5 本章小结第8章 后Hadoop时代8.1 Hadoop体系及其困惑8.2 Google的新三驾马车8.2.1 新一代搜索引擎Caff8.2.2 大规模图处理系统Pr8.2.3 Dremel秒级实现PB级数据分析8.3 Symphony MapR8.4 后Hadoop时代即将来临8.5 本章小结第9章 InfiniData一种关系型云数据库的设计与实践9.1 现代企业数据管理需求再分析9.1.1 新的企业数据需求海量关系数据管理9.1.2 技术分析9.2 关系型云数据库架构设计9.2.1 关系型云数据库的引入9.2.2 技术架构设计9.3 云存储层9.3.1 逻辑架构9.3.2 物

21、理架构9.3.3 关系模型云存储元9.4 云计算层9.4.1 MapReduce云计算引擎9.4.2 集群式云计算引擎9.4.3 两种引擎的比较9.5 云存储索引层9.5.1 存储索引的管理9.5.2 索引云运行时动态创建9.6 技术分析9.7 本章小结第3部分云计算的分与合第10章 合为“云”数据整合10.1 数据整合的需求分析10.2 存储整合云10.3 数据库整合云10.4 本章小结第11章 关于分与合的讨论11.1 困惑分与合,孰是孰非?11.2 分为技,合为神11.3 分为雨,合为云大数据云11.4 数据管理技术发展趋势总结11.4.1 数据管理物理基础设施发展趋势11.4.2 数据

22、管理软基础设施发展趋势11.5 本章小结第12章 企业大数据技术体系与云计算数据基础设施12.1 现代企业数据管理需求再分析12.2 新一代企业数据体系建设12.2.1 新一代企业数据体系建设的定义与内容12.2.2 新一代企业数据分类体系12.2.3 新一代企业数据分布与流转规划12.3 大数据技术在企业数据架构中的定位12.3.1 技术规划战略12.3.2 大数据技术架构规划12.3.3 典型场景电子渠道线上行为分析12.4 云计算数据基础设施概念的引入12.5 本章小结后记超越技术参考文献倚窗远眺,目光目光尽处必有一座山,那影影绰绰的黛绿色的影,是春天的颜色。周遭流岚升腾,没露出那真实的面孔。面对那流转的薄雾,我会幻想,那里有一个世外桃源。在天阶夜色凉如水的夏夜,我会静静地,静静地,等待一场流星雨的来临许下一个愿望,不乞求去实现,至少,曾经,有那么一刻,我那还未枯萎的,青春的,诗意的心,在我最美的年华里,同星空做了一次灵魂的交流秋日里,阳光并不刺眼,天空是一碧如洗的蓝,点缀着飘逸的流云。偶尔,一片飞舞的落叶,会飘到我的窗前。斑驳的印迹里,携刻着深秋的颜色。在一个落雪的晨,这纷纷扬扬的雪,飘落着一如千年前的洁白。窗外,是未被污染的银白色世界。我会去迎接,这人间的圣洁。在这流转的岁月里,有着流转的四季,还有一颗流转的心,亘古不变的心。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1