GoogleMapReduce框架带部分源代码.docx
《GoogleMapReduce框架带部分源代码.docx》由会员分享,可在线阅读,更多相关《GoogleMapReduce框架带部分源代码.docx(27页珍藏版)》请在冰豆网上搜索。
GoogleMapReduce框架带部分源代码
摘要
MapReduce是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。
用户首先创建一个Map函数处理一个基于key/valuepair的数据集合,输出中间的基于key/valuepair的数据集合;然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。
现实世界中有很多满足上述处理模型的例子,本论文将详细描述这个模型。
MapReduce架构的程序能够在大量的普通配置的计算机上实现并行化处理。
这个系统在运行时只关心:
如何分割输入数据,在大量计算机组成的集群上的调度,集群中计算机的错误处理,管理集群中计算机之间必要的通信。
采用MapReduce架构可以使那些没有并行计算和分布式处理系统开发经验的程序员有效利用分布式系统的丰富资源。
我们的MapReduce实现运行在规模可以灵活调整的由普通机器组成的集群上:
一个典型的MapReduce计算往往由几千台机器组成、处理以TB计算的数据。
程序员发现这个系统非常好用:
已经实现了数以百计的MapReduce程序,在Google的集群上,每天都有1000多个MapReduce程序在执行。
1、介绍
在过去的5年里,包括本文作者在内的Google的很多程序员,为了处理海量的原始数据,已经实现了数以百计的、专用的计算方法。
这些计算方法用来处理大量的原始数据,比如,文档抓取(类似网络爬虫的程序)、Web请求日志等等;也为了计算处理各种类型的衍生数据,比如倒排索引、Web文档的图结构的各种表示形势、每台主机上网络爬虫抓取的页面数量的汇总、每天被请求的最多的查询的集合等等。
大多数这样的数据处理运算在概念上很容易理解。
然而由于输入的数据量巨大,因此要想在可接受的时间内完成运算,只有将这些计算分布在成百上千的主机上。
如何处理并行计算、如何分发数据、如何处理错误?
所有这些问题综合在一起,需要大量的代码处理,因此也使得原本简单的运算变得难以处理。
为了解决上述复杂的问题,我们设计一个新的抽象模型,使用这个抽象模型,我们只要表述我们想要执行的简单运算即可,而不必关心并行计算、容错、数据分布、负载均衡等复杂的细节,这些问题都被封装在了一个库里面。
设计这个抽象模型的灵感来自Lisp和许多其他函数式语言的Map和Reduce的原语。
我们意识到我们大多数的运算都包含这样的操作:
在输入数据的“逻辑”记录上应用Map操作得出一个中间key/valuepair集合,然后在所有具有相同key值的value值上应用Reduce操作,从而达到合并中间的数据,得到一个想要的结果的目的。
使用MapReduce模型,再结合用户实现的Map和Reduce函数,我们就可以非常容易的实现大规模并行化计算;通过MapReduce模型自带的“再次执行”(re-execution)功能,也提供了初级的容灾实现方案。
这个工作(实现一个MapReduce框架模型)的主要贡献是通过简单的接口来实现自动的并行化和大规模的分布式计算,通过使用MapReduce模型接口实现在大量普通的PC机上高性能计算。
第二部分描述基本的编程模型和一些使用案例。
第三部分描述了一个经过裁剪的、适合我们的基于集群的计算环境的MapReduce实现。
第四部分描述我们认为在MapReduce编程模型中一些实用的技巧。
第五部分对于各种不同的任务,测量我们MapReduce实现的性能。
第六部分揭示了在Google内部如何使用MapReduce作为基础重写我们的索引系统产品,包括其它一些使用MapReduce的经验。
第七部分讨论相关的和未来的工作。
2、编程模型
MapReduce编程模型的原理是:
利用一个输入key/valuepair集合来产生一个输出的key/valuepair集合。
MapReduce库的用户用两个函数表达这个计算:
Map和Reduce。
用户自定义的Map函数接受一个输入的key/valuepair值,然后产生一个中间key/valuepair值的集合。
MapReduce库把所有具有相同中间key值I的中间value值集合在一起后传递给reduce函数。
用户自定义的Reduce函数接受一个中间key的值I和相关的一个value值的集合。
Reduce函数合并这些value值,形成一个较小的value值的集合。
一般的,每次Reduce函数调用只产生0或1个输出value值。
通常我们通过一个迭代器把中间value值提供给Reduce函数,这样我们就可以处理无法全部放入内存中的大量的value值的集合。
2.1、例子
例如,计算一个大的文档集合中每个单词出现的次数,下面是伪代码段:
map(Stringkey,Stringvalue):
//key:
documentname
//value:
documentcontents
foreachwordwinvalue:
EmitIntermediate(w,“1″);
reduce(Stringkey,Iteratorvalues):
//key:
aword
//values:
alistofcounts
intresult=0;
foreachvinvalues:
result+=ParseInt(v);
Emit(AsString(result));
Map函数输出文档中的每个词、以及这个词的出现次数(在这个简单的例子里就是1)。
Reduce函数把Map函数产生的每一个特定的词的计数累加起来。
另外,用户编写代码,使用输入和输出文件的名字、可选的调节参数来完成一个符合MapReduce模型规范的对象,然后调用MapReduce函数,并把这个规范对象传递给它。
用户的代码和MapReduce库链接在一起(用C++实现)。
附录A包含了这个实例的全部程序代码。
2.2、类型
尽管在前面例子的伪代码中使用了以字符串表示的输入输出值,但是在概念上,用户定义的Map和Reduce函数都有相关联的类型:
map(k1,v1)->list(k2,v2)
reduce(k2,list(v2))->list(v2)
比如,输入的key和value值与输出的key和value值在类型上推导的域不同。
此外,中间key和value值与输出key和value值在类型上推导的域相同。
(alex注:
原文中这个domain的含义不是很清楚,我参考Hadoop、KFS等实现,map和reduce都使用了泛型,因此,我把domain翻译成类型推导的域)。
我们的C++中使用字符串类型作为用户自定义函数的输入输出,用户在自己的代码中对字符串进行适当的类型转换。
2.3、更多的例子
这里还有一些有趣的简单例子,可以很容易的使用MapReduce模型来表示:
∙分布式的Grep:
Map函数输出匹配某个模式的一行,Reduce函数是一个恒等函数,即把中间数据复制到输出。
∙计算URL访问频率:
Map函数处理日志中web页面请求的记录,然后输出(URL,1)。
Reduce函数把相同URL的value值都累加起来,产生(URL,记录总数)结果。
∙倒转网络链接图:
Map函数在源页面(source)中搜索所有的链接目标(target)并输出为(target,source)。
Reduce函数把给定链接目标(target)的链接组合成一个列表,输出(target,list(source))。
∙每个主机的检索词向量:
检索词向量用一个(词,频率)列表来概述出现在文档或文档集中的最重要的一些词。
Map函数为每一个输入文档输出(主机名,检索词向量),其中主机名来自文档的URL。
Reduce函数接收给定主机的所有文档的检索词向量,并把这些检索词向量加在一起,丢弃掉低频的检索词,输出一个最终的(主机名,检索词向量)。
∙倒排索引:
Map函数分析每个文档输出一个(词,文档号)的列表,Reduce函数的输入是一个给定词的所有(词,文档号),排序所有的文档号,输出(词,list(文档号))。
所有的输出集合形成一个简单的倒排索引,它以一种简单的算法跟踪词在文档中的位置。
∙分布式排序:
Map函数从每个记录提取key,输出(key,record)。
Reduce函数不改变任何的值。
这个运算依赖分区机制(在4.1描述)和排序属性(在4.2描述)。
3、实现
MapReduce模型可以有多种不同的实现方式。
如何正确选择取决于具体的环境。
例如,一种实现方式适用于小型的共享内存方式的机器,另外一种实现方式则适用于大型NUMA架构的多处理器的主机,而有的实现方式更适合大型的网络连接集群。
本章节描述一个适用于Google内部广泛使用的运算环境的实现:
用以太网交换机连接、由普通PC机组成的大型集群。
在我们的环境里包括:
1.x86架构、运行Linux操作系统、双处理器、2-4GB内存的机器。
2.普通的网络硬件设备,每个机器的带宽为百兆或者千兆,但是远小于网络的平均带宽的一半。
(alex注:
这里需要网络专家解释一下了)
3.集群中包含成百上千的机器,因此,机器故障是常态。
4.存储为廉价的内置IDE硬盘。
一个内部分布式文件系统用来管理存储在这些磁盘上的数据。
文件系统通过数据复制来在不可靠的硬件上保证数据的可靠性和有效性。
5.用户提交工作(job)给调度系统。
每个工作(job)都包含一系列的任务(task),调度系统将这些任务调度到集群中多台可用的机器上。
3.1、执行概括
通过将Map调用的输入数据自动分割为M个数据片段的集合,Map调用被分布到多台机器上执行。
输入的数据片段能够在不同的机器上并行处理。
使用分区函数将Map调用产生的中间key值分成R个不同分区(例如,hash(key)modR),Reduce调用也被分布到多台机器上执行。
分区数量(R)和分区函数由用户来指定。
图1展示了我们的MapReduce实现中操作的全部流程。
当用户调用MapReduce函数时,将发生下面的一系列动作(下面的序号和图1中的序号一一对应):
1.用户程序首先调用的MapReduce库将输入文件分成M个数据片度,每个数据片段的大小一般从16MB到64MB(可以通过可选的参数来控制每个数据片段的大小)。
然后用户程序在机群中创建大量的程序副本。
(alex:
copiesoftheprogram还真难翻译)
2.这些程序副本中的有一个特殊的程序–master。
副本中其它的程序都是worker程序,由master分配任务。
有M个Map任务和R个Reduce任务将被分配,master将一个Map任务或Reduce任务分配给一个空闲的worker。
3.被分配了map任务的worker程序读取相关的输入数据片段,从输入的数据片段中解析出key/valuepair,然后把key/valuepair传递给用户自定义的Map函数,由Map函数生成并输出的中间key/valuepair,并缓存在内存中。
4.缓存中的key/valuepair通过分区函数分成R个区域,之后周期性的写入到本地磁盘上。
缓存的key/valuepair在本地磁盘上的存储位置将被回传给master,由master负责把这些存储位置再传送给Reduceworker。
5.当Reduceworker程序接收到master程序发来的数据存储位置信息后,使用RPC从Mapworker所在主机的磁盘上读取这些缓存数据。
当Reduceworker读取了所有的中间数据后,通过对key进行排序后使得具有相同key值的数据聚合在一起。
由于许多不同的key值会映射到相同的Reduce任务上,因此必须进行排序。
如果中间数据太大无法在内存中完成排序,那么就要在外部进行排序。
6.Reduceworker程序遍历排序后的中间数据,对于每一个唯一的中间key值,Reduceworker程序将这个key值和它相关的中间value值的集合传递给用户自定义的Reduce函数。
Reduce函数的输出被追加到所属分区的输出文件。
7.当所有的Map和Reduce任务都完成之后,master唤醒用户程序。
在这个时候,在用户程序里的对MapReduce调用才返回。
在成功完成任务之后,MapReduce的输出存放在R个输出文件中(对应每个Reduce任务产生一个输出文件,文件名由用户指定)。
一般情况下,用户不需要将这R个输出文件合并成一个文件–他们经常把这些文件作为另外一个MapReduce的输入,或者在另外一个可以处理多个分割文件的分布式应用中使用。
3.2、Master数据结构
Master持有一些数据结构,它存储每一个Map和Reduce任务的状态(空闲、工作中或完成),以及Worker机器(非空闲任务的机器)的标识。
Master就像一个数据管道,中间文件存储区域的位置信息通过这个管道从Map传递到Reduce。
因此,对于每个已经完成的Map任务,master存储了Map任务产生的R个中间文件存储区域的大小和位置。
当Map任务完成时,Master接收到位置和大小的更新信息,这些信息被逐步递增的推送给那些正在工作的Reduce任务。
3.3、容错
因为MapReduce库的设计初衷是使用由成百上千的机器组成的集群来处理超大规模的数据,所以,这个库必须要能很好的处理机器故障。
worker故障
master周期性的ping每个worker。
如果在一个约定的时间范围内没有收到worker返回的信息,master将把这个worker标记为失效。
所有由这个失效的worker完成的Map任务被重设为初始的空闲状态,之后这些任务就可以被安排给其他的worker。
同样的,worker失效时正在运行的Map或Reduce任务也将被重新置为空闲状态,等待重新调度。
当worker故障时,由于已经完成的Map任务的输出存储在这台机器上,Map任务的输出已不可访问了,因此必须重新执行。
而已经完成的Reduce任务的输出存储在全局文件系统上,因此不需要再次执行。
当一个Map任务首先被workerA执行,之后由于workerA失效了又被调度到workerB执行,这个“重新执行”的动作会被通知给所有执行Reduce任务的worker。
任何还没有从workerA读取数据的Reduce任务将从workerB读取数据。
MapReduce可以处理大规模worker失效的情况。
比如,在一个MapReduce操作执行期间,在正在运行的集群上进行网络维护引起80台机器在几分钟内不可访问了,MapReducemaster只需要简单的再次执行那些不可访问的worker完成的工作,之后继续执行未完成的任务,直到最终完成这个MapReduce操作。
master失败
一个简单的解决办法是让master周期性的将上面描述的数据结构(alex注:
指3.2节)的写入磁盘,即检查点(checkpoint)。
如果这个master任务失效了,可以从最后一个检查点(checkpoint)开始启动另一个master进程。
然而,由于只有一个master进程,master失效后再恢复是比较麻烦的,因此我们现在的实现是如果master失效,就中止MapReduce运算。
客户可以检查到这个状态,并且可以根据需要重新执行MapReduce操作。
在失效方面的处理机制
(alex注:
原文为”semanticsinthepresenceoffailures”)
当用户提供的Map和Reduce操作是输入确定性函数(即相同的输入产生相同的输出)时,我们的分布式实现在任何情况下的输出都和所有程序没有出现任何错误、顺序的执行产生的输出是一样的。
我们依赖对Map和Reduce任务的输出是原子提交的来完成这个特性。
每个工作中的任务把它的输出写到私有的临时文件中。
每个Reduce任务生成一个这样的文件,而每个Map任务则生成R个这样的文件(一个Reduce任务对应一个文件)。
当一个Map任务完成的时,worker发送一个包含R个临时文件名的完成消息给master。
如果master从一个已经完成的Map任务再次接收到到一个完成消息,master将忽略这个消息;否则,master将这R个文件的名字记录在数据结构里。
当Reduce任务完成时,Reduceworker进程以原子的方式把临时文件重命名为最终的输出文件。
如果同一个Reduce任务在多台机器上执行,针对同一个最终的输出文件将有多个重命名操作执行。
我们依赖底层文件系统提供的重命名操作的原子性来保证最终的文件系统状态仅仅包含一个Reduce任务产生的数据。
使用MapReduce模型的程序员可以很容易的理解他们程序的行为,因为我们绝大多数的Map和Reduce操作是确定性的,而且存在这样的一个事实:
我们的失效处理机制等价于一个顺序的执行的操作。
当Map或/和Reduce操作是不确定性的时候,我们提供虽然较弱但是依然合理的处理机制。
当使用非确定操作的时候,一个Reduce任务R1的输出等价于一个非确定性程序顺序执行产生时的输出。
但是,另一个Reduce任务R2的输出也许符合一个不同的非确定顺序程序执行产生的R2的输出。
考虑Map任务M和Reduce任务R1、R2的情况。
我们设定e(Ri)是Ri已经提交的执行过程(有且仅有一个这样的执行过程)。
当e(R1)读取了由M一次执行产生的输出,而e(R2)读取了由M的另一次执行产生的输出,导致了较弱的失效处理。
3.4、存储位置
在我们的计算运行环境中,网络带宽是一个相当匮乏的资源。
我们通过尽量把输入数据(由GFS管理)存储在集群中机器的本地磁盘上来节省网络带宽。
GFS把每个文件按64MB一个Block分隔,每个Block保存在多台机器上,环境中就存放了多份拷贝(一般是3个拷贝)。
MapReduce的master在调度Map任务时会考虑输入文件的位置信息,尽量将一个Map任务调度在包含相关输入数据拷贝的机器上执行;如果上述努力失败了,master将尝试在保存有输入数据拷贝的机器附近的机器上执行Map任务(例如,分配到一个和包含输入数据的机器在一个switch里的worker机器上执行)。
当在一个足够大的cluster集群上运行大型MapReduce操作的时候,大部分的输入数据都能从本地机器读取,因此消耗非常少的网络带宽。
3.5、任务粒度
如前所述,我们把Map拆分成了M个片段、把Reduce拆分成R个片段执行。
理想情况下,M和R应当比集群中worker的机器数量要多得多。
在每台worker机器都执行大量的不同任务能够提高集群的动态的负载均衡能力,并且能够加快故障恢复的速度:
失效机器上执行的大量Map任务都可以分布到所有其他的worker机器上去执行。
但是实际上,在我们的具体实现中对M和R的取值都有一定的客观限制,因为master必须执行O(M+R)次调度,并且在内存中保存O(M*R)个状态(对影响内存使用的因素还是比较小的:
O(M*R)块状态,大概每对Map任务/Reduce任务1个字节就可以了)。
更进一步,R值通常是由用户指定的,因为每个Reduce任务最终都会生成一个独立的输出文件。
实际使用时我们也倾向于选择合适的M值,以使得每一个独立任务都是处理大约16M到64M的输入数据(这样,上面描写的输入数据本地存储优化策略才最有效),另外,我们把R值设置为我们想使用的worker机器数量的小的倍数。
我们通常会用这样的比例来执行MapReduce:
M=200000,R=5000,使用2000台worker机器。
3.6、备用任务
影响一个MapReduce的总执行时间最通常的因素是“落伍者”:
在运算过程中,如果有一台机器花了很长的时间才完成最后几个Map或Reduce任务,导致MapReduce操作总的执行时间超过预期。
出现“落伍者”的原因非常多。
比如:
如果一个机器的硬盘出了问题,在读取的时候要经常的进行读取纠错操作,导致读取数据的速度从30M/s降低到1M/s。
如果cluster的调度系统在这台机器上又调度了其他的任务,由于CPU、内存、本地硬盘和网络带宽等竞争因素的存在,导致执行MapReduce代码的执行效率更加缓慢。
我们最近遇到的一个问题是由于机器的初始化代码有bug,导致关闭了的处理器的缓存:
在这些机器上执行任务的性能和正常情况相差上百倍。
我们有一个通用的机制来减少“落伍者”出现的情况。
当一个MapReduce操作接近完成的时候,master调度备用(backup)任务进程来执行剩下的、处于处理中状态(in-progress)的任务。
无论是最初的执行进程、还是备用(backup)任务进程完成了任务,我们都把这个任务标记成为已经完成。
我们调优了这个机制,通常只会占用比正常操作多几个百分点的计算资源。
我们发现采用这样的机制对于减少超大MapReduce操作的总处理时间效果显著。
例如,在5.3节描述的排序任务,在关闭掉备用任务的情况下要多花44%的时间完成排序任务。
4、技巧
虽然简单的Map和Reduce函数提供的基本功能已经能够满足大部分的计算需要,我们还是发掘出了一些有价值的扩展功能。
本节将描述这些扩展功能。
4.1、分区函数
MapReduce的使用者通常会指定Reduce任务和Reduce任务输出文件的数量(R)。
我们在中间key上使用分区函数来对数据进行分区,之后再输入到后续任务执行进程。
一个缺省的分区函数是使用hash方法(比如,hash(key)modR)进行分区。
hash方法能产生非常平衡的分区。
然而,有的时候,其它的一些分区函数对key值进行的分区将非常有用。
比如,输出的key值是URLs,我们希望每个主机的所有条目保持在同一个输出文件中。
为了支持类似的情况,MapReduce库的用户需要提供专门的分区函数。
例如,使用“hash(Hostname(urlkey))modR”作为分区函数就可以把所有来自同一个主机的URLs保存在同一个输出文件中。
4.2、顺序保证
我们确保在给定的分区中,中间key/valuepair数据的处理顺序是按照key值增量顺序处理的。
这样的顺序保证对每个分成生成一个有序的输出文件,这对于需要对输出文件按key值随机存取的应用非常有意义,对在排序输出的数据集也很有帮助。
4.3、Combiner函数
在某些情况下,Map函数产生的中间key值的重复数据会占很大的比重,并且,用户自定义的Reduce函数满足结合律和交换律。
在2.1节的词数统计程序是个很好的例子。
由于词频率倾向于一个zipf分布(齐夫分布),每个Map任务将产生成千上万个这样的记录。
所有的这些记录将通过网络被发送到一个单独的Reduce任务,然后由这个Reduce任务把所有这些记录累加起来产生一个数字。
我们允许用户指定一个可选的combiner函数,combiner函数首先在本地将这些记录进行一次合并,然后将合并的结果再通过网络发送出去。
Combiner函数在每台执行Map任务的机器上都会被执行一次。
一般情况下,Combiner和Reduce函数是一样的。
Combiner函数和Reduce函数之间唯一的区别是MapReduce库怎样控制函数的输出。
Reduce函数的输出被保存在最终的输出文件里,而Combiner函数的输出被写到中间文件里,然后被发送给Reduce任务。
部分的合并中间结果可以显著的提高一些MapReduce操作的速度。
附录A