MapReduce经典例子WordCount运行详解.docx

资源描述

MapReduce经典例子WordCount运行详解.docx

《MapReduce经典例子WordCount运行详解.docx》由会员分享，可在线阅读，更多相关《MapReduce经典例子WordCount运行详解.docx（31页珍藏版）》请在冰豆网上搜索。

MapReduce经典例子WordCount运行详解.docx

MapReduce经典例子WordCount运行详解

创建时间：

2012/3/1

修改时间：

2017/3/1修改次数：

HadoopMapReduce经典例子

——WordCount运行详解

1、MapReduce理论简介

1.1MapReduce编程模型

MapReduce采用“分而治之”的思想，把对大规模数据集的操作，分发给一个主节点

管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。

简单地

说，MapReduce就是“任务的分解与结果的汇总”。

在Hadoop中，用于执行MapReduce任务的机器角色有两个：

一个是JobTracker；另一

个是TaskTracker，JobTracker是用于调度工作的，TaskTracker是用于执行工作的。

一个Hadoop

集群中只有一台JobTracker。

在分布式计算中，MapReduce框架负责处理了并行编程中分布式存储、工作调度、负

载均衡、容错均衡、容错处理以及网络通信等复杂问题，把处理过程高度抽象为两个函数：

map和reduce，map负责把任务分解成多个任务，reduce负责把分解后多任务处理的结果汇

总起来。

需要注意的是，用MapReduce来处理的数据集（或任务）必须具备这样的特点：

待处

理的数据集可以分解成许多小的数据集，而且每一个小数据集都可以完全并行地进行处理。

1.2MapReduce处理过程

在Hadoop中，每个MapReduce任务都被初始化为一个Job，每个Job又可以分为两种

阶段：

map阶段和reduce阶段。

这两个阶段分别用两个函数表示，即map函数和reduce函

数。

map函数接收一个形式的输入，然后同样产生一个形式的中间输

出，Hadoop函数接收一个如形式的输入，然后对这个value集合进行处

理，每个reduce产生0或1个输出，reduce的输出也是形式的。

MapReduce处理大数据集的过程

创建时间：

2012/3/1

修改时间：

2017/3/1修改次数：

2、运行WordCount程序

单词计数是最简单也是最能体现MapReduce思想的程序之一，可以称为MapReduce版

“HelloWorld”，该程序的完整代码可以在Hadoop安装包的“src/examples”目录下找到。

单词计数主要完成功能是：

统计一系列文本文件中每个单词出现的次数，如下图所示。

2.1准备工作

现在以“hadoop”普通用户登录“Master.Hadoop”服务器。

1）创建本地示例文件

首先在“/home/hadoop”目录下创建文件夹“file”。

接着创建两个文本文件file1.txt和file2.txt，file1.txt内容为使“HelloWorld”而file2.txt，

的内容为“HelloHadoop”。

创建时间2012/3/1

修改时间：

2017/3/1修改次数：

2）在HDFS上创建输入文件夹

3）上传本地file中文件到集群的input目录下

2.2运行例子

1）在集群上运行WordCount程序

备注：

以input作为输入目录，output目录作为输出目录。

已经编译好的WordCount的Jar在“/usr/hadoop”下面，“hadoop-examples-1.0.0.jar”就是，

所以在下面执行命令时记得把路径写全了，不然会提示找不到该Jar包。

2）MapReduce执行过程显示信息

Hadoop命令会启动一个JVM来运行这个MapReduce程序，并自动获得Hadoop的配置，

同时把类的路径（及其依赖关系）加入到Hadoop的库中。

以上就是HadoopJob的运行记录，

从这里可以看到，这个Job被赋予了一个ID号：

job_201202292213_0002，而且得知输入文

件有两个（Totalinputpathstoprocess:

2），同时还可以了解map的输入输出记录（record数

及字节数），以及reduce输入输出记录。

比如说，在本例中，map的task数量是2个，reduce

创建时间：

2012/3/1

修改时间：

2012/3/1修改次数：

的task数量是一个。

map的输入record数是2个，输出record数是4个等信息。

2.3查看结果

1）查看HDFS上output目录内容

从上图中知道生成了三个文件，我们的结果在“part-r-00000”中。

2）查看结果输出文件内容

3、WordCount源码分析

3.1特别数据类型介绍

Hadoop提供了如下内容的数据类型，这些数据类型都实现了WritableComparable接口，

以便用这些类型定义的数据可以被序列化进行网络传输和文件存储，以及进行大小比较。

BooleanWritable：

标准布尔型数值

ByteWritable：

单字节数值

DoubleWritable：

双字节数

FloatWritable：

浮点数

IntWritable：

整型数

LongWritable：

长整型数

Text：

使用UTF8格式存储的文本

NullWritable：

当中的key或value为空时使用

3.2旧的WordCount分析

1）源代码程序

packageorg.apache.hadoop.examples;

创建时间：

2012/3/1

修改时间：

2012/3/1修改次数：

importjava.io.IOException;

importjava.util.Iterator;

importjava.util.StringTokenizer;

importorg.apache.hadoop.fs.Path;

importorg.apache.hadoop.io.IntWritable;

importorg.apache.hadoop.io.LongWritable;

importorg.apache.hadoop.io.Text;

importorg.apache.hadoop.mapred.FileInputFormat;

importorg.apache.hadoop.mapred.FileOutputFormat;

importorg.apache.hadoop.mapred.JobClient;

importorg.apache.hadoop.mapred.JobConf;

importorg.apache.hadoop.mapred.MapReduceBase;

importorg.apache.hadoop.mapred.Mapper;

importorg.apache.hadoop.mapred.OutputCollector;

importorg.apache.hadoop.mapred.Reducer;

importorg.apache.hadoop.mapred.Reporter;

importorg.apache.hadoop.mapred.TextInputFormat;

importorg.apache.hadoop.mapred.TextOutputFormat;

public

{

class

WordCount

public

{

private

staticclassMapextendsMapReduceBase

Mapper

finalstaticIntWritableone=new

Textword=newText（）;

implements

IntWritable

（1）;

public

voidmap（LongWritablekey,Textvalue,

OutputCollectoroutput,Reporterreporter）

throwsIOException

{

Stringline=value.toString（）;

StringTokenizertokenizer=newStringTokenizer（line）;

while（tokenizer.hasMoreTokens（））

{

word.set（tokenizer.nextToken（））;

output.collect（word,one）;

}

创建时间：

2012/3/1

修改时间：

2012/3/1修改次数：

public

{

staticclassReduceextendsMapReduceBase

Reducer

implements

public

voidreduce（Textkey,Iteratorvalues,

OutputCollectoroutput,Reporterreporter）

throwsIOException

{

intsum=0;

while（values.hasNext（））

{

sum+=values.next（）.get（）;

}

output.collect（key,newIntWritable（sum））;

}

publicstaticvoidmain（String[]args）throwsException

{

JobConfconf=newJobConf（WordCount.class）;

conf.setJobName（"wordcount"）;

conf.setOutputKeyClass（Text.class）;

conf.setOutputValueClass（IntWritable.class）;

conf.setMapperClass（Map.class）;

conf.setCombinerClass（Reduce.class）;

conf.setReducerClass（Reduce.class）;

conf.setInputFormat（TextInputFormat.class）;

conf.setOutputFormat（TextOutputFormat.class）;

FileInputFormat.setInputPaths（conf,newPath（args[0]））;

FileOutputFormat.setOutputPath（conf,newPath（args[1]））;

JobClient.runJob（conf）;

}

3）主方法Main分析

public

{

static

void

main（String[]args）throwsException

JobConfconf=newJobConf（WordCount.class）;

conf.setJobName（"wordcount"）;

创建时间：

2012/3/1

修改时间：

2012/3/1修改次数：

conf.setOutputKeyClass（Text.class）;

conf.setOutputValueClass（IntWritable.class）;

conf.setMapperClass（Map.class）;

conf.setCombinerClass（Reduce.class）;

conf.setReducerClass（Reduce.class）;

conf.setInputFormat（TextInputFormat.class）;

conf.setOutputFormat（TextOutputFormat.class）;

FileInputFormat.setInputPaths（conf,newPath（args[0]））;

FileOutputFormat.setOutputPath（conf,newPath（args[1]））;

JobClient.runJob（conf）;

}

首先讲解一下Job的初始化过程。

main函数调用Jobconf类来对MapReduceJob进行

初始化，然后调用setJobName（）方法命名这个Job。

对Job进行合理的命名有助于更快地找

到Job，以便在JobTracker和Tasktracker的页面中对其进行监视。

JobConfconf=newJobConf（WordCount.class）;

conf.setJobName（"wordcount"）;

接着设置Job输出结果的中key和value数据类型，因为结果是<单词,个数>，

所以key设置为“Text”类型，相当于Java中String类型。

Value设置为“IntWritable”，相

当于Java中的int类型。

conf.setOutputKeyClass（Text.class）;

conf.setOutputValueClass（IntWritable.class）;

然后设置Job处理的Map（拆分）、Combiner（中间结果合并）以及Reduce（合并）的