MapReduce经典例子WordCount运行详解.docx

上传人:b****5 文档编号:4611186 上传时间:2022-12-07 格式:DOCX 页数:31 大小:343.23KB
下载 相关 举报
MapReduce经典例子WordCount运行详解.docx_第1页
第1页 / 共31页
MapReduce经典例子WordCount运行详解.docx_第2页
第2页 / 共31页
MapReduce经典例子WordCount运行详解.docx_第3页
第3页 / 共31页
MapReduce经典例子WordCount运行详解.docx_第4页
第4页 / 共31页
MapReduce经典例子WordCount运行详解.docx_第5页
第5页 / 共31页
点击查看更多>>
下载资源
资源描述

MapReduce经典例子WordCount运行详解.docx

《MapReduce经典例子WordCount运行详解.docx》由会员分享,可在线阅读,更多相关《MapReduce经典例子WordCount运行详解.docx(31页珍藏版)》请在冰豆网上搜索。

MapReduce经典例子WordCount运行详解.docx

MapReduce经典例子WordCount运行详解

创建时间:

2012/3/1

修改时间:

2017/3/1修改次数:

0

HadoopMapReduce经典例子

——WordCount运行详解

1、MapReduce理论简介

1.1MapReduce编程模型

MapReduce采用“分而治之”的思想,把对大规模数据集的操作,分发给一个主节点

管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。

简单地

说,MapReduce就是“任务的分解与结果的汇总”。

在Hadoop中,用于执行MapReduce任务的机器角色有两个:

一个是JobTracker;另一

个是TaskTracker,JobTracker是用于调度工作的,TaskTracker是用于执行工作的。

一个Hadoop

集群中只有一台JobTracker。

在分布式计算中,MapReduce框架负责处理了并行编程中分布式存储、工作调度、负

载均衡、容错均衡、容错处理以及网络通信等复杂问题,把处理过程高度抽象为两个函数:

map和reduce,map负责把任务分解成多个任务,reduce负责把分解后多任务处理的结果汇

总起来。

需要注意的是,用MapReduce来处理的数据集(或任务)必须具备这样的特点:

待处

理的数据集可以分解成许多小的数据集,而且每一个小数据集都可以完全并行地进行处理。

1.2MapReduce处理过程

在Hadoop中,每个MapReduce任务都被初始化为一个Job,每个Job又可以分为两种

阶段:

map阶段和reduce阶段。

这两个阶段分别用两个函数表示,即map函数和reduce函

数。

map函数接收一个形式的输入,然后同样产生一个形式的中间输

出,Hadoop函数接收一个如形式的输入,然后对这个value集合进行处

理,每个reduce产生0或1个输出,reduce的输出也是形式的。

MapReduce处理大数据集的过程

1

创建时间:

2012/3/1

修改时间:

2017/3/1修改次数:

0

2、运行WordCount程序

单词计数是最简单也是最能体现MapReduce思想的程序之一,可以称为MapReduce版

“HelloWorld”,该程序的完整代码可以在Hadoop安装包的“src/examples”目录下找到。

单词计数主要完成功能是:

统计一系列文本文件中每个单词出现的次数,如下图所示。

2.1准备工作

现在以“hadoop”普通用户登录“Master.Hadoop”服务器。

1)创建本地示例文件

首先在“/home/hadoop”目录下创建文件夹“file”。

接着创建两个文本文件file1.txt和file2.txt,file1.txt内容为使“HelloWorld”而file2.txt,

的内容为“HelloHadoop”。

 

2

创建时间2012/3/1

修改时间:

2017/3/1修改次数:

0

2)在HDFS上创建输入文件夹

3)上传本地file中文件到集群的input目录下

2.2运行例子

1)在集群上运行WordCount程序

备注:

以input作为输入目录,output目录作为输出目录。

已经编译好的WordCount的Jar在“/usr/hadoop”下面,“hadoop-examples-1.0.0.jar”就是,

所以在下面执行命令时记得把路径写全了,不然会提示找不到该Jar包。

2)MapReduce执行过程显示信息

Hadoop命令会启动一个JVM来运行这个MapReduce程序,并自动获得Hadoop的配置,

同时把类的路径(及其依赖关系)加入到Hadoop的库中。

以上就是HadoopJob的运行记录,

从这里可以看到,这个Job被赋予了一个ID号:

job_201202292213_0002,而且得知输入文

件有两个(Totalinputpathstoprocess:

2),同时还可以了解map的输入输出记录(record数

及字节数),以及reduce输入输出记录。

比如说,在本例中,map的task数量是2个,reduce

3

创建时间:

2012/3/1

修改时间:

2012/3/1修改次数:

0

的task数量是一个。

map的输入record数是2个,输出record数是4个等信息。

2.3查看结果

1)查看HDFS上output目录内容

从上图中知道生成了三个文件,我们的结果在“part-r-00000”中。

2)查看结果输出文件内容

3、WordCount源码分析

3.1特别数据类型介绍

Hadoop提供了如下内容的数据类型,这些数据类型都实现了WritableComparable接口,

以便用这些类型定义的数据可以被序列化进行网络传输和文件存储,以及进行大小比较。

BooleanWritable:

标准布尔型数值

ByteWritable:

单字节数值

DoubleWritable:

双字节数

FloatWritable:

浮点数

IntWritable:

整型数

LongWritable:

长整型数

Text:

使用UTF8格式存储的文本

NullWritable:

中的key或value为空时使用

3.2旧的WordCount分析

1)源代码程序

packageorg.apache.hadoop.examples;

4

创建时间:

2012/3/1

修改时间:

2012/3/1修改次数:

0

importjava.io.IOException;

importjava.util.Iterator;

importjava.util.StringTokenizer;

importorg.apache.hadoop.fs.Path;

importorg.apache.hadoop.io.IntWritable;

importorg.apache.hadoop.io.LongWritable;

importorg.apache.hadoop.io.Text;

importorg.apache.hadoop.mapred.FileInputFormat;

importorg.apache.hadoop.mapred.FileOutputFormat;

importorg.apache.hadoop.mapred.JobClient;

importorg.apache.hadoop.mapred.JobConf;

importorg.apache.hadoop.mapred.MapReduceBase;

importorg.apache.hadoop.mapred.Mapper;

importorg.apache.hadoop.mapred.OutputCollector;

importorg.apache.hadoop.mapred.Reducer;

importorg.apache.hadoop.mapred.Reporter;

importorg.apache.hadoop.mapred.TextInputFormat;

importorg.apache.hadoop.mapred.TextOutputFormat;

public

{

class

WordCount

public

{

private

private

staticclassMapextendsMapReduceBase

Mapper

finalstaticIntWritableone=new

Textword=newText();

implements

IntWritable

(1);

public

voidmap(LongWritablekey,Textvalue,

OutputCollectoroutput,Reporterreporter)

throwsIOException

{

Stringline=value.toString();

StringTokenizertokenizer=newStringTokenizer(line);

while(tokenizer.hasMoreTokens())

{

word.set(tokenizer.nextToken());

output.collect(word,one);

}

}

}

 

5

创建时间:

2012/3/1

修改时间:

2012/3/1修改次数:

0

public

{

staticclassReduceextendsMapReduceBase

Reducer

implements

public

voidreduce(Textkey,Iteratorvalues,

OutputCollectoroutput,Reporterreporter)

throwsIOException

{

intsum=0;

while(values.hasNext())

{

sum+=values.next().get();

}

output.collect(key,newIntWritable(sum));

}

}

publicstaticvoidmain(String[]args)throwsException

{

JobConfconf=newJobConf(WordCount.class);

conf.setJobName("wordcount");

conf.setOutputKeyClass(Text.class);

conf.setOutputValueClass(IntWritable.class);

conf.setMapperClass(Map.class);

conf.setCombinerClass(Reduce.class);

conf.setReducerClass(Reduce.class);

conf.setInputFormat(TextInputFormat.class);

conf.setOutputFormat(TextOutputFormat.class);

FileInputFormat.setInputPaths(conf,newPath(args[0]));

FileOutputFormat.setOutputPath(conf,newPath(args[1]));

JobClient.runJob(conf);

}

}

3)主方法Main分析

public

{

static

void

main(String[]args)throwsException

JobConfconf=newJobConf(WordCount.class);

conf.setJobName("wordcount");

6

创建时间:

2012/3/1

修改时间:

2012/3/1修改次数:

0

conf.setOutputKeyClass(Text.class);

conf.setOutputValueClass(IntWritable.class);

conf.setMapperClass(Map.class);

conf.setCombinerClass(Reduce.class);

conf.setReducerClass(Reduce.class);

conf.setInputFormat(TextInputFormat.class);

conf.setOutputFormat(TextOutputFormat.class);

FileInputFormat.setInputPaths(conf,newPath(args[0]));

FileOutputFormat.setOutputPath(conf,newPath(args[1]));

JobClient.runJob(conf);

}

首先讲解一下Job的初始化过程。

main函数调用Jobconf类来对MapReduceJob进行

初始化,然后调用setJobName()方法命名这个Job。

对Job进行合理的命名有助于更快地找

到Job,以便在JobTracker和Tasktracker的页面中对其进行监视。

JobConfconf=newJobConf(WordCount.class);

conf.setJobName("wordcount");

接着设置Job输出结果的中key和value数据类型,因为结果是<单词,个数>,

所以key设置为“Text”类型,相当于Java中String类型。

Value设置为“IntWritable”,相

当于Java中的int类型。

conf.setOutputKeyClass(Text.class);

conf.setOutputValueClass(IntWritable.class);

然后设置Job处理的Map(拆分)、Combiner(中间结果合并)以及Reduce(合并)的

相关处理类。

这里用Reduce类来进行Map产生的中间结果合并,避免给网络数据传输产生

压力。

conf.setMapperClass(Map.class);

conf.setCombinerClass(Reduce.class);

conf.setReducerClass(Reduce.class);

接着就是调用setInputPath()和setOutputPath()设置输入输出路径。

conf.setInputFormat(TextInputFormat.class);

conf.setOutputFormat(TextOutputFormat.class);

7

创建时间:

2012/3/1

修改时间:

2012/3/1修改次数:

0

(1)InputFormat和InputSplit

InputSplit是Hadoop定义的用来传送给每个单独的map的数据,InputSplit存储的并非

数据本身,而是一个分片长度和一个记录数据位置的数组。

生成InputSplit的方法可以通过

InputFormat()来设置。

当数据传送给map时,map会将输入分片传送到InputFormat,InputFormat则调用方

法getRecordReader()生成RecordReader,RecordReader再通过creatKey()、creatValue()

方法创建可供map处理的对。

简而言之,InputFormat()方法是用来生成可供map

处理的对的。

Hadoop预定义了多种方法将不同类型的输入数据转化为map能够处理的

对,它们都继承自InputFormat,分别是:

InputFormat

|

|---BaileyBorweinPlouffe.BbpInputFormat

|---ComposableInputFormat

|---CompositeInputFormat

|---DBInputFormat

|---DistSum.Machine.AbstractInputFormat

|---FileInputFormat

|---CombineFileInputFormat

|---KeyValueTextInputFormat

|---NLineInputFormat

|---SequenceFileInputFormat

|---TeraInputFormat

|---TextInputFormat

其中TextInputFormat是Hadoop默认的输入方法,TextInputFormat中,在每个文件(或

其一部分)都会单独地作为map的输入,而这个是继承自FileInputFormat的。

之后,每行

数据都会生成一条记录,每条记录则表示成形式:

key值是每个数据的记录在数据分片中字节偏移量,数据类型是LongWritable;

value值是每行的内容,数据类型是Text。

(2)OutputFormat

每一种输入格式都有一种输出格式与其对应。

默认的输出格式是TextOutputFormat,

这种输出方式与输入类似,会将每条记录以一行的形式存入文本文件。

不过,它的键和值可

以是任意形式的,因为程序内容会调用toString()方法将键和值转换为String类型再输出。

3)Map类中map方法分析

public

{

private

private

finalstaticIntWritableone=new

Textword=newText();

IntWritable

(1);

staticclassMapextendsMapReduceBaseimplements

Mapper

8

创建时间:

2012/3/1

修改时间:

2012/3/1修改次数:

0

public

voidmap(LongWritablekey,Textvalue,

OutputCollectoroutput,Reporterreporter)

throwsIOException

{

Stringline=value.toString();

StringTokenizertokenizer=newStringTokenizer(line);

while(tokenizer.hasMoreTokens())

{

word.set(tokenizer.nextToken());

output.collect(word,one);

}

}

}

Map类继承自MapReduceBase,并且它实现了Mapper接口,此接口是一个规范类型,

它有4种形式的参数,分别用来指定map的输入key值类型、输入value值类型、输出key

值类型和输出value值类型。

在本例中,因为使用的是TextInputFormat,它的输出key值是

LongWritable类型,输出value值是Text类型,所以map的输入类型为

在本例中需要输出这样的形式,因此输出的key值类型是Text,输出的value值类

型是IntWritable。

实现此接口类还需要实现map方法,map方法会具体负责对输入进行操作,在本例中,

map方法对输入的行以空格为单位进行切分,然后使用OutputCollect收集输出的

4)Reduce类中reduce方法分析

public

{

public

voidreduce(Textkey,Iteratorvalues,

OutputCollectoroutput,Reporterreporter)

throwsIOException

staticclassReduceextendsMapReduceBaseimplements

Reducer

{

intsum=0;

while(values.hasNext())

{

sum+=values.next().get();

}

output.collect(key,newIntWritable(sum));

}

}

Reduce类也是继承自MapReduceBase的,需要实现Reducer接口。

Reduce类以map

的输出作为输入,因此Reduce的输入类型是

而Reduce的输出是单词

9

和它的数目,因此,它的输出类型是

Reduce类也要实现reduce方法,

在此方法中,reduce函数将输入的key值作为输出的key值,然后将获得多个value值加起

来,作为输出的值。

3.3新的WordCount分析

1)源代码程序

packageorg.apache.hadoop.examples;

importjava.io.IOException;

importjava.util.StringTokenizer;

importorg.apache.hadoop.conf.Configuration;

importorg.apache.hadoop.fs.Path;

importorg.apache.hadoop.io.IntWritable;

importorg.apache.hadoop.io.Text;

importorg.apache.hadoop.mapreduce.Job;

importorg.apache.hadoop.mapreduce.Mapper;

importorg.apache.hadoop.mapreduce.Reducer;

importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat;

importorg.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

importorg.apache.hadoop.util.GenericOptionsParser;

publicclassWordCount{

publicstaticclassTokenizerMapper

extendsMapper

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高中教育 > 高中教育

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1