在UbuntuCentos上部署Hadoop2X集群Word文件下载.docx-资源下载

在UbuntuCentos上部署Hadoop2X集群Word文件下载.docx

1、【切记】SSH中密钥文件的权限值必须都设为 600 sudo chmod 600/home/hadoop/.ssh/*六、节点间六、节点间使用使用 SSH 连接连接 6.1将各节点的 id_rsa.pub 公钥拷贝到各节点的 authorized_keys 内，就可以实现各节点之间的无 SSH密码通讯 6.2测试连接关于 SSH的通讯原理，这里不做详述，有兴趣的话可以看看博客 http:/ 介绍的很详细的样子七、安装 JDK 我们选择的是 jdk1.6.0_30 版本,安装文件名为 jdk-6u30-linux-i586.bin.7.1复制 jdk 到安装目录我们指定的安装目录是：/us

2、r/local/java，先创建一个 java文件夹再将 bin 文件拷贝进去 7.2安装 jdk 切换到 root用户下（注：如果因忘记密码而认证失败，可以先修改 root用户的密码，再执行）运行 jdk-6u30-linux-i586.bin （注：如果遇到权限问题，可以先更改 jdk-6u30-linux-i586.bin 权限）更改权限后再执行上一步，当看到下图情况时，说明你安装成功了。这时在/usr/local/java目录下就多了一个 jdk1.6.0_30 文件夹 7.3配置环境变量（1）打开/etc/profile文件（2）添加变量如下：#/etc/profile:sys

3、tem-wide.profile file for the Bourne shell（sh（1）#and Bourne compatible shells（bash（1）,ksh（1）,ash（1）,.）.#set java environment export JAVA_HOME=/usr/local/java/jdk1.6.0_30 export JRE_HOME=/usr/local/java/jdk1.6.0_30/jre export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH export PATH=$JAVA_HOME/

4、bin:$JRE_HOME/bin:$JAVA_HOME:$PATH （注：为了以后集群工作的方便，这里建议每台机器的 java环境最好一致。）一般更改/etc/profile文件后，需要重启机器才能生效。这里介绍一种不用重启使其生效的方法（3）查看 java环境变量是否配置成功八、下载解压八、下载解压 Hadoop 官网下载 http:/www.apache.org/dyn/closer.cgi/hadoop/core/hadoop集群中每个机器上面的配置基本相同，所以我们先在 master上面进行配置部署，然后再复制到其他节点。所以这里的安装过程相当于在每台机器上面都要执行。【注意】：

5、master和 slaves 安装的 hadoop路径要完全一样，用户和组也要完全一致解压文件到/usr路径下，并重命名 tar zxvf hadoop-2.2.0_x64.tar.gz/usr/mv hadoop-2.2.0 hadoop （解压命令在 Ubuntu 是 tar-zxf xxx.tar.gz，centos 是 tar zxvf xxx.tar.gz）九、九、Hadoop 配置文件配置文件 9.1创建必要文件夹在 master本地文件系统创建以下文件夹：/dfs/name/dfs/data/tmp 注意文件所属用户及用户组。如果不在新建的用户组下面，可以使用 chown命令

6、来修改：（chmod 和 chown 命令的用法 http:/ 7个/hadoop-2.2.0/etc/hadoop/hadoop-env.sh/hadoop-2.2.0/etc/hadoop/yarn-env.sh/hadoop-2.2.0/etc/hadoop/slaves/hadoop-2.2.0/etc/hadoop/core-site.xml/hadoop-2.2.0/etc/hadoop/hdfs-site.xml/hadoop-2.2.0/etc/hadoop/mapred-site.xml/hadoop-2.2.0/etc/hadoop/yarn-site.xml 以上文件有些

7、默认不存在的，可以复制相应的.template文件获得 9.3配置文件 1：hadoop-env.sh 修改 JAVA_HOME 值（export JAVA_HOME=/usr/jdk1.7）9.4配置文件 2：yarn-env.sh 修改 JAVA_HOME 值（export JAVA_HOME=/usr/jdk1.7）9.5配置文件 3：slaves（这个文件里面保存所有 slave节点）写入以下内容：slave1 slave2 9.6配置文件 4：core-site.xml fs.defaultFS hdfs:/master:8020 io.file.buffer.size 131072

8、 hadoop.tmp.dir file:/home/aboutyun/tmp Abase for other temporary directories.hadoop.proxyuser.aboutyun.hosts *hadoop.proxyuser.aboutyun.groups *9.7配置文件 5：hdfs-site.xml dfs.namenode.secondary.http-address master:9001 dfs.namenode.name.dir file:/home/aboutyun/dfs/name dfs.datanode.data.dir file:/home

9、/aboutyun/dfs/data dfs.replication 3 dfs.webhdfs.enabled true 9.8配置文件 6：mapred-site.xml mapreduce.framework.name yarn mapreduce.jobhistory.address master:10020 mapreduce.jobhistory.webapp.address master:19888 9.9配置文件 7：yarn-site.xml yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.au

10、x-services.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler yarn.resourcemanager.address master:8032 yarn.resourcemanager.scheduler.address master:8030 yarn.resourcemanager.resource-tracker.address master:8031 yarn.resourcemanager.admin.address master:8033 yarn.resourcemanager.webapp.

11、address master:8088 9.10将配置文件复制到其他节点上面配置完毕，我们基本上完成了 90%了剩下就是复制。我们也可以把整个hadoop复制过去（注意 slaves 文件不一样）【注意】拷贝配置文件的时候修改文件所有者 sudo chown hadoop mapred-site.xml【记得】最后检查一下 cat hadoop-env.sh cat yarn-env.sh cat slaves cat core-site.xml cat hdfs-site.xml cat mapred-site.xml cat yarn-site.xml 9.11在每台服务器内配置环境变量

12、 export PATH=$PATH:/usr/local/hadoop/bin/export PATH=$PATH:/usr/local/hadoop/sbin/十、启动十、启动 Hadoop 10.1格式化 namenode hdfs namenode format 或则 hadoop namenode format 10.2启动 hdfs start-dfs.sh 此时在 master上面运行的进程有：namenode secondarynamenode slave节点上面运行的进程有：datanode 10.3启动 yarn start-yarn.sh 我们看到如下效果：master有

13、如下进程：slave1有如下进程此时 hadoop集群已全部配置完成！十一、查看十一、查看 Hadoop 的的 Web 管理窗口管理窗口 11.1 ResourceManager 介绍：运行在主节点 master上网址：http:8088/配置文件：yarn-site.xml yarn.resourcemanager.webapp.address master:8088 【注】如果没有配置 hosts，master将无法解析要么你直接输入 IP 替代 master，要么你就配置一下 hosts，都很简单 Hosts 文件地址 C:WindowsSystem32driversetc 修改完

14、后，正常的时候你会在浏览器里看到如下图 11.2 HDFS 集群状态网址：50070/11.3 NodeManager 介绍：运行在从节点上网址：/slave1:8042/11.4 JobHistory Server 启动：mr-jobhistory-daemon.sh start historyserver 网址：19888/配置：mapreduce.jobhistory.webapp.address 十二、运行实例十二、运行实例 WordCount 12.1 找到 examples 例子在/hadoop/share/hadoop/mapreduce 下找到 hadoop-mapred

15、uce-examples-2.2.0.jar 12.2 运行前的准备工作我们需要需要做一下运行需要的工作，比如输入输出路径，上传什么文件等。先在 HDFS 创建几个数据目录：hadoop fs-mkdir-p/data/wordcount hadoop fs-mkdir-p/output/新建文件 inputWord vi/usr/inputWord 新建完毕，查看内容：cat/usr/inputWord 目录/data/wordcount 用来存放 Hadoop自带的 WordCount 例子的数据文件，任务的结果输出到/output/wordcount 目录中。将本地文件上传到 HDFS

16、中：hadoop fs-put/usr/inputWord/data/wordcount/查看上传后的文件情况 hadoop fs-ls/data/wordcount 查看文件的内容 hadoop fs-text/data/wordcount/inputWord 12.3 运行 WordCount 例子 hadoop jar/usr/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount/data/wordcount/output/wordcount 可以看到控制台输出程序运行的信息：abouty

17、unmaster:$hadoop jar/usr/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount/data/wordcount/output/wordcount 14/05/14 10:33:33 INFO client.RMProxy:Connecting to ResourceManager at master/172.16.77.15:8032 14/05/14 10:34 INFO input.FileInputFormat:Total input paths to process:

18、1 14/05/14 10:34 INFO mapreduce.JobSubmitter:number of splits:34 INFO Configuration.deprecation:user.name is deprecated.Instead,use mapreduce.job.user.name 14/05/14 10:mapred.jar is deprecated.Instead,use mapreduce.job.jar 14/05/14 10:mapred.output.value.class is deprecated.Instead,use mapreduce.job

19、.output.value.class 14/05/14 10:bine.class is deprecated.Instead,use bine.class 14/05/14 10:mapreduce.map.class is deprecated.Instead,use mapreduce.job.map.class 14/05/14 10:mapred.job.name is deprecated.Instead,use mapreduce.job.name 14/05/14 10:mapreduce.reduce.class is deprecated.Instead,use mapr

20、educe.job.reduce.class 14/05/14 10:mapred.input.dir is deprecated.Instead,use mapreduce.input.fileinputformat.inputdir 14/05/14 10:mapred.output.dir is deprecated.Instead,use mapreduce.output.fileoutputformat.outputdir 14/05/14 10:mapred.map.tasks is deprecated.Instead,use mapreduce.job.maps 14/05/1

21、4 10:mapred.output.key.class is deprecated.Instead,use mapreduce.job.output.key.class 14/05/14 10:mapred.working.dir is deprecated.Instead,use mapreduce.job.working.dir 14/05/14 10:35 INFO mapreduce.JobSubmitter:Submitting tokens for job:job_1400084979891_0004 14/05/14 10:36 INFO impl.YarnClientImpl

22、:Submitted application application_1400084979891_0004 to ResourceManager at master/172.16.77.15:36 INFO mapreduce.Job:The url to track the job:8088/proxy/application_1400084979891_0004/14/05/14 10:Running job:45 INFO mapreduce.Job:Job job_1400084979891_0004 running in uber mode:false 14/05/14 10:map

23、 0%reduce 0%14/05/14 10:34:10 INFO mapreduce.Job:map 100%reduce 0%14/05/14 10:19 INFO mapreduce.Job:map 100%reduce 100%14/05/14 10:Job job_1400084979891_0004 completed successfully 14/05/14 10:20 INFO mapreduce.Job:Counters:43 File System Counters FILE:Number of bytes read=81 FILE:Number of bytes wr

24、itten=158693 FILE:Number of read operations=0 FILE:Number of large read operations=0 FILE:Number of write operations=0 HDFS:Number of bytes read=175 HDFS:Number of bytes written=51 HDFS:Number of read operations=6 HDFS:Number of large read operations=0 HDFS:Number of write operations=2 Job Counters

25、Launched map tasks=1 Launched reduce tasks=1 Data-local map tasks=1 Total time spent by all maps in occupied slots（ms）=23099 Total time spent by all reduces in occupied slots（ms）=6768 Map-Reduce Framework Map input records=5 Map output records=10 Map output bytes=106 Map output materialized bytes=81

26、 Input split bytes=108 Combine input records=10 Combine output records=6 Reduce input groups=6 Reduce shuffle bytes=81 Reduce input records=6 Reduce output records=6 Spilled Records=12 Shuffled Maps=1 Failed Shuffles=0 Merged Map outputs=1 GC time elapsed（ms）=377 CPU time spent（ms）=11190 Physical memory（bytes）snapshot=284524544 Virtual memory（bytes）snapshot=2000748544 Total committed heap usa

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？