虚拟Ubuntu环境搭建hadoop集群计划.docx-资源下载

虚拟Ubuntu环境搭建hadoop集群计划.docx

1、虚拟Ubuntu环境搭建hadoop集群计划虚拟Ubuntu环境搭建hadoop集群计划一、搭建环境本计划是在服务器（192.168.200.100）上构建的三台Ubuntu linux虚拟机上，搭建出一个完全分布式的hadoop集群。为简单起见，先选择其中一台安装hadoop，再通过克隆出另外两台虚拟机，最后进行参数配置，以完成hadoop集群搭建。二、安装规划在服务器（192.168.200.100）上构建三台配置完全相同的虚拟机，每台虚拟机均安装Ubuntu Linux（版本14.0.02），内存1G，硬盘30G。安装规划如下：机器名IP地址用途安装方式hadoop1192.168.20

2、1.104主节点，即NameNode克隆后修改hadoop2192.168.201.54从节点1，即DataNode1克隆后修改hadoop3192.168.201.100从节点2，即DataNode2按步骤安装三、创建用户组、用户登录hadoop3虚拟机，1) 创建hadoop用户组：$ sudo addgroup hadoop 2) 创建hadoop用户：$ sudo adduser -ingroup hadoop hadoop 3) 给hadoop用户添加权限（这里选择使用gedit，可用任何其它编辑工具代替，后同）：$ sudo gedit /etc/sudoers 给hadoop用户

3、赋予root用户同样的权限（此步可选，如略过以后步骤需注意目录权限问题）。在root ALL=(ALL:ALL) ALL下添加：hadoop ALL=(ALL:ALL) ALL 4) 确保主目录权限确保hadoop主目录（/home/hadoop）权限是755，否则后述的ssh互信不能成功。$ chmod 755 /home/hadoop5) 顺便停止iptable、禁用SELINUX$ sudo service iptables stop & chkconfig iptables off编辑/etc/selinux/config文件，设置SELINUX=disabled。四、下载安装JDK1

4、) 下载JDK安装包用本机从oracle官网（或其镜像）下载最新的稳定版JDK安装包，根据平台选择合适的版本，本计划选择的版本是jdk-8u20-linux-x64.tar.gz；再以sftp上传到hadoop3虚拟机的hadoop用户目录下。2) 解压JDK安装包选择一个JDK的安装目录，本计划在/usr/lib下新建jvm目录：$ sudo mkdir /usr/lib/jvm然后解压上传的JDK安装包：$ tar -zxvf /home/hadoop/jdk-8u20-linux-x64.tar.gz -C /usr/lib/jvm/3) 配置JDK编辑/etc/profile文件，在最

5、后添加以下内容：export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_20export JRE_HOME=$JAVA_HOME/jreexport CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/libexport PATH=JAVA_HOME/bin:$PATH4) 更新默认的JDK（可选）如果虚拟机上安装了多个版本的JDK，需执行：# update-alternatives -install /usr/bin/java java /usr/lib/jvm/jdk1.8.x_xx/bin/java 300# update-alternativ

6、es -install /usr/bin/javac javac /usr/lib/jvm/jdk1.8.0_xx/bin/javac 300# update-alternatives -config java此时会列出所有已安装的JDK，选择刚安装的JDK版本的序号即可。5) 测试JDK版本查看JDK版本是否正确：$ java -version6) 删除JDK安装包（可选）为节省存储空间，可将JDK安装包文件删除。五、安装ssh1) 在联网状态下，执行：$ sudo apt-get install ssh openssh-server系统会提示需要升级和下载的软件包，并询问是否继续，输入“Y

7、”，等待安装完成。2) 检查ssh版本$ ssh -V3) 配置ssh开机自启$ sudo /etc/init.d/ssh start虚拟机重启后ssh服务已经运行。六、克隆虚拟机停止hadoop3运行，用远程桌面登录200.100服务器，在VMware Station中删掉原来的hadoop1和hadoop2，再利用hadoop3克隆出hadoop1和hadoop2。注意用VMware更改hadoop1和hadoop2的MAC地址，否则将来同一时刻只能登录一台虚拟机。具体操作：右键点击虚拟机“设置”“硬件”选卡中的“网络适配器”“高级”按钮下方MAC地址的“生成”按钮再一直“确定”。七、设置

8、三台虚拟机的主机名、IP地址1) 在VMware Station中启动hadoop1，用ssh登录hadoop1；2) 修改/etc/hosts，增加主机IP列表：$ sudo gedit /etc/host 192.168.201.104 hadoop1192.168.201.54 hadoop2192.168.201.100 hadoop33) 修改/etc/hostname，设置好hostname：$ sudo gedit /etc/hostname hadoop14) 修改/etc/network/interfaces，设置静态IP$ sudo gedit /etc/network/i

9、nterfaces查找相应内容，确保修改后内容包括：auto loiface lo inet loopbackauto eth0iface eth0 inet static #固定IP地址address 192.168.201.100 #该虚拟机IPgateway 192.168.201.1 netmask 255.255.255.0dns-nameservers 114.114.114.114执行$ sudo /etc/init.d/networking restart或直接reboot，使修改生效。5) 依次登录hadoop2和hadoop3，执行步骤2、3、4。6) 验证在各个虚拟机上p

10、ing另两台（使用hostname），能ping通表示成功。八、配置ssh互信1) 以hadoop用户分别登录hadoop1、hadoop2和hadoop3，执行：$ ssh-keygen -t rsa一直按回车直至完成，生成的密钥文件保存为id_rsa（私钥）id_rsa.pub（公钥），默认在/home/hadoop/.ssh目录下。2) 追加三个公钥到hadoop1授权的key里$ ssh hadoop1 cat /.ssh/id_rsa.pub /.ssh/authorized_keys$ ssh hadoop2 cat /.ssh/id_rsa.pub /.ssh/authorize

11、d_keys$ ssh hadoop3 cat /.ssh/id_rsa.pub /.ssh/authorized_keys注意是追加符而不是重定向符，过程中需要分别输入三台虚拟机上hadoop用户的密码。$ chmod 600 /.ssh/authorized_keys3) 将hadoop1的公钥传输到其余两台机器$ scp /.ssh/id_rsa1.pub hadoophadoop2:/home/hadoop/ .ssh$ scp /.ssh/id_rsa1.pub hadoophadoop3:/home/hadoop/ .ssh首次scp时会要求输入对方机器上的用户密码，输入完成后提示

12、传输完毕。4) 验证在任意一台虚拟机上执行下述命令，无需输入密码表示成功：$ ssh hadoop1 date$ ssh hadoop2 date$ ssh hadoop3 date九、下载安装hadoop1) 下载hadoop安装包用本机从appach官网（或其镜像）下载合适的hadoop安装包，本计划一开始安装的是所谓最新的稳定版2.7.1，但后来发现有些bug严重影响到程序运行，于是回头选择了另一个版本的hadoop-2.6.1.tar.gz，下载后上传到hadoop1虚拟机的hadoop用户目录下。2) 解压hadoop安装包解压上传的hadoop安装包：$ sudo tar -zxv

13、f /home/hadoop/hadoop-2.6.1.tar.gz -C /usr/修改目录名（可选，如忽略则以后步骤注意修改目录名）：$ sudo mv /usr/hadoop-x.x.xx /usr/hadoop3) 修改hadoop目录权限$ sudo chown -R hadoop:hadoop /usr/hadoop4) 修改hadoop-env.sh配置文件$ gedit hadoop/etc/hadoop/hadoop-env.sh 找到#export JAVA_HOME=.，去掉注释符#，加上本机JDK的路径：export JAVA_HOME=/usr/lib/jvm/jdk

14、1.8.x 5) 修改yarn-env.sh配置文件$ gedit hadoop/etc/hadoop/yarn-env.sh 找到#export JAVA_HOME=.，去掉注释符#，加上本机JDK的路径：export JAVA_HOME=/usr/lib/jvm/jdk1.8.x 6) 修改core-site.xml配置文件该文件主要配置HDFS主节点的地址和端口号。事先创建目录/usr/hadoop/tmp作为临时目录（可选，如忽略则只修改fs.defaultFS）。$ gedit hadoop/etc/hadoop /core-site.xml 找到其中相应内容，确保修改后内容包括：

15、hadoop.tmp.dir /usr/hadoop/tmp fs.defaultFS hdfs:/hadoop1:9000 7) 修改hdfs-site.xml配置文件该文件配置HDFS参数，默认数据副本数量为3，本计划修改为2。先创建两个目录：usr/hadoop/name和usr/hadoop/data，命令略。$ gedit hadoop/etc/hadoop /hdfs-site.xml 找到其中相应内容，确保修改后内容包括： dfs.replication 2 dfs.namenode.rpc-address hadoop1:9000 dfs.namenode.http-addre

16、ss hadoop1:23001 dfs.name.dir /usr/hadoop/name dfs.data.dir /usr/hadoop/data 8) 修改mapred-site.xml配置文件该文件配置Map-Reduce参数。首先从同名template文件复制一份。$ cp hadoop/etc/hadoop/mapre-site.xml.template hadoop/etc/hadoop/mapre-site.xml$ gedit hadoop/etc/hadoop /mapred-site.xml 找到其中相应内容，确保修改后内容包括： mapred.job.tracker

17、hadoop1:9001 mapred.map.tasks 20 mapred.reduce.tasks 4 mapreduce.framework.name yarn mapreduce.jobhistory.address hadoop1:10020 mapreduce.jobhistory.webapp.address hadoop1:19888 9) 修改yarn-site.xml配置文件$ gedit hadoop/etc/hadoop /yarn-site.xml 找到其中相应内容，确保修改后内容包括： yarn.resourcemanager.address hadoop1:80

18、32 yarn.resourcemanager.scheduler.address hadoop1:8030 yarn.resourcemanager.webapp.address hadoop1:8088 yarn.resourcemanager.resource-tracker.address hadoop1:8031 yarn.resourcemanager.admin.address hadoop1:8033 yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.aux-services.mapreduce.s

19、huffle.class org.apache.hadoop.mapred.ShuffleHandler 10) 修改slaves配置文件编辑/usr/hadoop/etc/hadoop /slaves文件，只包含以下内容：hadoop1hadoop2hadoop3十、复制hadoop目录先分别在hadoop2、hadoop3上创建/usr/hadoop目录，将其属主改为hadoop用户：$ sudo mkdir /usr/hadoop$ sudo chown -R hadoop:hadoop /usr/hadoop用scp将整个hadoop目录复制到其它机器：$ scp -r /usr/ha

20、doop/ hadoophadoop2:/usr$ scp -r /usr/hadoop/ hadoophadoop3:/usr有文献说直接scp可能略有所不同，建议先打包再scp再解压：在hadoop1执行：$ sudo tar -zcf /usr/hadoop.tar.gz /usr/hadoop$ scp /usr/hadoop.tar.gz hadoop2:/home/hadoop$ scp /usr/hadoop.tar.gz hadoop3:/home/hadoop分别在hadoop2和hadoop3上执行：$ sudo tar -zxf /hadoop.tar.gz -C /us

21、r/$ sudo chown -R hadoop:hadoop /usr/hadoop十一、启动及验证hadoop1) 格式化HDFS只需进行一次，以hadoop用户登录hadoop1，执行：$ cd /usr/hadoop/bin$ hdfs namenode -format2) 启动hadoop守护进程，依然在hadoop1上：$ sbin/start-all.sh3) 验证有两种验证方法：方法一是在各个节点分别用jps命令查看，结果应是主节点（hadoop1）启动NameNode、SecondrryNameNode、ResourceManager进程，从节点（hadoop2和hadoop

22、3）启动DataNode和NodeManage进程。如果提示“jps已经包含在下列软件包中请尝试sudo apt-get ”，先执行：S sudo update-alternatives -install /usr/bin/jps jps /usr/lib/jvm/jdk1.8.0_20/bin/jps 1方法二是在主节点用“hdfs dfsadmin -report”查看整个集群的状态。4) 停止hadoop$ sbin/stop-all.shHadoop集群继续安装hbase一、安装规划在已经成功搭建Hadoop集群的基础上，进一步安装hbase（含自带的zookeeper）。安装规划如

23、下：机器名IP地址用途安装方式hadoop1192.168.201.104Hmaster，HQuorumPeer按步骤安装hadoop2192.168.201.54HregionServer，HQuorumPeerscp后修改hadoop3192.168.201.100HregionServer，HQuorumPeerscp后修改hbase的用户、用户组、JDK及相关配置与hadoop一致。二、下载安装hbase1) 下载hbase安装包用本机从appach官网（或其镜像）下载最新的稳定版hbase安装包，本计划选择的版本是hbase-1.1.2-bin.tar.gz，然后上传到hadoop1

24、虚拟机的hadoop用户目录下。2) 解压hbase安装包解压上传的hbase安装包：$ tar -zxvf /home/hadoop/hbase-1.1.2-bin.tar.gz -C /usr/修改目录名（可选，如忽略则以后步骤注意修改目录名）：$ sudo mv -r /usr/hbase-1.1.2-bin /usr/hbase3) 修改hbase目录权限$ sudo chown -R hadoop:hadoop /usr/hbase4) 修改hbase-env.sh配置文件$ sudo gedit hbase/conf/hadoop-env.sh 找到#export JAVA_HOM

25、E=.，去掉注释符#，加上本机JDK的路径：export JAVA_HOME=/usr/lib/jvm/jdk1.8.x 增加运行自带的zookeeper的配置：export HBASE_MANAGES_ZK=true export HADOOP_HOME=/usr/hadoop export HBASE_HOME=/usr/hbase 5) 修改hbase-site.xml配置文件该文件主要配置hbase个节点的信息。$ sudo gedit hbase/conf/hbase-site.xml 找到其中相应内容，确保修改后内容包括： hbase.rootdir hdfs:/hadoop1:9

26、000/hbase hbase.cluster.distributed true hbase.master hadoop1:6000 hbase.zookeeper.quorum hadoop1,hadoop2,hadoop3 6) 配置RegionSevers$ sudo gedit hbase/conf/regionservers hadoop2hadoop3三、复制hbase目录如果hadoop用户没有/usr目录下的写权限，需要先在hadoop2、hadoop3分别创建/usr/hbase目录，再更改其属主：$ sudo mkdir /usr/hbase$ sudo chown -R hadoop:hadoop /usr/hbase

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？