大数据平台部署方案完整版.docx

资源描述

大数据平台部署方案完整版.docx

《大数据平台部署方案完整版.docx》由会员分享，可在线阅读，更多相关《大数据平台部署方案完整版.docx（75页珍藏版）》请在冰豆网上搜索。

大数据平台部署方案完整版.docx

大数据平台部署方案完整版

大数据平台部署方案

完整版

1.环境配置

主机地址

用户名

密码

172.26.40.74

root

cloud4c

172.26.40.75

root

cloud4c

172.26.40.76

root

cloud4c

172.26.40.77

root

cloud4c

172.26.40.78

root

cloud4c

查看服务器硬件环境信息

查看CPU型号：

cat/proc/cpuinfo|grepname|cut-f2-d:

|uniq–c

查看物理CPU颗数：

cat/proc/cpuinfo|grepphysical|uniq–c

四颗一核的CPU

查看CPU运行模式：

getconfLONG_BIT

查看CPU是否支持64位：

cat/proc/cpuinfo|grepflags|grep'lm'|wc –l

结果大于0,说明支持64bit计算.lm指longmode,支持lm则是64bit

查看操作系统版本和内核

查看操作系统版本：

cat/etc/issue或者

lsb_release-a

查看内核信息：

关闭防火墙和SELinex

1.关闭防火墙：

serviceiptablesstop（临时关闭）

chkconfigiptablesoff（重启后生效）

2.关闭SELINUX，SELinux功能是一种强制存取控制的实现，能够进一步的增强Linux系统的安全性，但是开启此项功能会给初学者带来很多的不便，大多都关闭此项功能

●setenforce0（临时生效）

●修改/etc/selinux/config下的SELINUX=disabled（重启后永久生效）

所有主机时间同步

1.查看目前主机时间：

date

2.修改时间：

date-s00:

00:

3.时间同步（主机），将172.26.40.74的本地时钟作为时间供给源，这样，即便它失去网络连接，它也可以继续为网络提供服务

yuminstallntp

vi/etc/ntp.conf

server127.127.1.0

fudge127.127.1.0stratum10

4.重新启动服务

servicentpdstop

servicentpdstart

5.其他机器同步，等待大概五分钟，再到其他机上同步该机器时间（先确保时区一样，否则同步以后时间也是有时区差的）

ntpdate172.26.40.74

6.date查看时间是否同步完成

安装JDK

1.查看Linux自带的JDK是否已安装：

java–version

2.获得如下信息，表明有自带JDK需要卸载

3.查看jdk的信息：

rpm-qa|grepjava

4.卸载自带的jdk：

rpm-e--nodepsjava-1.7.0-openjdk-1.7.0.45-2.4.3.3.el6.x86_64

rpm-e--nodepsjava-1.6.0-openjdk-1.6.0.0-1.66.1.13.0.el6.x86_64

5.解压安装新的OracleJDK，将jdk-7u79-linux-x64.tar.gz放在/usr/local目录下，解压

tar-zxvfjdk-7u79-linux-x64.tar.gz

6.配置环境变量

vi/etc/profile

exportJAVA_HOME=/usr/local/jdk1.7.0_79

exportPATH=$PATH:

$JAVA_HOME/bin:

exportCLASS_PATH=.:

%JAVA_HOME%/lib/dt.jar:

%JAVA_HOME%/lib/tools.jar

7.查看JDK是否配置成功

source/etc/profile

java–version

8.卸载自己安装的JDK方法

rpm-e--nodepsjdk-1.7.0_67（jdk-1.7.0_67为自己安装的JDK版本）

Maven安装

1.去maven官网下载maven的安装包，并上传。

2.解压缩maven的安装包

tar-zxvfapache-maven-3.3.9-bin.tar.gz

3.配置maven环境变量

vim.bash_profile

exportMAVEN_HOME=/home/hadoop/apache-maven-3.3.9

exportPATH=$PATH:

$MAVEN_HOME/bin

4.测试maven是否配置成功

配置主机名

1.在172.26.40.74执行如下命令

vi/etc/sysconfig/network

NETWORKING=yes

HOSTNAME=Master1

执行如下命令查看主机名是否修改成功

servicenetworkrestart

hostname

2.在172.26.40.75执行如下命令

vi/etc/sysconfig/network

NETWORKING=yes

HOSTNAME=Master2

3.在172.26.40.76执行如下命令

vi/etc/sysconfig/network

NETWORKING=yes

HOSTNAME=Slave1

4.在172.26.40.77执行如下命令

vi/etc/sysconfig/network

NETWORKING=yes

HOSTNAME=Slave2

5.在172.26.40.78执行如下命令

vi/etc/sysconfig/network

NETWORKING=yes

HOSTNAME=Slave3

配置hosts映射

在所有节点添加如下配置：

vi/etc/hosts

172.26.40.74Master1

172.26.40.75Master2

172.26.40.76Slave1

172.26.40.77Slave2

172.26.40.78Slave3

新建hadoop用户

为所有节点新建一个hadoop用户

配置SSH免密码登录

配置主机之间hadoop用户的SSH免密码登录

1.在所有节点执行如下命令以生成秘钥：

ssh-keygen-trsa

2.进入.ssh/目录，并复制id_rsa.pub文件生成一个新的文件authorized_keys

3.验证每个节点自己的免密码登录是否成功

4.将其它节点的秘钥拷贝到Master1节点

ssh-copy-id-iMaster1

5.将Master1最终生成的密码拷贝到Master2、Slave1、Slave2、Slave3

6.测试节点之间免密码登录是否配置成功

2.安装Zookeeper

因为zookeeper有这样一个特性：

集群中只要有过半的机器是正常工作的，那么整个集群对外就是可用的，所以本次选择在Master1、Master2、Slave1、Slave2、Slave3上安装Zookeeper

1.在Master1上解压安装Zookeeper

tar-zxvfzookeeper-3.4.8.tar.gz

修改配置文件

2.修改配置文件zoo.cfg

cd/home/hadoopR/zookeeper-3.4.8/conf

cpzoo_sample.cfgzoo.cfg

vimzoo.cfg

dataDir=/home/hadoopR/tmp/zookeeper

dataLogDir=/home/hadoopR/tmp/zookeeper/datalog

clientPort=2181

initLimit=10

syncLimit=5

tickTime=2000

autopurge.snapRetainCount=10

autopurge.purgeInterval=1

server.1=Master1:

2888:

3888

server.2=Master2:

2888:

3888

server.3=Slave1:

2888:

3888

server.4=Slave2:

2888:

3888

server.5=Slave3:

2888:

3888

1）server.X用来配置ZooKeeper集群中的各节点，并建议X的值和myid保持一致。

2）端口2181用于监听客户端的连接，端口2888用于Leader监听Follower的连接，而3888则用于Leader选举。

3）dataDir用来指定快照文件存放目录，便于快速恢复；dataLogDir用来指定事务日志文件存放目录。

如果只指定了dataDir，而没指定dataLogDir，则事务日志文件也存放于dataDir指定的目录。

为了达到性能最大化，一般建议把dataDir和dataLogDir分到不同的磁盘上，这样就可以充分利用磁盘顺序写的特性。

4）默认，autopurge的两个参数是被注释的。

“autopurge.purgeInterval”指定自动清理快照文件和事务日志文件的时间，单位为小时，默认为0表示不自动清理，这个时候可以使用脚本zkCleanup.sh手动清理。

不清理的结果是占用的磁盘空间越来越大。

“autopurge.snapRetainCount”用于指定保留快照文件和事务日志文件的个数，默认为3。

5）ticktickTime默认为2000，2-20倍的minSessionTimeout与maxSessionTimeout注：

tickTime心跳基本时间单位毫秒，ZK基本上所有的时间都是这个时间的整数倍。

3.修改/bin/zkEnv.sh

1）设置环境变量ZOO_LOG_DIR为zookeeper的日志存放目录，如：

exportZOO_LOG_DIR=/home/hadoopR/tmp/zookeeper/datalog

可将这一行放在ZOOKEEPER_PREFIX之后。

2）再修改下ZOO_LOG4J_PROP，以让日志不是输出到zookeeper.out，而是写入到日志文件，将：

ZOO_LOG4J_PROP="INFO,CONSOLE"，改成：

ZOO_LOG4J_PROP="INFO,ROLLINGFILE"

4.修改conf/log4j.properties

log4j.appender.ROLLINGFILE.MaxFileSize=100MB

log4j.appender.ROLLINGFILE.MaxBackupIndex=10

设置每个日志文件大小为100M，滚动10个。

5.将Master1上配置好的Zookeeper安装文件拷贝到Master2、Slave1、Slave2、Slave3上

scp-r/home/hadoopR/zookeeper-3.4.8Master2:

/home/hadoopR/

scp-r/home/hadoopR/zookeeper-3.4.8Slave1:

/home/hadoopR/

scp-r/home/hadoopR/zookeeper-3.4.8Slave2:

/home/hadoopR/

scp-r/home/hadoopR/zookeeper-3.4.8Slave3:

/home/hadoopR/

设置myid

6.在Master1、Master

展开阅读全文