大数据环境集群环境搭建Word文档下载推荐.docx
《大数据环境集群环境搭建Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《大数据环境集群环境搭建Word文档下载推荐.docx(12页珍藏版)》请在冰豆网上搜索。
-version
5、rm-f/etc/udev/rules.d/70-persistent-net.rules
安装第二台和第三台服务器
1、安装上述步骤,再安装两台一模一样环境的服务器,因为后面hadoop和spark都是要搭建集群的。
2、集群的最小环境就是三台。
因为后面要搭建ZooKeeper、kafka等集群。
3、另外两台机器的hostname分别设置为spark2和spark3即可,ip分别为192.168.1.108和192.168.1.109
4、在安装的时候,另外两台服务器的centos镜像文件必须重新拷贝一份,放在新的目录里,使用各自自己的镜像文件。
5、服务器的硬盘文件也必须重新选择一个新的目录,以更好的区分。
6、安装好之后,记得要在三台机器的/etc/hosts文件中,配置全三台机器的ip地址到hostname的映射,而不能只配置本机,这个很重要!
7、在windows的hosts文件中也要配置全三台机器的ip地址到hostname的映射。
配置集群ssh免密码登录
1、首先在三台机器上配置对本机的ssh免密码登录
生成本机的公钥,过程中不断敲回车即可,ssh-keygen命令默认会将公钥放在/root/.ssh目录下
ssh-keygen-trsa
将公钥复制为authorized_keys文件,此时使用ssh连接本机就不需要输入密码了
cd/root/.ssh
cpid_rsa.pubauthorized_keys
2、接着配置三台机器互相之间的ssh免密码登录
使用ssh-copy-id-ispark命令将本机的公钥拷贝到指定机器的authorized_keys文件中(方便好用)
Hadoop2.4.1集群搭建
安装hadoop包
1、使用hadoop-2.4.1.tar.gz,使用WinSCP上传到CentOS的/usr/local目录下。
2、将hadoop包进行解压缩:
tar-zxvfhadoop-2.4.1.tar.gz
3、对hadoop目录进行重命名:
mvhadoop-2.4.1hadoop
4、配置hadoop相关环境变量
vi.bashrc或者vi/etc/profile
exportHADOOP_HOME=/usr/local/hadoop
exportPATH=$HADOOP_HOME/bin:
$HADOOP_HOME/sbin
source.bashrc
修改hadoop相关的配置文件
进入/usr/local/hadoop/etc/hadoop目录下
修改core-site.xml
<
property>
<
name>
fs.default.name<
/name>
value>
hdfs:
//spark1:
9000<
/value>
//设置hdfs集群对外提供的目录
/property>
修改hdfs-site.xml//设置hdfs的一些目录,放在/usr/local/data的目录下面
dfs.name.dir<
/usr/local/data/namenode<
dfs.data.dir<
/usr/local/data/datanode<
dfs.tmp.dir<
/usr/local/data/tmp<
dfs.replication<
3<
//设置副本数
修改mapred-site.xml
//mapreduce的框架设置为yarn
mapreduce.framework.name<
yarn<
修改yarn-site.xml
yarn.resourcemanager.hostname<
spark1<
yarn.nodemanager.aux-services<
mapreduce_shuffle<
修改slaves文件
spark1
spark2
spark3
在另外两台机器上搭建hadoop
1、使用如上配置在另外两台机器上搭建hadoop,可以使用scp命令将spark1上面的hadoop安装包和.bashrc或者/etc/profile配置文件都拷贝过去。
scp-rhadooproot@spark1:
/usr/local/
scp-rhadooproot@spark2:
scp-r/etc/profileroot@spark1:
/etc/
scp-r/etc/profileroot@spark2:
2、要记得对.bashrc文件或者/etc/profile进行source,以让它生效。
3、记得在spark2和spark3的/usr/local目录下创建data目录。
启动hdfs集群
1、格式化namenode:
在spark1上执行以下命令,
hdfsnamenode-format
2、启动hdfs集群:
start-dfs.sh
3、验证启动是否成功:
jps、50070端口查看是否启动成功
spark1:
namenode、datanode、secondarynamenode
spark2:
datanode
spark3:
启动yarn集群
1、启动yarn集群:
start-yarn.sh
2、验证启动是否成功:
jps、8088端口
resourcemanager、nodemanager
nodemanager
hive
0.13搭建
安装hive包
1、将的apache-hive-0.13.1-bin.tar.gz使用WinSCP上传到spark1的/usr/local目录下。
2、解压缩hive安装包:
tar-zxvfapache-hive-0.13.1-bin.tar.gz。
3、重命名hive目录:
mvapache-hive-0.13.1-binhive
4、配置hive相关的环境变量,下面以.bashrc文件操作
vi.bashrc
exportHIVE_HOME=/usr/local/hive
exportPATH=$HIVE_HOME/bin
安装MySQL
1、在spark1上安装mysql。
2、使用yum安装mysqlserver。
yuminstall-ymysql-server
servicemysqldstart
chkconfigmysqldon
3、使用yum安装mysqlconnector
yuminstall-ymysql-connector-java
4、将mysqlconnector拷贝到hive的lib包中
cp/usr/share/java/mysql-connector-java-5.1.17.jar/usr/local/hive/lib
5、在mysql上创建hive元数据库,并对hive进行授权
createdatabaseifnotexistshive_metadata;
grantallprivilegesonhive_metadata.*to'
hive'
@'
%'
identifiedby'
;
localhost'
spark1'
flushprivileges;
//刷新授权
usehive_metadata;
配置hive-site.xml
mvhive-default.xml.templatehive-site.xml
vihive-site.xml
javax.jdo.option.ConnectionURL<
jdbc:
mysql:
3306/hive_metadata?
createDatabaseIfNotExist=true<
javax.jdo.option.ConnectionDriverName<
com.mysql.jdbc.Driver<
javax.jdo.option.ConnectionUserName<
hive<
javax.jdo.option.ConnectionPassword<
hive.metastore.warehouse.dir<
/user/hive/warehouse<
配置hive-env.sh和hive-config.sh
mvhive-env.sh.templatehive-env.sh
vi/usr/local/hive/bin/hive-config.sh
验证hive是否安装成功
直接输入hive命令,可以进入hive命令行
ZooKeeper3.4.5集群搭建
安装ZooKeeper包
1、将zookeeper-3.4.5.tar.gz使用WinSCP拷贝到spark1的/usr/local目录下。
2、对zookeeper-3.4.5.tar.gz进行解压缩:
tar-zxvfzookeeper-3.4.5.tar.gz。
3、对zookeeper目录进行重命名:
mvzookeeper-3.4.5zk。
4、配置zookeeper相关的环境变量
vi.bashrc或者vi/etc/profile
exportZOOKEEPER_HOME=/usr/local/zk
exportPATH=$ZOOKEEPER_HOME/bin
配置zoo.cfg在/usr/local/zk/conf目录下
vizoo.cfg
修改:
dataDir=/usr/local/zk/data
新增:
server.0=spark1:
2888:
3888
server.1=spark2:
3888
server.2=spark3:
设置zk节点标识
cdzk
mkdirdata
cddata
vimyid
搭建zk集群
1、在另外两个节点上按照上述步骤配置ZooKeeper,使用scp将zk和.bashrc拷贝到spark2和spark3上即可。
scp-rzkroot@slave1:
/usr/local/
2、唯一的区别是spark2和spark3的标识号分别设置为1和2。
及myid中的值修改为1和2
启动ZooKeeper集群
1、分别在三台机器上执行:
zkServer.shstart。
2、检查ZooKeeper状态:
zkServer.shstatus。
kafka_2.9.2-0.8.1集群搭建
安装Scala
2.11.4
1、将scala-2.11.4.tgz使用WinSCP拷贝到spark1的/usr/local目录下。
2、对scala-2.11.4.tgz进行解压缩:
tar-zxvfscala-2.11.4.tgz。
3、对scala目录进行重命名:
mvscala-2.11.4scala
4、配置scala相关的环境变量
exportSCALA_HOME=/usr/local/scala
exportPATH=$SCALA_HOME/bin
5、查看scala是否安装成功:
scala-version
6、按照上述步骤在spark2和spark3机器上都安装好scala。
使用scp将scala和.bashrc拷贝到spark2和spark3上即可。
安装Kafka包
1、将kafka_2.9.2-0.8.1.tgz使用WinSCP拷贝到spark1的/usr/local目录下。
2、对kafka_2.9.2-0.8.1.tgz进行解压缩:
tar-zxvfkafka_2.9.2-0.8.1.tgz。
3、对kafka目录进行改名:
mvkafka_2.9.2-0.8.1kafka
4、配置kafka
vi/usr/local/kafka/config/server.properties
broker.id:
依次增长的整数,0、1、2、3、4,集群中Broker的唯一id
zookeeper.connect=192.168.1.107:
2181,192.168.1.108:
2181,192.168.1.109:
2181
5、安装slf4j
将slf4j-1.7.6.zip上传到/usr/local目录下
unzipslf4j-1.7.6.zip
把slf4j中的slf4j-nop-1.7.6.jar复制到kafka的libs目录下面
搭建kafka集群
1、按照上述步骤在spark2和spark3分别安装kafka。
用scp把kafka拷贝到spark2和spark3行即可。
2、唯一区别的,就是server.properties中的broker.id,要设置为1和2
启动kafka集群
1、在三台机器上分别执行以下命令:
nohupbin/kafka-server-start.shconfig/server.properties&
(必须在kafka的主目录下执行cd/kafka)
2、解决kafkaUnrecognizedVMoption‘UseCompressedOops’问题
vibin/kafka-run-class.sh
if[-z"
$KAFKA_JVM_PERFORMANCE_OPTS"
];
then
KAFKA_JVM_PERFORMANCE_OPTS="
-server-XX:
+UseCompressedOops-XX:
+UseParNewGC-XX:
+UseConcMarkSweepGC-XX:
+CMSClassUnloadingEnabled-XX:
+CMSScavengeBeforeRemark-XX:
+DisableExplicitGC-Djava.awt.headless=true"
fi
去掉-XX:
+UseCompressedOops即可
3、使用jps检查启动是否成功
测试kafka集群
使用基本命令检查kafka是否搭建成功
bin/kafka-topics.sh--zookeeper192.168.0.110:
2181,192.168.0.111:
2181,192.168.0.112:
2181--topicTestTopic--replication-factor1--partitions1--create
在spark1上执行
bin/kafka-console-producer.sh--broker-list192.168.1.107:
9092,192.168.1.108:
9092,192.168.1.109:
9092--topicTestTopic
在spark2上执行
bin/kafka-console-consumer.sh--zookeeper192.168.1.107:
2181--topicTestTopic--from-beginning
Spark1.3.0集群搭建
安装spark包
1、将spark-1.3.0-bin-hadoop2.4.tgz使用WinSCP上传到/usr/local目录下。
2、解压缩spark包:
tarzxvfspark-1.3.0-bin-hadoop2.4.tgz。
3、更改spark目录名:
mvspark-1.3.0-bin-hadoop2.4spark
4、设置spark环境变量
exportSPARK_HOME=/usr/local/spark
exportPATH=$SPARK_HOME/bin
exportCLASSPATH=.:
$CLASSPATH:
$JAVA_HOME/lib:
$JAVA_HOME/jre/lib
修改spark-env.sh文件
1、cd/usr/local/spark/conf
2、cpspark-env.sh.templatespark-env.sh
3、vispark-env.sh
exportSPARK_MASTER_IP=192.168.1.107
exportSPARK_WORKER_MEMORY=1g
exportHADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
安装spark集群
在另外两个节点进行一模一样的配置,使用scp将spark和.bashrc拷贝到spark2和spark3即可。
启动spark集群
1、在spark目录下的sbin目录
2、执行./start-all.sh
3、使用jsp和8080端口可以检查集群是否启动成功
4、进入spark-shell查看是否正常
Spark1.3.0升级1.5
1、停止Spark1.3.0集群:
SPARK_HOME/sbin/stop-all.sh
2、将spark-1.5.1-bin-hadoop2.4.tgz使用WinSCP上传到/usr/local目录下。
3、解压缩spark包:
tarzxvfspark-1.5.1-bin-hadoop2.4.tgz。
4、修改spark环境变量
exportSPARK_HOME=/usr/local/spark-1.5.1-bin-hadoop2.4
scp-rspark-1.5.1-bin-hadoop2.4root@spark1:
2、执行./start-all.sh
hadoopfs-putspark.txt/
vallines=sc.textFile("
//spa