大数据环境集群环境搭建.docx

上传人:b****8 文档编号:23732713 上传时间:2023-05-20 格式:DOCX 页数:15 大小:51.61KB
下载 相关 举报
大数据环境集群环境搭建.docx_第1页
第1页 / 共15页
大数据环境集群环境搭建.docx_第2页
第2页 / 共15页
大数据环境集群环境搭建.docx_第3页
第3页 / 共15页
大数据环境集群环境搭建.docx_第4页
第4页 / 共15页
大数据环境集群环境搭建.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

大数据环境集群环境搭建.docx

《大数据环境集群环境搭建.docx》由会员分享,可在线阅读,更多相关《大数据环境集群环境搭建.docx(15页珍藏版)》请在冰豆网上搜索。

大数据环境集群环境搭建.docx

大数据环境集群环境搭建

大数据,hadoop,spark,hive,ZooKeeper,kafka,flume等组件环境搭建

大数据环境搭建

1、CentOS6.5 

2、JDK1.8 

3、Hadoop2.6 

4、Hive1.1.0

5、ZooKeeper-3.4.9 

6、kafka_2.11-0.10.2.1

7、Spark2.1.1 

8、flume-ng-1.6.0

CentOS6.5防火墙和DNS配置 

1、关闭防火墙

serviceiptablesstop

chkconfigiptablesoff

vi/etc/selinux/config

SELINUX=disabled

2、配置yum

yumcleanall

yummakecache

yuminstalltelnet

JDK1.7安装 

1、将jdk-8u131-linux-x64.tar.gz通过上传到服务器中 

2、安装JDK:

把压缩包放到/usr/java/目录下

tar-zxvfjdk-8u60-linux-x64.tar.gz

3、配置jdk相关的环境变量

vi~/.bashrc或者vi/etc/profile

exportJAVA_HOME=/usr/java/latest

exportPATH=$PATH:

$JAVA_HOME/bin

source.bashrc或者source/etc/profile

4、测试jdk安装是否成功:

Java -version 

5、rm-f/etc/udev/rules.d/70-persistent-net.rules

安装第二台和第三台服务器 

1、安装上述步骤,再安装两台一模一样环境的服务器,因为后面hadoop和spark都是要搭建集群的。

 

2、集群的最小环境就是三台。

因为后面要搭建ZooKeeper、kafka等集群。

 

3、另外两台机器的hostname分别设置为spark2和spark3即可,ip分别为192.168.1.108和192.168.1.109 

4、在安装的时候,另外两台服务器的centos镜像文件必须重新拷贝一份,放在新的目录里,使用各自自己的镜像文件。

 

5、服务器的硬盘文件也必须重新选择一个新的目录,以更好的区分。

 

6、安装好之后,记得要在三台机器的/etc/hosts文件中,配置全三台机器的ip地址到hostname的映射,而不能只配置本机,这个很重要!

 

7、在windows的hosts文件中也要配置全三台机器的ip地址到hostname的映射。

配置集群ssh免密码登录 

1、首先在三台机器上配置对本机的ssh免密码登录 

生成本机的公钥,过程中不断敲回车即可,ssh-keygen命令默认会将公钥放在/root/.ssh目录下

ssh-keygen-trsa

将公钥复制为authorized_keys文件,此时使用ssh连接本机就不需要输入密码了

cd/root/.ssh

cpid_rsa.pubauthorized_keys

2、接着配置三台机器互相之间的ssh免密码登录 

使用ssh-copy-id-ispark命令将本机的公钥拷贝到指定机器的authorized_keys文件中(方便好用) 

Hadoop2.4.1集群搭建 

安装hadoop包

1、使用hadoop-2.4.1.tar.gz,使用WinSCP上传到CentOS的/usr/local目录下。

2、将hadoop包进行解压缩:

tar-zxvfhadoop-2.4.1.tar.gz

3、对hadoop目录进行重命名:

mvhadoop-2.4.1hadoop

4、配置hadoop相关环境变量

vi.bashrc或者vi/etc/profile

exportHADOOP_HOME=/usr/local/hadoop

exportPATH=$HADOOP_HOME/bin:

$HADOOP_HOME/sbin

source.bashrc

修改hadoop相关的配置文件 

进入/usr/local/hadoop/etc/hadoop目录下 

修改core-site.xml

fs.default.name

hdfs:

//spark1:

9000//设置hdfs集群对外提供的目录

修改hdfs-site.xml//设置hdfs的一些目录,放在/usr/local/data的目录下面

dfs.name.dir

/usr/local/data/namenode

dfs.data.dir

/usr/local/data/datanode

dfs.tmp.dir

/usr/local/data/tmp

dfs.replication

3//设置副本数

修改mapred-site.xml //mapreduce的框架设置为yarn

mapreduce.framework.name

yarn

修改yarn-site.xml

yarn.resourcemanager.hostname

spark1

yarn.nodemanager.aux-services

mapreduce_shuffle

修改slaves文件

spark1

spark2

spark3

在另外两台机器上搭建hadoop

1、使用如上配置在另外两台机器上搭建hadoop,可以使用scp命令将spark1上面的hadoop安装包和.bashrc或者/etc/profile配置文件都拷贝过去。

scp-rhadooproot@spark1:

/usr/local/

scp-rhadooproot@spark2:

/usr/local/

scp-r/etc/profileroot@spark1:

/etc/

scp-r/etc/profileroot@spark2:

/etc/

2、要记得对.bashrc文件或者/etc/profile进行source,以让它生效。

3、记得在spark2和spark3的/usr/local目录下创建data目录。

启动hdfs集群

1、格式化namenode:

在spark1上执行以下命令,

hdfsnamenode-format

2、启动hdfs集群:

start-dfs.sh

3、验证启动是否成功:

jps、50070端口查看是否启动成功

spark1:

namenode、datanode、secondarynamenode

spark2:

datanode

spark3:

datanode

启动yarn集群

1、启动yarn集群:

start-yarn.sh

2、验证启动是否成功:

jps、8088端口

spark1:

resourcemanager、nodemanager

spark2:

nodemanager

spark3:

nodemanager

hive 0.13搭建 

安装hive包 

1、将的apache-hive-0.13.1-bin.tar.gz使用WinSCP上传到spark1的/usr/local目录下。

 

2、解压缩hive安装包:

tar-zxvfapache-hive-0.13.1-bin.tar.gz。

 

3、重命名hive目录:

mvapache-hive-0.13.1-binhive 

4、配置hive相关的环境变量,下面以.bashrc文件操作

vi.bashrc

exportHIVE_HOME=/usr/local/hive

exportPATH=$HIVE_HOME/bin

source.bashrc

安装MySQL 

1、在spark1上安装mysql。

 

2、使用yum安装mysqlserver。

yuminstall-ymysql-server

servicemysqldstart

chkconfigmysqldon

3、使用yum安装mysqlconnector

yuminstall-ymysql-connector-java

4、将mysqlconnector拷贝到hive的lib包中

cp/usr/share/java/mysql-connector-java-5.1.17.jar/usr/local/hive/lib

5、在mysql上创建hive元数据库,并对hive进行授权

createdatabaseifnotexistshive_metadata;

grantallprivilegesonhive_metadata.*to'hive'@'%'identifiedby'hive';

grantallprivilegesonhive_metadata.*to'hive'@'localhost'identifiedby'hive';

grantallprivilegesonhive_metadata.*to'hive'@'spark1'identifiedby'hive';

flushprivileges;//刷新授权

usehive_metadata;

配置hive-site.xml

mvhive-default.xml.templatehive-site.xml

vihive-site.xml

javax.jdo.option.ConnectionURL

jdbc:

mysql:

//spark1:

3306/hive_metadata?

createDatabaseIfNotExist=true

javax.jdo.option.ConnectionDriverName

com.mysql.jdbc.Driver

javax.jdo.option.ConnectionUserName

hive

javax.jdo.option.ConnectionPassword

hive

hive.metastore.warehouse.dir

/user/hive/warehouse

配置hive-env.sh和hive-config.sh

mvhive-env.sh.templatehive-env.sh

vi/usr/local/hive/bin/hive-config.sh

exportJAVA_HOME=/usr/java/latest

exportHIVE_HOME=/usr/local/hive

exportHADOOP_HOME=/usr/local/hadoop

验证hive是否安装成功 

直接输入hive命令,可以进入hive命令行

ZooKeeper3.4.5集群搭建 

安装ZooKeeper包 

1、将zookeeper-3.4.5.tar.gz使用WinSCP拷贝到spark1的/usr/local目录下。

 

2、对zookeeper-3.4.5.tar.gz进行解压缩:

tar-zxvfzookeeper-3.4.5.tar.gz。

 

3、对zookeeper目录进行重命名:

mvzookeeper-3.4.5zk。

 

4、配置zookeeper相关的环境变量

vi.bashrc或者vi/etc/profile

exportZOOKEEPER_HOME=/usr/local/zk

exportPATH=$ZOOKEEPER_HOME/bin

source.bashrc

配置zoo.cfg在/usr/local/zk/conf目录下

vizoo.cfg

修改:

dataDir=/usr/local/zk/data

新增:

server.0=spark1:

2888:

3888

server.1=spark2:

2888:

3888

server.2=spark3:

2888:

3888

设置zk节点标识

cdzk

mkdirdata

cddata

vimyid

0

搭建zk集群 

1、在另外两个节点上按照上述步骤配置ZooKeeper,使用scp将zk和.bashrc拷贝到spark2和spark3上即可。

 

scp-rzkroot@slave1:

/usr/local/

2、唯一的区别是spark2和spark3的标识号分别设置为1和2。

及myid中的值修改为1和2

启动ZooKeeper集群

1、分别在三台机器上执行:

zkServer.shstart。

2、检查ZooKeeper状态:

zkServer.shstatus。

kafka_2.9.2-0.8.1集群搭建 

安装Scala 2.11.4 

1、将scala-2.11.4.tgz使用WinSCP拷贝到spark1的/usr/local目录下。

 

2、对scala-2.11.4.tgz进行解压缩:

tar-zxvfscala-2.11.4.tgz。

 

3、对scala目录进行重命名:

mvscala-2.11.4scala 

4、配置scala相关的环境变量

vi.bashrc

exportSCALA_HOME=/usr/local/scala

exportPATH=$SCALA_HOME/bin

source.bashrc

5、查看scala是否安装成功:

scala-version 

6、按照上述步骤在spark2和spark3机器上都安装好scala。

使用scp将scala和.bashrc拷贝到spark2和spark3上即可。

安装Kafka包 

1、将kafka_2.9.2-0.8.1.tgz使用WinSCP拷贝到spark1的/usr/local目录下。

 

2、对kafka_2.9.2-0.8.1.tgz进行解压缩:

tar-zxvfkafka_2.9.2-0.8.1.tgz。

 

3、对kafka目录进行改名:

mvkafka_2.9.2-0.8.1kafka 

4、配置kafka

vi/usr/local/kafka/config/server.properties

broker.id:

依次增长的整数,0、1、2、3、4,集群中Broker的唯一id

zookeeper.connect=192.168.1.107:

2181,192.168.1.108:

2181,192.168.1.109:

2181

5、安装slf4j 

将slf4j-1.7.6.zip上传到/usr/local目录下 

unzipslf4j-1.7.6.zip 

把slf4j中的slf4j-nop-1.7.6.jar复制到kafka的libs目录下面

搭建kafka集群 

1、按照上述步骤在spark2和spark3分别安装kafka。

用scp把kafka拷贝到spark2和spark3行即可。

2、唯一区别的,就是server.properties中的broker.id,要设置为1和2

启动kafka集群 

1、在三台机器上分别执行以下命令:

nohupbin/kafka-server-start.shconfig/server.properties&(必须在kafka的主目录下执行cd/kafka)

2、解决kafkaUnrecognizedVMoption‘UseCompressedOops’问题

vibin/kafka-run-class.sh

if[-z"$KAFKA_JVM_PERFORMANCE_OPTS"];then

KAFKA_JVM_PERFORMANCE_OPTS="-server-XX:

+UseCompressedOops-XX:

+UseParNewGC-XX:

+UseConcMarkSweepGC-XX:

+CMSClassUnloadingEnabled-XX:

+CMSScavengeBeforeRemark-XX:

+DisableExplicitGC-Djava.awt.headless=true"

fi

去掉-XX:

+UseCompressedOops即可

3、使用jps检查启动是否成功

测试kafka集群 

使用基本命令检查kafka是否搭建成功

bin/kafka-topics.sh--zookeeper192.168.0.110:

2181,192.168.0.111:

2181,192.168.0.112:

2181--topicTestTopic--replication-factor1--partitions1--create

 

在spark1上执行

bin/kafka-console-producer.sh--broker-list192.168.1.107:

9092,192.168.1.108:

9092,192.168.1.109:

9092--topicTestTopic

 

在spark2上执行

bin/kafka-console-consumer.sh--zookeeper192.168.1.107:

2181,192.168.1.108:

2181,192.168.1.109:

2181--topicTestTopic--from-beginning

Spark1.3.0集群搭建 

安装spark包 

1、将spark-1.3.0-bin-hadoop2.4.tgz使用WinSCP上传到/usr/local目录下。

 

2、解压缩spark包:

tarzxvfspark-1.3.0-bin-hadoop2.4.tgz。

 

3、更改spark目录名:

mvspark-1.3.0-bin-hadoop2.4spark 

4、设置spark环境变量

vi.bashrc

exportSPARK_HOME=/usr/local/spark

exportPATH=$SPARK_HOME/bin

exportCLASSPATH=.:

$CLASSPATH:

$JAVA_HOME/lib:

$JAVA_HOME/jre/lib

source.bashrc

修改spark-env.sh文件

1、cd/usr/local/spark/conf

2、cpspark-env.sh.templatespark-env.sh

3、vispark-env.sh

exportJAVA_HOME=/usr/java/latest

exportSCALA_HOME=/usr/local/scala

exportSPARK_MASTER_IP=192.168.1.107

exportSPARK_WORKER_MEMORY=1g

exportHADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop

修改slaves文件

spark2

spark3

安装spark集群 

在另外两个节点进行一模一样的配置,使用scp将spark和.bashrc拷贝到spark2和spark3即可。

启动spark集群 

1、在spark目录下的sbin目录 

2、执行./start-all.sh 

3、使用jsp和8080端口可以检查集群是否启动成功 

4、进入spark-shell查看是否正常

Spark1.3.0升级1.5 

安装spark包 

1、停止Spark1.3.0集群:

SPARK_HOME/sbin/stop-all.sh 

2、将spark-1.5.1-bin-hadoop2.4.tgz使用WinSCP上传到/usr/local目录下。

 

3、解压缩spark包:

tarzxvfspark-1.5.1-bin-hadoop2.4.tgz。

 

4、修改spark环境变量

vi.bashrc

exportSPARK_HOME=/usr/local/spark-1.5.1-bin-hadoop2.4

exportPATH=$SPARK_HOME/bin

exportCLASSPATH=.:

$CLASSPATH:

$JAVA_HOME/lib:

$JAVA_HOME/jre/lib

source.bashrc

修改spark-env.sh文件

1、cd/usr/local/spark/conf

2、cpspark-env.sh.templatespark-env.sh

3、vispark-env.sh

exportJAVA_HOME=/usr/java/latest

exportSCALA_HOME=/usr/local/scala

exportSPARK_MASTER_IP=192.168.1.107

exportSPARK_WORKER_MEMORY=1g

exportHADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop

修改slaves文件

spark2

spark3

安装spark集群 

在另外两个节点进行一模一样的配置,使用scp将spark和.bashrc拷贝到spark2和spark3即可。

 

scp-rspark-1.5.1-bin-hadoop2.4root@spark1:

/usr/local/

启动spark集群 

1、在spark目录下的sbin目录 

2、执行./start-all.sh 

3、使用jsp和8080端口可以检查集群是否启动成功 

4、进入spark-shell查看是否正常

hadoopfs-putspark.txt/

vallines=sc.textFile("hdfs:

//spa

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 法律文书 > 调解书

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1