收藏

下载资源加入VIP,免费下载

大数据环境集群环境搭建.docx

上传人：b****8 文档编号：23732713 上传时间：2023-05-20 格式：DOCX 页数：15 大小：51.61KB

下载相关举报

大数据环境集群环境搭建.docx_第1页

第1页 / 共15页

大数据环境集群环境搭建.docx_第2页

第2页 / 共15页

大数据环境集群环境搭建.docx_第3页

第3页 / 共15页

大数据环境集群环境搭建.docx_第4页

第4页 / 共15页

大数据环境集群环境搭建.docx_第5页

第5页 / 共15页

点击查看更多>>

资源描述

大数据环境集群环境搭建.docx

《大数据环境集群环境搭建.docx》由会员分享，可在线阅读，更多相关《大数据环境集群环境搭建.docx（15页珍藏版）》请在冰豆网上搜索。

大数据环境集群环境搭建.docx

大数据环境集群环境搭建

大数据，hadoop,spark,hive,ZooKeeper,kafka,flume等组件环境搭建

大数据环境搭建

1、CentOS6.5

2、JDK1.8

3、Hadoop2.6

4、Hive1.1.0

5、ZooKeeper-3.4.9

6、kafka_2.11-0.10.2.1

7、Spark2.1.1

8、flume-ng-1.6.0

CentOS6.5防火墙和DNS配置

1、关闭防火墙

serviceiptablesstop

chkconfigiptablesoff

vi/etc/selinux/config

SELINUX=disabled

2、配置yum

yumcleanall

yummakecache

yuminstalltelnet

JDK1.7安装

1、将jdk-8u131-linux-x64.tar.gz通过上传到服务器中

2、安装JDK：

把压缩包放到/usr/java/目录下

tar-zxvfjdk-8u60-linux-x64.tar.gz

3、配置jdk相关的环境变量

vi~/.bashrc或者vi/etc/profile

exportJAVA_HOME=/usr/java/latest

exportPATH=$PATH:

$JAVA_HOME/bin

source.bashrc或者source/etc/profile

4、测试jdk安装是否成功：

Java -version

5、rm-f/etc/udev/rules.d/70-persistent-net.rules

安装第二台和第三台服务器

1、安装上述步骤，再安装两台一模一样环境的服务器，因为后面hadoop和spark都是要搭建集群的。

2、集群的最小环境就是三台。

因为后面要搭建ZooKeeper、kafka等集群。

3、另外两台机器的hostname分别设置为spark2和spark3即可，ip分别为192.168.1.108和192.168.1.109

4、在安装的时候，另外两台服务器的centos镜像文件必须重新拷贝一份，放在新的目录里，使用各自自己的镜像文件。

5、服务器的硬盘文件也必须重新选择一个新的目录，以更好的区分。

6、安装好之后，记得要在三台机器的/etc/hosts文件中，配置全三台机器的ip地址到hostname的映射，而不能只配置本机，这个很重要！

7、在windows的hosts文件中也要配置全三台机器的ip地址到hostname的映射。

配置集群ssh免密码登录

1、首先在三台机器上配置对本机的ssh免密码登录

生成本机的公钥，过程中不断敲回车即可，ssh-keygen命令默认会将公钥放在/root/.ssh目录下

ssh-keygen-trsa

将公钥复制为authorized_keys文件，此时使用ssh连接本机就不需要输入密码了

cd/root/.ssh

cpid_rsa.pubauthorized_keys

2、接着配置三台机器互相之间的ssh免密码登录

使用ssh-copy-id-ispark命令将本机的公钥拷贝到指定机器的authorized_keys文件中（方便好用）

Hadoop2.4.1集群搭建

安装hadoop包

1、使用hadoop-2.4.1.tar.gz，使用WinSCP上传到CentOS的/usr/local目录下。

2、将hadoop包进行解压缩：

tar-zxvfhadoop-2.4.1.tar.gz

3、对hadoop目录进行重命名：

mvhadoop-2.4.1hadoop

4、配置hadoop相关环境变量

vi.bashrc或者vi/etc/profile

exportHADOOP_HOME=/usr/local/hadoop

exportPATH=$HADOOP_HOME/bin:

$HADOOP_HOME/sbin

source.bashrc

修改hadoop相关的配置文件

进入/usr/local/hadoop/etc/hadoop目录下

修改core-site.xml

fs.default.name

hdfs:

//spark1:

9000//设置hdfs集群对外提供的目录

修改hdfs-site.xml//设置hdfs的一些目录，放在/usr/local/data的目录下面

dfs.name.dir

/usr/local/data/namenode

dfs.data.dir

/usr/local/data/datanode

dfs.tmp.dir

/usr/local/data/tmp

dfs.replication

3//设置副本数

修改mapred-site.xml //mapreduce的框架设置为yarn

mapreduce.framework.name

yarn

修改yarn-site.xml

yarn.resourcemanager.hostname

spark1

yarn.nodemanager.aux-services

mapreduce_shuffle

修改slaves文件

spark1

spark2

spark3

在另外两台机器上搭建hadoop

1、使用如上配置在另外两台机器上搭建hadoop，可以使用scp命令将spark1上面的hadoop安装包和.bashrc或者/etc/profile配置文件都拷贝过去。

scp-rhadooproot@spark1:

/usr/local/

scp-rhadooproot@spark2:

/usr/local/

scp-r/etc/profileroot@spark1:

/etc/

scp-r/etc/profileroot@spark2:

/etc/

2、要记得对.bashrc文件或者/etc/profile进行source，以让它生效。

3、记得在spark2和spark3的/usr/local目录下创建data目录。

启动hdfs集群

1、格式化namenode：

在spark1上执行以下命令，

hdfsnamenode-format

2、启动hdfs集群：

start-dfs.sh

3、验证启动是否成功：

jps、50070端口查看是否启动成功

spark1：

namenode、datanode、secondarynamenode

spark2：

datanode

spark3：

datanode

启动yarn集群

1、启动yarn集群：

start-yarn.sh

2、验证启动是否成功：

jps、8088端口

spark1：

resourcemanager、nodemanager

spark2：

nodemanager

spark3：

nodemanager

hive 0.13搭建

安装hive包

1、将的apache-hive-0.13.1-bin.tar.gz使用WinSCP上传到spark1的/usr/local目录下。

2、解压缩hive安装包：

tar-zxvfapache-hive-0.13.1-bin.tar.gz。

3、重命名hive目录：

mvapache-hive-0.13.1-binhive

4、配置hive相关的环境变量，下面以.bashrc文件操作

vi.bashrc

exportHIVE_HOME=/usr/local/hive

exportPATH=$HIVE_HOME/bin

source.bashrc

安装MySQL

1、在spark1上安装mysql。

2、使用yum安装mysqlserver。

yuminstall-ymysql-server

servicemysqldstart

chkconfigmysqldon

3、使用yum安装mysqlconnector

yuminstall-ymysql-connector-java

4、将mysqlconnector拷贝到hive的lib包中

cp/usr/share/java/mysql-connector-java-5.1.17.jar/usr/local/hive/lib

5、在mysql上创建hive元数据库，并对hive进行授权

createdatabaseifnotexistshive_metadata;

grantallprivilegesonhive_metadata.*to'hive'@'%'identifiedby'hive';

grantallprivilegesonhive_metadata.*to'hive'@'localhost'identifiedby'hive';

grantallprivilegesonhive_metadata.*to'hive'@'spark1'identifiedby'hive';

flushprivileges;//刷新授权

usehive_metadata;

配置hive-site.xml

mvhive-default.xml.templatehive-site.xml

vihive-site.xml

javax.jdo.option.ConnectionURL

jdbc:

mysql:

//spark1:

3306/hive_metadata?

createDatabaseIfNotExist=true

javax.jdo.option.ConnectionDriverName

com.mysql.jdbc.Driver

javax.jdo.option.ConnectionUserName

hive

javax.jdo.option.ConnectionPassword

hive

hive.metastore.warehouse.dir

/user/hive/warehouse

配置hive-env.sh和hive-config.sh

mvhive-env.sh.templatehive-env.sh

vi/usr/local/hive/bin/hive-config.sh

exportJAVA_HOME=/usr/java/latest

exportHIVE_HOME=/usr/local/hive

exportHADOOP_HOME=/usr/local/hadoop

验证hive是否安装成功

直接输入hive命令，可以进入hive命令行

ZooKeeper3.4.5集群搭建

安装ZooKeeper包

1、将zookeeper-3.4.5.tar.gz使用WinSCP拷贝到spark1的/usr/local目录下。

2、对zookeeper-3.4.5.tar.gz进行解压缩：

tar-zxvfzookeeper-3.4.5.tar.gz。

3、对zookeeper目录进行重命名：

mvzookeeper-3.4.5zk。

4、配置zookeeper相关的环境变量

vi.bashrc或者vi/etc/profile

exportZOOKEEPER_HOME=/usr/local/zk

exportPATH=$ZOOKEEPER_HOME/bin

source.bashrc

配置zoo.cfg在/usr/local/zk/conf目录下

vizoo.cfg

修改：

dataDir=/usr/local/zk/data

新增：

server.0=spark1:

2888:

3888

server.1=spark2:

2888:

3888

server.2=spark3:

2888:

3888

设置zk节点标识

cdzk

mkdirdata

cddata

vimyid

0

搭建zk集群

1、在另外两个节点上按照上述步骤配置ZooKeeper，使用scp将zk和.bashrc拷贝到spark2和spark3上即可。

scp-rzkroot@slave1:

/usr/local/

2、唯一的区别是spark2和spark3的标识号分别设置为1和2。

及myid中的值修改为1和2

启动ZooKeeper集群

1、分别在三台机器上执行：

zkServer.shstart。

2、检查ZooKeeper状态：

zkServer.shstatus。

kafka_2.9.2-0.8.1集群搭建

安装Scala 2.11.4

1、将scala-2.11.4.tgz使用WinSCP拷贝到spark1的/usr/local目录下。

2、对scala-2.11.4.tgz进行解压缩：

tar-zxvfscala-2.11.4.tgz。

3、对scala目录进行重命名：

mvscala-2.11.4scala

4、配置scala相关的环境变量

vi.bashrc

exportSCALA_HOME=/usr/local/scala

exportPATH=$SCALA_HOME/bin

source.bashrc

5、查看scala是否安装成功：

scala-version

6、按照上述步骤在spark2和spark3机器上都安装好scala。

使用scp将scala和.bashrc拷贝到spark2和spark3上即可。

安装Kafka包

1、将kafka_2.9.2-0.8.1.tgz使用WinSCP拷贝到spark1的/usr/local目录下。

2、对kafka_2.9.2-0.8.1.tgz进行解压缩：

tar-zxvfkafka_2.9.2-0.8.1.tgz。

3、对kafka目录进行改名：

mvkafka_2.9.2-0.8.1kafka

4、配置kafka

vi/usr/local/kafka/config/server.properties

broker.id：

依次增长的整数，0、1、2、3、4，集群中Broker的唯一id

zookeeper.connect=192.168.1.107:

2181,192.168.1.108:

2181,192.168.1.109:

2181

5、安装slf4j

将slf4j-1.7.6.zip上传到/usr/local目录下

unzipslf4j-1.7.6.zip

把slf4j中的slf4j-nop-1.7.6.jar复制到kafka的libs目录下面

搭建kafka集群

1、按照上述步骤在spark2和spark3分别安装kafka。

用scp把kafka拷贝到spark2和spark3行即可。

2、唯一区别的，就是server.properties中的broker.id，要设置为1和2

启动kafka集群

1、在三台机器上分别执行以下命令：

nohupbin/kafka-server-start.shconfig/server.properties&（必须在kafka的主目录下执行cd/kafka）

2、解决kafkaUnrecognizedVMoption‘UseCompressedOops’问题

vibin/kafka-run-class.sh

if[-z"$KAFKA_JVM_PERFORMANCE_OPTS"];then

KAFKA_JVM_PERFORMANCE_OPTS="-server-XX:

+UseCompressedOops-XX:

+UseParNewGC-XX:

+UseConcMarkSweepGC-XX:

+CMSClassUnloadingEnabled-XX:

+CMSScavengeBeforeRemark-XX:

+DisableExplicitGC-Djava.awt.headless=true"

fi

去掉-XX:

+UseCompressedOops即可

3、使用jps检查启动是否成功

测试kafka集群

使用基本命令检查kafka是否搭建成功

bin/kafka-topics.sh--zookeeper192.168.0.110:

2181,192.168.0.111:

2181,192.168.0.112:

2181--topicTestTopic--replication-factor1--partitions1--create

在spark1上执行

bin/kafka-console-producer.sh--broker-list192.168.1.107:

9092,192.168.1.108:

9092,192.168.1.109:

9092--topicTestTopic

在spark2上执行

bin/kafka-console-consumer.sh--zookeeper192.168.1.107:

2181,192.168.1.108:

2181,192.168.1.109:

2181--topicTestTopic--from-beginning

Spark1.3.0集群搭建

安装spark包

1、将spark-1.3.0-bin-hadoop2.4.tgz使用WinSCP上传到/usr/local目录下。

2、解压缩spark包：

tarzxvfspark-1.3.0-bin-hadoop2.4.tgz。

3、更改spark目录名：

mvspark-1.3.0-bin-hadoop2.4spark

4、设置spark环境变量

vi.bashrc

exportSPARK_HOME=/usr/local/spark

exportPATH=$SPARK_HOME/bin

exportCLASSPATH=.:

$CLASSPATH:

$JAVA_HOME/lib:

$JAVA_HOME/jre/lib

source.bashrc

修改spark-env.sh文件

1、cd/usr/local/spark/conf

2、cpspark-env.sh.templatespark-env.sh

3、vispark-env.sh

exportJAVA_HOME=/usr/java/latest

exportSCALA_HOME=/usr/local/scala

exportSPARK_MASTER_IP=192.168.1.107

exportSPARK_WORKER_MEMORY=1g

exportHADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop

修改slaves文件

spark2

spark3

安装spark集群

在另外两个节点进行一模一样的配置，使用scp将spark和.bashrc拷贝到spark2和spark3即可。

启动spark集群

1、在spark目录下的sbin目录

2、执行./start-all.sh

3、使用jsp和8080端口可以检查集群是否启动成功

4、进入spark-shell查看是否正常

Spark1.3.0升级1.5

安装spark包

1、停止Spark1.3.0集群：

SPARK_HOME/sbin/stop-all.sh

2、将spark-1.5.1-bin-hadoop2.4.tgz使用WinSCP上传到/usr/local目录下。

3、解压缩spark包：

tarzxvfspark-1.5.1-bin-hadoop2.4.tgz。

4、修改spark环境变量

vi.bashrc

exportSPARK_HOME=/usr/local/spark-1.5.1-bin-hadoop2.4

exportPATH=$SPARK_HOME/bin

exportCLASSPATH=.:

$CLASSPATH:

$JAVA_HOME/lib:

$JAVA_HOME/jre/lib

source.bashrc

修改spark-env.sh文件

1、cd/usr/local/spark/conf

2、cpspark-env.sh.templatespark-env.sh

3、vispark-env.sh

exportJAVA_HOME=/usr/java/latest

exportSCALA_HOME=/usr/local/scala

exportSPARK_MASTER_IP=192.168.1.107

exportSPARK_WORKER_MEMORY=1g

exportHADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop

修改slaves文件

spark2

spark3

安装spark集群

在另外两个节点进行一模一样的配置，使用scp将spark和.bashrc拷贝到spark2和spark3即可。

scp-rspark-1.5.1-bin-hadoop2.4root@spark1:

/usr/local/

启动spark集群

1、在spark目录下的sbin目录

2、执行./start-all.sh

3、使用jsp和8080端口可以检查集群是否启动成功

4、进入spark-shell查看是否正常

hadoopfs-putspark.txt/

vallines=sc.textFile（"hdfs:

//spa

展开阅读全文

相关资源

猜你喜欢

相关搜索

当前位置：首页 > 法律文书 > 调解书

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1