大数据环境集群环境搭建Word下载.docx

上传人:b****3 文档编号:17931674 上传时间:2022-12-12 格式:DOCX 页数:12 大小:51.11KB
下载 相关 举报
大数据环境集群环境搭建Word下载.docx_第1页
第1页 / 共12页
大数据环境集群环境搭建Word下载.docx_第2页
第2页 / 共12页
大数据环境集群环境搭建Word下载.docx_第3页
第3页 / 共12页
大数据环境集群环境搭建Word下载.docx_第4页
第4页 / 共12页
大数据环境集群环境搭建Word下载.docx_第5页
第5页 / 共12页
点击查看更多>>
下载资源
资源描述

大数据环境集群环境搭建Word下载.docx

《大数据环境集群环境搭建Word下载.docx》由会员分享,可在线阅读,更多相关《大数据环境集群环境搭建Word下载.docx(12页珍藏版)》请在冰豆网上搜索。

大数据环境集群环境搭建Word下载.docx

2、集群的最小环境就是三台。

因为后面要搭建ZooKeeper、kafka等集群。

4、在安装的时候,另外两台服务器的centos镜像文件必须重新拷贝一份,放在新的目录里,使用各自自己的镜像文件。

5、服务器的硬盘文件也必须重新选择一个新的目录,以更好的区分。

6、安装好之后,记得要在三台机器的/etc/hosts文件中,配置全三台机器的ip地址到hostname的映射,而不能只配置本机,这个很重要!

7、在windows的hosts文件中也要配置全三台机器的ip地址到hostname的映射。

配置集群ssh免密码登录

1、首先在三台机器上配置对本机的ssh免密码登录

生成本机的公钥,过程中不断敲回车即可,ssh-keygen命令默认会将公钥放在/root/.ssh目录下

ssh-keygen-trsa

将公钥复制为authorized_keys文件,此时使用ssh连接本机就不需要输入密码了

cd/root/.ssh

cpid_rsa.pubauthorized_keys

2、接着配置三台机器互相之间的ssh免密码登录

使用ssh-copy-id-ispark命令将本机的公钥拷贝到指定机器的authorized_keys文件中〔方便好用〕

Hadoop2.4.1集群搭建安装hadoop包

1、使用hadoop-2.4.1.tar.gz,使用WinSCP上传到CentOS的/usr/local目录下。

2、将hadoop包进行解压缩:

tar-zxvfhadoop-2.4.1.tar.gz

3、对hadoop目录进行重命名:

mvhadoop-2.4.1hadoop

4、配置hadoop相关环境变量

vi.bashrc或者vi/etc/profile

exportHADOOP_HOME=/usr/local/hadoop

exportPATH=$HADOOP_HOME/bin:

$HADOOP_HOME/sbin

source.bashrc

修改hadoop相关的配置文件

进入/usr/local/hadoop/etc/hadoop目录下修改core-site.xml

<

property>

name>

/name>

value>

hdfsspark1:

9000<

/value>

//设置hdfs集群对外提供的目录

/property>

修改hdfs-site.xml//设置hdfs的一些目录,放在/usr/local/data的目录下面

/usr/local/data/namenode<

/usr/local/data/datanode<

/usr/local/data/tmp<

dfs.replication<

3<

//设置副本数

修改mapred-site.xml//mapreduce的框架设置为yarn

yarn<

修改yarn-site.xml

spark1<

mapreduce_shuffle<

修改slaves文件

spark1

spark2

spark3

在另外两台机器上搭建hadoop

1、使用如上配置在另外两台机器上搭建hadoop,可以使用scp命令将spark1上面的hadoop安装包和.bashrc或者/etc/profile配置文件都拷贝过去。

scp-rhadooprootspark1:

/usr/local/

scp-rhadooprootspark2:

scp-r/etc/profilerootspark1:

/etc/

scp-r/etc/profilerootspark2:

2、要记得对.bashrc文件或者/etc/profile进行source,以让它生效。

3、记得在spark2和spark3的/usr/local目录下创建data目录。

启动hdfs集群

1、格式化namenode:

在spark1上执行以下命令,

hdfsnamenode-format

2、启动hdfs集群:

start-dfs.sh

3、验证启动是否成功:

jps、50070端口查看是否启动成功

spark1:

namenode、datanode、secondarynamenode

spark2:

datanode

spark3:

启动yarn集群

1、启动yarn集群:

start-yarn.sh

2、验证启动是否成功:

jps、8088端口

resourcemanager、nodemanager

nodemanager

hive0.13搭建安装hive包

1、将的apache-hive-0.13.1-bin.tar.gz使用WinSCP上传到spark1的/usr/local目录下。

2、解压缩hive安装包:

tar-zxvfapache-hive-0.13.1-bin.tar.gz。

3、重命名hive目录:

mvapache-hive-0.13.1-binhive

4、配置hive相关的环境变量,下面以.bashrc文件操作

vi.bashrc

exportHIVE_HOME=/usr/local/hive

exportPATH=$HIVE_HOME/bin

安装MySQL

1、在spark1上安装mysql。

2、使用yum安装mysqlserver。

yuminstall-ymysql-server

servicemysqldstart

chkconfigmysqldon

3、使用yum安装mysqlconnector

yuminstall-ymysql-connector-java

4、将mysqlconnector拷贝到hive的lib包中

cp/usr/share/java/mysql-connector-java-.jar/usr/local/hive/lib

5、在mysql上创建hive元数据库,并对hive进行授权

createdatabaseifnotexistshive_metadata;

grantallprivilegesonhive_metadata.*to'

hive'

'

%'

identifiedby'

;

localhost'

spark1'

flushprivileges;

//刷新授权

usehive_metadata;

配置hive-site.xml

mvhive-default.xml.templatehive-site.xml

vihive-site.xml

jdbc:

mysqlspark1:

3306/hive_metadata?

createDatabaseIfNotExist=true<

hive<

/user/hive/warehouse<

配置hive-env.sh和hive-config.sh

mvhive-env.sh.templatehive-env.sh

vi/usr/local/hive/bin/hive-config.sh

验证hive是否安装成功

直接输入hive命令,可以进入hive命令行

ZooKeeper3.4.5集群搭建安装ZooKeeper包

1、将zookeeper-3.4.5.tar.gz使用WinSCP拷贝到spark1的/usr/local目录下。

2、对zookeeper-3.4.5.tar.gz进行解压缩:

tar-zxvfzookeeper-3.4.5.tar.gz。

3、对zookeeper目录进行重命名:

mvzookeeper-3.4.5zk。

4、配置zookeeper相关的环境变量

vi.bashrc或者vi/etc/profile

exportZOOKEEPER_HOME=/usr/local/zk

exportPATH=$ZOOKEEPER_HOME/bin

配置zoo.cfg在/usr/local/zk/conf目录下

vizoo.cfg

修改:

dataDir=/usr/local/zk/data

新增:

server.0=spark1:

2888:

3888

server.1=spark2:

server.2=spark3:

设置zk节点标识

cdzk

mkdirdata

cddata

vimyid

搭建zk集群

1、在另外两个节点上按照上述步骤配置ZooKeeper,使用scp将zk和.bashrc拷贝到spark2和spark3上即可。

scp-rzkrootslave1:

2、唯一的区别是spark2和spark3的标识号分别设置为1和2。

与myid中的值修改为1和2

启动ZooKeeper集群

1、分别在三台机器上执行:

zkServer.shstart。

2、检查ZooKeeper状态:

zkServer.shstatus。

kafka_2.9.2-0.8.1集群搭建安装Scala

1、将scala-2.11.4.tgz使用WinSCP拷贝到spark1的/usr/local目录下。

2、对scala-2.11.4.tgz进行解压缩:

tar-zxvfscala-2.11.4.tgz。

3、对scala目录进行重命名:

mvscala-2.11.4scala

4、配置scala相关的环境变量

exportSCALA_HOME=/usr/local/scala

exportPATH=$SCALA_HOME/bin

5、查看scala是否安装成功:

scala-version

6、按照上述步骤在spark2和spark3机器上都安装好scala。

使用scp将scala和.bashrc拷贝到spark2和spark3上即可。

安装Kafka包

1、将kafka_2.9.2-0.8.1.tgz使用WinSCP拷贝到spark1的/usr/local目录下。

2、对kafka_2.9.2-0.8.1.tgz进行解压缩:

tar-zxvfkafka_2.9.2-0.8.1.tgz。

3、对kafka目录进行改名:

mvkafka_2.9.2-0.8.1kafka

4、配置kafka

vi/usr/local/kafka/config/server.properties

broker.id:

依次增长的整数,0、1、2、3、4,集群中Broker的唯一id

zookeeper.connect=:

2181,:

2181

5、安装slf4j

将slf4j-1.7.6.zip上传到/usr/local目录下

把slf4j中的slf4j-nop-1.7.6.jar复制到kafka的libs目录下面

搭建kafka集群

1、按照上述步骤在spark2和spark3分别安装kafka。

用scp把kafka拷贝到spark2和spark3行即可。

2、唯一区别的,就是server.properties中的broker.id,要设置为1和2

启动kafka集群

1、在三台机器上分别执行以下命令:

nohupbin/kafka-server-start.shconfig/server.properties&

〔必须在kafka的主目录下执行cd/kafka〕

2、解决kafkaUnrecognizedVMoption‘UseCompressedOops’问题

vibin/kafka-run-class.sh

if[-z"

$KAFKA_JVM_PERFORMANCE_OPTS"

];

then

KAFKA_JVM_PERFORMANCE_OPTS="

-server-XX:

+UseCompressedOops-XX:

+UseParNewGC-XX:

+UseConcMarkSweepGC-XX:

+CMSClassUnloadingEnabled-XX:

+CMSScavengeBeforeRemark-XX:

+DisableExplicitGC-Djava.awt.headless=true"

fi

去掉-XX:

+UseCompressedOops即可

3、使用jps检查启动是否成功

测试kafka集群

使用基本命令检查kafka是否搭建成功

bin/kafka-topics.sh--zookeeper192.168.0.110:

2181,192.168.0.111:

2181,192.168.0.112:

2181--topicTestTopic--replication-factor1--partitions1--create

在spark1上执行

bin/kafka-console-producer.sh--broker-list192.168.1.107:

9092,192.168.1.108:

9092,192.168.1.109:

9092--topicTestTopic

在spark2上执行

bin/kafka-console-consumer.sh--zookeeper192.168.1.107:

2181,192.168.1.108:

2181,192.168.1.109:

2181--topicTestTopic--from-beginning

Spark1.3.0集群搭建安装spark包

1、将spark-1.3.0-bin-hadoop2.4.tgz使用WinSCP上传到/usr/local目录下。

2、解压缩spark包:

tarzxvfspark-1.3.0-bin-hadoop2.4.tgz。

3、更改spark目录名:

mvspark-1.3.0-bin-hadoop2.4spark

4、设置spark环境变量

exportSPARK_HOME=/usr/local/spark

exportPATH=$SPARK_HOME/bin

exportCLASSPATH=.:

$CLASSPATH:

$JAVA_HOME/lib:

$JAVA_HOME/jre/lib

修改spark-env.sh文件

1、cd/usr/local/spark/conf

2、cpspark-env.sh.templatespark-env.sh

3、vispark-env.sh

exportSPARK_MASTER_IP=

exportSPARK_WORKER_MEMORY=1g

exportHADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop

安装spark集群

在另外两个节点进行一模一样的配置,使用scp将spark和.bashrc拷贝到spark2和spark3即可。

启动spark集群

1、在spark目录下的sbin目录

2、执行./start-all.sh

3、使用jsp和8080端口可以检查集群是否启动成功

4、进入spark-shell查看是否正常

Spark1.3.0升级1.5安装spark包

1、停止Spark1.3.0集群:

SPARK_HOME/sbin/stop-all.sh

2、将spark-1.5.1-bin-hadoop2.4.tgz使用WinSCP上传到/usr/local目录下。

3、解压缩spark包:

tarzxvfspark-1.5.1-bin-hadoop2.4.tgz。

4、修改spark环境变量

exportSPARK_HOME=/usr/local/spark-1.5.1-bin-hadoop2.4

exportSPARK_MASTER_IP=192.168.1.107

scp-rspark-1.5.1-bin-hadoop2.4rootspark1:

2、执行./start-all.sh

hadoopfs-putspark.txt/

vallines=sc.textFile<

"

9000/spark.txt"

>

valwords=lines.flatMap<

line=>

line.split<

"

valpairs=words.map<

word=>

<

word,1>

valcounts=pairs.reduceByKey<

_+_>

counts.foreach<

count=>

println<

count._1+"

:

+count._2>

flume-ng-1.5.0-cdh5.3.6安装安装flume

1、将flume-ng-1.5.0-cdh5.3.6.tar.gz使用WinSCP拷贝到sparkproject1的/usr/local目录下。

3、对flume目录进行重命名:

mvapache-flume-1.5.0-cdh5.3.6-binflume

vi~/.bashrc

exportFLUME_HOME=/usr/local/flume

exportFLUME_CONF_DIR=$FLUME_HOME/conf

exportPATH=$FLUME_HOME/bin

source~/.bashrc

修改flume配置文件

vi/usr/local/flume/conf/flume-conf.properties

agent1表示代理名称

agent1.sources=source1

agent1.sinks=sink1

agent1.channels=channel1

配置source1

agent1.sources.source1.type=spooldir

agent1.sources.source1.sp

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 教学研究 > 教学计划

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1