大数据环境集群环境搭建Word下载.docx
《大数据环境集群环境搭建Word下载.docx》由会员分享,可在线阅读,更多相关《大数据环境集群环境搭建Word下载.docx(12页珍藏版)》请在冰豆网上搜索。
2、集群的最小环境就是三台。
因为后面要搭建ZooKeeper、kafka等集群。
4、在安装的时候,另外两台服务器的centos镜像文件必须重新拷贝一份,放在新的目录里,使用各自自己的镜像文件。
5、服务器的硬盘文件也必须重新选择一个新的目录,以更好的区分。
6、安装好之后,记得要在三台机器的/etc/hosts文件中,配置全三台机器的ip地址到hostname的映射,而不能只配置本机,这个很重要!
7、在windows的hosts文件中也要配置全三台机器的ip地址到hostname的映射。
配置集群ssh免密码登录
1、首先在三台机器上配置对本机的ssh免密码登录
生成本机的公钥,过程中不断敲回车即可,ssh-keygen命令默认会将公钥放在/root/.ssh目录下
ssh-keygen-trsa
将公钥复制为authorized_keys文件,此时使用ssh连接本机就不需要输入密码了
cd/root/.ssh
cpid_rsa.pubauthorized_keys
2、接着配置三台机器互相之间的ssh免密码登录
使用ssh-copy-id-ispark命令将本机的公钥拷贝到指定机器的authorized_keys文件中〔方便好用〕
Hadoop2.4.1集群搭建安装hadoop包
1、使用hadoop-2.4.1.tar.gz,使用WinSCP上传到CentOS的/usr/local目录下。
2、将hadoop包进行解压缩:
tar-zxvfhadoop-2.4.1.tar.gz
3、对hadoop目录进行重命名:
mvhadoop-2.4.1hadoop
4、配置hadoop相关环境变量
vi.bashrc或者vi/etc/profile
exportHADOOP_HOME=/usr/local/hadoop
exportPATH=$HADOOP_HOME/bin:
$HADOOP_HOME/sbin
source.bashrc
修改hadoop相关的配置文件
进入/usr/local/hadoop/etc/hadoop目录下修改core-site.xml
<
property>
name>
/name>
value>
hdfsspark1:
9000<
/value>
//设置hdfs集群对外提供的目录
/property>
修改hdfs-site.xml//设置hdfs的一些目录,放在/usr/local/data的目录下面
/usr/local/data/namenode<
/usr/local/data/datanode<
/usr/local/data/tmp<
dfs.replication<
3<
//设置副本数
修改mapred-site.xml//mapreduce的框架设置为yarn
yarn<
修改yarn-site.xml
spark1<
mapreduce_shuffle<
修改slaves文件
spark1
spark2
spark3
在另外两台机器上搭建hadoop
1、使用如上配置在另外两台机器上搭建hadoop,可以使用scp命令将spark1上面的hadoop安装包和.bashrc或者/etc/profile配置文件都拷贝过去。
scp-rhadooprootspark1:
/usr/local/
scp-rhadooprootspark2:
scp-r/etc/profilerootspark1:
/etc/
scp-r/etc/profilerootspark2:
2、要记得对.bashrc文件或者/etc/profile进行source,以让它生效。
3、记得在spark2和spark3的/usr/local目录下创建data目录。
启动hdfs集群
1、格式化namenode:
在spark1上执行以下命令,
hdfsnamenode-format
2、启动hdfs集群:
start-dfs.sh
3、验证启动是否成功:
jps、50070端口查看是否启动成功
spark1:
namenode、datanode、secondarynamenode
spark2:
datanode
spark3:
启动yarn集群
1、启动yarn集群:
start-yarn.sh
2、验证启动是否成功:
jps、8088端口
resourcemanager、nodemanager
nodemanager
hive0.13搭建安装hive包
1、将的apache-hive-0.13.1-bin.tar.gz使用WinSCP上传到spark1的/usr/local目录下。
2、解压缩hive安装包:
tar-zxvfapache-hive-0.13.1-bin.tar.gz。
3、重命名hive目录:
mvapache-hive-0.13.1-binhive
4、配置hive相关的环境变量,下面以.bashrc文件操作
vi.bashrc
exportHIVE_HOME=/usr/local/hive
exportPATH=$HIVE_HOME/bin
安装MySQL
1、在spark1上安装mysql。
2、使用yum安装mysqlserver。
yuminstall-ymysql-server
servicemysqldstart
chkconfigmysqldon
3、使用yum安装mysqlconnector
yuminstall-ymysql-connector-java
4、将mysqlconnector拷贝到hive的lib包中
cp/usr/share/java/mysql-connector-java-.jar/usr/local/hive/lib
5、在mysql上创建hive元数据库,并对hive进行授权
createdatabaseifnotexistshive_metadata;
grantallprivilegesonhive_metadata.*to'
hive'
'
%'
identifiedby'
;
localhost'
spark1'
flushprivileges;
//刷新授权
usehive_metadata;
配置hive-site.xml
mvhive-default.xml.templatehive-site.xml
vihive-site.xml
jdbc:
mysqlspark1:
3306/hive_metadata?
createDatabaseIfNotExist=true<
hive<
/user/hive/warehouse<
配置hive-env.sh和hive-config.sh
mvhive-env.sh.templatehive-env.sh
vi/usr/local/hive/bin/hive-config.sh
验证hive是否安装成功
直接输入hive命令,可以进入hive命令行
ZooKeeper3.4.5集群搭建安装ZooKeeper包
1、将zookeeper-3.4.5.tar.gz使用WinSCP拷贝到spark1的/usr/local目录下。
2、对zookeeper-3.4.5.tar.gz进行解压缩:
tar-zxvfzookeeper-3.4.5.tar.gz。
3、对zookeeper目录进行重命名:
mvzookeeper-3.4.5zk。
4、配置zookeeper相关的环境变量
vi.bashrc或者vi/etc/profile
exportZOOKEEPER_HOME=/usr/local/zk
exportPATH=$ZOOKEEPER_HOME/bin
配置zoo.cfg在/usr/local/zk/conf目录下
vizoo.cfg
修改:
dataDir=/usr/local/zk/data
新增:
server.0=spark1:
2888:
3888
server.1=spark2:
server.2=spark3:
设置zk节点标识
cdzk
mkdirdata
cddata
vimyid
搭建zk集群
1、在另外两个节点上按照上述步骤配置ZooKeeper,使用scp将zk和.bashrc拷贝到spark2和spark3上即可。
scp-rzkrootslave1:
2、唯一的区别是spark2和spark3的标识号分别设置为1和2。
与myid中的值修改为1和2
启动ZooKeeper集群
1、分别在三台机器上执行:
zkServer.shstart。
2、检查ZooKeeper状态:
zkServer.shstatus。
kafka_2.9.2-0.8.1集群搭建安装Scala
1、将scala-2.11.4.tgz使用WinSCP拷贝到spark1的/usr/local目录下。
2、对scala-2.11.4.tgz进行解压缩:
tar-zxvfscala-2.11.4.tgz。
3、对scala目录进行重命名:
mvscala-2.11.4scala
4、配置scala相关的环境变量
exportSCALA_HOME=/usr/local/scala
exportPATH=$SCALA_HOME/bin
5、查看scala是否安装成功:
scala-version
6、按照上述步骤在spark2和spark3机器上都安装好scala。
使用scp将scala和.bashrc拷贝到spark2和spark3上即可。
安装Kafka包
1、将kafka_2.9.2-0.8.1.tgz使用WinSCP拷贝到spark1的/usr/local目录下。
2、对kafka_2.9.2-0.8.1.tgz进行解压缩:
tar-zxvfkafka_2.9.2-0.8.1.tgz。
3、对kafka目录进行改名:
mvkafka_2.9.2-0.8.1kafka
4、配置kafka
vi/usr/local/kafka/config/server.properties
broker.id:
依次增长的整数,0、1、2、3、4,集群中Broker的唯一id
zookeeper.connect=:
2181,:
2181
5、安装slf4j
将slf4j-1.7.6.zip上传到/usr/local目录下
把slf4j中的slf4j-nop-1.7.6.jar复制到kafka的libs目录下面
搭建kafka集群
1、按照上述步骤在spark2和spark3分别安装kafka。
用scp把kafka拷贝到spark2和spark3行即可。
2、唯一区别的,就是server.properties中的broker.id,要设置为1和2
启动kafka集群
1、在三台机器上分别执行以下命令:
nohupbin/kafka-server-start.shconfig/server.properties&
〔必须在kafka的主目录下执行cd/kafka〕
2、解决kafkaUnrecognizedVMoption‘UseCompressedOops’问题
vibin/kafka-run-class.sh
if[-z"
$KAFKA_JVM_PERFORMANCE_OPTS"
];
then
KAFKA_JVM_PERFORMANCE_OPTS="
-server-XX:
+UseCompressedOops-XX:
+UseParNewGC-XX:
+UseConcMarkSweepGC-XX:
+CMSClassUnloadingEnabled-XX:
+CMSScavengeBeforeRemark-XX:
+DisableExplicitGC-Djava.awt.headless=true"
fi
去掉-XX:
+UseCompressedOops即可
3、使用jps检查启动是否成功
测试kafka集群
使用基本命令检查kafka是否搭建成功
bin/kafka-topics.sh--zookeeper192.168.0.110:
2181,192.168.0.111:
2181,192.168.0.112:
2181--topicTestTopic--replication-factor1--partitions1--create
在spark1上执行
bin/kafka-console-producer.sh--broker-list192.168.1.107:
9092,192.168.1.108:
9092,192.168.1.109:
9092--topicTestTopic
在spark2上执行
bin/kafka-console-consumer.sh--zookeeper192.168.1.107:
2181,192.168.1.108:
2181,192.168.1.109:
2181--topicTestTopic--from-beginning
Spark1.3.0集群搭建安装spark包
1、将spark-1.3.0-bin-hadoop2.4.tgz使用WinSCP上传到/usr/local目录下。
2、解压缩spark包:
tarzxvfspark-1.3.0-bin-hadoop2.4.tgz。
3、更改spark目录名:
mvspark-1.3.0-bin-hadoop2.4spark
4、设置spark环境变量
exportSPARK_HOME=/usr/local/spark
exportPATH=$SPARK_HOME/bin
exportCLASSPATH=.:
$CLASSPATH:
$JAVA_HOME/lib:
$JAVA_HOME/jre/lib
修改spark-env.sh文件
1、cd/usr/local/spark/conf
2、cpspark-env.sh.templatespark-env.sh
3、vispark-env.sh
exportSPARK_MASTER_IP=
exportSPARK_WORKER_MEMORY=1g
exportHADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
安装spark集群
在另外两个节点进行一模一样的配置,使用scp将spark和.bashrc拷贝到spark2和spark3即可。
启动spark集群
1、在spark目录下的sbin目录
2、执行./start-all.sh
3、使用jsp和8080端口可以检查集群是否启动成功
4、进入spark-shell查看是否正常
Spark1.3.0升级1.5安装spark包
1、停止Spark1.3.0集群:
SPARK_HOME/sbin/stop-all.sh
2、将spark-1.5.1-bin-hadoop2.4.tgz使用WinSCP上传到/usr/local目录下。
3、解压缩spark包:
tarzxvfspark-1.5.1-bin-hadoop2.4.tgz。
4、修改spark环境变量
exportSPARK_HOME=/usr/local/spark-1.5.1-bin-hadoop2.4
exportSPARK_MASTER_IP=192.168.1.107
scp-rspark-1.5.1-bin-hadoop2.4rootspark1:
2、执行./start-all.sh
hadoopfs-putspark.txt/
vallines=sc.textFile<
"
9000/spark.txt"
>
valwords=lines.flatMap<
line=>
line.split<
"
valpairs=words.map<
word=>
<
word,1>
valcounts=pairs.reduceByKey<
_+_>
counts.foreach<
count=>
println<
count._1+"
:
+count._2>
flume-ng-1.5.0-cdh5.3.6安装安装flume
1、将flume-ng-1.5.0-cdh5.3.6.tar.gz使用WinSCP拷贝到sparkproject1的/usr/local目录下。
3、对flume目录进行重命名:
mvapache-flume-1.5.0-cdh5.3.6-binflume
vi~/.bashrc
exportFLUME_HOME=/usr/local/flume
exportFLUME_CONF_DIR=$FLUME_HOME/conf
exportPATH=$FLUME_HOME/bin
source~/.bashrc
修改flume配置文件
vi/usr/local/flume/conf/flume-conf.properties
agent1表示代理名称
agent1.sources=source1
agent1.sinks=sink1
agent1.channels=channel1
配置source1
agent1.sources.source1.type=spooldir
agent1.sources.source1.sp