大数据环境集群环境搭建.docx-资源下载

大数据环境集群环境搭建.docx

1、大数据环境集群环境搭建大数据，hadoop,spark,hive,ZooKeeper,kafka,flume等组件环境搭建大数据环境搭建1、CentOS 6.52、JDK 1.83、Hadoop 2.64、Hive 1.1.05、ZooKeeper-3.4.96、kafka_2.11-0.10.2.17、Spark 2.1.18、flume-ng-1.6.0CentOS 6.5防火墙和DNS配置1、关闭防火墙service iptables stopchkconfig iptables offvi /etc/selinux/configSELINUX=disabled2、配置yumyum cl

2、ean allyum makecacheyum install telnetJDK 1.7安装1、将jdk-8u131-linux-x64.tar.gz通过上传到服务器中2、安装JDK：把压缩包放到/usr/java/目录下tar -zxvf jdk-8u60-linux-x64.tar.gz3、配置jdk相关的环境变量vi /.bashrc 或者 vi /etc/profileexport JAVA_HOME=/usr/java/latestexport PATH=$PATH:$JAVA_HOME/binsource .bashrc 或者 source /etc/profile4、测试jdk

3、安装是否成功：Java-version5、rm -f /etc/udev/rules.d/70-persistent-net.rules安装第二台和第三台服务器1、安装上述步骤，再安装两台一模一样环境的服务器，因为后面hadoop和spark都是要搭建集群的。2、集群的最小环境就是三台。因为后面要搭建ZooKeeper、kafka等集群。3、另外两台机器的hostname分别设置为spark2和spark3即可，ip分别为192.168.1.108和192.168.1.1094、在安装的时候，另外两台服务器的centos镜像文件必须重新拷贝一份，放在新的目录里，使用各自自己的镜像文件。5、服务

4、器的硬盘文件也必须重新选择一个新的目录，以更好的区分。6、安装好之后，记得要在三台机器的/etc/hosts文件中，配置全三台机器的ip地址到hostname的映射，而不能只配置本机，这个很重要！7、在windows的hosts文件中也要配置全三台机器的ip地址到hostname的映射。配置集群ssh免密码登录1、首先在三台机器上配置对本机的ssh免密码登录生成本机的公钥，过程中不断敲回车即可，ssh-keygen命令默认会将公钥放在/root/.ssh目录下ssh-keygen -t rsa将公钥复制为authorized_keys文件，此时使用ssh连接本机就不需要输入密码了cd /roo

5、t/.sshcp id_rsa.pub authorized_keys2、接着配置三台机器互相之间的ssh免密码登录使用ssh-copy-id -i spark命令将本机的公钥拷贝到指定机器的authorized_keys文件中（方便好用）Hadoop 2.4.1集群搭建安装hadoop包1、使用hadoop-2.4.1.tar.gz，使用WinSCP上传到CentOS的/usr/local目录下。2、将hadoop包进行解压缩：tar -zxvf hadoop-2.4.1.tar.gz3、对hadoop目录进行重命名：mv hadoop-2.4.1 hadoop4、配置hadoop相关环境变

6、量vi .bashrc 或者 vi/etc/profileexport HADOOP_HOME=/usr/local/hadoopexport PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbinsource .bashrc修改hadoop相关的配置文件进入/usr/local/hadoop/etc/hadoop 目录下修改core-site.xml fs.default.name hdfs:/spark1:9000 /设置hdfs集群对外提供的目录修改hdfs-site.xml /设置hdfs的一些目录，放在/usr/local/data的目录下面 dfs.name

7、.dir /usr/local/data/namenode dfs.data.dir /usr/local/data/datanode dfs.tmp.dir /usr/local/data/tmp dfs.replication 3 /设置副本数修改mapred-site.xml/mapreduce的框架设置为yarn mapreduce.framework.name yarn修改yarn-site.xml yarn.resourcemanager.hostname spark1 yarn.nodemanager.aux-services mapreduce_shuffle修改slaves文

8、件spark1spark2spark3在另外两台机器上搭建hadoop1、使用如上配置在另外两台机器上搭建hadoop，可以使用scp命令将spark1上面的hadoop安装包和.bashrc或者/etc/profile 配置文件都拷贝过去。scp -r hadoop rootspark1:/usr/local/ scp -r hadoop rootspark2:/usr/local/ scp -r /etc/profile rootspark1:/etc/scp -r /etc/profile rootspark2:/etc/2、要记得对.bashrc文件或者/etc/profile进行so

9、urce，以让它生效。3、记得在spark2和spark3的/usr/local目录下创建data目录。启动hdfs集群1、格式化namenode：在spark1上执行以下命令，hdfs namenode -format2、启动hdfs集群：start-dfs.sh3、验证启动是否成功：jps、50070端口查看是否启动成功spark1：namenode、datanode、secondarynamenodespark2：datanodespark3：datanode启动yarn集群1、启动yarn集群：start-yarn.sh2、验证启动是否成功：jps、8088端口spark1：resou

10、rcemanager、nodemanagerspark2：nodemanagerspark3：nodemanagerhive0.13搭建安装hive包1、将的apache-hive-0.13.1-bin.tar.gz使用WinSCP上传到spark1的/usr/local目录下。2、解压缩hive安装包：tar -zxvf apache-hive-0.13.1-bin.tar.gz。3、重命名hive目录：mv apache-hive-0.13.1-bin hive4、配置hive相关的环境变量，下面以.bashrc文件操作vi .bashrcexport HIVE_HOME=/usr/loc

11、al/hiveexport PATH=$HIVE_HOME/binsource .bashrc安装MySQL1、在spark1上安装mysql。2、使用yum安装mysql server。yum install -y mysql-serverservice mysqld startchkconfig mysqld on3、使用yum安装mysql connectoryum install -y mysql-connector-java4、将mysql connector拷贝到hive的lib包中cp /usr/share/java/mysql-connector-java-5.1.17.jar

12、 /usr/local/hive/lib5、在mysql上创建hive元数据库，并对hive进行授权create database if not exists hive_metadata;grant all privileges on hive_metadata.* to hive% identified by hive;grant all privileges on hive_metadata.* to hivelocalhost identified by hive;grant all privileges on hive_metadata.* to hivespark1 identifi

13、ed by hive;flush privileges; /刷新授权use hive_metadata;配置hive-site.xmlmv hive-default.xml.template hive-site.xmlvi hive-site.xml javax.jdo.option.ConnectionURL jdbc:mysql:/spark1:3306/hive_metadata?createDatabaseIfNotExist=true javax.jdo.option.ConnectionDriverName com.mysql.jdbc.Driver javax.jdo.optio

14、n.ConnectionUserName hive javax.jdo.option.ConnectionPassword hive hive.metastore.warehouse.dir /user/hive/warehouse配置hive-env.sh和hive-config.shmv hive-env.sh.template hive-env.shvi /usr/local/hive/bin/hive-config.shexport JAVA_HOME=/usr/java/latestexport HIVE_HOME=/usr/local/hiveexport HADOOP_HOME=

15、/usr/local/hadoop验证hive是否安装成功直接输入hive命令，可以进入hive命令行ZooKeeper 3.4.5集群搭建安装ZooKeeper包1、将zookeeper-3.4.5.tar.gz使用WinSCP拷贝到spark1的/usr/local目录下。2、对zookeeper-3.4.5.tar.gz进行解压缩：tar -zxvf zookeeper-3.4.5.tar.gz。3、对zookeeper目录进行重命名：mv zookeeper-3.4.5 zk。4、配置zookeeper相关的环境变量vi .bashrc 或者 vi /etc/profileexport

16、 ZOOKEEPER_HOME=/usr/local/zkexport PATH=$ZOOKEEPER_HOME/binsource .bashrc配置zoo.cfg 在/usr/local/zk/conf目录下vi zoo.cfg修改：dataDir=/usr/local/zk/data新增：server.0=spark1:2888:3888 server.1=spark2:2888:3888server.2=spark3:2888:3888设置zk节点标识cd zkmkdir datacd datavi myid0搭建zk集群1、在另外两个节点上按照上述步骤配置ZooKeeper，使用sc

17、p将zk和.bashrc拷贝到spark2和spark3上即可。scp -r zk rootslave1:/usr/local/2、唯一的区别是spark2和spark3的标识号分别设置为1和2。及myid 中的值修改为1 和2启动ZooKeeper集群1、分别在三台机器上执行：zkServer.sh start。2、检查ZooKeeper状态：zkServer.sh status。kafka_2.9.2-0.8.1集群搭建安装Scala2.11.41、将scala-2.11.4.tgz使用WinSCP拷贝到spark1的/usr/local目录下。2、对scala-2.11.4.tgz进行解

18、压缩：tar -zxvf scala-2.11.4.tgz。3、对scala目录进行重命名：mv scala-2.11.4 scala4、配置scala相关的环境变量vi .bashrcexport SCALA_HOME=/usr/local/scalaexport PATH=$SCALA_HOME/binsource .bashrc5、查看scala是否安装成功：scala -version6、按照上述步骤在spark2和spark3机器上都安装好scala。使用scp将scala和.bashrc拷贝到spark2和spark3上即可。安装Kafka包1、将kafka_2.9.2-0.8.1

19、.tgz使用WinSCP拷贝到spark1的/usr/local目录下。2、对kafka_2.9.2-0.8.1.tgz进行解压缩：tar -zxvf kafka_2.9.2-0.8.1.tgz。3、对kafka目录进行改名：mv kafka_2.9.2-0.8.1 kafka4、配置kafkavi /usr/local/kafka/config/server.propertiesbroker.id：依次增长的整数，0、1、2、3、4，集群中Broker的唯一idzookeeper.connect=192.168.1.107:2181,192.168.1.108:2181,192.168.1.

20、109:21815、安装slf4j将slf4j-1.7.6.zip上传到/usr/local目录下unzip slf4j-1.7.6.zip把slf4j中的slf4j-nop-1.7.6.jar复制到kafka的libs目录下面搭建kafka集群1、按照上述步骤在spark2和spark3分别安装kafka。用scp把kafka拷贝到spark2和spark3行即可。2、唯一区别的，就是server.properties中的broker.id，要设置为1和2启动kafka集群1、在三台机器上分别执行以下命令：nohup bin/kafka-server-start.sh config/serv

21、er.properties & （必须在kafka的主目录下执行 cd /kafka）2、解决kafka Unrecognized VM option UseCompressedOops问题vi bin/kafka-run-class.sh if -z $KAFKA_JVM_PERFORMANCE_OPTS ; then KAFKA_JVM_PERFORMANCE_OPTS=-server -XX:+UseCompressedOops -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:+CMSClassUnloadingEnabled -XX:+CMSS

22、cavengeBeforeRemark -XX:+DisableExplicitGC -Djava.awt.headless=truefi去掉-XX:+UseCompressedOops即可3、使用jps检查启动是否成功测试kafka集群使用基本命令检查kafka是否搭建成功bin/kafka-topics.sh -zookeeper 192.168.0.110:2181,192.168.0.111:2181,192.168.0.112:2181 -topic TestTopic -replication-factor 1 -partitions 1 -create在spark1 上执行bin

23、/kafka-console-producer.sh -broker-list 192.168.1.107:9092,192.168.1.108:9092,192.168.1.109:9092 -topic TestTopic在spark2 上执行bin/kafka-console-consumer.sh -zookeeper 192.168.1.107:2181,192.168.1.108:2181,192.168.1.109:2181 -topic TestTopic -from-beginningSpark 1.3.0集群搭建安装spark包1、将spark-1.3.0-bin-hado

24、op2.4.tgz使用WinSCP上传到/usr/local目录下。2、解压缩spark包：tar zxvf spark-1.3.0-bin-hadoop2.4.tgz。3、更改spark目录名：mv spark-1.3.0-bin-hadoop2.4 spark4、设置spark环境变量vi .bashrcexport SPARK_HOME=/usr/local/sparkexport PATH=$SPARK_HOME/binexport CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/libsource .bashrc修改spark

25、-env.sh文件1、cd /usr/local/spark/conf2、cp spark-env.sh.template spark-env.sh3、vi spark-env.shexport JAVA_HOME=/usr/java/latestexport SCALA_HOME=/usr/local/scalaexport SPARK_MASTER_IP=192.168.1.107export SPARK_WORKER_MEMORY=1gexport HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop修改slaves文件spark2spark3安装sp

26、ark集群在另外两个节点进行一模一样的配置，使用scp将spark和.bashrc拷贝到spark2和spark3即可。启动spark集群1、在spark目录下的sbin目录2、执行 ./start-all.sh3、使用jsp和8080端口可以检查集群是否启动成功4、进入spark-shell查看是否正常Spark1.3.0升级1.5安装spark包1、停止Spark 1.3.0集群：SPARK_HOME/sbin/stop-all.sh2、将spark-1.5.1-bin-hadoop2.4.tgz使用WinSCP上传到/usr/local目录下。3、解压缩spark包：tar zxvf s

27、park-1.5.1-bin-hadoop2.4.tgz。4、修改spark环境变量vi .bashrcexport SPARK_HOME=/usr/local/spark-1.5.1-bin-hadoop2.4export PATH=$SPARK_HOME/binexport CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/libsource .bashrc修改spark-env.sh文件1、cd /usr/local/spark/conf2、cp spark-env.sh.template spark-env.sh3、vi spar

28、k-env.shexport JAVA_HOME=/usr/java/latestexport SCALA_HOME=/usr/local/scalaexport SPARK_MASTER_IP=192.168.1.107export SPARK_WORKER_MEMORY=1gexport HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop修改slaves文件spark2spark3安装spark集群在另外两个节点进行一模一样的配置，使用scp将spark和.bashrc拷贝到spark2和spark3即可。scp -r spark-1.5.1-bin-hadoop2.4 rootspark1:/usr/local/启动spark集群1、在spark目录下的sbin目录2、执行./start-all.sh3、使用jsp和8080端口可以检查集群是否启动成功4、进入spark-shell查看是否正常hadoop fs -put spark.txt /val lines = sc.textFile(hdfs:/spa

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？