大数据项目技术选型.docx

资源描述

大数据项目技术选型.docx

《大数据项目技术选型.docx》由会员分享，可在线阅读，更多相关《大数据项目技术选型.docx（14页珍藏版）》请在冰豆网上搜索。

大数据项目技术选型.docx

大数据项目技术选型

目录结构

一、主流架构选用技术

二、Hadoop版本选型方案

三、选用的技术与其他工具的对比

四、大数据相关的技术选型版本确定

五、市场上的hadoop发行版厂商资料

六、具体操作

一、主流架构选用技术：

采集层：

flume；sqoop

存储层：

包括文件存储层和数据存储层

文件：

采用hdfs存储

数据：

采用hbase，redis等

模型层：

离线处理：

mr/yarn;实时流式处理sparkstreaming（比storm的优势）

分析层：

hive

管理层：

zookeeper（调度；ha）

二、Hadoop版本选型方案：

Hadoop提供的经典方案：

HDP（HadoopDataPlatform）

管理一体化数据接入

FlumeScriptSQLNosqlStreamSearchIn-MemoryOthers

SqoopPigHiveHbaseStormSolrSparkYARN-ReadyApps

NFS--------------------------------------------------------------------------------------------------------

WebHDFSYARN

Falcon--------------------------------------------------------------------------------------------------------

HDFS

---------------------------------------------------------------------------------------------------------

数据管理

三、选用的技术与其他工具的对比：

选用sqoop的好处：

开源，抽取的数据可以直接传至hive，可操作性和可视性高

选用Flume的好处：

纯Java开发，框架分明，易于开发，可以直接写hdfs且支持对text和sequence压缩

选用Spark的好处：

基于存，适合需要多次迭代计算的算法，在迭代处理计算方面比Hadoop快100倍以上，Spark采用一个统一的技术堆栈解决了云计算大数据的所有核心问题

安全操作

认证，授权，审计，数据保护准备，管理，监控

Storage：

HDFSAmbari

Resource：

YARNZookeeper

Access：

HiveOozie

Pipeline:

Falcon

Cluster:

Knox

Hue的好处：

多应用平台，便捷的操作流程；自动补全；查询结果表格化图像化

四、大数据相关的技术选型版本确定：

操作系统：

CentOS6.X

各个技术版本：

（最新，最稳定，bug少）

Hadoop版本：

hadoop-2.6.4.tar.gz

此版本是一个相对最新且比较稳定的版本，基数版本可能不稳定，最好选用偶数版本

Zookeeper版本：

zookeeper-3.4.8.tar.gz

此版本修复了此前的9个问题，最明显的是在关闭zookeeper时会产生的一个停顿问题。

Flume版本：

apache-flume-1.6.0-bin.tar.gz

Kafka版本：

kafka_2.11-0.8.2.2.tgz

http:

//kafka.apache.org/082/documentation.html

Spark版本：

spark-1.6.0-bin-hadoop2.6.tgz

此版本能支持Hadoop2.6.x以上的版本且相对稳定版

Sqoop版本：

sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz

Hive版本：

apache-hive-1.2.1-bin.tar.gz

Hbase版本：

hbase-1.1.3-bin.tar.gz

Mahout版本：

apache-mahout-distribution-0.11.0.tar.gz

五、市场上的hadoop发行版厂商资料：

版本：

除了社区的ApacheHadoop外，Cloudera，Hortonworks，MapR，EMC，IBM，Intel，华为等都提供了自己的商业版本。

版本

容

特点

网址

Cloudera

CDH包括HDFS、YARN、HBase、MapReduce、Hive、Pig、Zookeeper、Oozie、Mahout、Hue和其他开源工具（包括实时查询引擎——Impala）。

CDH完全开源，比ApacheHadoop在兼容性，安全性，稳定性上有所增强；ClouderaManager是集群的软件分发及管理监控平台，可以在几个小时部署好一个hadoop集群，并对集群的节点及服务进行实时监控。

标价为每年每个节点4000美元。

.cloudera./documentation/archive/cdh/4-x/4-7-1/CDH4-Installation-Guide/cdh4ig_topic_11_4.html

Hortonworks

HDP包括HDFS、YARN、HBase、MapReduce、Hive、Pig、HCatalog、Zookeeper、Oozie、Mahout、Hue、Ambari、Tez和Hive的实时版（Stinger）以及其他开源工具。

集成和测试封装；安装方便；管理和监控服务；数据集成服务；元数据服务；高可用性；每10个节点每年为12500美元。

拥有大量的Hadoop专家，对Hadoop的发展起到了重要作用，拥有广泛的合作伙伴支持，专供Hadoop；对专有代码的依赖低于Cloudera

http:

//hortonworks./

MapR

包括HDFS、HBase、MapReduce、Hive、Mahout、Oozie、Pig、ZooKeeper、Hue和其他开源工具。

还包括直接NFS访问、快照和用于“高可用性”的镜像，有的HBase实现（与ApacheAPI完全兼容），以及MapR管理控制台。

1.构建一个HDFS的私有替代品，这个替代品比当前的开源版本快三倍，自带快照功能，而且支持无NameNode单点故障（SPOF），并且在API上和开源版兼容，所以可以考虑将其作为替代方案。

不再需要单独的NameNode机器，元数据分散在集群中，也类似数据默认存储三份。

2.也不再需要用网络附加存储（NAS）来协助NameNode做元数据备份，提高了机器使用率。

3.还有个重要的特点是可以使用nfs直接访问hdfs，提供了与旧有应用的兼容性。

镜像功能也很适合做数据备份，而且支持跨数据中心的镜像，快照功能对于数据的恢复作用明显。

4.每年每个节点4000美元。

5.在性能方面具备优势。

https:

//.mapr./

EMC

包括HDFS、MapReduce、Hive、Pig、HBase、Zookeeper、Sqoop、Flume和其他开源工具。

兼容SQL；完全兼容ODBC/JDBC；交互式查询；数据管理；深度分析

.emc./zh-/index.htm?

fromGlobalSelector

IBM

基础版包括HDFS、HBase、MapReduce、Hive、Mahout、Oozie、Pig、ZooKeeper、Hue和一些其他开源工具，以及IBM安装程序和数据访问工具的基础版本。

企业版增加了复杂的作业管理工具、与主要数据源相互集成的数据访问层和BigSheets（类似于电子表格的界面，用于在集群中操作数据）

在平台管理，安全认证，作业调度算法，与DB2及netezza的集成上做了增强。

兼容性好，同时运行多种Hadoop版本的程序，IBM的服务。

.ibm./us-en/

Intel

ApacheHadoopIntel分发版

主要是强调其能提供全面的软硬件解决方案设计，针对硬件具有更好的性能优化，以及提供集群管理工具和安装工具简化了Hadoop的安装和配置，能够提供项目规划到实施各阶段专业的咨询服务，实际中采购Intel版本貌似动力不足。

性能好，最先进入中国市场。

http:

//ark.intel./

华为

FunsionlnsightHadoop

基于ApacheHadoop，构建NameNode、JobTracker、HiveServer的HA功能，进程故障后系统自动Failover，无需人工干预，这个也是对Hadoop的小修补，远不如MapR解决的彻底。

.huawei.//

当为公司/部门选取特定发行版时，需要考虑如下因素：

技术细节——应该包括Hadoop版本、包含的组件、涉及所有权的功能组件等。

易于部署——应该有可用的工具包来管理部署、版本更新、补丁等。

易于维护——涉及集群管理、多中心支持、灾难恢复支持等。

成本——包括实现某个特定版本所需要的费用、计费模式和许可证。

企业应用集成支持——包括对Hadoop应用与企业的其他应用进行集成的支持。

选用Cloudera的方案：

Cloudera：

最成型的发行版本，拥有最多的部署案例。

提供强大的部署、管理和监控工具。

Cloudera开发并贡献了可实时处理大数据的Impala项目。

优点：

1.基于Apache协议，100%开源。

2.版本管理清晰。

比如Cloudera，CDH1，CDH2，CDH3，CDH4等，后面加上补丁版本，如CDH4.1.0patchlevel923.142，表示在原生态ApacheHadoop0.20.2基础上添加了1065个patch。

3.比ApacheHadoop在兼容性、安全性、稳定性上有增强。

第三方发行版通常都经过了大量的测试验证，有众多部署实例，大量的运行到各种生产环境。

4.版本更新快。

通常情况，比如CDH每个季度会有一个update，每一年会有一个release。

5.基于稳定版本ApacheHadoop，并应用了最新Bug修复或Feature的patch

6.提供了部署、安装、配置工具，大大提高了集群部署的效率，可以在几个小时部署好集群。

7.运维简单。

提供了管理、监控、诊断、配置修改的工具，管理配置方便，定位问题快速、准确，使运维工作简单，有效。

缺点：

1.涉及到厂商锁定的问题。

（可以通过技术解决）

六、具体操作：

Hadoop2.6HA搭建

至少四台机器：

hadoop1，hadoop2，hadoop3，hadoop4

ZKFC

NM（任务管理）

Hadoop1

Hadoop2

Hadoop3

Hadoop4

1.core-site.xml

fs.defaultFS

hdfs:

//zhjy

ha.zookeeper.quorum

hadoop1:

2181,hadoop2:

2181,hadoop3:

2181

hadoop.tmp.dir

/opt/hadoop

2.hdfs-site.xml

dfs.nameservices

zhjy

dfs.ha.namenodes.zhjy

nn1,nn2

dfs.namenode.rpc-address.zhjy.nn1

hadoop1:

8020

dfs.namenode.rpc-address.zhjy.nn2

hadoop2:

8020

dfs.namenode.http-address.zhjy.nn1

hadoop1:

50070

dfs.namenode.http-address.zhjy.nn2

hadoop2:

50070

dfs.namenode.shared.edits.dir

qjournal:

//hadoop2:

8485;hadoop3:

8485;hadoop4:

8485/zhjy

dfs.client.failover.proxy.provider.zhjy

org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider

dfs.ha.fencing.methods

sshfence

dfs.ha.fencing.ssh.private-key-files

/root/.ssh/id_dsa

dfs.journalnode.edits.dir

/opt/hadoop/data

dfs.ha.automatic-failover.enabled

true

3.准备zookeeper

a）三台zookeeper：

hadoop1，hadoop2，hadoop3

b）编辑zoo.cfg配置文件

i.修改dataDir=/opt/zookeeper

ii.server.1=hadoop1:

2888:

3888

server.2=hadoop2:

2888:

3888

server.3=hadoop3:

2888:

3888

c）在dataDir目录中创建一个myid的文件，文件容为1，2，3

4.配置hadoop中的slaves

5.启动三个zookeeper：

./zkServer.shstart

6.启动三个JournalNode：

./hadoop-daemon.shstartjournalnode

7.在其中一个namenode上格式化：

hdfsnamenode-format

8.把刚刚格式化之后的元数据拷贝到另外一个namenode上

a）启动刚刚格式化的namenode

b）在没有格式化的namenode上执行：

hdfsnamenode-bootstrapStandby

c）启动第二个namenode

9.在其中一个namenode上初始化zkfc：

hdfszkfc-formatZK

10.停止上面节点：

stop-dfs.sh

全面启动：

start-dfs.sh

展开阅读全文