用Linux和ApacheHadoop进行云计算说课讲解Word下载.docx-资源下载

用Linux和ApacheHadoop进行云计算说课讲解Word下载.docx

1、Apache Hadoop 作为 PaaS，它构建在虚拟主机上，作为云计算平台。图 1. 云计算的层和现有服务回页首Amazon EC2Amazon EC2 是一个 Web 服务，它允许用户请求具有各种资源（CPU、磁盘、内存等）的虚拟机器。用户只需按使用的计算时间付费，其他事情全交给 Amazon 处理。这些实例（Amazon Machine Image，AMI）基于 Linux，可以运行您需要的任何应用程序或软件。在从 Amazon 租借服务器之后，可以像对待物理服务器一样使用一般的 SSH 工具设置连接和维护服务器。对 EC2 的详细介绍超出了本文的范围。更多信息请参见参考资料。部

2、署 Hadoop 云计算框架的最好方法是把它部署在 AMI 上，这样可以利用云资源，不需要考虑计算能力、带宽、存储等问题。但是，在本文的下一部分中，我们将在本地的 Linux 服务器 VMWare 映像中构建 Hadoop，因为 Hadoop 不仅适用于云解决方案。在此之前，我们先介绍一下 Apache Hadoop。Apache HadoopApache Hadoop 是一个软件框架（平台），它可以分布式地操纵大量数据。它于 2006 年出现，由 Google、Yahoo! 和 IBM 等公司支持。可以认为它是一种 PaaS 模型。它的设计核心是 MapReduce 实现和 HDFS （H

3、adoop Distributed File System），它们源自 MapReduce（由一份 Google 文件引入）和 Google File System。MapReduceMapReduce 是 Google 引入的一个软件框架，它支持在计算机（即节点）集群上对大型数据集进行分布式计算。它由两个过程组成，映射（Map）和缩减（Reduce）。在映射过程中，主节点接收输入，把输入分割为更小的子任务，然后把这些子任务分布到工作者节点。工作者节点处理这些小任务，把结果返回给主节点。然后，在缩减过程中，主节点把所有子任务的结果组合成输出，这就是原任务的结果。图 2 说明 MapReduce

4、流程的概念。MapReduce 的优点是它允许对映射和缩减操作进行分布式处理。因为每个映射操作都是独立的，所有映射都可以并行执行，这会减少总计算时间。HDFS对 HDFS 及其使用方法的完整介绍超出了本文的范围。从最终用户的角度来看，HDFS 就像传统的文件系统一样。可以使用目录路径对文件执行 CRUD 操作。但是，由于分布式存储的性质，有 “NameNode” 和 “DataNode” 的概念，它们承担各自的责任。NameNode 是 DataNode 的主节点。它在 HDFS 中提供元数据服务。元数据说明 DataNode 的文件映射。它还接收操作命令并决定哪些 DataNode 应该执

5、行操作和复制。DataNode 作为 HDFS 的存储块。它们还响应从 NameNode 接收的块创建、删除和复制命令。JobTracker 和 TaskTracker在提交应用程序时，应该提供包含在 HDFS 中的输入和输出目录。JobTracker 作为启动 MapReduce 应用程序的单一控制点，它决定应该创建多少个 TaskTracker 和子任务，然后把每个子任务分配给 TaskTracker。每个 TaskTracker 向 JobTracker 报告状态和完成后的任务。通常，一个主节点作为 NameNode 和 JobTracker，从节点作为 DataNode 和 Task

6、Tracker。Hadoop 集群的概念视图和 MapReduce 的流程见图 2。图 2. Hadoop 集群的概念视图和 MapReduce 的流程设置 Apache Hadoop现在在 Linux VM 上设置 Hadoop 集群，然后就可以在 Hadoop 集群上运行 MapReduce 应用程序。Apache Hadoop 支持三种部署模式：单独模式：在默认情况下，Hadoop 以非分布的单独模式运行。这个模式适合应用程序调试。伪分布模式：Hadoop 还可以以单节点的伪分布模式运行。在这种情况下，每个 Hadoop 守护进程作为单独的 Java 进程运行。全分布模式：Hado

7、op 配置在不同的主机上，作为集群运行。要想以单独或伪分布模式设置 Hadoop，请参考 Hadoop 的网站。在本文中，我们只讨论以全分布模式设置 Hadoop。准备环境在本文中，我们需要三台 GNU/Linux 服务器；一个作为主节点，另外两个作为从节点。表 1. 服务器信息服务器 IP 服务器主机名角色 9.30.210.159 Vm-9-30-210-159 主节点（NameNode 和 JobTracker） 9.30.210.160 Vm-9-30-210-160 从节点 1 （DataNode 和 TaskTracker） 9.30.210.161 Vm-9-30-210-16

8、1 从节点 2 （DataNode 和 TaskTracker）每台机器都需要安装 Java SE 6 和 Hadoop 二进制代码。更多信息见参考资料。本文使用 Hadoop version 0.19.1。还需要在每台机器上安装 SSH 并运行 sshd。SUSE 和 RedHat 等流行的 Linux 发行版在默认情况下已经安装了它们。设置通信更新 /etc/hosts 文件，确保这三台机器可以使用 IP 和主机名相互通信。因为 Hadoop 主节点使用 SSH 与从节点通信，所以应该在主节点和从节点之间建立经过身份验证的无密码的 SSH 连接。在每台机器上执行以下命令，从而生成 RS

9、A 公共和私有密钥。ssh-keygen t rsa 这会在 /root/.ssh 目录中生成 id_rsa.pub。重命名主节点的 id_rsa.pub（这里改名为 59_rsa.pub）并把它复制到从节点。然后执行以下命令，把主节点的公共密钥添加到从节点的已授权密钥中。cat /root/.ssh/59_rsa.pub /root/.ssh/authorized_keys 现在尝试使用 SSH 连接从节点。应该可以成功连接，不需要提供密码。设置主节点把 Hadoop 设置为全分布模式需要配置 /conf/ 目录中的配置文件。在 hadoop-site.xml 中配置 Hadoop 部署。这

10、里的配置覆盖 hadoop-default.xml 中的配置。表 2. 配置属性属性解释 fs.default.name NameNode URI mapred.job.tracker JobTracker URI dfs.replication 复制的数量 hadoop.tmp.dir 临时目录 hadoop-site.xmlconfiguration namefs.default.namevaluehdfs:/9.30.210.159:9000/propertymapred.job.tracker9.30.210.159:9001dfs.replication1hadoop.tmp.di

11、r/root/hadoop/tmp/通过配置 hadoop-env.sh 文件指定 JAVA_HOME。注释掉这一行并指定自己的 JAVA_HOME 目录。export JAVA_HOME=在 master 文件中添加主节点的 IP 地址。9.30.210.159在 slave 文件中添加从节点的 IP 地址。9.30.210.1609.30.210.161设置从节点把 hadoop-site.xml、hadoop-env.sh、masters 和 slaves 复制到每个从节点；可以使用 SCP 或其他复制工具。对 HDFS 进行格式化运行以下命令对 HDFS 分布式文件系统进行格式化。/bin/hadoop namenode -format检查 Hadoop 集群现在，可以使用 bin/start-all.sh 启动 Hadoop 集群。命令输出指出主节点和从节点上的一些日志。检查这些日志，确认一切正常。如果弄乱了什么东西，可以格式化 HDFS 并清空 hadoop-site.xml 中指定的临时目录，然后重新启动。访问以下 URL，确认主节点和从节点是正常的。NameNode: http:50070JobTracker:50030 现在，已经在云中设置了 Hadoop 集群，该运行 MapReduce 应用程序了。

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？