谷歌云计算架构详解文档格式.docx

资源描述

谷歌云计算架构详解文档格式.docx

《谷歌云计算架构详解文档格式.docx》由会员分享，可在线阅读，更多相关《谷歌云计算架构详解文档格式.docx（11页珍藏版）》请在冰豆网上搜索。

谷歌云计算架构详解文档格式.docx

外部网络系统介绍

当一个互联网用户输入的时候，这个URL请求就会发到GoogleDNS解析服务器当中去，Google的DNS服务器会根据用户自身的IP地址来判断，这个用户请求是来自哪个国家、哪个地区。

根据不同用户的IP地址信息，解析到不同的Google的数据中心。

进入第一道防火墙，这次防火墙主要是根据不同端口来判断应用，过滤相应的流量。

如果仅仅接受浏览器应用的访问，一般只会开放80端口http，和443端口https（通过SSL加密）。

将其他的来自互联网上的非Ipv4/V6非80/443端口的请求都放弃，避免遭受互联网上大量的DOS攻击。

在大量的web应用服务器群（WebServerFarm）前，Google使用反向代理（ReverseProxy）的技术。

反向代理（ReverseProxy）方式是指以代理服务器来接受internet上的连接请求，然后将请求转发给内部网络上的服务器，并将从服务器上得到的结果返回给Internet上请求连接的客户端，此时代理服务器对外就表现为一个服务器。

Google使用的是SquidCache的软件方式来实现反向代理应用的，SquidCache是一个流行的自由软件（GNU通用公共许可证）的代理服务器和Web缓存服务器。

Squid有广泛的用途，从作为网页服务器的前置cache服务器缓存相关请求来提高Web服务器的速度。

在Googleweb应用服务器需要调用Google内部存储的信息和资源的时候，在通过一个防火墙进入内部的网络，来访问其他的基于自身GFSII系统的应用服务和数据库。

内部网络架构介绍

Google自己已经建设了跨国的光纤网络，连接跨地区、跨国家的高速光纤网络。

内部网络已经都是IPv6的协议在运行。

网络中的路由交换设备主要还是来自Juniper、Cisco、Foundry、HP这四家公司。

内部网关协议（IRP）是基于OSPF（开放式最短路径优先）进行修改的。

在每个服务器机架内部连接每台服务器之间网络是100M以太网，在服务器机架之间连接的网络是1000M以太网。

在每个服务器机架内，通过IP虚拟服务器（IPVirtualServer）的方式实现传输层负载Linux内核内的平衡，这个就是所谓四层LAN交换。

IPVS使一个服务器机架中的众多服务成为基于Linux内核虚拟服务器。

这就像在一堆服务器前安装一个负载均衡的服务器一样。

当TCP/UDP的请求过来后，使一群服务器可以使用一个单一的IP地址来对外提供相关的服务支撑。

大规模IDC部署战略

Google应该是目前世界上存储信息最多的企业了。

而且还在一直不断的致力于将传统信息尽可能地数字化。

将这样海量的信息进行存储、进行处理。

就需要大量的计算机服务器。

为了满足不断增长的计算需求。

Google很早就进行了全球的数据中心的布局。

由于数据中心运行后，面临的几个关键问题的就是充足电力供应、大量服务器运行后的降温排热和足够的网络带宽支持。

所以Google在进行数据中心布局的时候，就是根据互联网骨干带宽和电力网的核心节点进行部署的，尽快考虑在河边和海边，想办法通过引入自然水流的方式来降低降温排热的成本。

Dalles是美国俄勒冈州北部哥伦比亚河（ColumbiaRiver）岸上的一个城市，Google在Dalles的边上拥有的30英亩土地，他们在这里建立了几乎是世界上最大，性能最好的数据中心。

四个装备有巨大空调设施的仓库内，放置着数万台Internet服务器，这些服务器每天处理着数十亿条Google网站传递给世界各个角落的用户的数据。

图表1Google在Dalles的数据中心

这个数据中心占用了附近一个180万千瓦水力发电站的大部分电力输出。

对比来看目前中国长江三峡水电站的额定功率是1820万千瓦。

目前Google已经在全球运行了38个大型的IDC中心，超过300多个GFSII服务器集群，超过80万台计算机。

从服务器集群部署的数量来看美国本地的数量第一，欧洲地区第二，亚洲地区第三，在南美地区和俄罗斯各有一个IDC数据中心。

在中国的北京和香港，Google也建设了自己的IDC中心，并部署了自己的服务器农场。

其中目前还在进行建设的第38个IDC是在奥地利的林茨市（Linz）附近的Kronstorf村。

未来，Google还准备在中国台湾地区、马来西亚、立陶宛等地区来进行部署。

从目前的Google数据中心部署的情况来看，中东和非洲地区目前Google还没有建设计划。

图表2Google的IDC中心/服务器农场（GoogleServerFarm）的全球分布图

Google自己设计了创新的集装箱服务器，数据中心以货柜为单位，标准Google模块化集装箱装有30个的机架，1160台服务器，每台服务器的功耗是250KW。

（Google2009年公布的信息）。

这种标准的集装箱式的服务器部署和安装策略可以使Google非常快速地部署一个超大型的数据中心。

大大降低了对于机房基建的需求。

图表3Google模块化集装箱的设计示意图。

自己设计的服务器机架架构

Google的服务器机架有两种规格40U/80U的。

这主要是因为原来每个服务器刀片是1U高，新的服务器刀片都是2U高的。

据说Google后期使用的服务器主板是台湾技嘉，服务器主板可以直接插入到服务器机架中。

图表4Google服务器机架及主板

自己设计的PC服务器刀片

绝大部分企业都会跟诸如戴尔、惠普、IBM或Sun购买服务器。

不过Google所拥有的八十万台服务器都是自己设计打造来的，Google认为这是公司的核心技术之一。

Google的硬件设计人员都是直接和芯片厂商和主板厂商协作工作的。

2009年，Google开始大量使用2U高的低成本解决方案。

标准配置是双核双通道CPU，据说有Intel的，也有AMD的在使用。

8个2GB的DDR3，支持ECC容错的高速内存，采用RAID1的磁盘镜像，来提升I/O效率。

磁盘采用SATA，单机存储容量可以达到1-2TB。

每个服务器刀片自带12V的电池来保证在短期没有外部电源的时候可以保持服务器刀片正常运行。

Google的硬件设计人员认为，这个自带电池的方式，要比传统的使用UPS的方式效率更高。

一般数据中心多倚赖称为不间断电源系统（UPS）的大型中控机型，这基本上算是大电池，会在主电力失效而发电机还来不及启动时，暂时协助供电。

Google的硬件设计人员表示，直接把电力内建到服务器比较便宜，而且成本能直接跟服务器数量相符合。

“这种作法比使用大型UPS节省得多，如此也不会浪费多余的容量。

”效率也是另一个财务考量因素。

大型UPS可达92-95%的效率，这意味着许多电力还是被浪费掉了。

但Google采用的内建电池作法却好很多，Google相关人员表示，“我们测量的结果是效率超过99.9%。

图表5内建电池的服务器刀片

操作系统与云计算文件系统GFS/GFSII

Google服务器使用的操作系统是基于RedhatLinux2.6的内核，并做了大量修改。

修改了GNUC函数库（glibc），远程过程调用（RPC），开发了自己的Ipvs，自己修改了文件系统，形成了自己的GFSII，修改了linux内核和相关的子系统，使其支持IPV6。

采用了Python来作为主要的脚本语言。

Google文件系统中最基础的模块是GFSIIcell。

任何文件和数据都可以利用这种底层模块。

GFSII通过基于Linux分布存储的方式，对于服务器来说，分成了主服务器（MasterServers）和块存储服务器（ChunkServers），GFS上的块存储服务器上的存储空间以64MB为单位，分成很多的存储块，由主服务器来进行存储内容的调度和分配。

每一份数据都是一式三份的方式，将同样的数据分布存储在不同的服务器集群中，以保证数据的安全性和吞吐的效率提高。

当需要对于文件、数据进行存储的时候，应用程序之间将需求发给主服务器，主服务器根据所管理的块存储服务器的情况，将需要存储的内容进行分配，并将可以存储的消息（使用那些块存储服务器，那些地址空间），由应用程序下面的GFS接口在对文件和数据直接存储到相应的块存储服务器当中。

图表6GFS架构

块存储服务器要定时通过心跳信号的方式告知主服务器，目前自己的状况，一旦心跳信号出了问题，主服务器会自动将有问题的块存储服务器的相关内容进行复制。

以保证数据的安全性。

数据被存储时是经过压缩的。

采用的BMDiff和Zippy算法。

BMDiff使用最长公共子序列进行压缩,压缩100MB/s,解压缩约1000MB/s.类似的有IBMHashSuffixArrayDelta

Compression.Zippy是LZW的改进版本,压缩比不如LZW,但是速度更快。

并行计算架构–Mapreduce

有了强大的分布式文件系统，Google遇到的问题就是怎么才能让公司所有的程序员都学会些分布式计算的程序呢？

于是，那些Google工程师们从lisp和其他函数式编程语言中的映射和化简操作中得到灵感，搞出了Map/Reduce这一套并行计算的框架。

Map/Reduce被Google拿来重新了GoogleSearchEngine的整个索引系统。

而DougCutting同样用Java将这一套实现和HDFS合在一起成为Hadoop的Core。

MapReduce是Google提出的一个软件架构，用于大规模数据集（大于1TB）的并行运算。

概念“Map（映射）”和“Reduce（化简）”，和他们的主要思想，都是从函数式编程语言借来的，还有从矢量编程语言借来的特性。

映射和化简

简单说来，一个映射函数就是对一些独立元素组成的概念上的列表（例如，一个测试成绩的列表）的每一个元素进行指定的操作（比如前面的例子里，有人发现所有学生的成绩都被高估了一分，他可以定义一个“减一”的映射函数，用来修正这个错误。

）。

事实上，每个元素都是被独立操作的，而原始列表没有被更改，因为这里创建了一个新的列表来保存新的答案。

这就是说，Map操作是可以高度并行的，这对高性能要求的应用以及并行计算领域的需求非常有用。

而化简操作指的是对一个列表的元素进行适当的合并（继续看前面的例子，如果有人想知道班级的平均分该怎么做？

他可以定义一个化简函数，通过让列表中的元素跟自己的相邻的元素相加的方式把列表减半，如此递归运算直到列表只剩下一个元素，然后用这个元素除以人数，就得到了平均分。

展开阅读全文