第二章 并行计算机的发展历史.docx

上传人:b****6 文档编号:3354636 上传时间:2022-11-22 格式:DOCX 页数:24 大小:330.85KB
下载 相关 举报
第二章 并行计算机的发展历史.docx_第1页
第1页 / 共24页
第二章 并行计算机的发展历史.docx_第2页
第2页 / 共24页
第二章 并行计算机的发展历史.docx_第3页
第3页 / 共24页
第二章 并行计算机的发展历史.docx_第4页
第4页 / 共24页
第二章 并行计算机的发展历史.docx_第5页
第5页 / 共24页
点击查看更多>>
下载资源
资源描述

第二章 并行计算机的发展历史.docx

《第二章 并行计算机的发展历史.docx》由会员分享,可在线阅读,更多相关《第二章 并行计算机的发展历史.docx(24页珍藏版)》请在冰豆网上搜索。

第二章 并行计算机的发展历史.docx

第二章并行计算机的发展历史

第2章并行计算机的发展历史

本章主要介绍并行计算的发展历史,对并行计算有初步的了解,先以时间为顺序介绍了并行计算的发展,接着介绍了并行计算的国内外的发展状况,以及国内外的一些超级计算中心,最后介绍了在每个时代的典型机,以及它们的特点。

2.1时间发展顺序

并行计算机从20世纪70年代开始快速发展,到20世纪80年代出现了蓬勃发展和百家争鸣的局面,20世纪90年代体系结构框架趋于统一,近5年来机群技术成为一个新的快速发展热点,目前,并行计算机技术日趋成熟。

本节以时间为线索,简介并行计算机发展的推动力和各个发展阶段,以及各类并行机的典型代表和它们的主要特征。

2.1.120世纪70年代

1972年,世界上诞生了第一台并行计算机ILLIACIV(伊利阿克IV计算机),它含32个处理单元,具有可扩展性,一个象限可扩展至64个处理单元,原设计为4个象限,可扩展到256个单元。

环型拓扑连接,每台处理机拥有局部内存,为SIMD类型机器。

对大量流体力学程序,ILLIACIV获得了2–6倍于当时性能最高的CDC7600机器的速度。

但它在编程模式上与传统的大型机相差太大。

20世纪70年代诞生的并行机还有阵列机ICLDAP、Good-yearMPP,以及向量机CRAY–1、STAR-100等,它们都属于SIMD类型,其中向量机CRAY–1获得了很好的向量计算效果。

它是一个由氟利昂散热的64位系统,运行的速度为80MHz,带有8MB的RAM。

如果很好地对向量进行操作的话,可以获得250mflops的峰值性能。

第一个模型重达5.5吨,并且于1976年提供给LosAlamos国家实验室使用。

20世纪70年代的并行计算机引起了人们的极大兴趣,吸引了大量的专家学者从事于并行计算机研制和并行程序的设计,为20世纪80年代并行计算机的蓬勃发展奠定了坚实的基础。

图2-1C型形状Cray-1超级计算机

2.1.220世纪80年代早期

20世纪80年代早期,以MIMD并行机的研制为主。

首先诞生的是DenelcorHEP,含16台处理机,共享存储,能同时支持细粒度和大粒度并行,并且被应用到实际计算中,使许多人学会了并行计算。

其次,诞生了共享存储向量多处理机CRAYX–MP/22(2个向量机结点)、IBM3090(6个向量机结点),取得了很好的实际并行计算性能。

同时,以超立方体结构连接的分布式存储MIMD结构原型机开始出现。

2.1.320世纪80年代中期

20世纪80年代中期,共享存储多处理机系统得到了稳定发展。

两个成功的机器为Sequent(20个结点)、Encore(16-32个结点),它们提供稳定的UNIX操作系统,实现用户间的分时共享,对当时VAX系列串行机构成了严重的威胁。

同时,还诞生了8个结点的向量多处理机Alliant,Alliant提供了非常好的自动向量并行编译技术;诞生了4个结点的向量处理机CRAY–2。

这些向量多处理机系统在实际应用中均取得了巨大的成功。

与此同时,人们对共享存储多处理机系统的内存访问瓶颈问题有了较清楚的认识,纷纷寻求解决办法,以保证它们的可扩展性。

此期间还诞生了可扩展的分布存储MIMDMPPnCUBE,这台机器含1024个结点,CPU和存储单元均分布包含在结点内,所有结点通过超立方体网络相互连接,支持消息传递并行编程环境,并真正投入实际使用。

由于该机对流体力学中的几个实际应用问题获得了超过1000的加速比,引起了计算机界的轰动,改变了人们对Amdahl定律的认识,排除了当时笼罩并行计算技术的阴影。

当时,在分布式存储体系结构中,处理机间的消息传递与消息长度、处理机间的距离有较大的关系。

因此互连网络最优拓扑连接和数据包路由选择算法的研究引起了人们的大量注意,目的在于减少处理机远端访问的花费。

2.1.420世纪80年代后期

20世纪80年代后期,真正具有强大计算能力的并行机开始出现。

例如,Meiko系统,由400个T800Transputer通过二维Mesh(网孔)相互连接构成,适合于中等粒度的并行;

三台SIMD并行机:

CM–2,MasPar和DAP,其中CM–2对Linpack测试获得了5.2GFLOPS的性能;

超立方体连接的分布存储MIMD并行机nCUBE–2与InteliPSC/860,分别可扩展到8192个结点和128个结点,峰值性能达27GFLOPS和7GFLOPS;

由硬件支持共享存储机制的BBNTC2000,用Buttery多级互连网连接处理机和存储模块,可扩展到500台处理机,本地cache、内存和远端内存访问的延迟时间为1:

3:

7;共享存储向量多处理机系统CRAYY–MP,能获得很好的实际运算性能。

2.1.520世纪90年代早期

进入20世纪90年代,得益于微电子技术的发展,基于RISC指令系统的微处理芯片的性能几乎以每18个月增长1倍、内存容量每年几乎增长1倍的速度发展,而网络通信技术也得到了快速增长。

它们都对并行计算机的发展产生了重要影响。

为了满足HPCC计划(HPCC,HighPerformanceComputingandCommunications(高性能计算与通信)的缩写。

1993年,由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目:

高性能计算与通信”的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。

HPCC是美国实施信息高速公路而上实施的计划,该计划的实施将耗资百亿美元,其主要目标要达到:

开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆比特网络技术,扩展研究和教育机构及网络连接能力。

)中提出的高性能计算要求,考虑到共享存储并行机不可避免的内存访问瓶颈问题,人们纷纷把眼光瞄准了分布式存储MPP系统,使得MPP的硬件和软件系统得到了长足的发展。

由于微处理芯片性能和网络技术的发展,MPP并行机大量采用商用微处理芯片作为单结点,通过高性能互连网连接而成。

由于普遍采用虫孔(wormhole)路由选择算法,使得消息传递时间不再与它所经过的结点个数相关,即处理机间消息传递花费不再与距离相关,或者相关程度可以忽略不计。

互连网络拓扑结构趋于统一。

分布式存储并行程序设计以消息传递为主,少量的也支持数据并行高性能Fortran(HPF)。

这一时期,MIMD类型占据绝对主导位置。

用于科学与工程计算的SIMD类型并行机和单纯的向量机已逐渐退出历史舞台,但以单个向量机为结点构成的MIMD并行机仍然在实际应用中发挥重要作用。

这段时间出现的分布式存储MPP并行计算机主要有:

(1)IntelTouchstoneDelta,含512个i860微处理芯片,二维Mesh连接,峰值性能为32GFLOPS,8GB内存。

(2)CM–5E,含16–1K个标量RISCSPARC处理器(含四个向量部件,峰值性能128MFLOPS,32MB内存),胖树数据网、二叉控制网及四叉诊断网连接各个处理器。

(3)IntelParagonXP/S,含24~3072个i860/XP微处理芯片(主频50MHz),二维Mesh连接,内存122GB。

(4)CRAYT3D,16~1024个结点,每结点含2个处理器(64位RISCDECchip21064,峰值150Mflops),局部内存64MB,最大存储规模128GB,结点间双向三维Torus连接。

(5)SP2,含16个机柜,每个机柜含16个处理器(POWER–2芯片,主频66.5MHz,128-256MB内存),机柜内部采用高性能开关HPS连接,机柜之间采用信息传递光纤网络连接。

(6)FujitsuVP500,128个结点(向量机),单结点内存256MB,同时支持粗、细粒度并行。

(7)其他还有CM–5,ConvexSPP1000,Hitachi,DECAS–8400等。

在共享存储方面,由向量机构成的并行计算机CRAYY-MPC90(16个新型CPU,每个CPU的峰值性能为1Gflop,系统峰值性能16GFLOPS)和国产YH-2(4台向量机,峰值性能1GFLOPS)也诞生了,在应用问题中发挥了重要作用。

此外,为了让共享存储并行计算机具有可扩展性,以适应高性能计算需求,并且继承共享存储并行计算机并行程序设计的容易性,分布共享存储的思想已经被人们接受。

这方面的代表机型为1991年生产的KendallSquareKSR-1,它提供给用户透明的共享存储结构,每个环含32个结点,多个环以层次结构相互连接,可扩展到1024个结点,峰值性能为15GFLOPS。

2.1.620世纪90年代中后期

20世纪90年代中期,微处理器的性能已经非常强大,能提供每秒几亿到十几亿次的浮点运算速度。

例如:

(1)IBMP2SC,P2SC超级芯片是POWER2这种8芯片体系结构的一种单片实现。

主频135MHz,峰值性能500MFLOPS。

(2)SGIMPISR10000,主频195MHz,峰值性能400MFLOPS。

(3)SUNUltraSPARC,主频250MHz,峰值性能1GFLOPS。

(4)DECAlpha21164,主频600MHz,峰值性能1.2GFLOPS。

同时,互联网络点对点通信能倒达每秒超过500MB的带宽。

高性能微处理器和网络通信技术为并行计算硬件环境带来了新的面貌,使得它们呈现以下几个发挥趋势。

第一,以高性能微处理芯片和互连网络通信技术为基础,共享存储对称多处理机(SMP)系统得到了迅速发展。

它们大多以高性能服务器的面目出现,能提供每秒几百亿次的浮点运算能力、几十个GB的内存和超过10GB/S的访存带宽,具有丰富的系统软件和应用软件,很强的容错能力、I/O能力、吞吐量、分时共享能力和稳定性,友好的共享存储并行程序设计方式和使用方便的并行调试、性能分析工具,为大量中小规模科学与工程计算、事务处理、数据库管理部门所欢迎。

因此,它们出现以后,迅速抢占了原属于共享存储向量并行机的市场,成为几百亿次以下并行计算机的主导机型。

但是,它们仍然具有可扩展性差的弱点,不可能满足超大规模并行计算的要求。

以SUNUltraE10000为例。

它采用共享存储对称多处理机结构,可扩展到64台UltraSPARC处理器(主频250MB,2MBcache),峰值性能为25GFLOPS,内存容量为64GB,互连网络(访存)带宽为12.8GB/S,I/O带宽为64GB/S。

它采用标准UNIX操作系统,支持共享存储、消息传递并行程序设计。

类似的SMP系统还有SGIPowerChallengeR10000,HPC–240,DECAlphaserver400C等,这里不一一介绍。

第二,以微处理芯片为核心的工作站能提供近1GFLOPS的计算速度,几十MB的内存,能单独承担一定的计算任务。

并且,将多台这样的同构或异构型工作站通过高速局域网相互连接起来,再配备一定的并行支撑软件,形成一个松散耦合的并行计算环境,协同地并行求解同一个问题,称之为工作站机群(networkofworkstations,NOWs)。

它们可以利用本局域网范围内空闲的工作站资源,动态地构造并行虚拟机,能提供几十亿或几百亿次的计算性能。

例如,多台通过快速以太网(100Mbps)相互连接的相同或不同类型的工作站,并配备PVM、MPI消息传递并行程序设计软件支撑环境,就可以称之为一个工作站机群。

由于NOWs具有投资风险小、结构灵活、可扩展性强、软件财富可继承、通用性好、异构能力强等较多优点而被大量中、小型计算用户和科研院校所接受,成为高性能并行计算领域的一个新的发展热点,占据了原属于传统并行计算机的部分市场。

但是,它们仍然具有结构不稳定、并行支撑软件少、并行开销大、通信带宽低、负载平衡和并行程序设计难等许多亟待解决的问题,吸引了大量国内外专家学者的注意力。

第三,由于分布式存储的并行计算机具有并行程序设计难、不容易被用户接受的缺点,单纯的分布式存储并行机已经朝分布共享(DSM)方向发展。

它们都采用最先进的微处理芯片作为处理单元,单元内配备有较大的局部cache和局部内存,所有局部内存都能实现全局共享,所有结点通过高性能网络相互连接,从而用户可以采用共享存储或数据并行的并行程序设计方式,并且自由地申请结点个数和内存大小。

如图2-3。

基于分布共享存储DSM的并行计算机主要有两种结构。

(1)基于cache一致性(coherent)的NUMA结构(CC–NUMA)。

CC–NUMA结构具有比SMP更好的可扩展性,并且能保持SMP的共享存储特性,使得共享存储并行程序设计能获得较好的并行计算性能。

但是,它并不能完全避免SMP结构中出现的内存访问瓶颈问题,因此不具备分布式存储并行机的可扩展性,为分布式存储与SMP的折衷机型。

CC-NUMA结构的典型代表为SGIOrigin系列超级服务器,它是基于目录(directory)的CC-NUMA结构,如图2-3所示。

以Origin–2000为例,它可扩展到8个机柜,每个机柜含8个结点,结点是构成Origin–2000的基本单位,它包含:

1~2个主频为195MHZ的R10000CPU,每个CPU含4MB的二级cache;

(1)内存512MB~4GB,分主存(mainmemory)和目录内存(directorymemory,用于保持结点间的cache一致性);

(2)集线器(hub)含4个端口(interface);CPU端口、内存端口、XIO端口、CrayLink互相网络端口,采用交叉开关实现两个CPU、内存、输入输出和互联网络路由器(ruoter)之间的全互联(crossbar),分别提供780MB/s、1.5GB/s、1.5GB/s的传输速度。

Origin–2000的所有结点通过CrayLink网络相互连接。

路由器是构成CrayLink的基本单位,含6个端口,采用交叉开关实现端口间全互连,可视需要进行端口间连接的任意快速切换,具有9.3GB/s的峰值带宽。

每个路由器的两个端口用于连接结点,其余4个端口实现路由器间的互连,形成互连网络拓扑结构。

CrayLink的半分带宽与结点个数成线性递增关系,并且对任意两个结点,至少能提供两条路径,保证了结点间的高带宽、低延迟连接和互连网络的稳定性和容错能力。

同时,Origin–2000具有可扩展的、功能强大的I/O子系统,这里不再介绍。

总体而言,Origin–2000能提供超过50GFLOPS的峰值性能,512GB的内存,已逼近千亿次并行计算的要求。

Origin–2000采用标准UNIX操作系统,支持共享存储、数据并行和消息传递三种并行程序设计方式。

CC-NUMA是Cache-CoherentNon-UniformMemoryAccess(高速缓存一致性非均匀存储访问)模型的缩写。

CC-NUMA结构的并行机实际上是将一些SMP机作为结点互连起来而构成的并行机。

这样可以改善SMP机的可扩展性。

绝大多数商用CC-NUMA多处理机系统使用基于目录的高速缓存一致性协议;它的存储器在物理上是分布的,所有的局部存储器构成了共享的全局地址空间(所以它实际上是一个DSM系统),因此它保留了SMP易于编程的优点。

它最显著的优点是程序员无需明确地在结点上分配数据,系统的硬件和软件开始时自动在各结点分配数据。

在程序运行过程中,高速缓存一致性硬件会自动地将数据移至需要它的地方。

CC-NUMA注重开拓数据的局部性和增强系统的可扩展性。

在实际应用中,大多数的数据访问都可在本结点内完成,网络上传输的主要是高速缓存无效性信息而不是数据。

(2)NUMA结构。

即在原来分布式存储并行机的基础上,增加局部内存的全局共享功能,提供共享存储并行编程环境。

它们能继续保持分布式存储并行机的可扩展性,但当处理机台数较多时,也只有消息传递并行程序设计方式才能发挥它们的潜在并行计算性能。

这方面的典型代表为CrayT3E和CrayT3E-1200,最多可扩展到2048个CPU,采用了当时最先进的微处理芯片DEC的Alpha21164A(EV56)作为处理器(主频600MHz),峰值性能达到2.5TFLOPS。

NUMA是Non-UniformMemoryAccess(非均匀存储访问)模型的缩写。

在NUMA中,共享存储器在物理上是分布的,所有的本地存储器构成了全局地址空间。

NUMA与UMA的区别在于处理器访问本地存储器和群内共享存储器比访问远程存储器或全局共享存储器快(此即非均匀存储访问名称的由来)。

但NUMA不支持cache一致性。

2.1.72000年到当前

2000年以来,受重大挑战计算需求的牵引和微处理器及商用高速互连网络持续发展的影响,高性能并行机得到前所未有的大踏步发展。

至2005年底,国内陆续安装到位的万亿次并行机将近20台套。

从并行机应用的领域分类,这些并行机大致可分为两类。

一类是通用型的并行机系统,以微机机群为典型代表,它们具有优良的性能价格比,占据了高性能计算机的大部分市场;另一类为面向某类重大应用问题而定制的MPP系统,通常为国家的战略应用而特殊定制。

从体系结构的角度,当前并行机的体系结构可分为如下三类:

(1)机群(cluster)。

顾名思义,高性能机群就是采用机群技术来研究高性能计算。

机群是利用标准的网络将各种普通的服务器连接起来,通过特定的方法,向用户提供更高的系统计算性能、存储性能和管理性能,同时为用户提供单一系统映象功能的计算机系统。

    对机群的研究起源于机群系统的良好的性能可扩展性。

提高CPU主频和总线带宽是最初提供计算机性能的主要手段。

但是这一手段对系统性能的提供是有限的。

接着人们通过增加CPU个数和内存容量来提高性能,于是出现了向量机,对称多处理机(SMP)等。

但是当CPU的个数超过某一阈值,象SMP这些多处理机系统的可扩展性就变的极差。

主要瓶颈在于CPU访问内存的带宽并不能随着CPU个数的增加而有效增长。

与SMP相反,机群系统的性能随着CPU个数的增加几乎是线性变化的。

图2-4显示了这种情况。

 

图2-4几种计算机系统的可扩展性

   

图2-5机群系统整体框架

机群系统有三个明显的特征:

系统由商用结点构成,每个结点包含2~4个商用微处理器,结点内部共享存储;采用商用机群交换机连接结点,结点间分布存储;在各个结点上,采用机群Linux操作系统、GNU编译系统和作业管理系统。

目前,机群采用的典型商用64位微处理器代表为IBMPPC9702.2GHz,IntelItanium21.5GHz,AMDOpteron2.2GHz,峰值性能分别可达每秒88亿次/s、60亿次/s和44亿次/s。

单结点配置内存空间可达数十个GB。

商用机群互连网络以商用交换机Myrinet2000(点对点延迟9us、带宽256MB/s)、Quadrics(点对点延迟5us、带宽400MB/s)、InfiniBand(点对点延迟5us、带宽1.25GB/s)等为典型代表。

通常,单台交换机可扩展至128个端口,多台交换机堆叠可连接数百上千个结点。

2005年6月TOP500排名第5位的IBMJS20机群(巴塞罗拉超级计算机中心、4800颗IBMPPC9702.2GHz、Myrinet互连、峰值性能每秒42万亿次/s)、排名第7位的CDCThunder(LLNL、4096颗IntelItanium2Tiger41.4GHz、Quadrics互连、峰值性能每秒22.9万亿次/s)、排名第31位国产曙光4000A(上海超级计算中心、2560颗AMDOpteron2.2GHz、Myrinet互连、峰值性能每秒11.2万亿次/s)均属于这一类。

2005年6月的TOP500中,机群系统占据了304台套,占绝对优势。

(2)星群(constellation)。

它们也有3个明显的特征:

系统由结点构成,每个结点是一台共享存储或者分布共享存储的并行机子系统,包含数十、数百、乃至上千个微处理器,计算功能强大;采用商用机群交换机连接结点,结点间分布存储;在各个结点上,运行专用的结点操作系统、编译系统和作业管理系统。

星群的典型代表为TOP500排名第3位的SGIColumbia系统(美国NASA/Ames研究中心/NAS、20个结点通过VoltaireInfiniBand网络连接、每个结点为SGIAltix3700系统(含由SGINUMAlink连接的512颗Itanium21.5GHz处理器)、SGILinux操作系统、峰值性能为每秒61万亿次)。

2005年6月的TOP500中,星群占据79台套。

SGI的Columbia系统在架构上可看作是由20台电脑组成,每台电脑使用到了512颗安腾2处理器,每节点之间使用SGINumalink互联技术相连,系统使用Linux作为操作系统。

整个系统占地面积有三个篮球场那么大,最小功耗2MW,售价为5000万美元,

(3)大规模并行机系统(massivelyparallelprocessing,MPP)。

它们的主要特征为:

系统由结点构成,每个结点含10个左右处理器,共享存储。

处理器采用专用或者商用CPU;采用专用高性能网络互连,结点间分布存储;系统运行专用操作系统、编译系统和作业管理系统。

此类系统是传统意义的大规模并行处理系统。

它区别于其他两种体系结构的一个特征就是,它的处理器或者结点间的互连网络是针对应用需求而特殊定制的,在某种程度上,带有专用并行机的特点。

当前,该类并行机系统大多为政府直接支持,处理器个数可扩展到数十万个。

MPP的典型代表为排名第1位的IBMBlueGene/L(美国DOE/NNSA/LLNL、65536颗IBMPowerPC440700MHz处理器、IBMProprietary专用互连网、峰值性能每秒184万亿次/s),另一个典型代表是排名第4位的日本NECEarthSimulator(日本地球模拟中心、640个结点通过专用Multi-satge交叉开关互连、每个结点含8颗向量处理器、峰值性能为每秒41万亿次/s),还有一个值得关注的典型代表是排名第10位的CRAYRedStorm(美国Sandia国家实验室、1250个结点通过专用CRAYXT3互连网络连接、每个结点含4个AMDOpteron2GHz的微处理器、峰值性能为每秒20万亿次/s)。

2005年6月的TOP500中,MPP占据117台套。

以上仅简单地讨论了并行机的发展。

如果读者希望详细了解当前并行机的状况,请参考TOP500排名。

如果希望了解国内并行机的发展状况,也请参考国内TOP100排名。

2.2国外的并行计算机发展状况

关于TOP500

从1993起,美国明尼苏达大学和田纳西州立大学联合发起了TOP500项目,收集和维护关于世界上前500名最强大的计算机系统的信息,每年两次给出这些统计信息。

TOP500根据超级计算机的Linpack基准测试程序的性能进行排名。

并行计算机随着微处理芯片的发展,已经进入了一个新时代。

目前并行计算机的性能已经接近100TFLOPS,1000TFLOPS的并行计算机正在规划之中。

我国并行计算机的研制已经走在世界前列,正在研制生产100TFLOPS的巨型计算机系统。

2003年由联想公司生产的深腾6800在2003年11月世界TOP500排名中位列第14名;2004年曙光公司生产的曙光4000A在2004年6月22日的世界TOP500以每秒80610亿次Linpack计算值排名中位列第10名。

这是我国公开发布的高性能计算机在世界TOP500中首次进入前十名,这标志着我

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 小学教育 > 语文

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1