GPU协同并行计算研究.docx

资源描述

GPU协同并行计算研究.docx

《GPU协同并行计算研究.docx》由会员分享，可在线阅读，更多相关《GPU协同并行计算研究.docx（21页珍藏版）》请在冰豆网上搜索。

GPU协同并行计算研究.docx

GPU协同并行计算研究

第３８卷　第３期

２０１１年３月

计算机科学

Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ

Ｖｏｌ．３８Ｎｏ．３

Ｍａｒ　２０１１

到稿日期：

２０１０－０４－１３　返修日期：

２０１０－０７－１５　　本文受国家自然科学基金（４０５０５０２３）资助。

卢风顺（１９８２－），男，博士生，ＣＣＦ会员，主要研究方向为新型体系结构下的并行算法研究、大型数值模拟等高性能计算应用，Ｅ－ｍａｉｌ：

ｌｕｆｅｎｇｓｈｕｎ

＠ｎｕｄｔ．ｅｄｕ．ｃｎ；宋君强（１９６２－），男，研究员，博士生导师，主要研究方向为数值天气预报、高性能计算等。

ＣＰＵ／ＧＰＵ协同并行计算研究综述

卢风顺　宋君强　银福康　张理论

（国防科学技术大学计算机学院　长沙４１００７３）

摘　要　ＣＰＵ／ＧＰＵ异构混合并行系统以其强劲计算能力、高性价比和低能耗等特点成为新型高性能计算平台，但其

复杂体系结构为并行计算研究提出了巨大挑战。

ＣＰＵ／ＧＰＵ协同并行计算属于新兴研究领域，是一个开放的课题。

根据所用计算资源的规模将ＣＰＵ／ＧＰＵ协同并行计算研究划分为三类，尔后从立项依据、研究内容和研究方法等方

面重点介绍了几个混合计算项目，并指出了可进一步研究的方向，以期为领域科学家进行协同并行计算研究提供一定

参考。

关键词　异构混合，协同并行计算，ＧＰＵ计算，性能优化，可扩展

中图法分类号　ＴＰ３０１　　　文献标识码　Ａ

Ｓｕｒｖｅｙ　ｏｆ　ＣＰＵ／ＧＰＵ　Ｓｙｎｅｒｇｅｔｉｃ　Ｐａｒａｌｌｅｌ　Ｃｏｍｐｕｔｉｎｇ

ＬＵ　Ｆｅｎｇ－ｓｈｕｎ　ＳＯＮＧ　Ｊｕｎ－ｑｉａｎｇ　ＹＩＮ　Ｆｕ－ｋａｎｇ　ＺＨＡＮＧ　Ｌｉ－ｌｕｎ

（Ｃｏｌｌｅｇｅ　ｏｆ　Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ，Ｎａｔｉｏｎａｌ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｄｅｆｅｎｓｅ　Ｔｅｃｈｎｏｌｏｇｙ，Ｃｈａｎｇｓｈａ　４１００７３，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ　Ｗｉｔｈ　ｔｈｅ　ｆｅａｔｕｒｅｓ　ｏｆ　ｔｒｅｍｅｎｄｏｕｓ　ｃａｐａｂｉｌｉｔｙ，ｈｉｇｈ　ｐｅｒｆｏｒｍａｎｃｅ／ｐｒｉｃｅ　ｒａｔｉｏ　ａｎｄ　ｌｏｗ　ｐｏｗｅｒ，ｔｈｅ　ｈｅｔｅｒｏｇｅｎｅｏｕｓ

ｈｙｂｒｉｄ　ＣＰＵ／ＧＰＵ　ｐａｒａｌｌｅｌ　ｓｙｓｔｅｍｓ　ｈａｖｅ　ｂｅｃｏｍｅ　ｔｈｅ　ｎｅｗ　ｈｉｇｈ　ｐｅｒｆｏｒｍａｎｃｅ　ｃｏｍｐｕｔｉｎｇ　ｐｌａｔｆｏｒｍｓ．Ｈｏｗｅｖｅｒ，ｔｈｅ　ａｒｃｈｉｔｅｃｔｕｒｅ

　ｃｏｍｐｌｅｘｉｔｙ　ｏｆ　ｔｈｅ　ｈｙｂｒｉｄ　ｓｙｓｔｅｍ　ｐｏｓｅｓ　ｍａｎｙ　ｃｈａｌｌｅｎｇｅｓ　ｏｎ　ｔｈｅ　ｐａｒａｌｌｅｌ　ａｌｇｏｒｉｔｈｍｓ　ｄｅｓｉｇｎ　ｏｎ　ｔｈｅ　ｉｎｆｒａｓｔｒｕｃｔｕｒｅ．Ａｃｃｏｒｄｉｎｇ

　ｔｏ　ｔｈｅ　ｓｃａｌｅ　ｏｆ　ｃｏｍｐｕｔａｔｉｏｎａｌ　ｒｅｓｏｕｒｃｅｓ　ｉｎｖｏｌｖｅｄ　ｉｎ　ｔｈｅ　ｓｙｎｅｒｇｅｔｉｃ　ｐａｒａｌｌｅｌ　ｃｏｍｐｕｔｉｎｇ，ｗｅ　ｃｌａｓｓｉｆｉｅｄ　ｔｈｅ　ｒｅｃｅｎｔ　ｒｅｓｅａｒｃｈｅｓ

　ｉｎｔｏ　ｔｈｒｅｅ　ｃａｔｅｇｏｒｉｅｓ，ｄｅｔａｉｌｅｄ　ｔｈｅ　ｍｏｔｉｖａｔｉｏｎｓ，ｍｅｔｈｏｄｏｌｏｇｉｅｓ　ａｎｄ　ａｐｐｌｉｃａｔｉｏｎｓ　ｏｆ　ｓｅｖｅｒａｌ　ｐｒｏｊｅｃｔｓ，ａｎｄ　ｄｉｓｃｕｓｓｅｄ

ｓｏｍｅ　ｏｎ－ｇｏｉｎｇ　ｒｅｓｅａｒｃｈ　ｉｓｓｕｅｓ　ｉｎ　ｔｈｉｓ　ｄｉｒｅｃｔｉｏｎ　ｉｎ　ｔｈｅ　ｅｎｄ．Ｗｅ　ｈｏｐｅ　ｔｈｅ　ｄｏｍａｉｎ　ｅｘｐｅｒｔｓ　ｃａｎ　ｇａｉｎ　ｕｓｅｆｕｌ　ｉｎｆｏｒｍａｔｉｏｎ　ａｂｏｕｔ

ｓｙｎｅｒｇｅｔｉｃ　ｐａｒａｌｌｅｌ　ｃｏｍｐｕｔｉｎｇ　ｆｒｏｍ　ｔｈｉｓ　ｗｏｒｋ．

Ｋｅｙｗｏｒｄｓ　Ｈｅｔｅｒｏｇｅｎｅｏｕｓ　ｈｙｂｒｉｄ，Ｓｙｎｅｒｇｅｔｉｃ___€?

____　ｐａｒａｌｌｅｌ　ｃｏｍｐｕｔｉｎｇ，ＧＰＵ　ｃｏｍｐｕｔｉｎｇ，Ｐｅｒｆｏｒｍａｎｃｅ　ｏｐｔｉｍｉｚａｔｉｏｎ

１　引言

当前，高性能计算机体系结构正处于变革期，各种新型体

系结构不断涌现。

采用通用多核微处理器与定制加速协处理

器相结合的异构混合体系结构成为构造千万亿次计算机系统

的一种可行途径。

甚至有专家预言，今后的高性能计算平台

将会成为以异构混合体系结构为主的格局。

在众多异构混合平台中，基于ＣＰＵ／ＧＰＵ异构协同的计

算平台具有很大的发展潜力。

正由于ＧＰＵ所具有的强劲计

算能力、高性能／价格比和高性能／能耗比，在当今追求绿色高

性能计算的时代，ＧＰＵ的计算优势受到越来越多的关注。

除

专业图形应用外，ＧＰＵ已用于大量的通用计算问题，并形成

了ＧＰＵ通用计算研究领域，即ＧＰＧＰＵ（Ｇｅｎｅｒａｌ－ｐｕｒｐｏｓｅ

ｃｏｍｐｕｔｉｎｇ　ｏｎ　ｇｒａｐｈｉｃｓ　ｐｒｏｃｅｓｓｉｎｇ　ｕｎｉｔｓ），又称ＧＰ２Ｕ。

鉴于

ＧＰＵ在通用计算领域的优异表现，Ｍａｃｅｄｏｎｉａ［１］断言ＧＰＵ将

成为未来计算的主流，甚至还有人将ＧＰＵ的概念解释为

Ｇｅｎｅｒａｌ　Ｃｏｍｐｕｔｉｎｇ　Ｕｎｉｔ。

ＧＰＵ和ＣＰＵ在设计思路上存在很

大差异：

ＣＰＵ为优化串行代码而设计，将大量的晶体管作为

控制和缓存等非计算功能，注重低延迟地快速实现某个操作；

ＧＰＵ则将大量的晶体管用作ＡＬＵ计算单元，适合高计算强

度（计算／访存比）的应用［２］。

在协同并行计算时，ＣＰＵ和

ＧＰＵ应各取所长，快速、高效协同地完成高性能计算任务。

另外，除管理ＧＰＵ计算任务外，ＣＰＵ也应当承担一部分科学

计算任务。

以“天河一号”巨型机为例，其计算结点采用Ｉｎｔｅｌ

Ｘｅｏｎ　Ｅ５５４０／Ｅ５４５０通用ＣＰＵ和ＡＭＤ　ＡＴＩ　Ｒａｄｅｏｎ　ＨＤ

４８７０ｘ２加速ＧＰＵ，计算阵列的峰值性能为２１４．９６万亿次，加

速阵列的峰值性能为９４２．０８万亿次。

如果不发挥ＣＰＵ的计

算能力，则相当于损失了一台２００万亿次的高性能计算机。

因此，需要充分挖掘ＣＰＵ和ＧＰＵ的计算潜能，使其达到高效

协同的计算效果。

新型异构混合体系结构对大规模并行算法研究提出了新

的挑战，迫切需要深入研究与该体系结构相适应的并行算法。

针对ＣＰＵ／ＧＰＵ异构混合体系结构的高性能计算平台，研究

相应的协同并行计算技术，设计并实现大型科学及工程计算

问题的新型并行算法，具有重大的理论和实际意义。

２　ＣＰＵ／ＧＰＵ协同并行计算研究进展

自ｎＶｉｄｉａ公司在１９９９年提出ＧＰＵ概念以来［３］，随着半

·５·

导体技术的不断发展，芯片上集成的集体管数目不断增加，

ＧＰＵ峰值性能一直以超过摩尔定律的速度增加，平均每６个

月翻一番。

ＧＰＵ具有浮点计算能力强、带宽高、性价比高、能

耗低等优点，目前已被广泛用于图形处理以外的应用中，如数

值天气预报［４］、地质勘探［５］、代数计算［６，７］、分子动力学模

拟［８］、数据库操作［１０］、频谱变换和滤波［１１，１２］等。

特别是统一

渲染架构发布以来，越来越多的科研人员（包括无任何图形

ＡＰＩ编程经验的科研人员）开始ＧＰＵ非图形应用的研究，逐

渐形成了新的ＧＰＧＰＵ研究领域。

对于ＧＰＧＰＵ领域的研究工作，文献［２，１３－１４］等优秀的

综述已从ＧＰＵ的发展历史、体系结构、编程模型、软件环境

和成功案例等方?

面进行了系统阐述。

本文仅从ＣＰＵ／ＧＰＵ

协同并行计算的角度对国内外的研究工作进行回顾和分析。

２．１　协同计算概念及ＧＰＧＰＵ研究分类

ＣＰＵ／ＧＰＵ协同并行计算，其关键在于如何实现两者的

高效“协同”。

从国内外大量的研究工作来看，“协同”分为两

个层次：

１）ＣＰＵ仅负责管理ＧＰＵ的工作，为ＧＰＵ提供数据

并接收ＧＰＵ传回的数据，由ＧＰＵ承担整个计算任务；２）除

管理ＧＰＵ外，ＣＰＵ还负责一部分计算任务，与ＧＰＵ共同完

成计算。

第一层次的“协同”比较简单，ＣＰＵ与ＧＰＵ间分工

明确，但浪费了宝贵的ＣＰＵ计算资源。

如ＩＢＭ的Ｐｏｗｅｒ７处

理器具有３２个核心，因此ＣＰＵ也具有强大的计算能力。

可

见，第二层次的“协同”是未来协同并行计算的发展方向。

目前，“协同并行计算”还没有统一的定义。

鉴于许多文

献［４，８，１５－１６］将ＧＰＵ视为加速部件或协处理器，刘钦等［５］将其

定义为ＣＰＰＣ（ｃｏ－ｐｒｏｃｅｓｓｉｎｇ　ｐａｒａｌｌｅｌ　ｃｏｍｐｕｔｉｎｇ）。

在异构混

合并行系统中，ＣＰＵ和ＧＰＵ都是并行计算资源，只是体系结

构及计算方式不同，无须区分两者的主从关系。

因此，本文将

“协同并行计算”定义为“ｓｙｎｅｒｇｅｔｉｃ　ｐａｒａｌｌｅｌ　ｃｏｍｐｕｔｉｎｇ”。

ＣＰＵ／ＧＰＵ异构机群的组织形式通常是将一定数量的多

核ＣＰＵ和ＧＰＵ封装到一个节点内（如图１所示），继而由若

干节点互联成异构机群。

将ＣＰＵ／ＧＰＵ异构机群的计算资

源简单抽象为三元组ＰＧ＝［ＮＣ，ＣＣ，ＧＣ］，各分量分别表示节

点数目、每个节点的ＣＰＵ数目和ＧＰＵ数目；如果该机群存在

节点间异构特性，那么ＰＧ定义为［ＮＣ，ＣＣ［ＮＣ］，ＧＣ［ＮＣ］］，

各分量分别表示节点数目、相应节点的ＣＰＵ数目和ＧＰＵ数

目。

根据参与协同计算的ＣＰＵ和ＧＰＵ硬件资源规模，目前

国内外ＧＰＧＰＵ研究可以划分为三类：

ＧＰＵ通用计算研究

（ＰＧ＝［１，０，Ｇ＞０］）、ＣＰＵ／ＧＰＵ协同计算研究（ＰＧ＝［１，Ｃ＞

０，Ｃ＞０］）以及ＣＰＵ／ＧＰＵ协同并行计算研究（ＰＧ＝［Ｎ＞１，

Ｃ＞０，Ｇ＞０］）。

图１　节点内ＣＰＵ／ＧＰＵ组织形式

２．２　ＧＰＵ通用计算研究

ＧＰＵ通用计算研究（ＰＧ＝［１，０，Ｇ＞０］），其计算规模限

于单个节点，计算任务完全由ＧＰＵ承担，因此该“协同”属于

第一层次。

由于ＧＰＵ硬件以及软件开发环境的限制，早期

的ＧＰＧＰＵ研究［７，１７］必须紧密结合ＧＰＵ硬件细节并借助图

形ＡＰＩ来实现ＧＰＧＰＵ程序。

随着统一架构ＧＰＵ及ＣＵＤＡ

［１８］和Ｂｒｏｏｋ＋［１９］等编程模型的出现，越来越多的领域专

家利用ＧＰＵ加速其具体应用问题。

Ｌｉｕ等［２０］基于ＣＵＤＡ研

究分子动力学模拟问题；Ｃｅｖａｈｉｒ等［２１］利用ＧＰＵ求解稀疏对

称线性系统，并实现了混合精度的多ＧＰＵ共轭梯度求解器；

Ｃｈｅｎ等［２２］基于ＣＵＤＡ实现了可支持更多的元素类型的快速

排序算法，并针对ＧＰＵ体系结构进行了性能优化；Ｉｇｕａｌ

等［２２］基于ＧＰＵ研究了线性代数和图像处理问题，并总结出

数值算法在ＧＰＵ上获得高性能应具备的特点。

２．３　ＣＰＵ／ＧＰＵ协同计算研究

ＣＰＵ／ＧＰＵ协同计算研究（ＰＧ＝［１，Ｃ＞０，Ｃ＞０］），其计

算任务由ＣＰＵ和ＧＰＵ两者共同完成，属于第二层次的“协

同”，但是协同计算规模较小，仅限于单节点。

方旭东［２４］基于

ＣＰＵ／ＧＰＵ异构平台，研究了矩阵乘、ＬＵ分解和Ｍｙｇｒｉｄ等

科学计算程序的新型并行算法，提出了３种任务划分模型及

４种ＧＰＧＰＵ程序优化策略；在单节点规模下，ＣＰＵ／ＧＰＵ协

同并行版本的矩阵乘、ＬＵ分解和Ｍｙｇｒｉｄ等分别获得了ＣＰＵ

版本１３３．８倍、８８．８６倍和１５．０６倍的性能加速。

刘钦等［５］

实现了非对称走时Ｋｉｒｃｈｈｏｆｆ叠前时间偏移的ＣＰＵ／ＧＰＵ协

同并行计算，使其运算速度提高到单核ＣＰＵ版本的１００～

３００倍，且基于此成果开发出油气勘探地震处理ＣＰＵ／ＧＰＵ

协同并行计算商业系统。

２．４　ＣＰＵ／ＧＰＵ协同并行计算研究

ＣＰＵ／ＧＰＵ协同并行计算研究（ＰＧ＝［Ｎ＞１，Ｃ＞０，Ｇ＞

０］），涉及到Ｎ个节点，每个节点的Ｃ颗ＣＰＵ和Ｇ颗ＧＰＵ协

同完成计算任务。

鉴于大型科学及工程计算问题对高性能计

算资源的巨大需求，针对这些问题的ＧＰＧＰＵ研究基本属于

该类，这也是本文关注的重点。

目前，国内外已有大量的研究

机构开展多核ＣＰＵ／ＧＰＵ异构混合平台的协同并行计算研

究，此处仅列举几个影响较大的项目，重点介绍其立项依据、

研究内容和研究方法等。

２．４．１　ＷＲＦＧＰＵ

数值天气预报的发展与高性能计算机及计算技术的不断

进步密切相关，当前气象科学家通常使用包含大量处理器的

机群系统进行超大规模数值模拟。

但时效性要求较高的应用

（如实时预报或者气候预报等）应具有较好的强可扩展性，因

此需要更快而不仅是更大规模的高性能计算平台。

为此，

ＷＲＦ模式团队启动了ＷＲＦＧＰＵ项目［２５］，基于新的多核

ＣＰＵ和ＧＰＵ异构混合平台开发ＷＲＦ模式中的细粒度并行

性，提高ＷＲＦ模式的强可扩展性。

其目标包括：

１）确定

ＷＲＦ模式物理和动力过程的关键内核，针对各内核的计算访

存比、数据并行性、内存使用等建立数学模型；２）实现内核基

准程序集，用来评测当前及未来异构高性能计算平台在天气

和气候研究中的加速效果。

目前的内核基准程序集包含５个

内核：

ＷＳＭ５云微过程［４］、ＷＦＯＰＤ标量平流［２６］、ＷＣＫ化学

动力求解器［２７］、ＲＲＴＭ长波辐射物理过程和ＳＷＲＡＤ短波

辐射物理过程，其中前３个内核已发布ＣＵＤＡ版本。

ＷＳＭ５云微过程模块的代码量仅占ＷＲＦ模式的０．４％，

但运行时间占串行总时间的１／４。

Ｍｉｃｈａｌａｋｅｓ等［４］研究了该

计算密集模块的ＣＰＵ／ＧＰＵ协同并行计算技术，采用ＭＰＩ／

ＣＵＤＡ并行编程模式，每个ＭＰＩ进程绑定一个ＣＰＵ－ＧＰＵ组

合。

作者基于Ｉｌｌｉｎｏｉｓ大学ＮＣＳＡ机群进行了大量的数值试

验，结果表明该模块性能可提高９．４倍，而ＷＲＦ模式的整体

·６·

性能可提高１．２３倍。

标量平流［２６］模式模拟大气标量要素场

在风场驱动下的输送过程，其计算量与标量的数目成正比，如

ＷＲＦ常规运行下５个雾标量的计算时间占串行总时间的

１０％。

标量平流具有计算访存比低（０．７６）、线程间数据依赖

关系强和ＣＰＵ－ＧＰＵ数据传输量大等特点，为其协同并行计

算提出了巨大挑战。

作者采用如下措施对该内核ＧＰＵ版本

进行性能优化：

１）借助三维硬件纹理（ＣＵＤＡ２．０及以上版本

支持）减少了计算内核数量和ＣＰＵ－ＧＰＵ数据传输次数；２）在

主机端使用页锁定内存，提高了ＣＰＵ与ＧＰＵ间__________的数据传输

速率，性能提高了１．２５倍。

ＷＲＦ－Ｃｈｅｍ模式支持许多化学

动力求解器，文献［２７］重点研究了ＲＡＤＭ２模型的异构混合

并行技术。

在ＷＲＦ－Ｃｈｅｍ模式中，ＲＡＤＭ２求解器作用于固

定区域网格内的每个格点，即该模式包含大量的数据并行性；

同时在ＲＡＤＭ２求解器内部，线性代数操作中存在一定的指

令级并行。

因此，作者提出了三层并行处理技术，即ＣＰＵ核

心内的指令级并行、ＧＰＵ流处理单元上的数据并行以及多核

心（多线程）或者节点间（ＭＰＩ）的数据并行。

２．４．２　Ｆｏｌｄｉｎｇ＠Ｈｏｍｅ

蛋白质是生命体系中重要的功能物质，被称为生物机体

的“纳米计算机”［２８］。

蛋白质分子由氨基酸残基组成，通过折

叠成特定形状来体现其功能（如酶和抗体等）；如果折叠过程

出错，则会导致癌症、疯牛病、帕金森氏症、阿兹海默症等疾

病。

Ｆｏｌｄｉｎｇ＠Ｈｏｍｅ［２８］是分布式分子动力学项目，通过个人

和组织捐献的家庭及办公计算资源来研究蛋白质的折叠行

为，目前其ＧＰＵ版本已得到广泛部署［２９］。

据统计１），目前

ＧＰＵ贡献的计算能力达到３２１４ＴＦＬＯＰＳ，占总计算资源的

５６．３％，已超过ＣＰＵ和ＰＳ３提供的计算资源的总和。

１）客户端统计信息：

２０１０年４月４日０５：

０１：

３５更新。

蛋白质折叠模拟可抽象为Ｎ体模拟问题，目前已有基于

“成对相加”思想的Ｏ（Ｎ２）力学模型以及基于邻接表、树等数

据结构的Ｏ（Ｎ）力学模型。

由于蛋白质折叠模拟涉及大量的

粒子（１０３－１０６）及积分步（１０６－１０１５），因此巨大的计算需求

限制了问题规模和模拟时间，最终限制了所获得的有用信息

量。

鉴于ＧＰＵ与ＣＰＵ间巨大的浮点计算性能差异，目前已

有相关研究利用ＧＰＵ来完成基于Ｏ（Ｎ２）模型的蛋白质折叠

模拟。

Ｅｌｓｅｎ等［２９］利用ＧＰＵ加速几种通用的力学模型，使其

性能超过高度优化ＣＰＵ版本的２５倍以上，并指出Ｎ体模拟

为计算受限问题，随着ＧＰＵ峰值性能的不断提高，其问题规

模及时间尺度必定会不断增大。

Ｆｒｉｅｄｒｉｃｈｓ等［３１］在ＧＰＵ上

完整实现了全原子蛋白质分子动力学模拟程序，包括所有的

标准力场项、积分、约束等。

作者首先讨论了ＧＰＵ版本实现

所面临的算法可扩展性、访存、ＣＰＵ与ＧＰＵ间通讯、流程控

制等挑战，然后分别介绍了ＡＴＩ和ＮＶＩＤＩＡ版本程序的实现

细节，最后基于ＡＴＩ　Ｒａｄｅｏｎ　ＨＤ　４８７０和ＮＶＩＤＩＡ　ＧｅＦｏｒｃｅ

ＧＴＸ　２８０ＧＰＵ对该模拟程序进行数值实验，获得比传统

ＣＰＵ单核版本性能快７００倍的超高性能。

２．４．３　ＭＡＧＭＡ

从Ｉｎｔｅｌ，ＡＭＤ，ＩＢＭ和ＮＶＩＤＩＡ等工业界主流芯片厂商

最新发布的处理器来看，异构混合体系结构将成为未来处理

器以及高性能计算机系统的发展方向。

目前多核ＣＰＵ技术

发展迅速，其核心数目不断增加，如ＩＢＭ最新的超级计算机

Ｂｌｕｅ　Ｗａｔｅｒｓ使用的Ｐｏｗｅｒ７处理器具有３２个核心，而Ｉｎｔｅｌ

集成度最高的单硅ＣＰＵ原型包括４８个可编程ＩＡ处理器内

核；同时，ＧＰＵ具有非常高的浮点计算性能，且ＧＰＧＰＵ应用

开发已具有友好的编程环境。

面对混合计算环境提出的复杂

挑战，最优的软件解决方案是将不同算法的优势集中到一个

软件框架内，即软件本身也是混合的。

基于此思想，ＭＡＧＭＡ

项目［３２］针对多核ＣＰＵ／ＧＰＵ异构混合平台，开发类似ＬＡＰＡＣＫ

的稠密线性代数（ＤＬＡ）库和软件框架，从而使应用程

序充分利用混合系统内各种处理器提供的计算资源。

无论针对多核ＣＰＵ还是ＧＰＵ平台，高效ＤＬＡ算法的设

计要求都是统一的，即算法应该具备并行度高和计算强度高

等特点。

对于ＣＰＵ／ＧＰＵ异构混合平台，ＤＬＡ算法的设计须

同时考虑执行过程中的负载平衡问题，且计算任务的划分应

密切结合各平台的优势。

Ｔｏｍｏｖ等［３３］利用有向无环图

（ＤＡＧ）来开发ＤＬＡ算法的并行度，将算法的执行过程表示

为一系列的子任务及其相互依赖关系，其中“结点”表示子任

务，“边”表示子任务间的依赖关系。

各子任务的粒度根据

ＣＰＵ和ＧＰＵ的计算能力进行划分，其中大任务由ＧＰＵ负责

执行，而小任务在多核ＣＰＵ上执行。

为提高ＤＬＡ算法的计

算强度，作者修改了基于ＢＬＡＳ１库的ＤＬＡ算法，在其最内层

循环采用块矩阵操作。

Ｔｏｍｏｖ等［３４］提出基于“混合技术”的

算法设计思想，以充分利用异构平台各处理器类型的计算优

势。

作者利用ＣＵＤＡ编程模型，基于ＢＬＡＳ和ＬＡＰＡＣＫ（多

核ＣＰＵ）及ＣＵＢＬＡＳ（ＧＰＵ）等第三方库，设计了Ｃｈｏｌｅｓｋｙ，

ＬＵ和ＱＲ分解等混合ＤＬＡ算法。

关于异构平台上可扩展

ＤＬＡ算法的设计，Ｌｔａｉｅｆ等［３５］充分利用ＤＬＡ算法的两级并

行度，首先将其计算任务划分为块，映射到多个ＣＰＵ－ＧＰＵ组

合并发执行，然后对每个块内的计算任务继续开发细粒度并

行性以使ＣＰＵ和ＧＰＵ协同计算。

数值实验表明，以ＣＰＵＧＰＵ

组合为计算资源单位，当计算资源线性增加时，基于

ＤＬＡ算法求解器的浮点性能也呈线性增长趋势，表现出较好

的强可扩展性。

２．４．４　ＦＥＡＳＴＧＰＵ

ＦＥＡＳＴ［３６，３７］是解决大规模有限元问题的高效软件包，可

支持多种现代体系结构上的软件开发，其应用领域覆盖计算

流体力学和计算结构力学，主要构件包括稀疏带状ＢＬＡＳ、可

扩展递归聚类（ＳｃａＲＣ）以及ＦＥＡＳＴＧＰＵ。

稀疏带状ＢＬＡＳ

是ＢＬＡＳ的一种扩展，封装了ｃａｃｈｅ感知和平台优化的通用

线性代数操作例程。

ＳｃａＲＣ是一种广义的求解模式，融合了

区域分解和并行多重网格的优势，可提供层次式的求解器、数

据和矩阵结构。

ＦＥＡＳＴＧＰＵ［１５］作为局部平滑子完全工作在

ＳｃａＲＣ模式内部，因此基于ＦＥＡＳＴ的应用程序可直接利用

ＧＰＵ提供的强大计算能力和超高内存带宽，无须对代码作任

何修改（即“最小扰动”）。

ＦＥＡＳＴＧＰＵ运行在单精度状态，

且采用混合精度迭代求精法以保证迭代过程的收敛速度。

ＦＥＡＳＴＧＰＵ在整个ＦＥＡＳＴ软件包中的抽象层次及工

作方式，使得混合系统的异构性完全封装到节点内，因此对

ＭＰＩ而言该并行系统是同构的。

ＦＥＡＳＴＧＰＵ并非针对线性

代数操作进行加速，而是针对局部子问题加速整个多重网格

·７·

求解器，避免了ＧＰＵ计算内核的多次配置及数据传输开销。

Ｇｏｄｄｅｋｅ等［１５，１６，３８］基于ＦＥＡＳＴ构建了ＦＥＡＳＴＳｏｌｉｄ和Ｎａｖｉｅｒ－

Ｓｔｏｋｅｓ求解器，并使用ＦＥＡＳＴＧＰＵ来加速其本地求解

器，分别取得了５倍和１２倍的局部加速及１．６倍和２．３倍的

全局加速。

根据Ａｍｄａｈｌ定律，如果可加速部分的计算时间

小于整体的５０％，那么ＦＥＡＳＴＧＰＵ局部加速引起的i_________全局性

能提升将非常有限。

为此，作者指出两种解决方案：

１）修改原

有算法，使可加速部分的比例增大；２）松弛“最小扰动”条件，

将更多的计算过程迁移到ＧＰＵ上运行。

２．４．５　其它研究项目

除上述几个代表性的项目外，国内外还有大量的相关研

究，如Ｚｈｅ等［４０］较早开展了ＧＰＧＰＵ研究，用格子Ｂｏｌｔｚｍａｎｎ

模型（ＬＢＭ）实现了并行流模拟程序；东京工业大学基于

ＴＳＵＢＡＭＥ异构混合机群开展了加速计算（Ａｃｃｅｌｅｒａｔｅｄ

Ｃｏｍｐｕｔｉｎｇ）研究［４１－４４］；国防科学技术大学成功研制出“天河

一号”，开展了线性代数［４５］、粒子模拟［４６］、ＧＰＧＰＵ程序性能

优化［４７，４８］等相关研究；中国科学院过程工程研究所及联想、

曙光公司共同设计并研制出千万亿单精度峰值性能的Ｍｏｌｅ－

８．７系统［４９］，该系统主要应用于多相流、分子动力学等研究领

域。

３　进一步研究的方向

３．１　面向异构混合系统的新型并行算法研究

在ＣＰＵ／ＧＰＵ异构混合平台中，ＣＰＵ和ＧＰＵ具有不同

的硬件特点和计算方式，因此基于异构混合平台进行并行算

法设计时，必须密切结合其底层硬件特点，使算法充分利用混

合系统中各类型处理器的性能优势。

鉴于ＧＰＧＰＵ研究属于

新兴领域，目前大部分算法研究工作是已有算法向异构混合

平台的移植，针对该平台的全新算法较少。

ＣＰＵ和ＧＰＵ都存在存储墙［５０］问题，ＣＰＵ主要通过多层

次存储结构来缓解该问题，而ＧＰＵ则使用硬件多线程技术

来隐藏高开销的访存延迟。

面向异构混合系统的高效并行算

法应具有以下特点：

１）异构感知的：

根据底层硬件特点设计算

法，使体系结构—算法组合发挥出最大性能；２）计算强度高：

高计算强度是并行程序高计算效率的普遍要求，对ＧＰＵ尤

其重要，否则ＧＰＵ的高浮点计算性能优势根本得不到发挥；

３）ＣＰＵ与ＧＰＵ交互开销小：

包括数据传输开销及同步开销；

ＣＰＵ与ＧＰＵ间交互是协同并行计算不可避免的，应通过优

化算法来减少数据传输次数和数据量以及同步开销。

３．２　ＣＰＵ／ＧＰＵ高效协同方式研究

ＣＰＵ／ＧＰＵ高效协同计算是发挥异构混合平台性能的关

键因素，因此必须根据两者的计算能力和执行特点确定合理

的协同方式，以保证ＣＰＵ和ＧＰＵ间的计算负载平衡，降低各

种交互开销，进而提高程序的执行效率。

研究内容包括：

计算

任务的划分模型、任务的调度策略以及计算任

展开阅读全文