并行计算课程算法实践教学的新工具CUDA编程模型.docx

资源描述

并行计算课程算法实践教学的新工具CUDA编程模型.docx

《并行计算课程算法实践教学的新工具CUDA编程模型.docx》由会员分享，可在线阅读，更多相关《并行计算课程算法实践教学的新工具CUDA编程模型.docx（14页珍藏版）》请在冰豆网上搜索。

并行计算课程算法实践教学的新工具CUDA编程模型.docx

并行计算课程算法实践教学的新工具CUDA编程模型

》》》一

一一

ｐｕｔｅｒＥｄｕｃａｔｉｏｎ

文章编号：

１６７２－５９１３（２００８）２３—０１０３－０４

“并行计算＂课程算法实践教学的新工具：

ＣＵＤＡ编程模型

王智广１，刘伟峰２

（１．中国石油大学（北隶）计算机科学与技术系，北京１０２２４９；

２．中国石油化工股份有限公司石油勘探开发研究院信息技术研究所，北京１０００８

３）

摘要：

本文首先从当今多核微处理器的发展趋势出发，介绍适用于多核微处理器的细粒度并行编程模型ＣＵＤＡ，以及其适用于“并行计算”课程教学的一系列优势，接着对当前可用的几种并行编程模型进行分析和比较，最后给出采用ＣＵＤＡ编程模型的一个矩阵与矩阵相乘的教学实例。

关键词：

并行计算；实践教学；ＣＵＤＡ

中图分类号：

Ｇ６４２

文献标识码：

Ｂ

１引言

１９９８年，教育部高等学校计算机科学与技术教学指导委员会将“并行计算”课程定位在高等学校计算机专业高年级本科生或研究生以及面向计算学科的非计算机专业的研究生层次上。

“并行计算”课程一般主要包括以下四个层面：

（１）在算法理论层面主要讲授可计算性与计算复杂性以及算法研究的数学基础；（２）在体系结构层面主要讲授并行计算机体系结构；（３）在算法设计层面主要讲授计算机科学及其他科学计算领域中的非数值和数值并行算法；（４）在算法实践层面主要讲授基于并行编程模型的并行算法编程。

实际上，对于大多数学习“并行计算”课程的非并行计算研究方向的学生来讲，第（４）层面，即算法实践是课程最具价值的组成部分。

将并行算法实现成程序并投入大规模科学与工程计算生产应用是课程的最主要学习目的之一。

其中对于编程模型的选择又是算法实践教学的重要前提。

以往“并行计算”课程在算法实践教学中大多采用ＭＰＩ作为编程模型，可ＭＰＩ的粗粒度特性不仅不足以满足“并行计算”课程的实践需要，还很难利用当前多核微处理器的硬件细粒度优势。

本文从当今多核微处理器的发展趋势出发，介绍适用于多核微处理器的编程模型ＣＵＤＡ，以及其适用于“并行

计算”课程教学的一系列优势，并给出对几种主流并行编程模型与ＣＵＤＡ的分析和比较，最后提供一个基于ＣＵＤＡ的矩阵与矩阵相乘程序作为教学实例。

２多核微处理器发展趋势

过去的２０年间，提高运行频率是ＣＰＵ性能提高的主要方式，然而，自２００３年以来，这种趋势发生了变化，不断提高的ＣＰＵ频率带来了高功耗和高发热量，使得主流ＣＰＵ频率止步于４ＧＨｚ，并向单芯片多处理器（ＣｈｉｐＭｕｌｔｉＰｒｏｃｅｓｓｏｒｓ，ＣＭＰ），即多核方向发展。

２００５年，Ｉｎｔｅｌ和ＡＭＤ正式向主流消费级市场推出了双核心的ＣＰＵ产品，２００７年推出了４核心的ＣＰＵ，按照各厂商的发展路线图，今后大约每２年单ＣＰＵ上的核心数将翻番。

但由于市场变化和研制成本的原因，多核ＣＰＵ的每个核都基于以往ＣＰＵ的单核设计，保留了如乱序执行等很多单核时代的复杂执行方式，使得其对于科学计算等问题的计算能力提高非常有限。

此时，以游戏加速和图形处理为初衷设计的ＧＰＵ（ｇｒａｐｈｉｃｓ

ｐｒｏｃｅｓｓｉｎｇ

ｕｎｉｔ，图形处理器）以超出摩尔定

律的速度发展，并开始在非图形的高性能计算领域被大量使用。

图１为近年来同等市场价格ＣＰＵ和ＧＰＵ的浮点运算速度对比图。

作者简介：

王智广（１９６４－），男，教授，ＣＣＦ高级会员，主要研究方向为分布式计算和并行计算；刘伟峰（１９８１一），男，中国石油大学（北京）计算机科学与技术系２００６届硕士，工程师，ＣＣＦ会员，主要研究方向为图形处理器架构，高性能计算可视化。

万方数据

”卜…一１而磊蕊ｉ墨圈隧蕊————…

镶镧《

啪乏享Ｊ

啪““ｍ

／

｜｜

∞乱。

一Ｌｏ

抛ｅ－。

。

＝／。

７１／

８８罗／厂

３０ＧＨ：

御

／

Ｃｏｒｅ２Ｑｕａｄ

３ｏＧＨｚ

ｗ！

：

２＾磊蒿：

意’。

．——／

ｏ

ＪａｎＪｕＩＪａｎＪｕｌＪａｎＪｕＩＪａｎＪｕＩＪａｎＪｕＩ２００３

２００３

２００４

２００５

２００６

２００７

图１

ＧＰＵ和ＣＰＵ的ＦＬＯＰＳ理论峰值

由图可见，ＧＰＵ的浮点运算速度可以达到ＣＰＵ的５倍以上。

带来这种数据处理能力差别的主要原因在于ＧＰＵ最早为并行处理大量三维计算机图形学中的顶点和像素数据而设计，近年来为通用计算又进行了一系列改进。

其天生并行的体系结构决定了ＧＰＵ非常擅长以并行的方式运行高运算强度的应用。

以ｎＶｉｄｉａＧＰＵ为例，与ＣＰＵ体系结构相比，ＧＰＵ体系结构的优势主要有：

（１）单芯片上的更多处理器（核）与Ｇ８０核心ＧＰＵ包含的１２８个核心相比，ＣＰＵ目前最高仅达到４核，虽然ＣＰＵ每个核的运算能力高于ＧＰＵ上的单核，但后者凭借更多核的并行在计算能力上高出很多；

（２）将更多的晶体管用于计算单元ＧＰＵ运算能力远高于ＣＰＵ的重要原因是ＧＰＵ将更多的晶体管用于计算单元。

目前ＣＰＵ将约７０％的晶体管用于Ｃａｃｈｅ；而ＧＰＵ晶体管的８０％以上是计算单元；

（３）超多活动线程Ｇ８０ＧＰＵ能够保持１２２８８个活动线程的上下文，与此相比，ＣＰＵ通过线程池管理的线程不过数十个。

ＧＰＵ超多活动线程可以隐藏大量计算单元的访存延迟，在处理数据敏感的应用时要比ＣＰＵ的Ｃａｃｈｅ方式更加有效；

（４）高显存带宽

ＧＰＵ与其显示设备内存间的带宽超

过ＣＰＵ与内存的带宽１０倍以上。

配合超多活动线程，使ＧＰＵ十分适合大规模并行处理高运算强度的应用。

正是由于这些原因，在国际高性能计算研究领域，针对以ＧＰＵ为代表的硬件细粒度并行计算的研究是近年来的一个新的热点。

并诞生了大量基于ＧＰＵ的科学计算改进算法，其领域涵盖各类数值模拟方法，包括计算天体物理、计算流体力学、计算量子化学，甚至计算金融学在内的众多领域已经从ＧＰＵ计算中获益。

万方数据

由此可见，相对于多核ＣＰＵ而言，ＧＰＵ的高度并行

体系结构天然地适合进行并行计算的研究和教学。

而在２００７年以前，ＧＰＵ的并行程序设计还主要是通过ＯｐｅｎＧＬ或Ｄｉｒｅｃｔ３Ｄ这种图形ＡＰＩ来完成，入门难度较高。

所以在高性能计算的研究者们对于利用ＧＰＵ进行并行计算的迫切需求下，ＣＵＤＡ编程模型诞生了。

２

ＣＵＤＡ编程模型

ＣＵＤＡ（Ｃｏｍｐｕｔｅ

ＵｎｉｆｉｅｄＤｅｖｉｃｅ

Ａｒｃｈｉｔｅｃｔｕｒｅ，统一计算

设备架构）是２００７年由ｎＶｉｄｉａ推出的一套并行编程模型。

其推出的最初目的是为解决ＧＰＵ通用计算的易用性问题。

至今已有众多研究者利用ＧＰＵ的高度并行性特点将科学计算算法迁移至ＣＵＤＡ编程模型并在ＧＰＵ上获得了相对于ＣＰＵ平均数十倍的性能提升。

随着ＣＵＤＡ编程模型被越来越多的研究者接受，

ＵｎｉｖｅｒｓｉｔｙｏｆＩｌｌｉｎｏｉｓａｔ

Ｕｒｂａｎａ－Ｃｈａｍｐａｉｇｎ的研究人员利用

源．源的解决方案设计了ＭＣＵＤＡ（Ｍｕｌｔｉｃｏｒｅ．ＣＵＤＡ），使ＣＵＤＡ程序也可以运行在多核ＣＰＵ上，且运行效率要高于多数原生的ＣＰＵ优化方法。

使ＣＵＤＡ的应用范围基本覆盖了包括ＣＰＵ和ＧＰＵ在内的当今主流多核微处理器。

可以说，ＣＵＤＡ并行编程模型的出现和迅速发展标志着细粒度并行程序设计已经逐渐为主流程序设计人员所接受。

ＣＵＤＡ编程模型有ＳＩＭＴ和显式数据调用２个主要特点。

２．１

ＳＩＭＴ运行方式

与以往ＳＩＭＤ和ＭＩＭＤ的并行计算常用指令和数据流

运行方式相比，ＣＵＤＡ程序的运行方式被称为ＳＩＭＴ（Ｓｉｎｇｌｅ

ＩｎｓｔｒｕｃｔｉｏｎＭｕｌｔｉｐｌｅ

Ｔｈｒｅａｄ，单指令多线程），其意义是可以

让程序设计人员把编程的ＳＩＭＤ硬件对象作为若干个标量处理器调用，即ＳＩＭＴ没有固定的矢量宽度，并允许每一条线程占据各自路径，在不受ＳＩＭＤ可编程性制约的前提下保证每个处理器核心一直处于完全被利用状态。

这样在并行程序设计上就可以将精力专注于程序线程的拆分，达到提高并行化效果并且降低程序编写难度的目的。

２．２显式数据调用

ＣＵＤＡ的访存指令与Ｃ语言相同，但增加了一项重要特性，即对共享内存（ＳｈａｒｅｄＭｅｍｏｒｙ）的显式操作。

共享内存是ＧＰＵ芯片内的一块分为１６个ｂａｎｋ的１６ＫＢ存储器，主要作用是作为并发线程间的共享数据存放空间，另外也可以显式地将其当成Ｃａｃｈｅ使用，存放并发线程其需要多

》》卜—————］囊豳豳霹里里型塑型！

！

一

斓镧镧

次存取的数据。

当每个线程访问不同ｂａｎｋ的时候，共享内存的存取延迟与寄存器的存取延迟一样低，即数百倍地低于片外显示内存或主存的存取延迟，所以对共享内存的有效显式操作是提高ＣＵＤＡ并行程序运行效率的关键。

本文第４节会给出一个使用共享内存的教学实例。

总体来讲，ＣＵＤＡ编程模型中基于多核的ＳＩＭＴ细粒度并行方式和对存储器的显式操作是十分理想的课程教学工具，有助于学生设计既贴近硬件体系结构又独立于运行平台的并行程序。

虽然学生在算法实践初期会觉得细粒度的并行程序设计较难接受，但就我们的教学经验来看，具有计算机体系结构和编程语言基础的学生大约在４周内可以对ＣＵＤＡ的并行编程模型基本熟悉，况且在算法实践中获得数十倍性能提升带来的成就感也会促使学生逐渐克服学习的困难。

３

几种弗行编程模型的分析和比较

目前国内外一般教材和课程教学选用的并行编程模

型主要有３种：

消息传递接口ＭＰＩ、线程接口ＰＯＳＩＸ和基于指令的ＯｐｅｎＭＰ。

这三种编程模型各有比较鲜明的特点。

本节将它们和本文选用的ＣＵＤＡ编程模型一并进行分析和比较。

３・１

ＰＯＳＩＸ

ＰＯＳＩＸ（ＰｏｒｔａｂｌｅＯｐｅｒａｔｉｎｇＳｙｓｔｅｍＩｎｔｅｒｆａｃｅｏｆＵｎｉｘ，可

移植Ｕｎｉｘ操作系统接口）线程接口也称Ｐｔｈｒｅａｄｓ，１９９５年被ＩＥＥＥ通过成为被绝大多数厂商支持的线程ＡＰＩ。

它提供了处理诸如死锁和竞态条件这类问题的工具，但没有限定线程的具体工作方式，对于如何编制线程并行的程序留有很大的余地。

基于此，Ｐｔｈｒｅａｄｓ被认为过于底层和编程难度较高，所以目前多数“并行计算”课程不将Ｐｔｈｒｅａｄｓ作为主要的算法实践工具。

３．２

ＯｐｅｎＭＰ

作为共享存储标准而在１９９７年问世的ＯｐｅｎＭＰ是为在多处理机上编写可移植的多线程应用程序而设计的一个应用编程接口。

ＯｐｅｎＭＰ编程模型包括一套平台无关的编译指导（ｐｒａｇｍａｓ）、编译命令（ｄｉｒｅｃｔｉｖｅ）和一个用来支持它们的函数库。

ＯｐｅｎＭＰ显示地指导编译器如何利用应用程序的并行性，而开发人员不需要关心实现细节，这使得ＯｐｅｎＭＰ的学习入门难度相对较低，但同时也很难完成并

万方数据

行算法的课程教学要求，所以一般也不将ＯｐｅｎＭＰ作为主要的算法实践工具。

３．３

ＭＰＩ

１９９４年由政府、学术界、产业界共同制定的ＭＰＩ（ＭｅｓｓａｇｅＰａｓｓｉｎｇＩｎｔｅｒｆａｃｅ，消息传递接口）是根据并行应用程序对于消息传递的需求而定义的一组标准接口说明和不同厂商提供的相应方法实现。

ＭＰＩ吸收了ＰＶＭ等众多消息传递模型的优点，在集群型高性能计算机的流行化趋势下成为了目前最流行的并行编程模型。

虽说ＭＰＩ的学习曲线较长，但大多数“并行计算”教科书还是主要使用ＭＰＩ作为并行算法教学实践的工具。

３．４

４种并行编程模型比较

表１是４种并行编程模型主要特性比较表。

表１

４种并行编程模型主要特性比较表

ＰＯＳＩＸ

ＯｐｅｎＭＰⅣ衅ＩＣＵＤＡ

特征

低级原语共享存储消息传递单指令多线程并行粒度细粒度细粒度粗粒度细粒度存储模式共享存储共享存储分布存储共享存储数据调用方式显式隐式显式显式学习难度难容易较难一般可扩展性

较好

较差

好

较好

４矩阵与矩阵相乘并行算法教学实例

矩阵与矩阵相乘并行算法是最常用也最具代表性的并行算法之一，十分适合作为学生对并行算法实践的入门

教学。

本节描述一个基于ＣＵＤＡ编程模型和块矩阵算法的矩阵与矩阵相乘并行算法教学实例。

４．１串行算法

对于两个胛×＂稠密矩阵４与Ｂ相乘得到乘积矩阵Ｃ＝Ａ×Ｂ的算法，易写出其串行实现的伪代码如下：

ｐｒｏｃｅｄｕｒｅＳＥＲＩＡＬ—ＭＡＴ—ＭＵＬＴ（Ａ，Ｂ，Ｃ）

Ｂｅｇｉｎ

ｆｏｒｉ：

＝０ｔｏｎ一１ｄｏ

ｆｏｒ

Ｊ：

＝０

ｔｏ

ｎ一１

ｄｏ

Ｂｅｇｉｎ

Ｃ［ｉ，ｊ］：

＝０ｊ

ｆｏｒ

ｋ：

＝０

ｔｏ

ｎ一１

ｄｏ

Ｃ［ｉ，Ｊ］

：

＝Ｃ［ｉ，Ｊ］

＋Ａ［ｉ，ｋ］

Ｂ［ｋ，Ｊ］；

ｅｎｄｆｏｒｊ

ｅｎｄＳＥＲ工ＡＬ

ＭＡＴ

ＭＵＬＴ

¨努—弋而蕊蕊ｉ暖圈酲峨

４．２块算法

针对粗粒度的并行机制，一般采用基于块矩阵运算矩

ＢｅｇｉｎＣｓｕｂ：

＝０；ｆｏｒ

ｋ：

＝０

ｔｏ

ｑ—ＩｄｏＡＳｉ？

ｋ；ＢＳｋ？

ｊ；

ｊ

斓碉镧

阵与矩阵相乘算法，即将整个矩阵分成矩阵块大小为（哟）

Ｘ（ｎ／Ｏ的块矩阵，把原矩阵的代数运算转换成对这些块矩阵中元素的代数运算，进而通过消息传递实现粗粒度的并行。

块算法的伪代码如下：

ｐｒｏｃｅｄｕｒｅＢｅｇｉｎｆｏｒ

ｉ：

＝０

ｔｏ

ｑ一１ｔｏ

ｄｏ

ｌｏａｄｌｏａｄ

Ａｉ？

ｋｔｏＢｋ？

Ｊ

ｔｏ

ｓｙｎｃｔｈｒｅａｄｓｆｏｒ

ｉ：

＝Ｏ

ｔｏ

１５ｄｏ

ｃｓｕｂ：

＝Ｃｓｕｂ

＋Ａ鼠，ｋ［ｔｈｒｅａｄＩｄｘ．ｘ，１］×ＢＳｋ，ｊ［＿ｚ，ｔｈｒｅａｄＩｄｘ．ｙ］；

ＢＬＯＣＫ—ＭＡＴ—ＭＵＬＴ（Ａ，

Ｂ，

Ｃ）

ｓｙｎｃｔｈｒｅａｄｓ；

ｅｎｄｆｏｒ；

Ｑ，ｊ［ｔｈｒｅａｄＩｄｘ．ｘ，ｔｈｒｅａｄＩｄｘ．ｙ］＝Ｃｓ。

ｂ；

ｅｎｄＣＵＤＡ

ＭＡＴ

ＭＵＬＴ

ｆｏｒ

Ｊ：

＝０ｑ一１

Ｂｅｇｉｎ

ｑ，ｊ：

２

ｆｏｒ

０ｊ

ｔｏ

ｑ一１

ｄｏ

其＠

ｓｙｎｃｔｈｒｅａｄｓ；语句表示在开始下一步操作之前

ｋ：

＝０

对线程块内的线程进行同步。

ｔｈｒｅａｄｌｄｘ．ｘ和ｔｈｒｅａｄｌｄｘ．Ｙ是二维线程块中线程的编号，通过它们也容易理解ＣＵＤＡ编程模型的单指令多线程的工作方式。

同时可以算出，为计算每个块Ｇ，，若不使用共享内存，

ｅｉ，ｊ．＿Ｃｉ，Ｊ＋Ａｔ，ｋ。

Ｂｋ，Ｊ；

ｅｎｄｆｏｒ；

ｅｎｄＢＬＯＣＫＭＡＴ

ＭＵＬＴ

４．３块算法的ＣＵＤＡ并行实现

ＣＵＤＡ的细粒度并行机制要求从每个线程的角度考虑整个矩阵相乘，同时ＣＵＤＡ的ｇｒｉｄ－ｂｌｏｃｋ－ｔｈｒｅａｄ三级线程管理结构也要求对线程进行适当的块划分，本实例中对线程块的划分可以与块矩阵运算思想直接对应起来。

首先，根据需要划分两个胛×聍稠密矩阵彳与Ｂ为口

Ｘ

需要访问存放块矩阵Ａｊ，ｔ和取，的全局内存２ｎ（响）２次，反

之仅需访存２ｑ（，吻）２次。

通过以这种方式分块计算，可以有效利用快速的共享内存，进而节省许多全局内存带宽。

由于篇幅所限，本实例仅包括块矩阵相乘的ＣＵＤＡ代码主体部分，对代码的调用方式等其他内容请参考ＣＵＤＡ编程指南。

ｑ块大小为（毗ｒ）×（确ｒ）的块矩阵，根据ＧＰＵ的体系结构，

５结束语

本文在介绍多核微处理器发展趋势和ＣＵＤＡ编程模型的基础上，对ＣＵＤＡ和以往其他３种并行编程模型进行了比较，最后给出了一个矩阵与矩阵相乘的教学实例对ＣＵＤＡ编程模型进行进一步详述。

能够看出，ＣＵＤＡ作为近两年新出现的并行编程模型可以很好地利用新一代ＣＰＵ及ＧＰＵ芯片上数量众多的核进行细粒度并行计算，再结合ＣＵＤＡ相对易于学习掌握的特点，可以得出结论，ＣＵＤＡ编程模型可以与粗粒度的ＭＰＩ互为补充，为学生带来更丰富的算法实践经验，并且完全可以作为“并行计算”课程算法实践教学的工具使用。

圈

取ｎ／ｑ＝１６以便每线程块的线程数是ｗａｒｐ（ＧＰＵ上３２个线程组成的线程簇）大小的倍数，且低于每线程块的最大线程数。

然后，计算ｃ的每个块Ｃｆ，，其执行过程是：

（１）使用每线程加载块矩阵４抽和圾，的一个元素，将爿城和瞰，从全局内存加载到共享内存；

（２）每个线程计算结果块矩阵的一个元素，其中每个乘积的结果累计到寄存器中：

（３）执行完毕后将寄存器中的结果写入全局内存中块矩阵Ｃｆ，的相应位置。

求每个块矩阵Ｃ“的ＣＵＤＡ伪代码如下：

ｐｒｏｃｅｄｕｒｅＣＵＤＡ

ＭＡＴ

ＭＵＬＴ（Ａ，Ｂ，Ｃ）

参考文献

［１】陈国良，孙广中，徐云，吴俊敏．并行计算课程的教学方法［Ｊ】．中国大学教学，２００４，（２）．［２】陈国良．并行计算一结构・算法・编程（修订版）［Ｍ］．北京：

高等教育出版社，２００３．［３】刘伟峰，王智广．细粒度并行计算编程模型研究［Ｊ］．微电子学与计算机，２００８，（１０）．［４】陈国良，安虹，陈岐，郑启龙，单久龙．并行算法实践［Ｍ］．北京：

高等教育出版社，２００３．［５］张林波，迟学斌，莫则尧，李若．并行计算导论【Ｍ］．北京：

清华大学出版社，２００６．

［６］ｎＶｉｄｉａ．ＣＵＤＡＰｒｏｇｒａｍｍｉｎｇＧｕｉｄｅ【ＥＢ／ＯＬ］．ｈｔｔｐ：

／／ｗｗｗ．ｎｖｉｄｉａ．ｃｏｍ／ｃｕｄａ．

万方数据

展开阅读全文