曙光GPGPU高性能计算解决方案.doc

资源描述

曙光GPGPU高性能计算解决方案.doc

《曙光GPGPU高性能计算解决方案.doc》由会员分享，可在线阅读，更多相关《曙光GPGPU高性能计算解决方案.doc（60页珍藏版）》请在冰豆网上搜索。

曙光GPGPU高性能计算解决方案.doc

曙光GPGPU高性能计算

解决方案

曙光信息产业（北京）有限公司

2010年5月目录

1. 曙光方案优势 4

1.1. CPU和GPU计算能力均衡设计 4

1.2. 采用水冷散热设计 4

1.3. 采用低延迟Infiniband设计 5

1.4. 配置了丰富的集群软件 5

1.5. 专业的高性能计算厂商 5

2. 曙光公司与中国高性能计算 7

3. GPGPU的应用及其产品 9

4. 曙光百万亿次GPGPU高性能计算解决方案 12

4.1. 总体设计原则 12

4.2. 方案配置 13

4.2.1. 系统总体布置图 13

4.2.2. 方案一（260T） 14

4.2.3. 方案二（193T） 15

4.3. 曙光GHPC1000高性能计算机 17

4.3.1. 概述 18

4.3.2. 特性与优势 19

4.3.3. 技术规格 20

4.4. 计算系统 21

4.4.1. 概述 21

4.4.2. 技术特色 21

4.4.3. 技术规格 23

4.5. 网络系统 25

4.6. 存储系统 27

4.7. 软件系统 31

4.7.1. Gridview服务器综合管理系统 31

4.7.2. PowerConf服务器节能软件 38

5. 机房建设方案 41

5.1. 水冷机柜方案 41

5.1.1. 概述 41

5.1.2. 高效节能的水冷机柜系统 42

5.1.3. 水冷机柜产品介绍 43

5.1.4. 冷机柜解决方案 46

5.1.5. 机房物理环境要求及水冷机柜系统设备参数 48

5.2. 风冷机柜方案 50

5.2.1. 机柜尺寸和摆放要求 50

5.2.2. 机房环境要求 52

5.2.3. 供电和环境要求 53

6. 用户服务方案 54

6.1. 售后服务承诺 54

6.1.1. 概要 54

6.1.2. 保修期限和服务方式 54

6.1.3. 服务流程及响应时间 55

6.1.4. 有偿服务收费标准 57

6.2. 技术支持及服务项目 58

6.2.1. 硬件升级服务项目 58

6.2.2. 系统软件支持服务项目 58

6.2.3. 应用软件及解决方案支持服务项目 59

6.2.4. 应用开发和移植支持服务项目 59

7. 培训方案 60

7.1. 概述 60

7.2. 培训目标 61

7.3. 培训教材 61

7.4. 项目实施前培训 61

7.4.1. 培训方式 61

7.4.2. 培训地点 62

7.4.3. 培训人数 62

7.4.4. 培训内容 62

7.4.5. 培训时间 63

7.5. 现场培训 64

1.曙光方案优势

1.1.CPU和GPU计算能力均衡设计

曙光GHPC1000高性能计算平台采用通用CPU和专用GPU均衡设计，既保证了GPU的处理性能，又兼顾了通用CPU的计算能力。

既保证了适合GPU的高并行度计算应用的需求，同时也保证了非高并行度应用和尚未进行GPU移植的应用需求。

GHPC1000的每个计算节点配置1～2颗64位四核心处理器和1块GPU处理卡。

它既可作为GPU高性能计算平台，又可作为通用CPU计算平台，能完成所有的普通集群系统可完成的应用。

1.2.采用水冷散热设计

GHPC1000可采用水冷散热设计。

相比于传统的风冷散热系统，水冷散热系统具有如下优势：

1、节能，绿色环保，降低了使用成本

采用全封闭设计和高效热交换系统，大大降低对制冷系统的要求，降低了制冷系统的耗电量。

另一方面，计算设备在相对较低的温度下运行也降低了其功耗。

2、提高系统稳定性，提高了高性能计算平台的使用寿命

采用水冷散热系统以后，使得系统一直保持在良好的工作温度（入口温度在14℃）,并且温度变化率低。

这样大大提高对服务器、存储、交换机、GPU卡等精密电子设备的稳定性，同时有利于延长其使用寿命。

3、提高了计算密度

目前散热是限制计算密度重要因素，采用水冷散热系统就能增加单位空间的散热能力，提高计算密度。

4、采用全密闭设计，降低了机房噪音和辐射。

5、采用水冷散热系统，机房无需再为该设备配置空调等其他散热设备，节省了机房建设成本。

6、水冷散热方式在技术上更为先进，是高性能计算系统和数据中心的发展趋势

同时，GHPC1000采用的水冷散热系统，对机房建设并没有过高的要求，一般的机房大都能满足要求。

1.3.采用低延迟Infiniband设计

采用GPU计算以后，大幅度的提升了计算性能，但同时对于网络的压力也大幅度提升。

为保证网络和计算的均衡，提升系统的整体实际性能。

曙光GHPC1000采用Infiniband专用高速网络，任何两点之间的网络带宽达双向20Gb/s。

同时采用最先进的ConnectX技术，使其点到点的延迟为1.26us。

网络高带宽尤其是网络的低延迟对于提升HPC应用的性能是至关重要的。

1.4.配置了丰富的集群软件

GHPC1000配置了Gridview集群管理系统，通过类Windows的管理模式能轻松监控、管理整个集群系统。

同时配置为高性能计算设计的PowerConf节能系统，能大幅降低系统能耗

1.5.专业的高性能计算厂商

从93年的曙光一号到今天的曙光5000，从每秒6.4亿次到每秒230万亿次，曙光一直致力于高性能计算机的研发、生产和销售。

目前曙光每天生产、销售一套集群系统，占据着中国高性能计算机30%以上的市场份额。

在2005～2008年中国TOP100排行榜中，曙光连续四年为列国产第一。

同时曙光拥有一支专业的、以首席工程师为核心的技术服务团队，他们不仅仅能解决硬件、系统问题，同时能为用户提供各个应用领域的应用级服务，包括石油、材料计算、计算化学、分子动力学、有限元计算、流通力学、气象等应用的调试、移植、优化。

2.曙光公司与中国高性能计算

曙光信息产业有限公司成立于1995年6月，是一家在科技部、信息产业部、中科院大力推动下，以国家“863”计划重大科研成果为基础组建的高新技术企业。

它以中科院计算所、国家智能计算机研究开发中心和国家高性能计算机工程中心为技术依托，拥有强大的技术实力。

我国著名计算机专家、中国工程院院士、中科院计算所所长李国杰任董事长。

曙光系列产品的问世，为推动我国高性能计算机的发展做出了不可磨灭的贡献。

胡锦涛总书记在2006年1月全国科技大会上，“点”出了新中国成立以来特别是改革开放以来，我国广大科技人员所取得的７大“标志性”重大科技成就，在７大标志性科技成就中，高性能计算机位列第五。

曙光高性能计算机不仅代表着中国计算机最高水平，也为“‘两弹一星’、载人航天、基因组研究”等其他标志性科技成就做出了重要贡献。

2004年6月，每秒运算11万亿次的超级计算机曙光4000A研制成功，落户上海超算中心，进入全球超级计算机前十名，从而使中国成为继美国和日本之后，第三个能研制10万亿次高性能计算机的国家。

2008年11月，在“中国高性能服务器Top100”排行榜中，曙光更上一层楼，以每秒运算230万亿次曙光5000A雄踞榜首，并再次跻身全球超级计算机前十名，带领中国的高性能运算跨越百万亿次门槛。

曙光高性能计算机连续12年稳居国产高性能计算机市场第一，拥有国产高性能70%以上的份额，并在高性能集群领域实现了国产机对进口产品的超越。

曙光高性能计算机以技术先进、性能卓越、服务优良见长，曾获“国家科技进步一等奖、二等奖”、“中科院科技创新特等奖”、“2001、2003、2004中国十大科技进展”等多项国家级殊荣。

曙光公司以推动高性能计算在中国的发展和应用为己任，为国内的高性能计算用户提供全面的服务，扶植用户的应用，为用户提供全面、定制化的培训，帮助用户把高性能计算机用好，发挥出真正的作用和效益。

3.GPGPU的应用及其产品

GPGPU（GeneralPurposeGPU）是指利用图形卡来进行一般意义上的计算，而不是传统意义上的图形绘制。

时至今日，GPU已发展成为一种高度并行化、多线程、多核的处理器，具有杰出的计算功率和极高的存储器带宽，如图所示。

CPU和GPU的每秒浮点运算次数和存储器带宽

CPU和GPU之间浮点功能之所以存在这样的差异，原因就在于GPU专为计算密集型、高度并行化的计算而设计，上图显示的正是这种情况，因而，GPU的设计能使更多晶体管用于数据处理，而非数据缓存和流控制，如图所示。

GPU中的更多晶体管用于数据处理

更具体地说，GPU专用于解决可表示为数据并行计算的问题——在许多数据元素上并行执行的程序，具有极高的计算密度（数学运算与存储器运算的比率）。

由于所有数据元素都执行相同的程序，因此对精密流控制的要求不高；由于在许多数据元素上运行，且具有较高的计算密度，因而可通过计算隐藏存储器访问延迟，而不必使用较大的数据缓存。

数据并行处理会将数据元素映射到并行处理线程。

许多处理大型数据集的应用程序都可使用数据并行编程模型来加速计算。

在3D渲染中，大量的像素和顶点集将映射到并行线程。

类似地，图像和媒体处理应用程序（如渲染图像的后期处理、视频编码和解码、图像缩放、立体视觉和模式识别等）可将图像块和像素映射到并行处理线程。

实际上，在图像渲染和处理领域之外的许多算法也都是通过数据并行处理加速的——从普通信号处理或物理仿真一直到数理金融或数理生物学。

在上述领域，GPGPU已经获得了成功的应用，并取得了令人难以置信的加速效果。

GPU的应用加速效果

GPGPU得到了业界的广泛支持，NVIDIA、AMD、INTEL等都对芯片市场的微妙变化和GPGPU的技术发展前景都极为关注，并展开了激烈的技术竞赛。

NVIDIA最早提出了GPGPU概念。

2007年2月，NVIDIA正式发布了CUDA架构（ComputeUnifiedDeviceArchitecture统一计算设备架构），这也是NVIDIA确定的GPGPU产品的正式名称。

CUDA是GPGPU产品的一个新的基础架构，一个完整的GPGPU解决方案，它采用C语言作为编程语言提供大量的高性能计算指令开发能力，使开发者能够在GPU的强大计算能力的基础上建立起一种效率更高的密集数据计算解决方案；它提供了硬件的直接访问接口，而不必像传统方式一样必须依赖图形API接口来实现GPU的访问。

CUDA是世界上第一个针对GPU的C语言开发环境的GPGPU产品，其工具集的核心是一个C语言编译器，利用它可以最大限度地提升流处理单元浮点运算能力。

CUDA架构的成功尝试，为业界GPGPU的研发提供了宝贵的借鉴。

早在2006年收购ATI之初，AMD就做出了一个重大举动，这就是它所发布的GPGPU“StreamProcessor”（流处理器），率先将GPGPU技术引入普通应用阶段。

AMD也提出了以Fusion为研发代号的硅芯片整合计划。

Fusion提供基于融合处理器的GPGPU平台融合，二个Fusion处理器一起连接可以达到并行GPU的关系，更适合CPU的代码将在Fusion处理器当中的CPU部分被执行，而更适合GPU的代码也将在Fusion处理器的GPU部分被执行。

作为全球最大的CPU供应商，Intel早已经敏锐地意识到，GPU通用计算将给PC带来革命性的变化。

Intel采取了与NVIDIA以GPU为核心的截然不同的研发理念，将GPGPU纳入了CPU的发展轨道。

业界普遍对Intel首款Larrabee芯片充满了期待。

Larrabee在硬件设计上，采用微内核设计，内核逻辑采用顺序执行结构（InOrder），可同时执行4个线程。

在指令体系上，Larrabee最大的优点就是与IA架构（X86）处理器的互换性，它使用经过调整

展开阅读全文