《高性能计算技术》重点及复习题.docx-资源下载

《高性能计算技术》重点及复习题.docx

1、高性能计算技术重点及复习题高性能计算技术复习题题型：单项选择10题，每题3分，共30分综合题（问答、写代码，分析计算等）共 6题，共70分。考试时间：2小时1.解释以下基本概念HPC, HPCC, Distributed comput ing, Meta computi ng. Grid comput ingMIMD, SIMD, SISDPVR SMR MPP, DSM, Cluster, Co nstellationUMA, NUMA, CC_NUMA, CORMA, NORMAHPC: High Performanee Computing高性能计算，即并行计算。在并行计算机或分布式计算机

2、等高性能计算系统上所做的超级计算。HPCC High Performanee Computing and Communication 高性能计算与通信。指分布式高性能计算、高速网络和In ternet的使用。Distributed computing：分布式计算。在局域网环境下进行的计算。比起性能来说，它更注重附加功能。一个计算任务由多台计算机共同完成，由传统的人和软件之间的交互变成软件和软件之间的数据交互。Meta computing:元计算技术是将一组通过广域网连接起来的性质不同的计算资源集合起来，作为一个单独的计算环境向用户提供计算服务。一个良好的元计算系统主要由三个部分组成：

3、一是尽量简单而又可靠的使用界面；二是资源管理系统；三是良好的编程模型和高效可靠的运行时环境。元计算是网格计算的初级形态。Grid computing：网格计算。利用互联网把分散在不同地理位置的电脑组织撑一个虚拟的超级计算机”，其中每一台参与计算的计算机就是一个“节点”，而整个计算是由成千上万个“节点”组成的“一张网格”。MIMD :多指令多数据流。每台处理机执行自己的指令，操作数也是各取各的。ISISMIMD arch it vet hit with shared memorySIMD :单指令多数据流。所有“活动的”处理器在同一时刻执行同一条指令对多个数据流进行操作。PE : Pro

4、cessing Element LM : Local MemoryProgram lomled ftLnjii hostSIX ID architecture with distributed memorvSISD单指令单数据流。传统的串行处理机。 CPU执行单一的指令流对单一的数据流进行操作。IS : Tnstruclion Stream lS : l)At Stream CU : Conlrnl I nit FU : Processing lrnitMU : Mcmorjr CtiitIS八” IS “ DS I Is y - Pl MUPVP:并行向量处理机。系统中包含为数不多的高性能特

5、制的向量处理器，使用专门设计的高带宽交叉开关网络将向量处理器连向共享存储模块。通常不使用高速缓存，而使用大量的向量寄存器和指令缓冲器。VP : Vector Processor SM : Shared MemorvFSMP:对称多处理机。节点包含两个或两个以上完全相同的处理器，在处理上没有主 /从之分。每个处理器对节点计算资源享有同等访问权。 SMP系统使用商品微处理器（具有片上或外置高速缓存），它们经由高速总线或交叉开关连向共享存储器。P/C : Microprocessor and CacheMPP :大规模并行处理机。节点传统上是由单CPU少量的内存、部分I/O、节点间的互联以及每个

6、节点的操作系统的一个实例组成。节点间的互联 (以及驻留于各节点的操作系统实例)不需要硬件一致性，因为每个节点拥有其自己的操作系统以及自己唯一的物理内存地址空间。因而，一致性是在软件中通过消息传送” (message pass ing)实现的。具有以下特性：1处理节点采用商品微处理器； 2系统中有物理上的分布存储器；3采用高带宽低延迟的互连网络； 4.能扩放到上千至上万个处理器； 5异步的MIMD机器，进程间采用传递消息相互作用。DSM:分布共享存储多处理机。在物理上有分布在各节点的局部存储器，从而形成一个共享的存储器。对用户而言，系统硬件和软件提供了一个单地址的编程空间。MB : Bus

7、 iIC : Netwoik Interface CircuitryDIR : irecloiTyCluster：集群。系统中的每个节点拥有小于 16个处理器。Cluster是一种并行或分布式处理系统，由一系列通过网络互连的互相协同工作的单机组成，形成单一、整合的计算资源。Constellation：系统中的每个节点拥有大于或等于 16个处理器。IOC : L O ControllerUMA: Uniform Memory Access.均匀存储访问模型。特点： 1物理存储器被所有处理器均匀共享，所有处理器访问任何存储单元花费相同的时间； 2每台处理器可带私有高速缓存； 3.外围设备也可以一

8、定形式共享。NUMA : No nun iform Memory Access.非均匀存储访问模型。特点： 1.被共享的存储器在物理上是分布在所有的处理器中的，组成全局地址空间； 2.处理器访问存储器的时间是不同的，访问本地存储器或群内共享存储器较快，访问外地存储器或全局存储器较慢；3每台处理器可带私有高速缓存，外设可以某种形式共享。COMA： Cache-0nly Memory Access.全高速缓存存储访问。是 NUMA的一种特例。特点： 1. 各处理器节点中没有存储层次结构，全部高速缓存组成了全局地址空间； 2利用分布的高速缓存目录进行远程高速缓存的访问； 3高速缓存容量一般大于2级

9、高速缓存容量；4使用COMA时，数据开始可以任意分配，因为在运行时它最终会被迁移到要用到的它的地方。PE PE PECC_NUMA： Cohere nt-Cache No nun iform Memory Access.高速缓存一致性非均匀存储访问模型。实际上是将一些SMP机器作为一个单节点而彼此连接起来所形成的一个较大的系统。特点：1.使用基于目录的高速缓存一致性协议； 2.保留SMP结构易于编程的优点，改善了常规 SMP的可扩放性问题；3.实际上是一个分布共享存储的 DSM多处理机系统；4.最显著的优点是程序员无需明确地在节点上分配数据，在运行时高速缓存一致性硬件会自动地将数据迁移到

10、要用到的它的地方。NORMA： No-Remote Memory Access.非远程存储访问模型。分布存储的多计算机系统，所有的存储器都是私有的，仅能由其处理器访问。绝大多数NORMA不支持远程存储器访问。表1.6汇总了上述5种结构的特性比较属性PVPSMPMPPDSMCOW结构类型MIMDMIMDMIMDMIMDMIMD处理器类型专用定制商用商用商川商用11连网络定制交叉开关总线、交叉开关定制网络定制网络商用网络(以太AT適信机制共享变曲共享变哥消息传递共享变戢消息传述地址空间单地址空间单地址空间寥地址空间单地址空间秦地址空间集中共享集中共嗥分布卄共亨：分布共乡分布非共乎访存棋型UM

11、AUN1ANORA1ANUMANORMA代表机器Cray C-90hCray T-POj 银河1号IBM R50 , SGI PoweiChallenge*曙光号hirelParagon+IBMSP2 1 曙葩 1000/2000StanfordDASH, Cray T3DBerkeleyNOW* AlphaFiinn表哎冲蛤拘特世-览展3.列出常用静态和动态网络的主要参数 (节点度、直径、对剖带宽和链路数)以及复杂度、网络性能、扩展性和容错性等。常用的标准互联网络有哪些？答：静态网络(Static Networks)是指处理单元间有着固定连接的一类网络，在程序执行期间，这种点到点的链接保持

12、不变；动态网络(Dynamic Networks )是用交换开关构成的，可按应用程序的要求动态地改变连接组态。典型的静态网络有一维线性阵列、二维网孔、树连接、超立方网络、立方环、洗牌交换网、蝶形网络等；典型的动态网络包括总线、交叉开关和多级互连网络等。阿络名称节点恿网络门旳对剖宽度对称线性甌列N亍肯点2N -11lkN 1N亍TJ点2_N/2訣2足V2-D网仇（阿共屈）节点42(7-1)4nlh工一加、Illiac网孔| - J 4-1|:2N2-D环绕（阿”丙）个节点4/2足2N二叉树N个节点321鑒？-1）1非W-1N个盯点N-120/2非N_超立方N = 2n节点71HN/2是iiN/

13、2力环N = 42*节点32fc-l+t/2 JN/(2k)是3N/22.1満态“连网络特件範&下面我们比较在可扩展计算机平台或计算机机群系统中为了实现系统动态互连，系统总线、多级网络和交叉开关的硬件需求和潜在的性能。网络特性总线系统事纵互连网络交叉开关哽件复杂度0(n+w)0(卉 log 不 n)w)0(u2w)每个处理器带宽9( u/ %)O(时)W)。(0)报道的聚集带宽SunF i r总服务器屮的Gigaplane 总孑戈:2. 67GB/sIBM SP2中的12节点的 HPS： 10, 24GB/sDigital的T兆开关：3, 4GB/s农2.2动态互连网络的夏乂度和帯宽性能

14、珈Nctwa rksDelayCostBlockingExampleBus()0(0YesSunFirc plane Bus: 2.67G li/nMINsO(logN)O(NlogMYesIBMSP2:10.24GB/SCiTiissbar0(1)O(N2)NoDigital GigaSwitch： 3,4G It/s代别类型以太网lOBaseT快速以太网100BaseT千兆位以太网1GB引入年代198219941997速度（带宽）10Mb/s100Mb/s1Gb/s最大距离UTR （非屏蔽双扭对）100m100m25 100mSTP （屏蔽双扭对）同轴电缆500m100m25

15、100m多模光纤2Km412m （半双工）2Km （全双工）500m单模光纤25Km20Km3Km主要应用领域文件共享，打印机共享COW计算， C/S结构，大型数据库存取等大型图像文件，多媒体，因特网，内部网，数据仓库等常用的标准互联网络有：FDDI:光纤分布式数据结构采用双向光纤令牌环可提供 100200Mb/s数据传输。双向环可提供冗余通路，以提高可靠性。缺点是不能支持多媒体信息流。其他还有快速以太网， Myrinet，HiPPI高性能并行接口），ATM （异步传输模式），ScalableCohere nt In terface （SCI）， Quadrics In terco

16、 nn ect （QsNet）， Infin iBa nd4 比较并行计算模型 PRAM、BSP和logP。评述它们的差别、相对优点以及在模型化真实并行计算机和应用时的局限性。1）PRAM模型：并行随机存取机器，也可称为共享存储的 SIMD模型。特点：假定存在着一个容量无限大的共享存储器，有有限或无限个功能相同的处理器，且均有简单的算术运算和逻辑判断功能。在任何时刻各处理器均可通过共享存储单元相互交换数据。优点：特别适合于并行算法的表达、分析和比较；使用简单，很多诸如进程间通信、存储管理和进程同步等并行机的低级细节均隐含于模型中；易于设计和稍加修改便可运行在不同的并行机上；且有可能在

17、 PRAM模型中加入一些诸如同步和通信等需要考虑的问题。缺点：PRAM是一个同步模型，这意味着所有指令均按锁步方式操作；用户虽感觉不到同步的存在，但它的确是很费时的；共享单一存储器的假定，显然不适合分布存储的异步的MIMD机器；假定每个处理器均可在单位时间内访问任何存储单元而略去存取竞争和有限带宽等是不现实的。2）BSP模型：“大”同步模型，是个分布存储的 MIMD计算模型。特点：BSR各处理器和选路器分开，强调了计算任务和通信任务的分开，而选路器仅施行点到点的消息传递，不提供组合、复制或广播等功能，这样做既掩盖了具体的互联网拓扑，又简化了通信协议；采用路障方式的以硬件实现的全局同

18、步是在可控的粗粒度级，从而提供了执行紧耦合同步式并行算法的有效方式，而程序员无过分的负担；为 PRAM模型所设计的算法均可采用在每个BSP处理器上模拟一些PRAM处理器的方法实现之。优点在软件和硬件之间架起一座类似于冯偌依曼的桥梁；如果计算和通信可合适的平衡，则可克服分布 MIMI模型编程能力较差的特点；实现了一些重要的算法，且均避免了自动存储管理的额外开销；可有效地在超立方网络和光交叉开关互利技术上实现，与特定的工艺技术无关，只要选路器有一定的通信吞吐率。缺点在BSP莫型中，要求超级步的长度必须能充分地适应任意的 h-relation ；超级步发送的消息最快也要在下一个超级步才可以使

19、用；BSP模型中的全局路障同步假定是用特殊的硬件支持，在很多并行机中可能没有相应的现成的硬件机构。3）logP模型：是一种分布存储的，点到点通信的多处理机模型。特点logP模型是一种分布存储的、点到点通信的多处理机模型，其中通信网络由一组参数来描述，但它不涉及具体网络结构，也不假定算法一定要用显式的消息传递操作进行描述（实现隐式同步）。优点logP模型将现代和将来的并行机的特性进行了精确的综合，以少量的参数 L、0、g和p刻画了并行机的主要瓶颈；无须说明编程风格或通信协议，可以等同地用于共享存储、消息传递和数据并行等各种风范；logP模型的可用性已得到多个算法的证实；logP模型是B

20、SP模型的细化，也可以转换为 PRAMI型；打开了研究模型的新途径，为设计并行机体系结构提供了指导性意见。缺点（难以进行算法描述、设计和分析）BSP和 logP相互比较：1.现今最流行的并行计算模型是 BSF和logP，已经证明两者本质上是等效的，且可以互相模拟； 2. BSP为算法和程序提供了更多的方便，而 logP却提供了较好的机器资源的控制；3. BSP所引起的精确度方面的损失比起其所提供的更结构化的编程风格的优点来是小的；4. BSP模型在简明性、性能的可预测性、可移植性和结构化可编程性等方面更受人欢迎和喜爱。LogP和 PRAIMI型是并行计算模型的两个极端 .BSP模型可

21、以看成是上述两个模型的折衷相比之下丄ogP模型过于复杂，缺乏有效的分析和性能预测的模型，而PRAI则过于简单，无法真实地描述物理机器。BSP模型较好地综合了其它两个模型优点，在面向物理机器实现方面优于PRAMI型，而和LogP模型相比，又更加便于进行算法设计和性能预测。4.比较在PRAM模型和BSP模型上，计算两个 N阶向量内积的算法及其复杂度PRAM模型求两个N维向量A,B的内积s (s=Ea*b)串行：N个乘法,N-1个加法共需2N个周期PRAM机(n个处理器):每个处理器p完成N/n个乘法，N/n-1个加法，共2N/n个周期，然后采用树归约方法将 n个局部和相加-log n周期，共需

22、要 2N/n+log n个周期加速度:2N/(2N/n+log n) n (Nn)BSP模型求两个N维向量A,B的内积s (s=Ea*b)假设8个处理器超步1:计算:每个处理器在 w=2N/8周期内计算局部和通讯:处理器0,2,4,6将局部和送给1,3,5,7路障同步超步2:计算:处理器1,3,5,7各自完成一次加法(w=1)通讯:1,5将中间结果送给3,7路障同步超步3:计算:处理器3,7各自完成一次加法(w=1)通讯:3将中间结果送给7路障同步超步4:计算:处理器7完成一次加法(w=1),产生最后结果总执行时间:2N/8+3g+3l+3个周期在n个处理器的BSP机上需2N/n+logn(g

23、+l+1)个周期，比 PRAM 多了 (g+l)*log n,其分别对应于通讯和同步的开销5.什么是加速比(speed up)、并行效率(efficiency)和可扩展性(scalability) ?如何描述在不同约束下的加速比？答：粒度：是各个处理机可独立并行执行的任务大小的度量大粒度反映可并行执行的运算量大，亦称为粗粒度指令级并行等则是小粒度并行，亦称为细粒度加速比：串行执行时间为 Ts，使用q个处理机并行执行的时间为 Tp (q),则加速比为 Sp(q)=Ts/Tp(q)简单的说，并行系统的加速比是指对于一个给定的应用，并行算法(或并行程序)的执行速度相对于串行算法(或串行程序)的

24、执行速度快了多少倍。效率：设q个处理机的加速比为 Sp (q)，则并行算法的效率 Ep (q) = Sp (q) /q。反映了并行系统中处理器的利用程度可扩放性：其最简朴的含义是在确定的应用背景下，计算机系统 (或算法或编程等)性能随处理器数的增加而按比例提高的能力。在不同的约束条件下的加速比产生了三个重要的加速比性能定律：Amdahl 定律：约束条件：1,对于很多科学计算，实时性要求很高，即在此类应用中时间是个关键因素，而计算负载是固定不变的。为此在一定计算负载下，达到实时性可利用增加处理器数来提高计算速度。2,因为固定的计算负载是可分布在多个处理器上的，这样增加了处理器就加快了执行速度

25、，从而达到了加速的目的。Ws WpS -s ;不带通信开销的计算公式Ws Wp / p带通信开销的计算公式-x -p-pWs p WopGustafson定律：1,对于很多大型计算，精度要求很高，即此类应用中精度是个关键因素，而计算时间是固定不变的。此时为了提高精度，必须加大计算量，相应的亦必须增多处理器数目才能维持计算时间不变。 2，除非学术研究，在实际应用中没有必要固定工作负载而使计算程序运行在不同数目的处理器上，增多处理器必须相应增大问题的规模才有实际意义。考虑额外开销）Sun Ni定律：只要存储空间许可，应尽量增大问题的规模以产生更好的或更精确的解（此时可能使执行时间略有增加

26、）。S、（1 f）G（p）W f（1 f）G（p）（不考虑额外开销）fW+（1f）G（p）W/p f +（1 f）G（p）/ps， fW （f）G（p）W f （1-f）G（p）（考虑额外开销）fW +（1 f）G（p）W/p+Wo f +（1 f）G（p）/p+Wo/W6.如何进行并行计算机性能评测？什么是基准测试程序？什么是可扩放性测量标准？如何进行并行计算机性能评测：（没有如何进行并行计算性能评测）。基准测试程序用于测试和预测计算机系统的性能，揭示了不同结构机器的长处和短处，为用户决定购买和使用哪种机器最适合他们的应用要求提供决策。可扩放性测量标准：是在确定的应用背景下，计算机

27、系统性能虽处理器数的增加而按比例提高的能力。7.并行算法设计的一般过程 PCAM是指什么？各个步骤中的主要判据是什么？PCAM 是 Partitio ning （划分）、Com mun icatio n （通信）、Agglomeratio n （组合）和 Mapp in （映射）首字母的拼写，它们代表了使用此法设计并行算法的四个阶段。上述各阶段简述如下：划分：将整个计算分解成小的任务，其目的是尽量开拓并发执行的机会；通信：确定诸任务执行中所需交换的数据和协调诸任务的执行，由此可检测上述划分的合理性。组合：按性能要求和实现的代价来考察前两阶段的结果，必要时可将一些小的任务组合成更大的任

28、务以提高性能或减少通信开销。映射：将每个任务分配到一个处理器上，其目的是最小化全局执行时间和通信成本以及最大化处理器的利用率。划分判据：(1)你所划分的任务数，是否至少高于目标机上处理器数目的一个量级？如果不是，则你在后继的设计步骤中将缺少灵活性。(2)你的划分是否避免了冗余的计算和存储要求，如果不是，则所产生的算法对大型问题可能是不可扩放的。(3) 诸划分的任务是否尺寸大致相当，如果不是，则分配处理器时很难做到工作量均衡。(4)戈U分的任务数是否与问题尺寸成比例？理想情况下，问题尺寸的增加应引起任务数的增加而不是任务尺寸的增加。如果不是这样，则你的算法可能不能求解更大的问题，尽管

29、有更多的处理器。(5)确认你是否采用了几种不同的划分法，多考虑几种选择可提高灵活性，同时要考虑域分解又要考虑功能分解。通讯判据：(1)所有任务是否均执行同样多的通信？如果不是，则所设计的算法的可扩展性可能是不好的。(2)每个任务是否只与少许的近邻相通信？如果不是，则可能导致全局通信，在此情况下，应设法将全局通信结构化为局部通信结构。(3)诸通信操作是否能并行执行？如果不是，则所设计的算法很可能是低效的和不可扩放的，在此情况下，设法试用分治技术来开发并行性。(4)不同任务的计算能否并性执行？如果不是，则所设计的算法很可能是低效的和不可扩放的，在此情况下，可考虑重新安排通信 /计算之次序等来改善之。组合判定：(1)用增加局部性方法施行组合是否减少了通信成本？如果不是，检查能否由别的组合策略来达到(2)如果组合已造成重复计算，是否已权衡了其权益。(3)如果组合已重复了数据，是否已证实这不会因限制问题尺寸和处理器数的变化范围而牺牲了可扩放性？(4)由组合所产生的任务是否有类似的计算和通信代价。(5)任务数目是否仍然与问题尺寸成比例？如果不是，算法则不是

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？