华工综合的高性能复习题考试复习用.docx

上传人:b****1 文档编号:2442199 上传时间:2022-10-29 格式:DOCX 页数:23 大小:715.25KB
下载 相关 举报
华工综合的高性能复习题考试复习用.docx_第1页
第1页 / 共23页
华工综合的高性能复习题考试复习用.docx_第2页
第2页 / 共23页
华工综合的高性能复习题考试复习用.docx_第3页
第3页 / 共23页
华工综合的高性能复习题考试复习用.docx_第4页
第4页 / 共23页
华工综合的高性能复习题考试复习用.docx_第5页
第5页 / 共23页
点击查看更多>>
下载资源
资源描述

华工综合的高性能复习题考试复习用.docx

《华工综合的高性能复习题考试复习用.docx》由会员分享,可在线阅读,更多相关《华工综合的高性能复习题考试复习用.docx(23页珍藏版)》请在冰豆网上搜索。

华工综合的高性能复习题考试复习用.docx

华工综合的高性能复习题考试复习用

 

华工综合的高性能复习题

 

2008年11月

1.解释以下基本概念

􀁺HPC,HPCC,Distributedcomputing,Metacomputing,Gridcomputing

􀁺MIMD,SIMD,SISD

􀁺PVP,SMP,MPP,DSM,Cluster,Constellation

􀁺UMA,NUMA,CC_NUMA,CORMA,NORMA

HPC:

高性能计算是计算机科学的一个分支,研究并行算法和开发相关软件,致力于开发高性能计算机(HighPerformanceComputer)。

计算密集型(Compute-Intensive)应用

数据密集型(Data-Intensive)应用

网络密集型(Network-Intensive)应用

HPCC:

高性能计算和通信(High-PerformanceComputingand

Communications:

HPCC)

􀂾分布式高性能计算、高速网络和Internet的使用

分布式计算(DistributedComputing)

􀂾更着重于功能而不是性能的增加

网格计算(GridComputing)

􀂾分布式高性能计算(Distributed,HighPerformanceComputing:

DHPC),或称元计算(Metacomputing)

单指令单数据流:

SISD普及程度:

MIMD>SIMD>MISD

单指令多数据流:

SIMD

多指令单数据流:

MISD

多指令多数据流:

MIMD

⏹对称多处理(共享存储并行)机(SMP:

SymmetricMultiProcessing);

⏹分布共享存储多处理机(DSM:

DistributedSharedMemory);

⏹大规模并行机(MPP:

MassivelyParallelProcessors);

⏹工作站(微机)机群(COW:

ClusterOfWorkstation、BeowulfPC-Cluster);

⏹并行向量多处理机(PVP:

ParallelVectorProcessors)

均匀访存模型(UMA:

UniformMemoryAccess)

非均匀访存模型(NUMA:

NonuniformMemoryAccess)

Cache一致性非均匀访存模型(CC-NUMA:

Coherent-CacheNonuniformMemoryAccess)

分布式访存模型(DMA:

DistributedMemoryAccess)

 

2.试比较PVP、SMP、MPP、DSM和Cluster并行机结构的不同点,以典型系统举例说明。

SMP:

对称多处理器,共享存储,高速缓存一致性,低通信延迟,不可扩放性

SSMP:

可扩放共享存储多处理机,共享存储,扩放性好

CC-NUMA:

非均匀存储访问,高速缓存一致性,扩放性好

MPP:

大规模处理器数,分布存储,使用物理分布的存储器和I/O,扩放性好

DSM:

存储器物理分布,通过目录实现共享存储

3.列出常用静态和动态网络的主要参数(节点度、直径、对剖带宽和链路数)以及复杂度、

网络性能、扩展性和容错性等。

常用的标准互联网络有哪些?

并行机规模:

并行机包含的结点总数,或者包含的CPU总数;

结点度:

互联网络拓扑结构中联入或联出的一个结点的边的条数,称为该结点的度;

结点距离:

两个结点之间跨越的图的边的条数;

网络直径:

网络中任意两个结点之间的最长距离;

点对点带宽:

图中边对应的物理联接的物理带宽;

点对点延迟:

图中任意两个结点之间的一次零长度消息传递必须花费的时间。

延迟与结点间距离相关,其中所有结点之间的最小延迟称为网络的最小延迟,所有结点之间的最大延迟称为网络的最大延迟;

折半宽度:

对分网络成两个部分(它们的结点个数至多相差1)所必须去掉的边的网络带宽的总和;

总通信带宽:

所有边的带宽之和

快速以太网、FDDI、Switcher、ATM、Myrinet、nfiniband、Qudrics、HiPPI

 

4.比较UMA、NUMA(CC-NUMA、COMA、NCC-NUMA)和NORMA存储器体系结构

的主要特征,并以典型系统来说明其优缺点。

UMA(UniformMemoryAccess)模型是均匀存储访问模型的简称。

其特点是:

物理存储器被所有处理器均匀共享;

所有处理器访问任何存储字取相同的时间;

每台处理器可带私有高速缓存;

外围设备也可以一定形式共享。

NUMA(NonuniformMemoryAccess)模型是非均匀存储访问模型的简称。

特点是:

被共享的存储器在物理上是分布在所有的处理器中的,其所有本地存储器的集合就组成了全局地址空间;

处理器访问存储器的时间是不一样的;访问本地存储器LM或群内共享存储器CSM较快,而访问外地的存储器或全局共享存储器GSM较慢(此即非均匀存储访问名称的由来);

每台处理器照例可带私有高速缓存,外设也可以某种形式共享

COMA(Cache-OnlyMemoryAccess)模型是全高速缓存存储访问的简称。

其特点是:

各处理器节点中没有存储层次结构,全部高速缓存组成了全局地址空间;

利用分布的高速缓存目录D进行远程高速缓存的访问;

COMA中的高速缓存容量一般都大于2级高速缓存容量;

使用COMA时,数据开始时可任意分配,因为在运行时它最终会被迁移到要用到它们的地方。

CC-NUMA(Coherent-CacheNonuniformMemoryAccess)模型是高速缓存一致性非均匀存储访问模型的简称。

其特点是:

大多数使用基于目录的高速缓存一致性协议;

保留SMP结构易于编程的优点,也改善常规SMP的可扩放性;

CC-NUMA实际上是一个分布共享存储的DSM多处理机系统;

它最显著的优点是程序员无需明确地在节点上分配数据,系统的硬件和软件开始时自动在各节点分配数据,在运行期间,高速缓存一致性硬件会自动地将数据迁移至要用到它的地方。

NORMA(No-RemoteMemoryAccess)模型是非远程存储访问模型的简称。

NORMA的特点是:

所有存储器是私有的;

绝大数NUMA都不支持远程存储器的访问;

在DSM中,NORMA就消失了。

 

5.比较并行计算模型PRAM、BSP和logP。

评述它们的差别、相对优点以及在模型化真

实并行计算机和应用时的局限性。

PRAM模型由Fortune和Wyllie1978年提出,又称SIMD-SM模型。

有一个集中的共享存储器和一个指令控制器,通过SM的R/W交换数据,隐式同步计算

优点:

适合并行算法表示和复杂性分析,易于使用,隐藏了并行机的通讯、同步等细节。

缺点:

不适合MIMD并行机,忽略了SM的竞争、通讯延迟等因素

BSP模型

由Valiant(1990)提出的,“块”同步模型,是一种异步MIMD-DM模型,支持消息传递系统,块内异步并行,块间显式同步。

p:

处理器数(带有存储器)

l:

同步障时间(Barriersynchronizationtime)

g:

带宽因子(timesteps/packet)=1/bandwidth

▪计算过程

由若干超级步组成,

每个超级步计算模式为左图

优缺点

强调了计算和通讯的分离,

提供了一个编程环境,易于

程序复杂性分析。

但需要显

式同步机制,限制至多h条

消息的传递等。

logP模型

由Culler(1993)年提出的,是一种分布存储的、点到点通讯的多处理机模型,其中通讯由一组参数描述,实行隐式同步。

模型参数

L:

networklatency

o:

communicationoverhead

g:

gap=1/bandwidth

P:

#processors

注:

L和g反映了通讯网络的容量

优缺点

捕捉了MPC的通讯瓶颈,隐藏了并行机的网络拓扑、路由、协议,可以应用到共享存储、消息传递、数据并行的编程模型中;但难以进行算法描述、设计和分析。

BSPvs.LogP

BSPLogP:

BSP块同步BSP子集同步BSP进程对同步=LogP

BSP可以常数因子模拟LogP,LogP可以对数因子模拟BSP

BSP=LogP+Barriers-Overhead

BSP提供了更方便的程设环境,LogP更好地利用了机器资源

BSP似乎更简单、方便和符合结构化编程

 

6.比较在PRAM模型和BSP模型上,计算两个N阶向量内积的算法及其复杂度。

设两个向量分别为A和B

PRAM:

Step1:

每个处理器处理A的N/P个数值和B的N/P个数值,共N/P次乘法和N/P次加法

Setp2:

按照树递归方法计算局部和,共logP

BSP:

2n/P+logP*g+logP*l+logP

7.什么是加速比(speedup)、并行效率(efficiency)和可扩展性(scalability)?

如何描

述在不同约束下的加速比?

约束条件:

8.如何进行并行计算机性能评测?

什么是基准测试程序?

P95

基准测试程序(Benchmark)用于测试和预测计算机系统的性能,揭示不同结构机器的长处和短处,为用户决定购买或使用那种机器最合适他们的应用要求提供决策。

/////////////////////////////////////////

9.什么是可扩放性测量标准?

等效率函数的涵义是什么?

什么是可扩放性测量标准:

等效率测度(ffiii)•EfficiencyMetrics)

􀂾效率:

加速比/处理器数

􀂾简单情况下能得分析结果

•等速度测度(SpeedMetrics)

􀂾速度:

每秒处理的数据量

􀂾便于通过实验数据得到结果

•平均时延测度(LatencyMetrics)

􀂾时延:

理想并行时间与实际并行时间的差距

􀂾便于通过实验数据得到结果

等效率函数的涵义:

如果问题规模W保持不变,处理器数p增加,开销To增大,效率E下降。

为了维持一定的效率(介于0与1之间),当处理数p增大时,需要相应地增大问题规模W的值由此定义函数fE(P)为问题规模W随处理器数变化。

fE(p)p的函数,为等效率函数。

10.什么是分治策略的基本思想?

举例说明如何应用平衡树方法、倍增技术、和流水线技术。

并行算法的基本设计技术

•平衡树方法

•倍增技术

•分治策略

•划分原理

•流水线技术

什么是分治策略的基本思想:

将原问题划分成若干个相同的子问题分而治之,若子问题仍然较大,则可以反复递归应用分

治策略处理这些子问题,直至子问题易求解。

举例说明如何应用平衡树方法:

设计思想

树叶结点为输入,中间结点为处理结点,由叶向根或由根向叶逐层并行处理。

•示例P149

求最大值

计算前缀和

举例说明如何应用倍增技术:

设计思想

又称指针跳跃(pointerjumping)技术,特别适合于处理链表或有向树之类的数据结构;

当递归调用时,所要处理数据之间的距离逐步加倍,经过k步后即可完成距离为2k的所有数据的计算。

示例

表序问题P152运行时间:

t(n)=O(logn)p(n)=n(算法610)p(n)是处理器数目

求森林的根P153运行时间:

t(n)=O(logn)(算法611)

举例说明如何应用流水线技术:

设计思想

将算法流程划分成p个前后衔接的任务片断,每

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 面试

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1