并行体系结构课后答案.docx

上传人:b****2 文档编号:2049391 上传时间:2022-10-26 格式:DOCX 页数:48 大小:39.01KB
下载 相关 举报
并行体系结构课后答案.docx_第1页
第1页 / 共48页
并行体系结构课后答案.docx_第2页
第2页 / 共48页
并行体系结构课后答案.docx_第3页
第3页 / 共48页
并行体系结构课后答案.docx_第4页
第4页 / 共48页
并行体系结构课后答案.docx_第5页
第5页 / 共48页
点击查看更多>>
下载资源
资源描述

并行体系结构课后答案.docx

《并行体系结构课后答案.docx》由会员分享,可在线阅读,更多相关《并行体系结构课后答案.docx(48页珍藏版)》请在冰豆网上搜索。

并行体系结构课后答案.docx

并行体系结构课后答案

 

习题设计

 

计划

 

1.指导思想

 

要求学生理解高端并行计算机系统设计技术,高端MPP、DSM、

 

CLUSTER等大规模并行计算机的关键设计理论和实现技术,包括互连网络技术、存储架构和高可用技术等。

为此,必须用适量的作业、习题,启发学生独立思考以及熟练掌握一些基础知识和基本技能。

 

2.作业安排

 

本教材每一章都附有大量的习题,根据教学进度和学时,合理选择书上习题,以达到进一步加深理解课堂讲授的内容。

每一章讲授结束,收一次作业,给出成绩,并作一次集体答疑,讲解作业中的共性问题。

作业成绩记入总成绩内。

 

第一章绪论

 

什么是并行计算机

 

答:

简单地讲,并行计算机就是由多个处理单元组成的计算机系统,这些处理单元相互通信

 

和协作,能快速高效求解大型的复杂的问题。

 

简述Flynn分类法:

 

答:

根据指令流和数据流的多重性将计算机分为:

 

1)单指令单数据流SISD

 

2)单指令多数据流SIMD

 

3)多指令单数据流MISD

 

4)多指令多数据流MIMD

 

简述当代的并行机系统

 

答:

当代并行机系统主要有:

 

1)并行向量机(PVP)

 

2)对称多处理机(SMP)

 

3)大规模并行处理机(MPP)

 

4)分布式共享存储(DSM)处理机

 

5)工作站机群(COW)

 

为什么需要并行计算机

 

答:

1)加快计算速度

 

2)提高计算精度

 

3)满足快速时效要求

 

4)进行无法替代的模拟计算

 

简述处理器并行度的发展趋势

 

答:

1)位级并行

 

2)指令级并行

 

3)线程级并行

 

简述SIMD阵列机的特点

 

答:

1)它是使用资源重复的方法来开拓计算问题空间的并行性。

 

2)所有的处理单元(PE)必须是同步的。

 

3)阵列机的研究必须与并行算法紧密结合,这样才能提高效率。

 

4)阵列机是一种专用的计算机,用于处理一些专门的问题。

 

简述多计算机系统的演变

 

答:

分为三个阶段:

 

1)1983-1987

年为第一代,代表机器有:

Ipsc/1、Ameteks/14

等。

2)1988-1992

年为第二代,代表机器有:

Paragon、Inteldelta

等。

3)1993-1997

年为第三代,代表机器有:

MIT的J-machine。

 

简述并行计算机的访存模型

 

答:

1)均匀存储访问模型(UMA)

 

2)非均匀存储访问模型(NUMA)

 

3)全高速缓存存储访问模型(COMA)

 

4)高速缓存一致性非均匀访问模型(CC-NUMA)

 

简述均匀存储访问模型的特点

 

答:

1)物理存储器被所有处理器均匀共享。

 

2)所有处理器访问任何存储字的时间相同。

 

3)每台处理器可带私有高速缓存。

 

4)外围设备也可以一定的形式共享。

 

简述非均匀存储访问模型的特点

 

答:

1)被共享的存储器在物理上分布在所有的处理器中,其所有的本地存储器的集合构成

 

了全局的地址空间。

 

2)处理器访问存储器的时间不一样。

 

3)每台处理器可带私有高速缓存,外备也可以某种的形式共享。

 

第二章性能评测

 

使用40MHZ主频的标量处理器执行一个典型测试程序,其所执行的指令数及所需的周期数

 

如表所示。

试计算执行该程序的有效CPI、MIPS速率及总的CPU执行时间。

 

解:

CPI=totalcycles/totalinstructions

 

=(45000*1+32000*2+15000*2+8000*2)/(45000+32000+15000+8000)

 

=

 

MIPS=时钟频率/(CPI*106)=(40*106)/*106)=

 

CPU执行时间=totalcycles/时钟频率=

 

欲在40MHZ主频的标量处理器上执行20万条目标代码指令程序。

假定该程序中含有4种主

 

要类型之指令,各指令所占的比例及CPI数如表所示,试计算:

 

①在单处理机上执行该程序的平均CPI。

 

②由①所得结果,计算相应的MIPS速率。

 

解:

(1)CPI=1*60%+2*18%+4*12%+8*10%

 

=

 

(2)MIPS=时钟频率/(CPI*106)=(40*106)/*106)=

 

2.1已知SP2并行计算机的通信开销表达式为:

t(m)=46+()m,试计算:

 

①渐近带宽r∞=

m1

2

②半峰值信息长度=

[

提示:

to=46μs]

解:

(1)渐近带宽r∞=1/=S

(2)

半峰值消息长度

m

=to*r

=46us*S=

1/2

 

并行机性能评测的意义。

 

答:

意义有:

 

1)发挥并行机长处,提高并行机的使用效率。

 

2)减少用户购机盲目性,降低投资风险。

 

3)改进系统结构设计,提高机器的性能。

 

4)促进软/硬件结合,合理功能划分。

 

5)优化“结构-算法-应用”的最佳组合。

 

6)提供客观、公正的评价并行机的标准。

 

如何进行并行机性能评测

 

答:

1)机器级性能评测:

CPU和存储器的某些基本性能指标;并行和通信开销分析;并行

 

机的可用性与好用性以及机器成本、价格与性/价比。

 

2)算法级性能评测:

加速比、效率、扩展性。

 

3)程序级性能评测:

Benchmark。

 

简述Gustafson定律的出发点

 

答:

1)对于很多大型计算,精度要求很高,即在此类应用中精度是个关键因素,而计算时

 

间是固定不变的。

此时为了提高精度,必须加大计算量,相应地亦必须增多处理器数才能维

 

持时间不变。

 

2)除非学术研究,在实际应用中没有必要固定工作负载而计算程序运行在不同数目的

 

处理器上,增多处理器必须相应地增大问题规模才有实际意义。

 

已知一程序可并行代码占比例为80%,将其在有10个处理器的系统中运行,求其加速比并

 

求其极限加速比并分析其结构带来的影响

 

解:

加速比=1/(20%+80%/10)=1/+=。

 

极限加速比,即处理器个数无穷大的时候呈现的加速比=1/20%=5。

 

这个极限加速比,换个角度说是,Amdahl定律在很长一段时间影响了人们对开发并行

 

计算机的信心,对于本例,因为就算你把处理器做到无穷也只能得到5倍的加速比,同时有

 

一点更明显,就是处理器数目增加到一定程度后,加速比的增长非常缓慢。

 

简述影响加速的因素

 

答:

1)求解问题中的串行分量。

 

2)并行处理器所引起的额外开销。

 

3)加大的处理器数超过的算法的并发程度。

 

为什么增加问题规模可以在一定程度提高加速

 

答:

1)较大的问题规模可提高较大的并发度。

 

2)额外开销的增加可能慢于有效计算的增加。

 

3)算法中串行分量的比例不是固定不变的。

进行可扩放行研究的主要意义

 

答:

1)确定解决某类问题用某类并行算法和某类并行体系结构结合,可以有效的利用大量

 

的处理器。

 

2)对于运行于某种体系结构的并行机的某种算法当移到大规模处理机上的性能。

 

3)对于某类固定规模的问题,确定在某类并行机上的最优处理器数目和最大的加速比。

 

4)用于指导改进并行算法和并行体系结构,以使并行算法能尽可能充分利用可扩充的。

 

大量的处理器。

 

第三章互连网络

 

对于一颗K级二叉树(根为0级,叶为k-1级),共有N=2^k-1个节点,当推广至m-元树

 

时(即每个非叶节点有m个子节点)时,试写出总节点数N的表达式。

 

答:

 

推广至M元树时,k级M元树总结点数N的表达式为:

 

N=1+m^1+m^2+...+m^(k-1)=(1-m^k)*1/(1-m);

 

二元胖树如图所示,此时所有非根节点均有2个父节点。

如果将图中的每个椭圆均视为单个

 

节点,并且成对节点间的多条边视为一条边,则他实际上就是一个二叉树。

试问:

如果不管

 

椭圆,只把小方块视为节点,则他从叶到根形成什么样的多级互联网络

 

答:

8输入的完全混洗三级互联网络。

 

四元胖树如图所示,试问:

每个内节点有几个子节点和几个父节点你知道那个机器使用了

 

此种形式的胖树

 

答:

每个内节点有4个子节点,2个父节点。

CM-5使用了此类胖树结构。

 

试构造一个N=64的立方环网络,并将其直径和节点度与N=64的超立方比较之,你的结论

 

是什么

 

答:

AN=64的立方环网络,为4立方环(将4维超立方每个顶点以4面体替代得到),直径

 

d=9,节点度n=4

 

BN=64的超立方网络,为六维超立方(将一个立方体分为8个小立方,以每个小立方

 

作为简单立方体的节点,互联成6维超立方),直径d=6,节点度n=6

 

一个N=2^k个节点的deBruijin

网络如图所示,令ak1ak2

ak3。

a1

a0,是一个节点的

二进制表示,则该节点可达如下两个节点:

a

a

aa

0,a

a

aa

1。

试问:

k2

k3

10

k2

k3

10

该网络的直径和对剖宽度是多少

答:

N=2^k个节点的deBruijin

网络直径d=k对剖宽带w=2^(k-1)

 

一个N=2^n个节点的洗牌交换网络如图所示。

 

宽度==

 

答:

N=2^n个节点的洗牌交换网络,网络节点度为

 

试问:

此网络节点度==网络直径==网络对剖

 

=2,网络直径=n-1,网络对剖宽度=4

 

一个N=(k+1)2^k个节点的蝶形网络如图所示。

试问:

此网络节点度

 

剖宽度=

 

答:

N=(k+1)2^k个节点的蝶形网络,网络节点度=4,网络直径=2*k

 

=网络直径=网络对

 

,网络对剖宽度=2^k

 

对于如下列举的网络技术,用体系结构描述,速率范围,电缆长度等填充下表中的各项。

 

(提示:

根据讨论的时间年限,每项可能是一个范围)

 

答:

 

网络技术

网络结构

带宽

铜线距离

光纤距离

Myrinet

专用机群互联网络

200MB/秒

25m

500m

HiPPI

用于异构计算机和其外设的

800Mbps~

25m

300m~10km

组网

SCI

可扩展一致性接口,通常独立

250Mbps~8Gbps

于拓扑结构

光纤通信

多处理器和其外围设备之间,

100Mbps~800Mb

50m

10km

直连结构

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1