1、 一次重叠”中消除”指令相关”最好的方法是 。A)不准修改指令 B)设相关专用通路C)推后分析下条指令 D)推后执行下条指令8流水操作中,遇到数据相关时,采用的解决办法有 。A) 用优化编译器检测,通过指令重新排序的办法B) 数据重定向技术C) 延迟转移技术D) 加快和提前形成条件码9经多级网络串联来实现全排列网络,只能用 。A)多级立方体网络 B)多级PM2I网络C)多级混洗交换网络 D)上述任何网络101112131415161718192021222324虫蚀寻径以流水方式在各寻径器是顺序传送的是 A)消息 B)包 C)片 D)字节超标量处理机 B)只有一个操作部件D)只有一个取指部件A
2、)在一个时钟周期内分时发射多条指令 C)在一个时钟周期内同时发射多条指令C)加速比 D)效率C)MISD D)MIMD流水线的技术指标不包括 A)响应比 B)吞吐率向量处理机属于 A)SISD B)SIMD 属于MIMD系统结构。A)各处理单元同时受同一个控制单元的管理B)各处理单元同时接受同一个控制单元送来的指令C)多处理机和多计算机D)阵列处理机BSP计算机的并行处理机有16个处理单元,并行存储器的存储体个数为 A)16 B)1 C)32 D)17判断题(正确打V,错误打X, 10分,每题1分)(X)对计算机系统中经常使用的基本单元功能,宜于用软件来实现,这样可降低系统 的成本。(V)处理
3、机级流水线又称为指令流水线。(X由于RISC简化了指令系统,因此,RISC上的目标程序比CISC上的目标程序要短 一些,程序执行的时间就会少一些。(X在存储体系中,地址的映象与地址的变换没有区别。(X在满足Cache与主存的一致性方面,写回比写直达法好。(x)Cache 组相联映象的块冲突概率比直接映象的高。(V )采用LRU替换的Cache存储器,分配给程序的Cache容量一定时,块的大小增 加,Cache的命中率将先上升,到一定时候又会逐渐降低。(X )阵列处理机以多个处理机构成阵列。(V )SIMD计算机的算法极大地依赖于机器的系统结构。25( x )解决多处理机 Cache不一致性问题
4、是基于链式目录的协议优点是限制了共享数据块的拷贝数量。二综合题26(10分)如果某计算机系统有3个部件可以改进,则这三个部件经改进后的加速比分别为:S仁30 , S2=20 , S3=10 。如果部件1和部件2改进前的执行时间占整个系统执行时间的比例都为30%,那么, 部件3改进前的执行时间占整个系统执行时间的比例为多少,才能使3个部件都改进 后的整个系统的加速比Sn达到10 ?(2)如果3个部件改进前执行时间占整个系统执行时间的比例分别为30%、30%和20%, 那么,3个部件都改进后系统的加速比是多少?未改进部件执行时间在改进后的系统 执行时间中占的比例是多少?(4)在多个部件同时改进的情
5、况卡,Amdahl定律应扩展为二已如S4=3O, S2=20f S3=10 &=10 Fe1=0.3, Fe20.3?因此有: 10=1/1-(0.3+0.3+Fe3)+(0.3/3040.3/20+Fe3/10) 可得:Fe3=0.36(2)同样依据:1F-(1-EFej+E )已知S佃30, S2=20s S3=10, Fe1=0.3, Fe2=0,3, F合3=02 因业有:Sn=1/1-(0.340.3+0.2)+(03/30+0.3/20+0.2/10)可得:n4.1未改进部分所占时间20%T0改进后总时问In=改进后改进部分所占时间+改进后未改进部分所占时间=(To30%/3O+T
6、o30%/20+To20%/10 ) +20%T0 =24.5%T0所以,未改进部分的执行时间在整个系统的执行时间中所占的比例为:20%T0/24.5%T0=82%27(10分)一台模型机共有7条指令,各指令的使用频率分别为35%,25%,20%,10%,5%, 3%和 2%。(1)要求操作码的平均长度最短,请设计操作码的编码,并计算所设计操作码的平均长度。(2)设计8字长的寄存器-寄存器型指令3条,16位字长的寄存器-存储器型变址寻址方式这样,采用Hufman编码法得到的操作码的平均长度为:H = 2 X0.35+0.25+0.20) + 3 0.10 + 4 0.05+ 5 (0.03 +
7、 0.02)=1.6+0.3+0.2+0.25=2.3528(10分)有一个4段流水线,如下图所示:其中,段S1和S3的执行时间均为200ns,段S2和S4的执行时间均为100ns。若瓶颈段S1可使用细分方法改造,瓶颈段S3可使用并联方法改造,对改造后的流水 线,分别使用公式和时空图求连续流入4条指令的实际吞吐率和效率解:(1)使用公式计算如下:n 4 1TP1= = = Atj+(n-1)Atj (200+100+200+100)+(4-1) X 200 300i=1nE Afj 4X(200+100+200+100)E1= = = 0.5kk Atj+(n-1)A(j 4 X (200+1
8、00+200+100+(4-1) X 200i=1 政造前时空图:T P 1=4/( 12 A t)=4/(12X100)=11300E1=(8 A t+4At+8 At-MA t)/(4 X12A t )=0.5(2)改造后的时空图(公式计算略):S4234S324S31S2S12S11TP2=4/(9 A t)=4/(9X 100)=1/22.5E2=(6 X4A t)/(6 X9A t)=0.4429(10分)设向量长度均为64,在Cray-1 机上所用浮点功能部件的执行时间分别为:相 加6拍,相乘7拍,求倒数近似值14拍;从存储器读数6拍,打入寄存器及启动功 能部件各1拍,问下列各指令
9、组,组内的哪些指令可以链接?哪些指令不可链接?不 能链接的原因是什么?分别计算出各指令组全部完成所需要的拍数。(1)V0-存储器(2)V2-V0*V1(3)V0(4)V0V1-V2+V3V3V2-1/V0V4-V5*V6V4v-V2+V3-V2+V0-V1*V2V5-V3+V4(1)3 条向量指令之间既没有发生源 V 冲突,也没有 V 的先写后读相关,又不存 在功能部件的使用冲突,所以这3条向量指令可以同时并行流水。向量指令组全部完成 需要max(1+6( 访 存)+1+64-1),(1+6( 浮加)+1+64-1),(1+7( 浮 乘)+1+64-1)=72 拍。3 条向量指令之间没有功能部
10、件的使用冲突,但是在第1、2两条向量指令与第3条 向量指令之间有V2及V3的先写后读相关。只要让第1条向量指令较第2条向量指令 提前1拍启动,则第1,2 两条向量指令的第1个结果元素就可以被同时链接到第3条 向量指令中。(1+7(浮乘)+1)+(1+6( 浮加)+1+64-1)=80(拍)。第1条向量指令与第2条向量指令之间有V0的先写后读相关,两者可以链接。第3 条向量指令与第2条向量指令之间有源向量寄存器V0的冲突,它们之间只能串行。第3 条向量指令与第4条向量指令之间有加法功能部件的使用冲突,它们之间也只能串行。(1+6( 访存)+1+1+7( 浮乘)+1+64-1)+(1+6( 访存)
11、+1+64-1)+(1+6( 浮加)+1+64-1)=222(拍)o4 条向量指令均依次有Vi的先写后读相关,但无源Vi冲突,也无功能部件的使用 冲突,所以,这4条向量指令可以全部链接在一起,进行流水。(1+6(访存)+1)+(1+14( 求倒数)+1)+(1+(7 浮乘)+1)+(1+6( 浮加)+1)+64-1=104 拍30(10分)有一个5段流水线,各段执行时间均为 t ,其预约表如下表所示。时间t段S t1t2t3t4t5t6t7S1XS3S5(1)列出禁止表F和冲突向量Co画出流水线调度的状态图。分别求出允许不等时间间隔调度和等时间间隔调度的两种最优调度策略,以及这 两种调度策略的
12、流水线最大呑吐率。若连续输入10个任务,求这两种调度策略的流水线实际呑吐率和加速比。(1)禁止向量 F=(1,3,6) (1 冲 突向量 C=(100101) (1分) 分)(2)捫裟哉崔忸最小平均延迟(2+2+5)/3=3分)最小启动循环(2,2,5)TPmax=1/(3Dt) (1最小恒定循环(4)TPmax=1/(4Dt) (1(4)当输入1 0个任务时,输入间隔 0,2.2,5,2,2,5,27,5消空时间7实际呑吐率TP1 = 10/(2+2+5+2+2+5 + 2+2 + 5+7)At = lO/(34At) = 5/(l7At)加速比S1=10*7At/(2+2+5+2+2+5+2+2+5+7)At= 70/34= 35/17输入间隔 0,4.4.43,4,4,4,4,4淸空时间7实际吞吐冷TP2=10/(9*4+7)At = l0/(43At)S2 = 1 0*7At/(9*4 + 7)At = 70/4331(10分)阵列机有07共8个处理单元互连,要求按(0 , 5) , (1 , 4) , (2 , 7) , (3 ,6)配对通信。(1)写出实现此功能的互连函数的一般式。(2)画出用3级立方网络实现该互连函数的互连网络拓扑结构图,并标出各控制开关 状态。(1)Cube(b2blb0)=b2blb0如下图所示:交换
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1