ImageVerifierCode 换一换
格式:DOCX , 页数:20 ,大小:215.08KB ,
资源ID:25627142      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/25627142.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(计算机系统结构考试计算题.docx)为本站会员(b****9)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

计算机系统结构考试计算题.docx

1、计算机系统结构考试计算题有一指令流水线如下所示50ns 50ns 100ns 200ns(1)求连续输入10条指令,该流水线的实际吞吐率和效率;(2)该流水线的 瓶颈”在哪一段请采取两种不同的措施消除此 瓶颈”对 于你所给出的两种新的流水线,连续输入 10条指令时,其实际吞吐率 和效率各是多少解:(1)T pipeli nemti (n 1) tmaxi 1(50 50 100 200) 9 2002200( ns)tiTP丄TP pipeline )400 5TP 45.45%4 11(2)瓶颈在3、4段。 变成八级流水线(细分) 出4_4 50 nsmT pipeli ne ti (n 1

2、) tmaxi 150 8 9 50850( ns)mtii 1 400 10E TP 一 TP 58.82%m 8 17重复设置部件TP nTpipe-E 4 10850 8 1017 呢82%需要的时间都是t,问:(1) 当在流水线的输入端连续地每 t时间输入任务时,该流水线会发生 什么情况(2) 此流水线的最大吞吐率为多少如果每 2 t输入一个任务,连续处理 10个任务时的实际吞吐率和效率是多少(3) 当每段时间不变时,如何提高该流水线的吞吐率仍连续处理 10个任 务时,其吞吐率提高多少解:(1)会发生流水线阻塞情况第1个任 务S1S2S3S3S4第2个任 务S1S2stallS3S3S

3、4第3个任 务S1stallS2stallS3S3S4第4个任 务S1stallS2stallS3S3S4Q345Q81|1|223344556677889910|10时间123456789101234567891032123 tE TP 5 t4 592 54.35% (3)重复设置部件段丄4123456789回3_2224466881010:3_11133557799212345678910-11|1|2345678910:时间;14 t有一条静态多功能流水线由5段组成,加法用1、3、4、5段,乘法用1、2、5段,第3段的时间为2 t,其余各段的时间均t,而且流水线的输出可 以直接返回输入

4、端或4(Ai Bi),画出其时暂存于相应的流水寄存器中。现要在该流水线上计算 空图,并计算其吞吐率、加速比和效率。解:首先,应选择适合于流水线工作的算法。对于本题,应先计算 Ai+ B、A2+ B2、A3+ B3 和 A4 + B4 ;再计算(Al + Bl) x (A2 + B2)和(A + B3)x (A4 + B4);然 后求总的结果。其次,画出完成该计算的时空图,如图所示,图中阴影部分表示该段在工作。如果不用流水线,由于一次求积需 3t,一次求和需5At,则产生上述7个结果共需(4X 5+3X3 t =29t。所以加速比为:该流水线的效率可由阴影区的面积和 5个段总时空区的面积的比值求

5、得:动态多功能流水线由6个功能段组成,如下图:其中,S1、S4、S5 S6组成乘法流水线,S1、S2、S3 S6组成加法流水线,各个功能段时间均为 50ns,假设该流水线的输出结果可以直接返回输入端,而5且设置有足够的缓冲寄存器,若以最快的方式用该流水计算: XiyjZii 1(1) 画出时空图;(2) 计算实际的吞吐率、加速比和效率。解:机器一共要做10次乘法,4次加法。42.42V在MIPS流水线上运行如下代码序列:LOOP LWR1,0( R2)DADDIUR1,R1, #1SWR1,0( R2)DADDIUR2,R2, #4DSUBR4,R3, R2BNEZR4,LOOP其中:R3的初

6、值是R2+39&假设:在整个代码序列的运行过程中,所有的存储器访问都是命中的,并且在一个时钟周期中对同一个寄存器的读操作和写 操作可以通过寄存器文件 定向”问:(1) 在没有任何其它定向(或旁路)硬件的支持下,请画出该指令序列 执行的流水线时空图。假设采用排空流水线的策略处理分支指令,且 所有的存储器访问都命中Cache那么执行上述循环需要多少个时钟周 期(2) 假设该流水线有正常的定向路径,请画出该指令序列执行的流水线 时空图。假设采用预测分支失败的策略处理分支指令,且所有的存储 器访问都命中Cache那么执行上述循环需要多少个时钟周期(3) 假设该流水线有正常的定向路径和一个单周期延迟分支

7、,请对该循 环中的指令进行调度,你可以重新组织指令的顺序,也可以修改指令 的操作数,但是注意不能增加指令的条数。请画出该指令序列执行的 流水线时空图,并计算执行上述循环所需要的时钟周期数。解:寄存器读写可以定向,无其他旁路硬件支持。排空流水线。指令12345678910 111213 14 15161718 19 20 21 22LWIF IDEX MWBDADDIUIFSSID EXMWBSWIF SSIDEXM WBDADDIUIFIDEX MWBDSUBIFSSIDEX M WBBNEZIFS S IDEXMWBLWIFSSIF ID EX M WB- 第i次迭代(i= 0.98)开始周

8、期:1+(iX 17)总的时钟周期数:(98 X 17)+ 18= 1684有正常定向路径,预测分支失败。指令12345678910 111 1314 15LWIF IDEXMWBDADDIUIFIDSEXMWBSWIFSIDEXMWBDADDIUIFIDEXMWBDSUBIFIDEXMWBBNEZIFIDEXM WBLWIFmiss miss IFID EXM WB第i次迭代(i = 0.98)开始周期:1+( iX 10)总的时钟周期数:(98 X 10)+ 11 = 991有正常定向路径。单周期延迟分支。LOOP: LW R1,0(R2)DADDIU R2,R2, #4DADDIU R1

9、,R1,#1DSUB R4, R3,R2BNEZ R4, LOOPSW R1,-4(R2)第i次迭代(i = 0.98)开始周期:1+( i X 6 )总的时钟周期数:(98X 6)+ 10= 598DADDIUIF IDEXMWBDADDIUIFIDEXMWBDSUBIFIDEXMWBBNEZIFIDEXMWBSWIFIDEXMWBLWIFIDEXM WBLWIF ID EX M WB假设各种分支指令数占所有指令数的百分比如下:条件分支20% (其中的60%是分支成功的)1跳转和调用5%现有一条段数为4的流水线,无条件分支在第二个时钟周期结束时就被解析 出来,而条件分支要到第三个时钟周期结束

10、时才能够被解析出来。 第一个流水段是完全独立于指令类型的,即所有类型的指令都必须经过第一个流水段的处理。 请问在没有任何控制相关的情况下,该流水线相对于存在上述控制相关情况下的 加速比是多少解:没有控制相关时流水线的平均 CP- 1存在控制相关时:由于无条件分支在第二个时钟周期结束时就被解析出来, 而条件分支要到第3个时钟周期结束时才能被解析出来。所以:(1) 若使用排空流水线的策略,则对于条件分支,有两个额外的 stall,对 无条件分支,有一个额外的stall:CPI = 1+20%*2+5%*1 = 加速比S=CPI/1 =(2)若使用预测分支成功策略,则对于不成功的条件分支,有两个额外

11、的stall,对无条件分支和成功的条件分支,有一个额外的 stall 1:CPI = 1+20%*(60%*1+40%*2) +5%*1 = 加速比S=CPI/1 =(3)若使用预测分支失败策略,则对于成功的条件分支,有两个额外的stall;对无条件分支,有一个额外的 stall;对不成功的条件分支,其目标地址已经由PC值给出,不必等待,所以无延迟:CPI = 1+20%*(60%*2 + 40%*0) +5%*1 =加速比S=CPI/1 =假设对指令Cache的访问占全部访问的75%;而对数据Cache的访问占全 部访问的25%。Cache的命中时间为1个时钟周期,失效开销为50个时钟周期,

12、 在混合Cache中一次load或store操作访问Cache的命中时间都要增加一个时钟 周期,32KB的指令Cache的失效率为%,32KB的数据Cache的失效率为%,64KB 的混合Cache的失效率为。又假设采用写直达策略,且有一个写缓冲器,并且 忽略写缓冲器引起的等待。试问指令 Cache和数据Cache容量均为32KB的分离 Cache和容量为64KB的混合Cache相比,哪种Cache的失效率更低两种情况下 平均访存时间各是多少解:(1)根据题意,约75%的访存为取指令。因此,分离Cache的总体失效率为:(75%x %) + ( 25%x %)= %; 容量为128KB的混合C

13、ache的失效率略低一些,只有 。(2)平均访存时间公式可以分为指令访问和数据访问两部分:平均访存时间二指令所占的百分比X (读命中时间+读失效率X失效开销)+ 数据所占的百分比X(数据命中时间+数据失效率X失效开销)所以,两种结构的平均访存时间分别为:分离 Cache的平均访存时间=75%X( 1 + %X 50)+ 25%X( 1 + %X 50) =(75%X) + ( 25%X) =混合 Cache的平均访存时间=75%X( 1 + %X 50)+ 25%X( 1 + 1 + %X 50) =(75%X) + ( 25%X) =因此,尽管分离Cache的实际失效率比混合Cache的高,

14、但其平均访存时间 反而较低。分离Cache提供了两个端口,消除了结构相关。给定以下的假设,试计算直接映象 Cache和两路组相联Cache的平均访问 时间以及CPU的性能。由计算结果能得出什么结论(1)理想Cache情况下的CPI为,时钟周期为2ns,平均每条指令访存次;(2)两者Cache容量均为64KB,块大小都是32字节;(3)组相联Cache中的多路选择器使CPU的时钟周期增加了 10%;(4)这两种Cache的失效开销都是80ns;(5)命中时间为1个时钟周期;(6)64KB直接映象Cache的失效率为, 64KB两路组相联Cache的失效 率为。解: 平均访问时间二命中时间+失效率

15、X失效开销平均访问时间1-路=+% *80=平均访问时间2-路=*(1+10%)+% *80=两路组相联的平均访问时间比较低CPUme= ( CPU执行+存储等待周期)*时钟周期CPUtime=IC ( CPI执行+总失效次数/指令总数*失效开销)*时钟周期=IC(CPI执行*时钟周期)+(每条指令的访存次数*失效率*失效开销*时钟周 期)CPUtime 1-way=IC*2+*80)=CPUtime 2-way=IC*2+*80)=直接映象cache的访问速度比两路组相联cache要快倍,而两路组相联Cache 的平均性能比直接映象cache要高倍。因此这里选择两路组相联。假设一台计算机具有

16、以下特性:(1)95%的访存在Cache中命中;(2)块大小为两个字,且失效时整个块被调入;(3)CPU发出访存请求的速率为109字/s ;(4)25%的访存为写访问;(5)存储器的最大流量为109字/s (包括读和写);(6)主存每次只能读或写一个字;(7)在任何时候,Cache中有30%的块被修改过;(8)写失效时,Cache采用按写分配法。现欲给该计算机增添一台外设,为此首先想知道主存的频带已用了多少。试 对于以下两种情况计算主存频带的平均使用比例。(1)写直达Cache;(2)写回法Cacha解:采用按写分配(1)写直达cache访问命中,有两种情况: 读命中,不访问主存; 写命中,更

17、新cache和主存,访问主存一次。访问失效,有两种情况:读失效,将主存中的块调入cache中,访问主存两次; 写失效,将要写的块调入cache,访问主存两次,再将修改的数据 写入cache和主存,访问主存一次,共三次。上述分析如下表所示。访问命中访问类 型频率访存次 数Y读95%*75%=%0Y写95%*25%=%1N读5%*75%=%2N写5%*25%=%3一次访存请求最后真正的平均访存次数 =%*0)+%*1)+%*2)+%*3戶已用带宽=x 109/10 9 =%(2)写回法cache访问命中,有两种情况:读命中,不访问主存;写命中,不访问主存。采用写回法,只有当修改的 cache块被换

18、出时,才写入主存;访问失效,有一个块将被换出,这也有两种情况:如果被替换的块没有修改过,将主存中的块调入 cache块中,访问主存两次;如果被替换的块修改过,则首先将修改的块写入主存,需要访问主存两 次;然后将主存中的块调入 cache块中,需要访问主存两次,共四次访问主 存。访问命中块为脏频率访存次 数YN95%*70%=%0YY95%*30%=%0NN5%*70%=%2NY5%*30%=%4所以:一次访存请求最后真正的平均访存次数 =% *0 + %*0+%*2+%*4=已用带宽=乂 10 9/10 9= 13%在伪相联中,假设在直接映象位置没有发现匹配,而在另一个位置才找到 数据(伪命中

19、)时,不对这两个位置的数据进行交换。这时只需要 1 个额外的周 期。假设失效开销为50个时钟周期,2KB直接映象Cache的失效率为%, 2路组 相联的失效率为; 128KB直接映象Cache的失效率为%,2路组相联的失效率 为 %。(1) 推导出平均访存时间的公式。(2) 利用(1)中得到的公式,对于 2KBCache和128KBCache计算伪相联的平均访存时间。解: 不管作了何种改进,失效开销相同。不管是否交换内容,在同一“伪相联” 组中的两块都是用同一个索引得到的,因此失效率相同,即:失效率 伪相联二失效率 2 路。伪相联cache的命中时间等于直接映象cache的命中时间加上伪相联查

20、找过 程中的命中时间 *该命中所需的额外开销。命中时间 伪相联 =命中时间1路+伪命中率 伪相联x 1交换或不交换内容, 伪相联的命中率都是由于在第一次失效时, 将地址取反, 再在第二次查找带来的。因此 伪命中率伪相联=命中率2路一命中率1路=(1 一失效率2路)一(1 一失效 率 1 路)=失效率1路一失效率2路。交换内容需要增加伪相联的额 外开销。平均访存时间伪相联=命中时间1路+(失效率1路一失效率2路) X 1+失效率2路X失效开销1路将题设中的数据带入计算,得到:平均访存时间 2Kb=1+ *50 ) =平均访存时间 128Kb=1+ *50 ) =显然是128KB的伪相联Cache

21、要快一些。假设采用理想存储器系统时的基本 CPI是,主存延迟是40个时钟周期;传 输速率为4字节/时钟周期,且Cache中50%的块是修改过的。每个块中有32字 节,20%的指令是数据传送指令。并假设没有写缓存,在 TLB失效的情况下需要20时钟周期,TLB不会降低Cache命中率。CPU产生指令地址或Cache失效时产 生的地址有没有在TLB中找到。(1) 在理想TLB情况下,计算均采用写回法16KB直接映象统一 Cache 16KB两路组相联统一 Cache和32KB直接映象统一 Cache机器的实际CPI(2) 在实际TLB情况下,用(1)的结果,计算均采用写回法16KB直接映象统一 C

22、ache 16KB两路组相联统一 Cache和32KB直接映象统一 Cache机器 的实际 CPI;其中假设16KB直接映象统一 Cache 16KB两路组相联统一 Cache和32KB 直接映象统一 Cache的失效率分别为、和%; 25%的访存为写访问。解:CPI=CPI执行+存储停顿周期数/指令数 存储停顿由下列原因引起:从主存中取指令load和store指令访问数据 由TLB引起存储停顿周期数 取指令停顿丄数据访问停顿+ TLB停顿 = 十 指令数 指令数 指令数(1)对于理想TLB, TLB失效开销为0。而对于统一 Cache, R指令=R数据 P指令=主存延迟十传输一个块需要使用的

23、时间= 40+ 32/4 = 48 (拍)若为读失效,P数据=主存延迟十传输一个块需要使用的时间= 40+ 324 =48 (拍)若为写失效,且块是干净的, P数据=主存延迟十传输一个块需要使用的时间= 40 + 32/4 = 48(拍)若为写失效,且块是脏的, P数据=主存延迟十传输两个块需要使用的时间= 40 + 64/4 = 56(拍)CPI=+RP+(RP*20%)+0 指令访存全是读,而数据传输指令 Load或Store指令,f数据*P数据=读百分比* (f数据*P数据)十写百分比* (f数据*P干净数据*其对应的百 分比十f数据*P脏数据*其对应的百分比)(2)=20%*(75%X

24、 48+ 25%* (50%*48+50%*(48 + 16) =50(拍) 代入上述公式计算出结果为:配置失效率CPI16KB直接统一映象16KB两路统一映象32KB直接统一映象TLB停顿(存储访问次数 指令数 (指令数TLB访问存储访问次数)TLB失效率TLB失效开销将f数据(数据访问指令频率),Rt和Pt (分别是TLB的失效率和失效开销), R3和Pw (分别是Cache的失效率和写回的频率)代入公式得:TLB 停顿 / 指令数=1+f 数据*Rc(1+Fk)RtFt其中,1+f数据:每条指令的访问内存次数;R=(1+Rw):每次内存访问需要的TLB访 问次数。由条件得:TLB停顿/指

25、令数=1+20%*Rc(1+25%)%X 20配置失效率理想TLB的CPI16KB直接统一映象16KB两路统一映象32KB直接统一映象一个具有32台处理机的系统,对远程存储器访问时间是2000ns。除了通信 以外,假设计算中的访问均命中局部存储器。 当发出一个远程请求时,本地处理 机挂起。处理机的时钟周期时间是10ns,假设指令基本的CPI为(设所有访存均 命中Cach。对于下述两种情况:(1) 没有远程访问;(2) %的指令需要远程访问。试冋前者比后者快多少解:已知远程访问率 p = %,远程访问时间t = 2000ns,时钟周期 T = 10ns远程访问开销 C = t/T = 2000ns/10 ns = 200(时钟周期数)有远程访问的机器的实际 CP2为:CP2 = CP1 + pX C = + %x 200 =只有局部访问的机器的基本 CPI =CP2/ CPIi = = 2 (倍)因此,没有远程访问状态下的机器速度是有 %远程访问的机器速度的2倍。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1