北邮大三计算机体系结构实验三DLX管理解决方法器程序设计.docx

上传人:b****3 文档编号:26695054 上传时间:2023-06-21 格式:DOCX 页数:17 大小:184.83KB
下载 相关 举报
北邮大三计算机体系结构实验三DLX管理解决方法器程序设计.docx_第1页
第1页 / 共17页
北邮大三计算机体系结构实验三DLX管理解决方法器程序设计.docx_第2页
第2页 / 共17页
北邮大三计算机体系结构实验三DLX管理解决方法器程序设计.docx_第3页
第3页 / 共17页
北邮大三计算机体系结构实验三DLX管理解决方法器程序设计.docx_第4页
第4页 / 共17页
北邮大三计算机体系结构实验三DLX管理解决方法器程序设计.docx_第5页
第5页 / 共17页
点击查看更多>>
下载资源
资源描述

北邮大三计算机体系结构实验三DLX管理解决方法器程序设计.docx

《北邮大三计算机体系结构实验三DLX管理解决方法器程序设计.docx》由会员分享,可在线阅读,更多相关《北邮大三计算机体系结构实验三DLX管理解决方法器程序设计.docx(17页珍藏版)》请在冰豆网上搜索。

北邮大三计算机体系结构实验三DLX管理解决方法器程序设计.docx

北邮大三计算机体系结构实验三DLX管理解决方法器程序设计

实验三DLX处理器程序设计

1.实验目的

学习简单编译优化方法,观察采用编译优化方法所带来的性能的提高。

2.实验原理

采用静态调度方法重排指令序列,减少相关,优化程序。

3、实验内容和要求

自编一段汇编代码,完成一维向量加法运算,并输出结果。

观察程序中出现的数据/控制/结构相关。

(注:

使用一维数组表示一维向量。

4.1向量加法代码清单及注释说明

1、向量加法设计源代码

.data

VectorLength:

.word16

Vector1:

.word1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16

Vector2:

.word1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16;声明向量长度以及声明向量1、2

Printf1:

.asciiz"Vector="

Printf2:

.asciiz"%f"

.align2

PrintPrompt:

.wordPrintf1

PrintPar:

.wordPrintf2

Result:

.space4;存放打印数据的空间申请

.text

main:

addir14,r0,PrintPrompt

trap5

lwr20,VectorLength

addir2,r0,0

Loop:

ldf10,Vector1(r2)

ldf12,Vector2(r2);循环体中读入向量

cvti2df0,f10

cvti2df2,f12

adddf4,f2,f0;加法运算

Finish:

;****Finish,writeresultintostdout

sdResult,f4

addir14,r0,PrintPar

trap5;系统中断,输出结果

addir2,r2,4

subir20,r20,1

bnezr20,Loop

;****End

trap0

2、运行结果

5.1程序相关性分析结果

(1)观察程序中出现的数据/控制/结构相关。

指出程序中出现上述现象的指令组合。

产生34.12%的数据相关。

当对当前指令的操作数寄存器进行操作的时候,前几条指令的运算结果还未写回结果寄存器,由此产生数据相关。

没有产生结构相关。

产生3.94%的控制相关。

系统按照预测成功来执行指令,执行一条指令后马上将其下一条指令trap读进来。

(2)考察增加浮点运算部件对性能的影响。

1个浮点运算部件3个浮点运算部件

同一段代码执行相同步,但是经过对比发现浮点运算部件的多少对于程序执行效率并没有什么影响,浮点运算部件的多少对统计结果都不造成影响,可能是由于该程序不存在争用浮点运算部件资源的情况

(3)考察增加forward部件对性能的影响。

不使用forward部件使用forward部件

使用forward部件之后执行相同的代码用的时钟周期比不使用forward部件少了

大约100个时钟周期,由于没有结构相关,所以使用forward部件主要使得RAW相关明显减少了,占总的时钟周期比例也减少了,对控制相关没有什么影响。

总之,使用forward部件后,总的时钟周期减少,数据相关减少,流水线的性能得到很大的改善。

(4)观察转移指令在转移成功和转移不成功时候的流水线开销。

在本次实验中转移成功的几率比较大,进行16次转移只有一次转移不成功的,因为系统按照预测成功来执行指令,当判断转移不成功时,系统对trap指令进行的操作被全部作废,转而去执行跳转到的指令。

4.2双精度浮点加法求和代码清单及注释说明

1、双精度浮点加法求和源代码

.data

;初始化两个用于相加的一维向量(双精度浮点数),向量长度为20

a:

.double1.9,2.1,3.7,4.6,5.5,6.4,7.3,8.2,9.1,10.1,11.2,12.3,13.4,14.5,15.6,16.7,17.8,18.9,19.0,20.2

b:

.double1.1,2.2,3.3,4.4,5.5,6.6,7.7,8.8,9.8,10.9,11.8,12.7,13.6,14.5,15.4,16.3,17.2,18.1,19.9,20.8

PrintfFormat:

.asciiz"Theresultis\n\n%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t%f\t\n\n"

.align2

PrintfPar:

.wordPrintfFormat

r:

.space200

;r为保存相加结果的向量空间

.text

.globalmain

main:

addir1,r0,0;r1计数相加的次数

adduir4,r0,8;r4为常数8

loop:

;循环计算向量相加结果

subir2,r1,20;r1=20时,跳转到finish

beqzr2,finish

multur3,r1,r4;r3为当前分量相对于向量基址的偏移(每个分量占8B)

ldf0,a(r3);取a中第r1个分量

ldf2,b(r3);取b中第r1个分量

adddf4,f0,f2;相加结果放在f4中

sdr(r3),f4;将相加结果放入结果向量r中

addir1,r1,1;下一分量

jloop

finish:

;输出向量相加的结果

addir14,r0,PrintfPar

trap5

2、运行结果:

5.2程序相关性分析结果

(1)观察程序中出现的数据/控制/结构相关。

指出程序中出现上述现象的指令

组合。

产生了53.78%的数据相关。

当对当前指令的操作数寄存器进行操作的时候,前几条指令的运算结果还未写回结果寄存器,由此产生数据相关。

产生数据相关的指令主要有:

1)addir1,r0,0

subir2,r1,20

2)subir2,r1,20

beqzr2,finish

3)multur3,r1,r4

ldf0,a(r3)

4)ldf2,b(r3)

adddf4,f0,f2

无结构相关

产生了4.29%的控制相关。

系统按照预测成功来执行指令,执行一条指令后马上将其下一条指令trap读进来。

和4.1代码类似。

(2)考察增加浮点运算部件对性能的影响。

1个浮点运算部件3个浮点运算部件

同一段代码执行相同步,但是经过对比发现浮点运算部件的多少对于程序执行效率并没有什么影响,浮点运算部件的多少对统计结果都不造成影响,可能是由于该程序函数中没有连续的浮点运算指令。

(3)考察增加forward部件对性能的影响。

没有forward部件有forward部件

使用forward部件之后执行相同的代码用的时钟周期比不使用forward部件少了

大约122个时钟周期,使用forward部件使得RAW相关明显减少了,流水线的性能得到很大的改善。

(4)观察转移指令在转移成功和转移不成功时候的流水线开销。

该转移指令不成功的情况较多,21次预测中只有1次转移成功,所以预测顺序取对流水线的性能是有利的。

6、实验总结

本次实验主要是向量求和运算,在本次实验我设计了两个部分,首先是整数向量的加法,整数向量加法的实验进行成功后才在之前实验的基础上略作修改,进行了的双精度浮点加法求和的实验。

本次实验没有输入,是直接对固定在代码中的数据进行运算,运算完毕后直接输出结果。

编程中遇到的一些问题:

在由整形改为双精度浮点运算的时候对双精度运算指令不知道怎么来标识,后来查到所有涉及到double型数据的运算指令,指令代码都要加上d来说明,否则编译是不通过的。

通过本次自己编写汇编程序对浮点数的操作有了更深入的了解,也学会了WINDLX中浮点寄存器和浮点状态寄存器的设置和使用。

熟悉了双精度浮点运算的流水线操作过程,以及数据相关,结构相关,控制相关,forward部件对于双精度浮点运算流水线的影响。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > PPT模板 > 其它模板

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1