TMS320C62XDSP的混合编程研究精Word文件下载.docx

资源描述

TMS320C62XDSP的混合编程研究精Word文件下载.docx

《TMS320C62XDSP的混合编程研究精Word文件下载.docx》由会员分享，可在线阅读，更多相关《TMS320C62XDSP的混合编程研究精Word文件下载.docx（11页珍藏版）》请在冰豆网上搜索。

TMS320C62XDSP的混合编程研究精Word文件下载.docx

Ｃ语言和汇编语言的混合编程有三种形式：

在编写Ｃ语言代码中插入汇编语句只需在汇编语句两边加上双引号和括号，在括号前面加上标识ａｓｍ，如ａｓｍ“汇编语句”；

在编写Ｃ代码的过程中调用内联函数ＴＭＳ３２０Ｃ６２Ｘ中有一些直接映射为内联的Ｃ６０００指令的特殊函数，内联函数用前下划线＿表示，使用时同调用Ｃ语言的库函数一样调用它，如ｂ＝＿ｎａｓｓｅｒｔＮ＞＝１０；

汇编代码以Ｃ代码可以调用的函数出现。

本文采用第三种形式。

为了使程序代码的执行具有尽可能高的执行效率，本文将着重点放在并行汇编代码的编程，而不是线性汇编代码的编程。

１Ｃ语言与汇编语言混合编程的接口规范和标准

用Ｃ语言编写的代码中核心代码常常只是整个程序代码的５％，但是却占用了整个程序约９５％的执行时间。

对这些核心代码采用汇编语言编写，可以大大提高代码的执行效率，而Ｃ语言程序可以象调用Ｃ程序的一个函数那样去调用这个汇编函数。

为了实现Ｃ语言和汇编语言的混合编程，需要注意一些规定的接口规范和标准。

（１）采用Ｃ语言和汇编语言混合编程时，ＴＭＳ３２０Ｃ６２Ｘ定义了一套严格的寄存器规则。

这个寄存器规则表明了编译器如何使用这些寄存器以及在函数调用过程中如何保护这些寄存器。

调用函数保护了寄存器Ａ０～Ａ９和Ｂ０～Ｂ９，这就使得在编写汇编程序的时候可以任意的使用这几个寄存器而不需保护它们。

但当使用到寄存器Ａ１０～Ａ１５或Ｂ１０～Ｂ１５的时候，则必须自行对它们进行保护。

长型、双精度型或者是长双精度型的数据对象要放在一个奇／偶寄存器对（如Ａ１：

Ａ０）里，奇数寄存器存放着数据的符号位、指数位和最高有效位，而偶数寄存器则存放着低有效位。

在默认情况下，Ａ３用作返回结构指针寄存器，Ｂ３用作被调用函数返回地址寄存器，Ａ１５用作帧指针寄存器，Ｂ１４用作数据页指针寄存器，Ｂ１５用作堆栈指针寄存器。

这些寄存器在被调用的汇编函数中用到时都要进行保护。

（２）调用函数将参数传递到被调用函数中，前十个参数将被从左到右依次放入寄存器Ａ４、Ｂ４、Ａ６、Ｂ６、Ａ８、Ｂ８、Ａ１０、Ｂ１０、Ａ１２和Ｂ１２，如果传递的参数是长型、双精度型或者是长双精度型，则将参数依次放入寄存器组Ａ５：

Ａ４、Ｂ５：

Ｂ４、Ａ７：

Ａ６等，并将剩下的变量按相反的顺序放在堆栈里。

注意，如果传递的参数是一个结构类型的参数，则传递的是该结构类型的地址。

（３）如果在Ｃ／Ｃ＋＋调用函数中做了正确的函数返回声明，则被调用的汇编函数可以返回有效值。

如果返回值是整型或３２位的浮点型，则放在寄存器Ａ４中返回；

如果返回值是双精度或是长双精度型，则放在Ａ５：

Ａ４中返回；

如果返回值是一个结构类型，则将其结构的地址放在Ａ３中返回。

（４）编译器为所有的外部对象指定一个链接时的名字。

当写汇编语言代码时，必须用与这个名字相同的名字。

对于只在汇编语言模块中用到的变量的标识符，不能从下划线开始。

任何一个在汇编语言中声明的对象都要使其在Ｃ／Ｃ＋＋中是可访问的，那么在汇编语言中必须用．ｄｅｆ或．ｇｌｏｂａｌ将其声明为外部变量。

同样在汇编语言中要引用Ｃ／Ｃ＋＋函数或对象时，必须用．ｒｅｆ或．ｇｌｏｂａｌ将Ｃ／Ｃ＋＋对象声明，这将产生一个在汇编语言函数中没有定义的由链接器辨识的外部引用。

还有一些细节也需要注意，如中断子程序必须把该子程序将要用到的所有寄存器进行入栈处理；

除了全局变量的初始化外，汇编语言的模块不得因为任何目的而使用．ｃｉｎｉｔ段；

汇编代码的结束需用指令Ｂ．ｓ２Ｂ３将程序执行从被调用函数返回到Ｃ语言调用函数中。

２并行汇编代码的编写

Ｃ６０００的汇编代码格式如下：

标号：

并行标记条件寄存器指令助记符功能单元操作数；

注释。

如：

ＬＤＷ　．Ｄ２Ｂ４，Ｂ２

｜｜Ａ１ＳＨＬ．Ｓ２ＸＡ４，Ｂ４；

用到了交叉数据通道

ＴＭＳ３２０Ｃ６２Ｘ片内有８个并行的处理单元，分为相同的两组。

其体系结构采用超长指令字（ＶＬＩＷ）结构，一个指令包里的８条并行指令可同时分配到８个处理单元并行运行。

这种一个指令包里有８条指令并行执行也给并行汇编代码的编写带来很多要考虑的问题具体如下：

（１）ＴＭＳ３２０Ｃ６２Ｘ指令的执行可以用延迟间隙来说明。

延迟间隙在数量上等于从指令的源操作数被读取到执行的结果可以被访问所用的指令周期。

如对于乘法指令（ＭＰＹ），源操作数从第ｉ个周期被读取，则其计算结果在第（ｉ＋２）个周期才可用。

（２）使用相同功能单元的两条指令不能被安排为并行指令。

（３）使用同一条交叉通路的两条指令不能被安排在同一个执行指令包中，这是因为从寄存器组Ａ～Ｂ或者从Ｂ～Ａ都只有一条交叉通路。

４将数据读入到（或存储自）相同寄存器组的两条读（写）指令不能被安排在同一个执行包中。

５每一个执行包里只能允许每一寄存器组处理一个长定点类型数据。

６在一个指令周期内对同一寄存器读取多于四次是不允许的，但条件寄存器不在此限制之列。

在一个指令周期内，不能同时存在两条写入同一寄存器的指令，只有在写操作不是在同一个指令周期发生时，才可以将具有同一目的地址的两条指令安排并行。

３基于ＴＭＳ３２０Ｃ６２Ｘ的运动补偿的混合编程设计实例

运动补偿是ＭＰＥＧ－４标准中的一种重要算法。

运动补偿是指根据运动矢量在参考帧中找出参考块。

如果运动矢量的Ｘ分量和Ｙ分量都是整象素长度，则直接在参考帧中找出参考块。

如果为半象素长度，则需要通过内插运算计算出参考块，计算出的参考块需要加上解码得出的误差块才能得到当前参考块。

本文给出了运动矢量的Ｘ分量和Ｙ分量都是整象素长度时的运动补偿方法。

根据运动矢量可直接在参考帧中找到参考块（８×

８）。

完成此功能的Ｃ语言函数如下：

ｖｏｉｄｍｃ＿ｃａｓｅ＿ａ２ｕｎｓｉｇｎｅｄｃｈａｒｐＳｒｃｓｈｏｒｔＳｒｃＯｆｆｓｅｔｓｈｏｒｔＳｒｃＷｉｄｔｈｕｎｓｉｇｎｅｄｃｈａｒｐＤｓｔｓｈｏｒｔＲｏｕｎｄＣｔｒｌ

　　……

ｆｏｒｉ＝０ｉ＜８ｉ＋＋



ｔｍｐ＿Ｐ＿Ｄｓｔ＋ｉ＝ｔｍｐ＿Ｐ＿Ｓｒｃ＋ｉ

．．．．．．

}

参数运动矢量ＳｒｃＯｆｆｓｅｔ对４（４个字节为一个字，长３２位）的余数可能是０、１、２、３。

当余数是０的时候，编译后执行代码是按字读取（ＬＤＷ）的，这充分体现了ＴＭＳ３２０Ｃ６２Ｘ的优点，也使程序的运行效率比较高。

而当余数不为０的时候，则可能是按字节读取（ＬＤＢ）或是按半字读取（ＬＤＨ），这使程序的运行效率较低。

视频的编码和解码都要用到运动补偿来重构图像，这是一个很费时的操作，而且其代码也是图像处理中的核心代码，这样就要求编写高效的程序来完成此操作。

为了使代码的运行效率更高，且结合ＴＭＳ３２０Ｃ６２Ｘ的硬件特点，希望对于不同的运动矢量，做运动补偿的时候都能采用按字读取和存储的方式。

这需要对运动矢量参数除以４，根据余数调整指针，使指针始终指向字对齐方式而在Ｃ程序中当前块是ｃｈａｒ型的以字节方式存储的，对其进行移位处理只能是一个字节一个字节地进行移位，这就使得在Ｃ程序中不能用和汇编程序同样的方法来对程序进行优化，如运动矢量除以４以后的余数为１，为了使要取的８个象素对准字访问方式，则要按图１进行操作。

根据运动矢量参数进行移位使其对准字访问的核心代码的程序为：

ＭＶＫ．Ｓ２　０ｘＦＦＦＣｔｅｍｐ　；

获得地址的ＬＳＢ位

ＡＤＤ　．Ｌ１ＸｐＳｒｃｏｆｆｓｅｔｐＳｒｃ；

参考块第一个元素的

地址

ＡＮＤ　．Ｌ２Ｘ　ｐＳｒｃｔｅｍｐｔｍｐ＿ｐＳｒｃ；

字对准访问的地址

ＡＮＤ　．Ｓ１　０ｘ０００３ｐＳｒｃｒｓｈｉｆｔＡ　；

用两个ＬＳＢ位得

；

到了需右移几个字

ＳＵＢ　．Ｌ１　０ｘ０４ｒｓｈｉｆｔＡｌｓｈｉｆｔＡ；

需左移几个字

ＭＰＹ　．Ｍ１　ｒｓｈｉｆｔＡ８ｒｓｈｉｆｔＡ　；

需右移的＃ｂｉｔ数

ＭＰＹ　．Ｍ１　ｌｓｈｉｆｔＡ８ｌｓｈｉｆｔＡ　；

需左移的＃ｂｉｔ数

作为一个说明Ｃ语言与汇编程序混合编程的设计例子，采用并行汇编实现了这个函数的优化。

这里只给出部分汇编程序：

．ｔｅｘｔ　　；

将该段汇编代码安排在．ｔｅｘｔ

段，当然通过在Ｃ语言中用

＃ｐｒｏｇｒａｍ＿ｓｅｃｔｉｏｎ也可以将其安排

在其它自己命名的段中。

．ｇｌｏｂａｌｍｃ＿ｃａｓｅ＿ａ　；

函数名，用．ｄｅｆ或．ｇｌｏａｌ对其进行

声明，使得Ｃ代码调用该函数

＿ｍｃ＿ｃａｓｅ＿ａ　；

标号，是Ｃ调用函数和汇编

被调用函数的接口处

……

．ａｓｇＢ１０，ｏｃｓｒ

．ａｓｇＢ１１，ｒｗ＿４　　　

ＳＴＷ．Ｄ２ｏｃｓｒ，ｓｔａｃｋ－－１　；

被调用函数用到了

Ｂ１０～Ｂ１５，Ａ１０

ＳＴＷ．Ｄ２ｒ＿ｗ４，ｓｔａｃｋ－－１　；

～Ａ１５的寄存器，则

需对它们保护

ＭＶＣ．Ｓ２ＣＳＲ，ｏｃｓｒ

ＡＮＤ．Ｓ２－２，ｏｃｓｒ，ｏｃｓｒ　　

ＭＶＣ．Ｓ２ｏｃｓｒ，ＣＳＲ；

关闭某些中断……

ｌｏｏｐ

ＬＤＷ．Ｄ２ｔｍｐ＿ｐＳｒｃ＋＋ｓｒｃ＿ｗｉｄｔｈ１，ｒ＿ｗ１

读取第一个字

ＬＤＷ．Ｄ１ｐＳｒｃ＋＋１，ｒ－ｗ２；

读取第二个字

ＬＤＷ．Ｄ１ｐＳｒｃ＋＋ｓｒｃ＿ｗｉｄｔｈ２，ｒ－ｗ３；

读取第三个字　ＳＨＲＵ．Ｓ２ｒ＿ｗ１，ｒｓｈｉｆｔＢ，ｒ－ｗ１

ＳＨＬ．Ｓ１ｒ＿ｗ３，

展开阅读全文