定点数与浮点数.docx-资源下载

定点数与浮点数.docx

1、定点数与浮点数第3章 DSP芯片的定点运算3.1 数的定标在定点DSP芯片中，采用定点数进行数值运算，其操作数一般采用整型数来表示。一个整型数的最大表示范围取决于DSP芯片所给定的字长，一般为16位或24位。显然，字长越长，所能表示的数的范围越大，精度也越高。如无特别说明，本书均以16位字长为例。DSP芯片的数以2的补码形式表示。每个16位数用一个符号位来表示数的正负，0表示数值为正，1则表示数值为负。其余15位表示数值的大小。因此二进制数0010000000000011b8195二进制数1111111111111100b-4对DSP芯片而言，参与数值运算的数就是16位的整型数。但在许多

2、情况下，数学运算过程中的数不一定都是整数。那么，DSP芯片是如何处理小数的呢？应该说，DSP芯片本身无能为力。那么是不是说DSP芯片就不能处理各种小数呢？当然不是。这其中的关键就是由程序员来确定一个数的小数点处于16位中的哪一位。这就是数的定标。通过设定小数点在16位数中的不同位置，就可以表示不同大小和不同精度的小数了。数的定标有Q表示法和S表示法两种。表3.1列出了一个16位数的16种Q表示、S表示及它们所能表示的十进制数值范围。从表3.1可以看出，同样一个16位数，若小数点设定的位置不同，它所表示的数也就不同。例如：16进制数2000H8192，用Q0表示16进制数2000H0.25，用Q

3、15表示但对于DSP芯片来说，处理方法是完全相同的。从表3.1还可以看出，不同的Q所表示的数不仅范围不同，而且精度也不相同。Q越大，数值范围越小，但精度越高；相反，Q越小，数值范围越大，但精度就越低。例如，Q0的数值范围是-32768到+32767，其精度为1，而Q15的数值范围为-1到0.9999695，精度为 1/32768 = 0.00003051。因此，对定点数而言，数值范围与精度是一对矛盾，一个变量要想能够表示比较大的数值范围，必须以牺牲精度为代价；而想提高精度，则数的表示范围就相应地减小。在实际的定点算法中，为了达到最佳的性能，必须充分考虑到这一点。浮点数与定点数的转换关系可表示为

4、：浮点数(x)转换为定点数()：定点数()转换为浮点数(x)：例如，浮点数 x=0.5，定标 Q15，则定点数，式中表示下取整。反之，一个用 Q15 表示的定点数16384，其浮点数为163842-1516384/32768=0.5。表3.1 Q表示、S表示及数值范围Q表示S表示十进制数表示范围Q15S0.15-1X0.9999695Q14S1.14-2X1.9999390Q13S2.13-4X3.9998779Q12S3.12-8X7.9997559Q11S4.11-16X15.9995117Q10S5.10-32X31.9990234Q9S6.9-64X63.9980469Q8S7.8

5、-128X127.9960938Q7S8.7-256X255.9921875Q6S9.6-512X511.9804375Q5S10.5-1024X1023.96875Q4S11.4-2048X2047.9375Q3S12.3-4096X4095.875Q2S13.2-8192X8191.75Q1S14.1-16384X16383.5Q0S15.0-32768X327673.2 高级语言：从浮点到定点在编写DSP模拟算法时，为了方便，一般都是采用高级语言(如C语言)来编写模拟程序。程序中所用的变量一般既有整型数，又有浮点数。如例3.1程序中的变量i是整型数，而pi是浮点数，hamwindow则是

6、浮点数组。例3.1 256点汉明窗计算int i;float pi=3.14159;float hamwindow256;for(i=0;iQy，加法/减法结果z的定标值为Qz，则zx+y = = 所以定点加法可以描述为：int x,y,z;long temp; /*临时变量*/tempy(QxQz), 若QxQzz(int)(temp(QzQx), 若QxQz例3.2 定点加法设x0.5，y3.1，则浮点运算结果为zx+y0.5+3.13.6;Qx15，Qy13，Qz13，则定点加法为：x16384；y25395;temp253952)29491;因为z的Q值为13，所以定点值z29491即

7、为浮点值z29491/81923.6。例3.3 定点减法设x3.0，y3.1，则浮点运算结果为zx-y3.0-3.1-0.1;Qx13，Qy13，Qz15，则定点减法为：x24576；y25295；temp25395;tempx-temp24576-25395-819;因为QxQz，故 z(int)(-819Qy，加法结果z的定标值为Qz,则定点加法为：int x，y；long temp，z；tempy(Qx-Qz)，若QxQzztemp32767，因此Qx1，Qy0，Qz0，则定点加法为：x30000；y20000；temp20000135000;因为z的Q值为0，所以定点值z=35000就

8、是浮点值，这里z是一个长整型数。当加法或加法的结果超过16位表示范围时，如果程序员事先能够了解到这种情况，并且需要保证运算精度时，则必须保持32位结果。如果程序中是按照16位数进行运算的，则超过16位实际上就是出现了溢出。如果不采取适当的措施，则数据溢出会导致运算精度的严重恶化。一般的定点DSP芯片都设有溢出保护功能，当溢出保护功能有效时，一旦出现溢出，则累加器ACC的结果为最大的饱和值(上溢为7FFFH，下溢为8001H)，从而达到防止溢出引起精度严重恶化的目的。3.2.2 乘法运算的C语言定点模拟设浮点乘法运算的表达式为：float x,y,z;z = xy;假设经过统计后x的定标值为Qx

9、，y的定标值为Qy，乘积z的定标值为Qz，则z = xy = =所以定点表示的乘法为：int x,y,z;long temp;temp = (long)x;z = (tempy) (Qx+Qy-Qz);例3.5 定点乘法设x = 18.4，y = 36.8，则浮点运算值为z =18.436.8 = 677.12;根据上节，得Qx = 10，Qy = 9，Qz = 5，所以x = 18841；y = 18841；temp = 18841L;z = (18841L*18841)(10+9-5) = 354983281L14 = 21666;因为z的定标值为5，故定点 z = 21666即为浮点的

10、z = 21666/32 = 677.08。3.2.3 除法运算的C语言定点模拟设浮点除法运算的表达式为：float x,y,z;z = x/y;假设经过统计后被除数x的定标值为Qx，除数y的定标值为Qy，商z的定标值为Qz，则z = x/y = 所以定点表示的除法为：int x,y,z;long temp;temp = (long)x;z = (temp(Qz-Qx+Qy)/y;例3.6 定点除法设x = 18.4，y = 36.8，浮点运算值为z = x/y = 18.4/36.8 = 0.5;根据上节，得Qx = 10，Qy = 9，Qz = 15；所以有x = 18841, y = 1

11、8841;temp = (long)18841;z = (18841L(15-10+9)/18841 = 308690944L/18841 = 16384;因为商z的定标值为15，所以定点z = 16384即为浮点 z = 16384/215= 0.5。3.2.4 程序变量的Q值确定在前面几节介绍的例子中，由于x、y、z的值都是已知的，因此从浮点变为定点时Q值很好确定。在实际的DSP应用中，程序中参与运算的都是变量，那么如何确定浮点程序中变量的Q值呢？从前面的分析可以知道，确定变量的Q值实际上就是确定变量的动态范围，动态范围确定了，则Q值也就确定了。设变量的绝对值的最大值为，注意必须小于或等于

12、32767。取一个整数n，使它满足则有Q = 15-n例如，某变量的值在-1至1之间，即1，因此n = 0，Q15-n = 15。确定了变量的就可以确定其Q值，那么变量的又是如何确定的呢？一般来说，确定变量的有两种方法：一种是理论分析法，另一种是统计分析法。1理论分析法有些变量的动态范围通过理论分析是可以确定的。例如：(1) 三角函数，y = sin(x)或y = cos(x)，由三角函数知识可知，|y|1；(2) 汉明窗，y(n) = 0.54-0.46cos 2n/(N-1) ，0nN-1。因为-1cos 2n/(N-1)1，所以0.08y(n)1.0；(3) FIR卷积。y(n)=，设，

13、且x(n)是模拟信号12位量化值，即有211，则211；(4) 理论已经证明，在自相关线性预测编码(LPC)的程序设计中，反射系数满足下列不等式：，i= 1,2,p, p为LPC的阶数。2统计分析法对于理论上无法确定范围的变量，一般采用统计分析的方法来确定其动态范围。所谓统计分析，就是用足够多的输入信号样值来确定程序中变量的动态范围，这里输入信号一方面要有一定的数量，另一方面必须尽可能地涉及各种情况。例如，在语音信号分析中，统计分析时就必须采集足够多的语音信号样值，并且在所采集的语音样值中，应尽可能地包含各种情况，如音量的大小、声音的种类(男声、女声) 等。只有这样，统计出来的结果才能具有典型

14、性。当然，统计分析毕竟不可能涉及所有可能发生的情况，因此，对统计得出的结果在程序设计时可采取一些保护措施，如适当牺牲一些精度，Q值取比统计值稍大些，使用DSP芯片提供的溢出保护功能等。3.2.5 浮点至定点变换的C程序举例本节通过一个例子来说明C程序从浮点变换至定点的方法。这是一个对语音信号(0.3kHz3.4kHz)进行低通滤波的C语言程序，低通滤波的截止频率为800Hz，滤波器采用19点的有限冲击响应FIR滤波。语音信号的采样频率为8kHz，每个语音样值按16位整型数存放在insp.dat文件中。例3.7 语音信号800Hz 19点FIR低通滤波C语言浮点程序#include const

15、int length = 180 /*语音帧长为180点22.5ms8kHz采样*/void filter(int xin ,int xout ,int n,float h ); /*滤波子程序说明*/*19点滤波器系数*/static float h19= 0.01218354,-0.009012882,-0.02881839,-0.04743239,-0.04584568,-0.008692503,0.06446265,0.1544655,0.2289794,0.257883,0.2289794,0.1544655,0.06446265,-0.008692503,-0.04584568,-

16、0.04743239,-0.02881839,-0.009012882,0.01218354;static int x1length+20;/*低通滤波浮点子程序*/void filter(int xin ,int xout ,int n,float h )int i,j;float sum;for(i=0;ilength;i+) x1n+i-1=xini;for (i=0;ilength;i+)sum=0.0;for(j=0;jn;j+) sum+=hj*x1i-j+n-1;xouti=(int)sum; for(i=0;i(n-1);i+) x1n-i-2=xinlength-1-i;/*

17、主程序*/void main( )FILE *fp1,*fp2;int frame,indatalength,outdatalength;fp1=fopen(insp.dat,rb); /*输入语音文件*/fp2=fopen(outsp.dat,wb); /*滤波后语音文件*/frame=0;while(feof(fp1)=0)frame+;printf(frame=%dn,frame);for(i=0;ilength;i+) indatai=getw(fp1); /*取一帧语音数据*/filter(indata,outdata,19,h); /*调用低通滤波子程序*/for(i=0;ilen

18、gth;i+) putw(outdatai,fp2); /*将滤波后的样值写入文件*/fcloseall( ); /*关闭文件*/return(0);例3.8 语音信号800Hz 19点FIR低通滤波C语言定点程序 #include const int length=180;void filter(int xin ,int xout ,int n,int h );static int h19=399,-296,-945,-1555,-1503,-285,2112,5061,7503,8450, 7503,5061,2112,-285,-1503,-1555,-945,-296,399; /*Q

19、15*/static int x1length+20;/*低通滤波定点子程序*/void filter(int xin ,int xout ,int n,int h )int i,j;long sum;for(i=0;ilength;i+) x1n+i-1=xini;for (i=0;ilength;i+)sum=0;for(j=0;j15;for(i=0;i(n-1);i+) x1n-i-2=xinlength-i-1;主程序与浮点的完全一样。3.3 DSP定点算术运算定点DSP芯片的数值表示是基于2的补码表示形式。每个16位数用1个符号位、i个整数位和15-i个小数位来表示。因此数0000

20、0010.10100000表示的值为=2.625，这个数可用Q8格式(个小数位)来表示，它表示的数值范围为-128+127.996，一个Q8定点数的小数精度为1/256=0.004。虽然特殊情况(如动态范围和精度要求)必须使用混合表示法，但是，更通常的是全部以Q15格式表示的小数或以Q0格式表示的整数来工作。这一点对于主要是乘法和累加的信号处理算法特别现实，小数乘以小数得小数，整数乘以整数得整数。当然，乘积累加时可能会出现溢出现象，在这种情况下，程序员应当了解数学里面的物理过程以注意可能的溢出情况。下面讨论乘法、加法和除法的DSP定点运算，汇编程序以TMS320C25为例。3.3.1 定点乘法

21、2个定点数相乘时可以分为下列3种情况：1小数乘小数Q15Q15Q30例3.9 0.5*0.5 = 0.250.100000000000000 ；Q15 0.100000000000000 ；Q15 00.010000000000000000000000000000=0.25 ；Q302个Q15的小数相乘后得到1个Q30的小数，即有2个符号位。一般情况下相乘后得到的满精度数不必全部保留，而只需保留16位单精度数。由于相乘后得到的高16位不满15位的小数精度，为了达到15位精度，可将乘积左移1位，下面是上述乘法的TMS320C25程序:LT OP1 ；OP1=4000H(0.5/Q15)MPY O

22、P2 ；OP2=4000H(0.5/Q15)PACSACH ANS,1 ；ANS=2000H(0.25/Q15)2整数乘整数Q0Q0 = Q0例3.10 17(-5)=-850000000000010001=17 1111111111111011=-5 11111111111111111111111110101011=-853混合表示法许多情况下，运算过程中为了既满足数值的动态范围又保证一定的精度，就必须采用Q0与Q15之间的表示法。比如，数值1.2345，显然Q15无法表示，而若用Q0表示，则最接近的数是1，精度无法保证。因此，数1.2345最佳的表示法是Q14。例3.11 1.50.75

23、= 1.12501.10000000000000 = 1.5 ；Q14 00.11000000000000 = 0.75 ；Q14 0001.0010000000000000000000000000 = 1.125;Q28Q14的最大值不大于2，因此，2个Q14数相乘得到的乘积不大于4。一般的，若一个数的整数位为 i位，小数位为 j 位，另一个数的整数位为 m 位，小数位为 n 位，则这两个数的乘积为 ( i + m )位整数位和(j + n)位小数位。这个乘积的最高16位可能的精度为( i + m )整数位和(15 - i - m)小数位。但是，若事先了解数的动态范围，就可以增加数的精度。例

24、如，程序员了解到上述乘积不会大于1.8，就可以用Q14数表示乘积，而不是理论上的最佳情况Q13。例3.11的TMS320C25程序如下：LT OP1 ;OP1 = 6000H(1.5/Q14) MPY OP2 ;OP2 = 3000H(0.75/Q14)PACSACH ANS,1 ;ANS2400H(1.125/Q13)上述方法为了保证精度均对乘的结果舍位，结果所产生的误差相当于减去1个LSB(最低位)。采用下面简单的舍入方法，可使误差减少二分之一。LT OP1MPY OP2PACADD ONE，14 (上舍入)SACH ANS，1上述程序说明，不管ANS为正或负，所产生的误差是1/2 LSB

25、，其中存储单元ONE的值为1。3.3.2 定点加法乘的过程中，程序员可不考虑溢出而只需调整运算中的小数点。而加法则是一个更加复杂的过程。首先，加法运算必须用相同的Q点表示；其次，程序员或者允许其结果有足够的高位以适应位的增长，或者必须准备解决溢出问题。如果操作数仅为16位长，其结果可用双精度数表示。下面举例说明16位数相加的两种途径。1保留32位结果LAC OP1 ;(Q15)ADD OP2 ;(Q15)SACH ANSHI ;(高16位结果)SACL ANSLO ;(低16位结果)2调整小数点保留16位结果LAC OP1,15 ;(Q14数用ACCH表示)ADD OP2,15 ;(Q14数用

26、ACCH表示)SACH ANS ;(Q14)加法运算最可能出现的问题是运算结果溢出。TMS320提供了检查溢出的专用指令BV，此外，使用溢出保护功能可使累加结果溢出时累加器饱和为最大的整数或负数。当然，即使如此，运算精度还是大大降低。因此，最好的方法是完全理解基本的物理过程并注意选择数的表达方式。3.3.3 定点除法在通用DSP芯片中，一般不提供单周期的除法指令，为此必须采用除法子程序来实现。二进制除法是乘法的逆运算。乘法包括一系列的移位和加法，而除法可分解为一系列的减法和移位。下面来说明除法的实现过程。设累加器为8位，且除法运算为10除以3。除的过程就是除数逐步移位并与被除数比较的过程，在每

27、一步进行减法运算，如果能减则将位插入商中。(1) 除数的最低有效位对齐被除数的最高有效位。 00001010 00011000 11110010(2) 由于减法结果为负，放弃减法结果，将被除数左移一位再减。 00010100 00011000 11111000(3) 结果仍为负，放弃减法结果，被除数左移一位再减。 00101000 00011000 00010000(4) 结果为正，将减法结果左移一位后加，作最后一次减。 00100001 00011000 00001001(5) 结果为正，将结果左移一位加1得最后结果。高位代表余数，低4位表示商。 00010011即商为0011=3，余数为0001=1。TMS320没有专门的除法指令，但使用条件减指令SUBC可以完成有效灵活

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？