数的定标.docx - 冰豆网

资源描述

数的定标.docx

《数的定标.docx》由会员分享，可在线阅读，更多相关《数的定标.docx（20页珍藏版）》请在冰豆网上搜索。

数的定标.docx

数的定标

在定点DSP芯片中，采用定点数进行数值运算，其操作数一般采用整型数来表示。

一个整型数的最大表示范围取决于DSP芯片所给定的字长，一般为16位或24位。

显然，字长越长，所能表示的数的范围越大，精度也越高。

如无特别说明，本书均以16位字长为例。

DSP芯片的数以2的补码形式表示。

每个16位数用一个符号位来表示数的正负，0表示数值为正，1则表示数值为负。

其余15位表示数值的大小。

因此

二进制数0010000000000011b＝8195

二进制数1111111111111100b＝-4

对DSP芯片而言，参与数值运算的数就是16位的整型数。

但在许多情况下，数学运算过程中的数不一定都是整数。

那么，DSP芯片是如何处理小数的呢？

应该说，DSP芯片本身无能为力。

那么是不是说DSP芯片就不能处理各种小数呢？

当然不是。

这其中的关键就是由程序员来确定一个数的小数点处于16位中的哪一位。

这就是数的定标。

通过设定小数点在16位数中的不同位置，就可以表示不同大小和不同精度的小数了。

数的定标有Q表示法和S表示法两种。

表3.1列出了一个16位数的16种Q表示、S表示及它们所能表示的十进制数值范围。

从表3.1可以看出，同样一个16位数，若小数点设定的位置不同，它所表示的数也就不同。

例如：

16进制数2000H＝8192，用Q0表示

16进制数2000H＝0.25，用Q15表示

但对于DSP芯片来说，处理方法是完全相同的。

从表3.1还可以看出，不同的Q所表示的数不仅范围不同，而且精度也不相同。

Q越大，数值范围越小，但精度越高；相反，Q越小，数值范围越大，但精度就越低。

例如，Q0的数值范围是-32768到+32767，其精度为1，而Q15的数值范围为-1到0.9999695，精度为1/32768=0.00003051。

因此，对定点数而言，数值范围与精度是一对矛盾，一个变量要想能够表示比较大的数值范围，必须以牺牲精度为代价；而想提高精度，则数的表示范围就相应地减小。

在实际的定点算法中，为了达到最佳的性能，必须充分考虑到这一点。

浮点数与定点数的转换关系可表示为：

浮点数（x）转换为定点数（

schemas-microsoft-com:

vml"/>

schemas-microsoft-com:

office:

office"/>）：

定点数（）转换为浮点数（x）：

例如，浮点数 x=0.5，定标 Q＝15，则定点数＝，式中表示下取整。

反之，一个用 Q＝15 表示的定点数16384，其浮点数为16384×2-15

＝16384/32768=0.5。

表3.1 Q表示、S表示及数值范围

Q表示

S表示

十进制数表示范围

Q15

S0.15

-1≤X≤0.9999695

Q14

S1.14

-2≤X≤1.9999390

Q13

S2.13

-4≤X≤3.9998779

Q12

S3.12

-8≤X≤7.9997559

Q11

S4.11

-16≤X≤15.9995117

Q10

S5.10

-32≤X≤31.9990234

S6.9

-64≤X≤63.9980469

S7.8

-128≤X≤127.9960938

S8.7

-256≤X≤255.9921875

S9.6

-512≤X≤511.9804375

S10.5

-1024≤X≤1023.96875

S11.4

-2048≤X≤2047.9375

S12.3

-4096≤X≤4095.875

S13.2

-8192≤X≤8191.75

S14.1

-16384≤X≤16383.5

S15.0

-32768≤X≤32767

3.2 高级语言：

从浮点到定点

在编写DSP模拟算法时，为了方便，一般都是采用高级语言（如C语言）来编写模拟程序。

程序中所用的变量一般既有整型数，又有浮点数。

如例3.1程序中的变量i是整型数，而pi是浮点数，hamwindow则是浮点数组。

例3.1 256点汉明窗计算

int i;

float pi=3.14159;

float hamwindow[256];

for（i=0;i<256;i++） hamwindow[i]=0.54-0.46*cos（2.0*pi*i/255）;

如果要将上述程序用某种定点DSP芯片来实现，则需将上述程序改写为DSP芯片的汇编语言程序。

为了DSP程序调试的方便及模拟定点DSP实现时的算法性能，在编写DSP汇编程序之前一般需将高级语言浮点算法改写为高级语言定点算法。

下面讨论基本算术运算的定点实现方法。

schemas-microsoft-com:

office:

smarttags"/>3.2.1 加法/减法运算的C语言定点模拟

设浮点加法运算的表达式为：

floatx,y,z;

z=x+y;

将浮点加法/减法转化为定点加法/减法时最重要的一点就是必须保证两个操作数的定标值一样。

若两者不一样，则在做加法/减法运算前先进行小数点的调整。

为保证运算精度，需使Q值小的数调整为与另一个数的Q值一样大。

此外，在做加法/减法运算时，必须注意结果可能会超过16位表示。

如果加法/减法的结果超出16位的表示范围，则必须保留32位结果，以保证运算的精度。

1．结果不超过16位表示范围

设x的Q值为Qx，y的Q值为Qy，且Qx>Qy，加法/减法结果z的定标值为Qz，则

z＝x+y ⇒

= ⇒

所以定点加法可以描述为：

intx,y,z;

longtemp;

temp＝y<<（Qx－Qy）;

temp＝x＋temp;

z＝（int）（temp>>（Qx－Qz））, 若Qx≥Qz

z＝（int）（temp<<（Qz－Qx））, 若QxQ≤z

例3.2 定点加法

设x＝0.5，y＝3.1，则浮点运算结果为z＝x+y＝0.5+3.1＝3.6;

Qx＝15，Qy＝13，Qz＝13，则定点加法为：

x＝16384；y＝25395;

temp＝25395<<2＝101580;

temp＝x+temp＝16384+101580＝117964;

z＝（int）（117964L>>2）＝29491;

因为z的Q值为13，所以定点值z＝29491即为浮点值z＝29491/8192＝3.6。

例3.3 定点减法

设x＝3.0，y＝3.1，则浮点运算结果为z＝x-y＝3.0-3.1＝-0.1;

Qx＝13，Qy＝13，Qz＝15，则定点减法为：

x＝24576；y＝25295；

temp＝25395;

temp＝x-temp＝24576-25395＝-819;

因为Qx

由于z的Q值为15，所以定点值z＝-3276即为浮点值z＝-3276/32768≈-0.1。

2．结果超过16位表示范围

设x的Q值为Qx，y的Q值为Qy，且Qx>Qy，加法结果z的定标值为Qz,则定点加法为：

intx，y；

longtemp，z；

temp＝y<<（Qx-Qy）；

temp＝x＋temp;

z＝temp>>（Qx-Qz），若Qx≥Qz

z＝temp<<（Qz-Qx），若Qx≤Qz

例3.4 结果超过16位的定点加法

设x＝15000，y＝20000，则浮点运算值为z＝x＋y＝35000，显然z>32767，因此

Qx＝1，Qy＝0，Qz＝0，则定点加法为：

x＝30000；y＝20000；

temp＝20000<<1＝40000;

temp＝temp+x＝40000+30000＝70000;

z＝70000L>>1＝35000;

因为z的Q值为0，所以定点值z=35000就是浮点值，这里z是一个长整型数。

当加法或加法的结果超过16位表示范围时，如果程序员事先能够了解到这种情况，并且需要保证运算精度时，则必须保持32位结果。

如果程序中是按照16位数进行运算的，则超过16位实际上就是出现了溢出。

如果不采取适当的措施，则数据溢出会导致运算精度的严重恶化。

一般的定点DSP芯片都设有溢出保护功能，当溢出保护功能有效时，一旦出现溢出，则累加器ACC的结果为最大的饱和值（上溢为7FFFH，下溢为8001H），从而达到防止溢出引起精度严重恶化的目的。

3.2.2 乘法运算的C语言定点模拟

设浮点乘法运算的表达式为：

floatx,y,z;

z=xy;

假设经过统计后x的定标值为Qx，y的定标值为Qy，乘积z的定标值为Qz，则

z=xy ⇒

= ⇒

所以定点表示的乘法为：

intx,y,z;

longtemp;

temp=（long）x;

z=（temp×y）>>（Qx+Qy-Qz）;

例3.5 定点乘法

设x=18.4，y=36.8，则浮点运算值为z=18.4×36.8=677.12;

根据上节，得Qx=10，Qy=9，Qz=5，所以

x=18841；y=18841；

temp= 18841L;

z=（18841L*18841）>>（10+9-5）= 354983281L>>14=21666;

因为z的定标值为5，故定点 z=21666即为浮点的 z=21666/32=677.08。

3.2.3 除法运算的C语言定点模拟

设浮点除法运算的表达式为：

floatx,y,z;

z=x/y;

假设经过统计后被除数x的定标值为Qx，除数y的定标值为Qy，商z的定标值为Qz，则

z=x/y ⇒

= ⇒

所以定点表示的除法为：

intx,y,z;

longtemp;

temp=（long）x;

z=（temp<<（Qz-Qx+Qy））/y;

例3.6 定点除法

设x=18.4，y=36.8，浮点运算值为z=x/y=18.4/36.8=0.5;

根据上节，得Qx=10，Qy=9，Qz=15；所以有

x=18841,y=18841;

temp=（long）18841;

z=（18841L<<（15-10+9））/18841= 308690944L/18841=16384;

因为商z的定标值为15，所以定点z=16384即为浮点 z=16384/215=0.5。

3.2.4 程序变量的Q值确定

在前面几节介绍的例子中，由于x、y、z的值都是已知的，因此从浮点变为定点时Q值很好确定。

在实际的DSP应用中，程序中参与运算的都是变量，那么如何确定浮点程序中变量的Q值呢？

从前面的分析可以知道，确定变量的Q值实际上就是确定变量的动态范围，动态范围确定了，则Q值也就确定了。

设变量的绝对值的最大值为，注意必须小于或等于32767。

取一个整数n，使它满足

则有

Q=15-n

例如，某变量的值在-1至＋1之间，即 <1，因此n=0，Q＝15-n=15。

确定了变量的就可以确定其Q值，那么变量的又是如何确定的呢？

一般来说，确定变量的有两种方法：

一种是理论分析法，另一种是统计分析法。

1．理论分析法

有些变量的动态范围通过理论分析是可以确定的。

例如：

（1）三角函数，y =sin（x）或y =cos（x），由三角函数知识可知，|y|≤1；

（2）汉明窗，y（n）=0.54-0.46cos[2πn/（N-1）] ，0≤n≤N-1。

因为-1≤cos[2πn/（N-1）]≤1，所以0.08≤y（n）≤1.0；

（3）FIR卷积。

y（n）= ，设，且x（n）是模拟信号12位量化值，即有 ≤211，则 ≤211；

（4）理论已经证明，在自相关线性预测编码（LPC）的程序设计中，反射系数满足下列不等式：

，i=1,2,…,p,p为LPC的阶数。

2．统计分析法

对于理论上无法确定范围的变量，一般采用统计分析的方法来确定其动态范围。

所谓统计分析，就是用足够多的输入信号样值来确定程序中变量的动态范围，这里输入信号一方面要有一定的数量，另一方面必须尽可能地涉及各种情况。

例如，在语音信号分析中，统计分析时就必须采集足够多的语音信号样值，并且在所采集的语音样值中，应尽可能地包含各种情况，如音量的大小、声音的种类（男声、女声）等。

只有这样，统计出来的结果才能具有典型性。

当然，统计分析毕竟不可能涉及所有可能发生的情况，因此，对统计得出的结果在程序设计时可采取一些保护措施，如适当牺牲一些精度，Q值取比统计值稍大些，使用DSP芯片提供的溢出保护功能等。

3.2.5 浮点至定点变换的C程序举例

本节通过一个例子来说明C程序从浮点变换至定点的方法。

这是一个对语音信号（0.3kHz~3.4kHz）进行低通滤波的C语言程序，低通滤波的截止频率为800Hz，滤波器采用19点的有限冲击响应FIR滤波。

语音信号的采样频率为8kHz，每个语音样值按16位整型数存放在insp.dat文件中。

例3.7 语音信号800Hz19点FIR低通滤波C语言浮点程序

#include

const intlength=180

void filter（intxin[],intxout[],intn,floath[]）;

static floath[19]=

{0.01218354,-0.009012882,-0.02881839,-0.04743239,-0.04584568,

-0.008692503,0.06446265,0.1544655,0.2289794,0.257883,

0.2289794,0.1544655,0.06446265,-0.008692503,-0.04584568,

-0.04743239,-0.02881839,-0.009012882,0.01218354};

static intx1[length+20];

void filter（intxin[],intxout[],intn,floath[]）

{

inti,j;

floatsum;

for（i=0;i

{

sum=0.0;

for（j=0;j

xout[i]=（int）sum;

}

for（i=0;i<（n-1）;i++）x1[n-i-2]=xin[length-1-i];

}

void main（）

{

FILE *fp1,*fp2;

int frame,indata[length],outdata[length];

fp1=fopen（insp.dat,"rb"）;

fp2=fopen（outsp.dat,"wb"）;

frame=0;

while（feof（fp1）==0）

{

frame++;

printf（"frame=%dn",frame）;

for（i=0;i

filter（indata,outdata,19,h）;

for（i=0;i

}

fcloseall（）;

return（0）;

}

例3.8 语音信号800Hz19点FIR低通滤波C语言定点程序

#include

constintlength=180;

void filter（intxin[],intxout[],intn,inth[]）;

staticint h[19]={399,-296,-945,-1555,-1503,-285,2112,5061,7503,8450,

7503,5061,2112,-285,-1503,-1555,-945,-296,399};

staticint x1[length+20];

void filter（intxin[],intxout[],intn,inth[]）

{

inti,j;

longsum;

for（i=0;i

{

sum=0;

for（j=0;j

xout[i]=sum>>15;

}

for（i=0;i<（n-1）;i++）x1[n-i-2]=xin[length-i-1];

}

主程序与浮点的完全一样。

3.3 DSP定点算术运算

定点DSP芯片的数值表示是基于2的补码表示形式。

每个16位数用1个符号位、i个整数位和15-i个小数位来表示。

因此数00000010.10100000表示的值为 =2.625，这个数可用Q8格式（８个小数位）来表示，它表示的数值范围为-128~+127.996，一个Q8定点数的小数精度为1/256=0.004。

虽然特殊情况（如动态范围和精度要求）必须使用混合表示法，但是，更通常的是全部以Q15格式表示的小数或以Q0格式表示的整数来工作。

这一点对于主要是乘法和累加的信号处理算法特别现实，小数乘以小数得小数，整数乘以整数得整数。

当然，乘积累加时可能会出现溢出现象，在这种情况下，程序员应当了解数学里面的物理过程以注意可能的溢出情况。

下面讨论乘法、加法和除法的DSP定点运算，汇编程序以TMS320C25为例。

3.3.1 定点乘法

2个定点数相乘时可以分为下列3种情况：

1．小数乘小数

Q15×Q15＝Q30

例3.9 0.5*0.5=0.25

0.100000000000000 ；Q15

× 0.100000000000000 ；Q15

00.010000000000000000000000000000=0.25 ；Q30

2个Q15的小数相乘后得到1个Q30的小数，即有2个符号位。

一般情况下相乘后得到的满精度数不必全部保留，而只需保留16位单精度数。

由于相乘后得到的高16位不满15位的小数精度，为了达到15位精度，可将乘积左移1位，下面是上述乘法的TMS320C25程序:

LT OP1 ；OP1=4000H（0.5/Q15）

MPY OP2 ；OP2=4000H（0.5/Q15）

PAC

SACH ANS,1 ；ANS=2000H（0.25/Q15）

2．整数乘整数

Q0×Q0=Q0

例3.10 17×（-5）=-85

0000000000010001=17

× 1111111111111011=-5

11111111111111111111111110101011=-85

3．混合表示法

许多情况下，运算过程中为了既满足数值的动态范围又保证一定的精度，就必须采用Q0与Q15之间的表示法。

比如，数值1.2345，显然Q15无法表示，而若用Q0表示，则最接近的数是1，精度无法保证。

因此，数1.2345最佳的表示法是Q14。

例3.11 1.5×0.75=1.125

01.10000000000000=1.5 ；Q14

× 00.11000000000000=0.75 ；Q14

0001.0010000000000000000000000000=1.125;Q28

Q14的最大值不大于2，因此，2个Q14数相乘得到的乘积不大于4。

一般的，若一个数的整数位为 i位，小数位为 j 位，另一个数的整数位为 m 位，小数位为 n 位，则这两个数的乘积为（i+m）位整数位和（j+n）位小数位。

这个乘积的最高16位可能的精度为（i+m）整数位和（15 - i - m）小数位。

但是，若事先了解数的动态范围，就可以增加数的精度。

例如，程序员了解到上述乘积不会大于1.8，就可以用Q14数表示乘积，而不是理论上的最佳情况Q13。

例3.11的TMS320C25程序如下：

LT OP1 ;OP1=6000H（1.5/Q14）

MPY OP2 ;OP2=3000H（0.75/Q14）

PAC

SACH ANS,1 ;ANS＝2400H（1.125/Q13）

上述方法为了保证精度均对乘的结果舍位，结果所产生的误差相当于减去1个LSB（最低位）。

采用下面简单的舍入方法，可使误差减少二分之一。

LT OP1

MPY OP2

PAC

ADD ONE，14 （上舍入）

SACH ANS，1

上述程序说明，不管ANS为正或负，所产生的误差是1/2LSB，其中存储单元ONE的值为1。

3.3.2 定点加法

乘的过程中，程序员可不考虑溢出而只需调整运算中的小数点。

而加法则是一个更加复杂的过程。

首先，加法运算必须用相同的Q点表示；其次，程序员或者允许其结果有足够的高位以适应位的增长，或者必须准备解决溢出问题。

如果操作数仅为16位长，其结果可用双精度数表示。

下面举例说明16位数相加的两种途径。

1．保留32位结果

LAC OP1 ;（Q15）

ADD OP2 ;（Q15）

SACH ANSHI ;（高16位结果）

SACL ANSLO ;（低16位结果）

2．调整小数点保留16位结果

LAC OP1,15 ;（Q14数用ACCH表示）

ADD OP2,15 ;（Q14数用ACCH表示）

SACH ANS ;（Q14）

加法运算最可能出现的问题是运算结果溢出。

TMS320提供了检查溢出的专用指令BV，此外，使用溢出保护功能可使累加结果溢出时累加器饱和为最大的整数或负数。

当然，即使如此，运算精度还是大大降低。

因此，最好的方法是完全理解基本的物理过程并注意选择数的表达方式。

3.3.3 定点除法

在通用DSP芯片中，一般不提供单周期的除法指令，为此必须采用除法子程序来实现。

二进制除法是乘法的逆运算。

乘法包括一系列的移位和加法，而除法可分解为一系列的减法和移位。

下面来说明除法的实现过程。

设累加器为8位，且除法运算为10除以3。

除的过程就是除数逐步移位并与被除数比较的过程，在每一步进行减法运算，如果能减则将位插入商中。

（1）除数的最低有效位对齐被除数的最高有效位。

00001010

展开阅读全文