高速实时信号处理及一种新型模加法器的实现Word文档下载推荐.docx

资源描述

高速实时信号处理及一种新型模加法器的实现Word文档下载推荐.docx

《高速实时信号处理及一种新型模加法器的实现Word文档下载推荐.docx》由会员分享，可在线阅读，更多相关《高速实时信号处理及一种新型模加法器的实现Word文档下载推荐.docx（11页珍藏版）》请在冰豆网上搜索。

高速实时信号处理及一种新型模加法器的实现Word文档下载推荐.docx

3.高速实时数字信号处理系统的实现

鉴于以上特点，高速实时信号处理系统的实现中，首先要采用先进设计软件来保证系统设计的正确性，其主要特征就是采用电子设计自动化（EDA）软件进行优化设计。

其次，可以采用专用集成电路（ASIC）技术减小体积，提高集成度；

而在样机阶段，则通常采用可编程逻辑器件（EPLD）或现场可编程门阵列（FPGA）来减小风险。

第三，要研究高速度、低电平器件的特点和使用。

第四，要研究并行体系结构的设计和选择问题。

1.2信号处理分类

理论分析和仿真计算:

预先研究,模拟分析,系统设计前的仿真,事后分析

计算机/工作站：

PC，巨型机，单台/多机/网络

Fortran,C,Matlab

都是数字信号处理。

侧重于分析、验证、测试、模拟。

实时信号处理:

在限定的时间内，现场处理-特定的时间、地点

小迟延,专用型,体积/功耗小,成本低

大多数是嵌入式系统，脱离PC/:

DSP/单片机/FPGA,A/D,D/A

移动便携式

少数是计算机

EDA,DSP开发工具,FPGA开发环境,调试仪器

都是数字信号处理

许多信号处理的应用都需要两步：

第一步：

从理论分析和仿真计算开始，前期预研

第二步：

发展到实时信号处理。

从侧重于算法的搜索、优化、验证，到在实际环境中实现它。

两步在方法上的区别：

–第一步，分析性能，

–第二步，可行性如何，可靠性/成本/体积

1.3高速实时电路集成

高速实时电路集成主要是通过电路的二次集成，减小系统体积、功耗，提高性能/价格比、可靠性、保密性。

目前主要的集成方法包括EPLD、FPGA、以及ASIC等等。

（1）EPLD/FPGA技术：

当前EPLD/FPGA技术的发展特点是：

（a）集成密度不断提高：

已经可以达到25万门集成，预计年底可达100万门；

（b）功能愈加复杂：

已经从单纯的逻辑控制发展到数据存储、信号处理；

（c）设计输入方式灵活：

可用图形输入、或硬件描述语言；

（d）可进行系统仿真，并可反复编程。

因此采用EPLD/FPGA技术可以大大减小系统体积、降低系统成本、缩短设计周期、减小设计风险、提高系统性能。

（2）ASIC技术

通常电子设计的发展可以粗略地划分为以下三个阶段：

（a）用芯片设计硬件系统；

（b）以uP为核心的软件编程设计；

（c）ASIC设计，其最终的成果是芯片上的系统（Systemonachip）。

ASIC的主要优点是：

（a）适应用户特定的功能要求，效率最高；

（b）体积小；

保密性好。

但是在样机阶段，我们认为还是应该采用EPLD/FPGA技术，以减小开发风险；

待技术成熟后，可用ASIC技术进行最优的系统实现。

1.4高速实时信号生成

目前高速实时信号生成的热点问题是直接数字信号生成（DDS），其基本结构可以分为相位累加型DDS和数据存储型DDS。

（1）数据存储型DDS

这种DDS芯片把要产生的信号波形存储于数据存储器，之后以一定的时钟速率将数据读出后送DAC芯片，经低通滤波产生所需的信号波形。

其最大的优点是信号产生灵活，可以产生任意波形。

问题是波形时间长度受存储量限制。

（2）相位累加型DDS

这种DDS芯片采用相位累加器和正弦查找表的方法，可以通过数字控制生成正弦信号、线性调频信号、相位编码信号等多种信号形式，信号时间长度不受限制，因此是目前DDS芯片中的常用类型。

其主要问题是只能产生某些特定类型的信号，不能产生任意要求的信号波形。

（3）DDS主要性能指标

描述DDS的主要性能指标包括：

（a）时钟频率；

（b）输出频率范围：

一般为时钟频率的40%；

（c）频率分辨率：

取决于相位累加器位数、时钟频率；

（d）输出杂散：

来源于相位截断、幅度量化、DAC非线性；

（e）输出相位噪声：

来源于时钟不稳、相位截断、幅度量化、DAC非线性等等。

1.5实时信号处理举例

实时信号处理领域：

实时性强,迟延小,体积小,功耗小，成本低

（1）通信和语音信号:

每秒几千万到几亿次运算，手机

（2）视频信号和图象:

每秒几亿到几十亿次运算，网络图像传输

（3）工程应用：

导航，探测，识别

（4）尖端技术：

航空、航天、武器控制

（5）雷达、声纳信号:

每秒几十至几百亿次运算。

（6）新方法,扩大的应用领域，军用转民用

（7）数码相机-视频压缩，再存储

（8）VCD/DVD-视频解压，每秒25-30Frame/s

（9）通信：

语音编解码-压缩/解压、传输

（10）数字化监控：

视频压缩卡，传送或存储，用计算机解压回放

（11）可视门铃：

综合上述技术，实时性要求比上述都强。

二．模加法器2n-2k-1加法器高效VLSI设计与实现

2.1模加法器概述

1.模加法器

模加法器是余数系统（ResidueNumberSystem,RNS）的基本运算单元，2n-2k-1形式的余数基易于构建大动态范围和具有优良复杂度平衡性的多通道余数，是一种优化的基于进位修正和并行前缀算法的具有形式的模2n-2k-1加法器通用实现算法及其VLSI实现结构。

该算法消除了重复的进位信息计算，且可采用任意已有的前缀运算结构，与同类型模加法器的分析对比结果表明，提出的模2n-2k-1加法器具有优良的“面积x时延”特性。

模加法器由数据预处理、进位计算、进位修正和求和运算这三个模块构成。

消除了用于进位计算的重复单元，该结构具有一个完整的前缀运算单元，在实现中可根据具体情况选择高效的并行前缀结构找到速度与面积的最佳平衡点。

此外，具有2n-2k-1形式的余数基易于构建大动态范围、优良通道间复杂度平衡性的多通道RNS，而此家废弃涵盖了基于2n-2k-1形式的余数基的各通道的基本单元的实现，其实现结构统一，简化了设计，从而为构建这一类新的余数基打下了良好的基础。

2.余数系统

余数系统（ResidueNumberSystem,RNS）在乘法和加法运算中各运算通道间无进位传播，减小了芯片关键路径时延，可有效降低芯片面积和功耗，因此在具有大量乘加运算的数字信号处理（DigitalSignalProcessing,DSP）系统中得到了广泛关注和研究。

在RNS中，模加法器是其基本运算单元，优化的模加法器设计是余数系统的应用中的基本问题之一在模加法器设计中，通常需要同时处理两个加法运算，并根据其中一个加法的最高进位选择某

一个作为最终运算结果。

3.模加法器的分类

按照模加法的余数基类型，可分为通用模加法器和特殊基模加法器两类.在通用模加法器设计中，不可避免地会使用重复的计算单元.由于特殊形式模加法器具有更好的实现性能，因此得到了广泛而深人的研究。

Patel等人提出了一种基于进位修正的模2n-2k-1加法器实现结构，在其进位计算模块中仅计算A+B+T的进位信息，然后根据A+B+T的最终进位对其各比特的进位进行修正得到模加运算所需要的进位信息，从而消除了重复的进位计算单元，但其进位计算结构固定。

具有2n-2k-1形式的余数基在构建高性能、高动态范围和优良通道间平衡性的余数系统中具有重要应用价值.本文基于并行前缀和进位修正算法，提出了一类新的具有2n-2k-1形式的模加法设计方法和其高效VLSI实现结构。

2.2相关理论基础

1.模加法

对于整数A,B进行模p的加法运算定义为

式中，n=[log2p]，即n为不小于log2p的最小整数。

式

（2）表明，若A+B+T的进位为“1"

，则模加法的结果为A+B+T的低n比特，反之则为A+B，这是绝大多数模加法器设计所遵循的基本原则。

2.并行前缀加法

二进制加法器的进位传播路径长度是影响其性能的主要因素，并行前缀运算可在进位传播的路径长度和实现面积之间做到灵活折中以满足具体应用要求，它是加法器设计中广泛被采用的方法.基于前缀算法的二进制加法器可分为三个清晰的处理模块，即数据预处理、前缀运算和求和运算模块，如图1所示。

图1基于前缀运算加法器结构及前缀运算

数据预处理模块根据加数A,B按位生成前缀运算所需的前缀运算对:

式中，gi和pi，分别表示第i位（i=0,1,…n一1）的进位生成和进位传播位，p*也被称为部分和信息.gi=ai;

b=（即ai，同bi进行二进制“与”逻辑运算），pi=ai

bi;

（"

”表示二进制“异或”逻辑运算）。

前缀运算模块用于生成求和模块所需的各比特进位信息，二进制加法前缀运算定义为

由式（4）和式（5），可以构建多种不同结构的前缀运算结构，常见的二进制加法前缀结构有：

Sklansky（SK）,Brent-Kung（BK）,Kogge-Stone（KS）,Han-Carlson（HC）ELM等，这些前缀结构通常也被称为前缀树。

经前缀运算后，即可得到每比特的进位信息ci（i=0,1,2,w,n），它表示向第i位的进位:

求和运算模块根据前缀运算模块所得到的进位信息ci和预处理模块得到的部分和信息pi求得最后si:

3.单位门分析模型

单位门模型是VLSI电路设计中常用的分析模型之一令单位门模型中的1个单位门所占用的面积和所引人的时延分别为Ag、和rg，则非门和缓冲器的面积和时延可忽略不计;

简单的2输人门，如“与”门、“或”门、“与非”门和“或非”门等，其面积和时延都分别为Ag和rg;

而对于“异或”和“同或”这类复杂的2输人门的面积和时延则为2Ag、和2rg。

其他组合逻辑的面积为其所使用的单位门面积之和，时延为关键路径上单位门时延之和，例如1个二选一的MUX占用的面积为3Ag，而时延为2rg。

2.3基于前缀运算和进位修正的模2n-2k-1加法器

本文提出的模2n-2k-1加法器结构如图2所示，该模加法器由以下几部分构成:

（1）数据预处理模块:

完成并行前缀运算所需要的进位生成和进位传播信息对（gi，Pi）;

（2）进位生成模块:

完成A+B+T的快速进位计算以获得ciT和cout，，其核心为一并行前缀运算模块;

（3）进位修正模块:

根据cout对好进行修正以得到完成模加法所需要的进位。

（4）求和单元:

同普通二进制加法器一样，根据各位的进位信息及部分和信息计算得到相应的和si.

1.数据预处理

由于本文采用了对A+B+T的进位信息ciT进位修正的方法获取模加运算所需的进位信息，因此数据预处理部仅需产生A+B+T的进位生成和传播信息对（gi，pi），因此数据预处理部分实际为3输人情况.

而当i=k,k+l,…,n-1时，则可采用两级简化的进位保留加法器（SimpleCarrySavedAdder,SCSA）将3输人变成2输人形式.即首先计算得到ai加bi（i=k,k+1，…，n-1）的进位保留形式

A2的数据预处理部分最终的输出为

至此，由式（8）~式（10）可得到前缀运算所需的必要信息.而SCSA的最高位输出cSCSA则用于计算A+B+T的最高进位cout.

2.进位修正

为了便于后续的阐述，这里首先给出加法器在最低进位为”0”和”1”时各比特的进位之间的关系.

定理1令。

Ci（i=0,1,2,…n）为n比特加法器各比特向其临近的高位输出的进位，cin为最低进位输人（即c0=Cin},Cout为最终的进位输出（即Cout

=cn），当。

Cin=0时，各比特的进位为Ci0;

当Cin=1时一各比特的进位为ci1则

3.求和运算

求和运算模块同一般的基于前缀运算的二进制加法器基本相同，但cireal是在考虑了cout控制下的修正结果，即cout=0时cireal为A+B的进位信息，反之则为A+B+T的进位信息，因此在求和时也应使用对应的A+B或A+B+T的部分和信息。

令Pi0和pi1（i=0,l,…n-1）分别表示A+B和A+B+T的部分和信息，在数据预处理模块计算得到的是pi1，即pi1=pi，由以上分析可得

2.4设计实例

本实例根据本文所提出算法针对模28-24-1加法器给出了详细设计和说明，前缀运算选用了Sklansky树.

性能分析与比较：

表1给出了基于单位门模型的面积和时延性能比较，选择这几种模加法器进行比较的原因是它们的模加运算类型或采用的算法基本类似.可表明本文所设计模加法器较普通二进制加法器之间的别.图4（a）给出了Patel模2n-2n-2-1加法器、ELMMA和当k=n-2时本文所提出算法同基于Sklansky前缀树的普通二进制加法器的“面积x时延”对比结果，图4（b）则给出了在实现相同模加法（模2n一2n-2-1）时，本文算法较Patel和ELMMA所节约的“面积x时延”百分比，可见随着n的增大，本文所提出的算法较Patel模加法器的节约了30%左右，而较ELMMA则节约了45%左右;

当大于3时，较Patel等人的模2n一2n-2-1加法器节约的“面积x时延”百分比至少在10%以上，较ELM-MA则至少在20%以上.

展开阅读全文