1、传统的冯诺伊曼(Von 2Neumann 结构由于具有单一公用的数据和指令总线, 因此在高速运算时, 往往在传输通道上会出现瓶颈效应。DSP 芯片内部一般采用哈佛(Harvard结构, 片内至少有四套总线:程序的数据总线与地址总线, 数据的数据总线与地址总线。这种分离的程序总线和数据总线, 可允许在一个机器周期内同时获取指令字(来自程序存储器 和操作数(来自数据存储器 , 从而提高了执行速度。2. 2 硬件乘法器数字信号处理中最重要的一个基本运算是乘法累加运算, 也是最主要和最耗时的运算, 因此单周期的硬件乘法器是D SP 芯片实现快速运算的保证。现代高性能的DS P 芯片甚至具有两个以上的硬
2、件乘法器用以提高运算速度。数据宽度也从16位增加到32位。2. 3 多个并行处理单元D SP 内部一般都集成了多个处理单元, 如硬件乘法器(MUL 、累加器(ACC、算术逻辑单元(A L U 、辅助算术单元(ARA U 以及D M A 控制器等。它们都可以并行地在同一个周期内执行不同的任务, 例如辅助算术单元能为下一次的运算做好准备, 适合于完成连续的乘加运算。芯片内部还包括有其他总线, 如D M A 总线等, 可实现数据的后台传输而几乎不影响主CP U 的性能的有FFT 的位反转寻址, 语音的A 律、L 律算法等。为了提高并行处理能力, 现代D SP 芯片通常采用单指令多数据流结构(SI M
3、 D 、超长指令字结构(VLIW 、超标量体系结构、多DS P 核体系结构和DS P/1 D SP 芯片发展简况自1982年美国TI 公司推出第一个DSP 芯片T M S32010以来, D SP 芯片有了很大的发展。D SP 芯片不仅在运算速度上有了很大的提高, 而且在通用性和灵活性方面了极大地改进。此外, D SP 芯片的成本、体积、重量和功耗也都有了很大程度的下降。随着D SP 芯片应用领域的不断扩大, D SP 芯片已形成低、中、高三个档次:低端产品执行速度一般为2050M IPS, 能维持适量存储和功耗, 提供了较好的性能价格比, 适用于仪器仪表和精密控制等; 中端产品执行速度一般为
4、100150M IPS, 结构较为复杂, 具有较高的处理速度和低的功耗, 适用于无线电信设备和高速解调器等; 高端产品执行速度一般为1000MI PS 以上, 处理速度很高, 产品结构多样化, 适用于图像技术和智能通信基站等。对于种类繁多的D SP 芯片, 一般可按其工作的数收稿日期:2001-01-15作者简介:刘党辉, 男, 北京工业大学信号与信息处理研究室博士研究生, 主要研究方向为图像处理; 沈兰荪, 男, 博士生导师, 曾任中国科技大学高技术学院副院长, 现任北京工业大学信号与信息处理研究室主任, 主要研究方向为智能化信息处理, 已发表论文100余篇, 出版专著11本。:D SP 芯
5、片及其在图像技术中的应用M C U 混合结构, 这些并行处理机制大大提高了D SP 芯片的性能。2. 4 流水线技术DSP 芯片的哈佛结构为流水线技术提供了方便。由于采用流水线技术, DSP 芯片可以单周期完成乘法累加运算, 大大提高了运算速度。而D SP 芯片的指令基本上都是单周期指令, 因此单周期指令执行时间可以作为衡量DSP 芯片性能的一个主要指标。2. 5 片上存储器外部存储器一般不能适应高性能DS P 核的处理速度, 因此在片上设置较大的程序/数据存储器以减少对外部存储器中程序/数据的访问次数, 充分发挥DSP 核的高性能。目前高性能DSP 芯片上的可配置程度/数据RAM 高达7M
6、B 。采用大的片子存储器可以减少外部存储器接口的引脚, 甚至省略外部存储器接口, 而且也减小了芯片的封装体积。2. 6 多种外设和接口为了加强DSP 芯片的通用性, D SP 芯片上增加了许多外设。可能包括的外设有:多路D M A 通道、外部主机接口、外部存储器接口、芯片间高速链接口、外部中断、通信串口、定时器、可编程锁相环、A/D 转换器、JTAG 接口等。2. 7 特殊寻址模式为了满足FFT 积等数字信号处理的特殊要求, D SP 芯片大多包含专门的硬件地址产生器, 用以实现循环寻址和位翻转寻址, 并在软件上设置了相应的指令。2. 8 零消耗循环控制数字信号处理的一大特点是大部分处理时间花
7、在了较小循环的少量核心代码上。大部分D SP 芯片具有零消耗循环控制的专门硬件, 可以省去循环计数器的测试指令, 从而提高了代码效率, 减少了执行时间。2. 9 JT AG 接口由于D SP 芯片结构的复杂化、工作速度的提高、外部引脚的增多、封装面积减小而导致的引脚排列密集等原因, 传统的并行仿真方式已不适合于DS P 芯片的发展和应用开发。1991年公布的JT AG 接口标准满足了IC 制造商和用户的要求, 1993年JTA G 接口标准修订为5线接口。在片JT AG 接口为D SP 芯片的测试和仿真提供了很大的便利。2. 10 程序的加载引导加载引导是指器件在上电复位后执行一段引导程序,
8、用于从端口(异步串口、I/O 口、主机接口 或外部EPRO M /FL AS H 存储器中加载程序至高速RAM 中运行。一般用EPRO M /FLA SH 存储器存储程序, 但是其访问速度较慢, 而一些已有的高速EPRO M /FL AS H 存储器价格昂贵且容量有限; 同时高速大容量静态RA M#17#价格又在不断下降, 因此这种加载方式是一个有效的性价比解决方法。3 主要DS P 芯片简介目前, 90%以上的市场份额被四大D SP 厂商瓜分, 即TI 、Lucent 、AD 和Motorola 。其他的DSP 厂商还有A T &T、Fujitsu 、Harris 、ID T 、I NM O
9、 S 、NEC 、O KI 、SamSung 等80余家, 他们主要生产用于特殊功能的设备, 如调制解调器、MPEG 译码器、硬盘驱动器等。3. 1 TI 公司产品TI 公司自1982年推出其第一个DS P 芯片TM S32010以来, 目前已成为世界上最大的D SP 芯片供应商, 占全球份额近50%。TI 公司先后推出的T M S320系列产品包括:c C1x 、c C2x 、c C2xx 、c C5x 、c C54x 、c C55x 、c C62x 等定点系列D SP 芯片, c C3x 、c C4x 、c C67x 等浮点系列DS P 芯片; c C8x 系列多核DS P 集成系统等。在
10、T M S320系列产品中, c C1x 、c C2x 已属于淘汰产品, c C5x 也将被淘汰, 多核的c C8x 由于价格昂贵和开发复杂也将被淘汰。在低端应用中可采用c C2xx, 而中端应用中可采用c C54x 。c C2xx 向下兼容c C1x 、c C2x, 向上兼容c C5x; c C54x 向下兼容c C1x 、c C2x 、c C5x 。高端产品c C62x 向下兼容所有定点芯片, c C67向下兼容c C3x 、c C4x 浮点芯片。在老牌产品中, 由于c C3x 仍在不断改进中, 因此还是TI 公司目前主推产品之一。TM S320系列今后将主要以三个平台为基础发展:D SP
11、 控制平台c C2000(c C20x 、c C24x ; DS P 有效性能平台c C5000(c C54x 、c C55x ; D SP 高性能平台c C6000(c C62x 、c C67x 。表1列出了TM S320系列D SP 芯片主要产品的性能及其典型应用领域。另外, TI 公司新开发的控制平台内核c C28x 速度可达400M IPS 以上, 而高性能平台内核c C64x 可工作于6001100M Hz, 速度可达48008800MIPS, 基于核的设计可大大提高系统性能。TI 公司还与AR M 公司联合开发了新的D SP/MCU 双核平台, 具有高性能和低功耗的特点, 适用于蜂
12、窝移动电话、短距离无线应用和无线L A N 产品。3. 2 L ucent 公司产品Lucent 公司是仅次于TI 的世界第二大D SP 芯片供应商, 集中力量于通信用DSP 芯片的开发生产, 在蜂窝电话、M odem 和数字应答机等领域中占领导地位。Lucent 公司主要开发了基于DSP1600核和DS P16000核两大系列的D SP 芯片, 采用新型芯片D SP16210可使原先的无线通信基站设备造价降低约50%。表2列出了L ucent 公司D SP 芯片的主要产品。3. 3 AD 公司产品AD 公司也是最早涉足D SP 芯片的公司之一, 先( :#18#表1 TI 公司D SP 芯片
13、主要产品系列主要性能典型应用16位C PU 、32位累加器、速度2040MIPS 、544/4.5K RAM 、32K RO M电话、数字c C20x 或FLAS H 、64K 程序存储器、64K 数售货机等。据存储器、1个定时器、2个串口等。16位CP U 、速度高达30MIPS 、双500ns 的A/D 、16个P WM 通道、4数字马达控制、工c C24x 个定时器、32K FLAS H 、异步和同业自动化、电力转步串行接口、5个外部中断、4种低换系统、空调等。功耗模式等。16位C PU 、40位累加器、32532MIPS 、5640K RA M 、248Kc C54x RO M 、30
14、532MIPS 、HPI 、McB SP 、6通道D MA 、集成Vertibi 加速模块等。IP 、便携式信息系统、PDA 、PCS 、Mo 2dem 、寻呼机、助听器等。浮点系列是TI 公司浮点D SP 的强大竞争对手, D SP 芯片间的直接高速互联更是其一大特色, 特别适合于需要多片D SP 芯片进行高速大量计算的应用。表3列出了AD 公司D SP 芯片的主要产品。表3 AD 公司DSP 芯片主要产品A DS P 2218xAD S P 22100A DS P 2219xA DS P 2218x 结构的扩展、300M IP S 、JTA G 接口、指令缓冲、24位寻址。超级哈佛结构、1
15、20M FL O PS 、4M B 可配置S RA M 、10个D M A 、主机接口、6个链接口用于构成总线集群结构、可由外部EP RO M 、外部主机或其他A DS P 22106x 启动。硬件支持循环缓冲、位反转和零开销循环等。结构基本同上, 其中A DS P 221160M 是32位浮点D S P 、速度为600M FL O PS ; A D S P 221161N 是32位定点、32/40位浮点D S P 、速度600M FL O PS 。c C200016位C PU 、3380M IP S 、160KB2M B S RA M 、2个串口、16位D M A 等。嵌入式语音处理、P O
16、S 终端、智能卡读器、P BX 、手持扫描仪、Mode m 等。数字音频、条码扫描仪、图像处理、指纹识别、数字示波器等。基站、雷达、声纳、图像、3D 图形、语音识别等。x DS L 、VO IP 、回波抵消、智能通信基站、飞行仿真、声纳、军用设备等。c C500016位C PU 、速度400MIPS 、2个乘法低功耗和高性能器、2个累加器、160KRA M 使其将成为无线c C55x 16KRO M 、具有EMIF 、EHPI 、定时电话手机和其他器、McB S P 等, 性能是c C 54x 的5便携式电子产品倍, 功耗是其1/5。16位C P U 、12002400MIP S 、2个乘法器
17、和6个A LU 、4512K RA M 、4c C62x 384K R OM 、1个HPI 或扩展总线、1个E MIF 、4个D M A 、2个定时器、23个串口等。无线通信基XDS L 、网络中心局交换机、数字音频广播等。AD S P 22106xS HA RCAD S P 22116xc C600032位C PU 、支持IEEE 浮点格通信基站数字波600M1GFLOPS 、2个乘法器和6束形成、医学图像c C67x 个ALU 、64KRAM 、64KRO M 、HPI 处理、语音EMIF 、4个DMA 、2个定时器、2个32D 图像处理等。McB SP 等。32位C PU 、33150M
18、FLOPS 、指令周期1360ns 、34K 数据RA M 、64M 字地址空间、4K 字程序RO M 、具有定时器、串口和D MA 功能等。数字马达控制、工业自动化和机器人、激光打复印机、扫数字音频、视频会议等。c C 3x包含定点和浮点DS P 核、支持IEEE 浮点格式、16位运算达1. 2G M acs 、32定点运算300M Mac s 、Ti gerS H ARE A D S P 2TS 001M 32位浮点运算达900M F LO P S 、6M可配置S RA M 、4个双向链接口用于芯片间直接连接、14个D M A 、64位外部接口、硬件AC S 电路等。AD MC x表2 L
19、ucent 公司DS P 芯片主要产品器件型号DS P1611/1617/1618DS P1627/1628/1629ADMC4xADMC3x一个DS P 核、2026MIPS 、24位程序5124K RA M 、16位数专用于马据5121K R AM 、电机控制模达控制。块、58通道1016位A/D 、通信串口等。16位CP U 、20100M PIS 、216K RA M 、412K RO M 、16乘法器和36位累加器、2个外部中断、双串行I/O 端口、E MI F JTA G 接口等。16位CP U 、240M M A Cs 、双16位乘法器和40位累加器、60K 字RA M 、硬件A
20、C S 、电源管理、16位P HIF 、增强串口、D M A 、JTA G 接口等。双16位CP U(每个包含双16位乘法器和40位累加器 800M M A Cs 、194K 半字RA M 、16位PI U 、2个增强串口支持L 2la w 和A 2l aw 、D M A 等。D S P16xxDS P16210D S P16000DS P16410A/B/C寻呼机语音检测语音编译码器调制解调器终端和基站等3. 4 M otorola 公司产品M otorola 公司着重于通信系统的开发应用, D SP 芯片主要供公司内部通信系统使用, 注重D SP 与M PU 的结合。先后推出的DS P 系
21、列产品包括:16位定点DSP56100系列、D SP56600系列、D SP56800系列、DSP56800E 系列、M SC8100系列; 24位定点DS P56000系列、DSP56300系列; 32位浮点处理器D SP96002。表4列出了M otorola 公司目前主推的D SP 芯片。4 D SP 芯片在图像技术中的应用随着计算机和通信技术的发展, 有关图像和视频的应用越来越广。国际电信联盟(I T U 2T 和国际标准化组织(ISO 都开展了有关图像和视频的标准化工作, 如1988年提出的H. 261及1995年提出的H. 263视频编码标准已应用于电视电话、会议电视等应用中, 而
22、1990年提出的M PEG 22标准也已应用于数字电视、D VD 等应用中。由于图像数据量非常大, 例如应用于会议电视的CI F 格式(352288像素, 每像素12比特后推出的产品包括:AD 21xx 系列定点DSP 芯片, AD SP 22102x 、AD SP 22106x 、AD SP 22116x 等系列浮点D SP 芯片; AD 1406x 、A D1416x 、TigerS HA RC 等系列多核DS P 集成系统; AD M C x 系列马达控制专用D SP 芯片产品。AD 公司目前主推的三个系列是:16位定点ADSP 2218x 和AD SP 2219x 系列; 32位浮点A
23、D SP 22106x 、AD SP 22116x 系列; 多核D SP 集成系统TigerS HARC 。其中AD SP 22116x表4 Motorola 公司DS P 芯片主要产品D S P/M CU 双核。其中M C U 核为:16位程序总线、32位数据总线、工作频率16. 8M/52M Hz 、M C U 的RA M 为512/6. 5K B 、RO M 为4K/16KB; D S P 核为:24位程序总线、16位数据总线、工作频率58. 8/104M Hz 、D S P 的16位数据RA M 为1431K 、数据RO M 为1844K 、24位程序RA M 为51240K 、程序R
24、O M 为284K 。片上外设包括EM I 、M DI 、S CP 、QS PI 、U A RT 、Ti me r 、P W M 输出、键盘接口、JT AG 接口等。D S P56800系列:一个16位C PU 、工作频率70M/80M Hz 、14K B 程序RA M 、16120KB 程序F LA S H 、28K B 数据RA M 、416K B 数据F LA S H 、316个定时器、S P I 和S CI 接口、双12比特A /D 、6/12路PW M 输出等。DS P 56800E 系列是增强型, 工作频率120M Hz 、24K B 程序RA M 、2K B 程序RO M 、8K
25、B 数据RA M 、8K B 数据RO M 、4个定时器、S PI 、IS S I 和S CIs 等。#19#高, 动态范围大, 寻址空间大, 指令运算能力较强, 但功耗、成本、体积较大。而定点D SP 芯片的运算精度与浮点D SP 芯片相同(定点的数据位数和浮点的位数相同的情况下 , 且功耗、成本、体积较小, 但动态范围小, 需要防止计算溢出, 寻址空间小, 指令运算能力较弱。从总体性能上看, 浮点D SP 芯片优于定点DSP 芯片。此外, 在硬件方面还应考虑芯片的外部总线结构、片上存储器结构、D M A 功能、串行通信口和芯片间通信能力等因素; 在软件方面主要是开发软件的功能性、开发时间要
26、求等因素。综合考虑D SP 芯片的性能和开发设计的要求后, 在图像技术中应该首选浮点D SP 芯片, 但是在对价格敏感的产品设计中, 目前采用定点D SP 芯片的例子也有。表5比较了代表目前最高D SP 芯片技术水平的三种产品, 包括TI 公司的定点D SP 芯片(T M S320C6203 和浮点D SP 芯片(TMS320C6701 与A D 公司浮点DSP 芯片(AD SP 221160 。由于工作时钟较高的原因, TI 公司的D SP 芯片在单芯片处理能力上优于A D 公司的产品, 但是在多芯片集成处理上A D 公司的D SP 芯片性能更好一些。表5 三种高性能DSP 芯片的比较性能工
27、作时钟封值速度数据类型片上S RA M 32位1024点F F T 外存接口D M A 数多处理器支持AD S P 221160100M Hz 600M FL O PS 32位定点, 16/32/40位浮点4Mb(双端口 90L s 无14个通道可集群及6个100Mbps 链接口T M S 320C6701167M Hz 1000M FL O PS 8/16/32位定点,32位浮点1M bi t 120L sTM S 320C6203300M Hz 2400MI PS 8/16位定点7M bi t *D S P56600峰窝技术D S P56800D S P56800E数字无线通信、数字应答机
28、、数字相机、电话、M odem s 等。MS C8100M S C8101芯片:4个16位A L Us 、2个32位A G Us 、3G 宽带无一个32位RIS C 、32位或64位总线接口、速度线通信、IP1200D S P MIP S 、3000RIS C M IPS 、256K BRA M 、16通电话、多通道D M A 、HI D16、CP M 、S PI 、S M C 、S CC 、M CC 等。道xS D L 、4个S C140核、16个16位A L Us 、多通道4800D S P MI PS 、1200RIS C M IPS 、718K B RA M 、TD M 、M odem
29、 等。U AR T 等。24位程序总线、24位数据总线、工作频率66150M Hz 、数据RA M 为2. 596K 、程序RA M 为51232K 、部分产品有片上程序数据RO M 、主机接口、定时器、S CI 、D M A 、ES S I 、J TA G 接口等。M odems 、峰窝电话、多媒体、无线应用、控制等。D S P56300的彩色图像数据量约为1. 2M 比特/帧, 而IT U 2R709标准的高清晰度数字电视(19201152像素, 每像素16比特 的数据量约为35. 4M 比特/帧。因此, 为了有效实时地传输信息, 必须采用有效的图像压缩技术。同时海量的图像数据也需要压缩才能实现有效的存储。图像压缩技术已经成为一个热门的研究课题。目前实现图像处理的主要方式有四种:基于通用PC 微机; 基于通用D SP 芯片; 基于专用DS P 芯片; 基于可编程FPG A 。在通用PC 微机上主要是软件实现图像处理, 能够提供
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1