DSP芯片及其在图像技术中的应用1精Word文档下载推荐.docx
《DSP芯片及其在图像技术中的应用1精Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《DSP芯片及其在图像技术中的应用1精Word文档下载推荐.docx(13页珍藏版)》请在冰豆网上搜索。
传统的冯诺伊曼(Von2Neumann结构由于具有单一公用的数据和指令总线,因此在高速运算时,往往在传输通道上会出现瓶颈效应。
DSP芯片内部一般采用哈佛(Harvard结构,片内至少有四套总线:
程序的数据总线与地址总线,数据的数据总线与地址总线。
这种分离的程序总线和数据总线,可允许在一个机器周期内同时获取指令字(来自程序存储器和操作数(来自数据存储器,从而提高了执行速度。
2.2硬件乘法器
数字信号处理中最重要的一个基本运算是乘法累加运算,也是最主要和最耗时的运算,因此单周期的硬件乘法器是DSP芯片实现快速运算的保证。
现代高性能的DSP芯片甚至具有两个以上的硬件乘法器用以提高运算速度。
数据宽度也从16位增加到32位。
2.3多个并行处理单元
DSP内部一般都集成了多个处理单元,如硬件乘法器(MUL、累加器(ACC、算术逻辑单元(ALU、辅助算术单元(ARAU以及DMA控制器等。
它们都可以并行地在同一个周期内执行不同的任务,例如辅助算术单元能为下一次的运算做好准备,适合于完成连续的乘加运算。
芯片内部还包括有其他总线,如DMA总线等,可实现数据的后台传输而几乎不影响主CPU的性能的有FFT的位反转寻址,语音的A律、L律算法等。
为了提高并行处理能力,现代DSP芯片通常采用单指令多数据流结构(SIMD、超长指令字结构(VLIW、超标量体系结构、多DSP核体系结构和DSP/
1DSP芯片发展简况
自1982年美国TI公司推出第一个DSP芯片
TMS32010以来,DSP芯片有了很大的发展。
DSP芯片不仅在运算速度上有了很大的提高,而且在通用性和灵活性方面了极大地改进。
此外,DSP芯片的成本、体积、重量和功耗也都有了很大程度的下降。
随着DSP芯片应用领域的不断扩大,DSP芯片已形成低、中、高三个档次:
低端产品执行速度一般为20~50MIPS,能维持适量存储和功耗,提供了较好的性能价格比,适用于仪器仪表和精密控制等;
中端产品执行速度一般为100~150MIPS,结构较为复杂,具有较高的处理速度和低的功耗,适用于无线电信设备和高速解调器等;
高端产品执行速度一般为1000MIPS以上,处理速度很高,产品结构多样化,适用于图像技术和智能通信基站等。
对于种类繁多的DSP芯片,一般可按其工作的数
收稿日期:
2001-01-15
作者简介:
刘党辉,男,北京工业大学信号与信息处理研究室博士研究生,主要研究方向为图像处理;
沈兰荪,男,博士生导师,曾任中国科技大学高技术学院副院长,现任北京工业大学信号与信息处理研究室主任,主要研究方向为智能化信息处理,已发表论文100余篇,出版专著11本。
:
DSP芯片及其在图像技术中的应用
MCU混合结构,这些并行处理机制大大提高了DSP芯片的性能。
2.4流水线技术
DSP芯片的哈佛结构为流水线技术提供了方便。
由于采用流水线技术,DSP芯片可以单周期完成乘法累加运算,大大提高了运算速度。
而DSP芯片的指令基本上都是单周期指令,因此单周期指令执行时间可以作为衡量DSP芯片性能的一个主要指标。
2.5片上存储器
外部存储器一般不能适应高性能DSP核的处理速度,因此在片上设置较大的程序/数据存储器以减少对外部存储器中程序/数据的访问次数,充分发挥DSP核的高性能。
目前高性能DSP芯片上的可配置程度/数据RAM高达7MB。
采用大的片子存储器可以减少外部存储器接口的引脚,甚至省略外部存储器接口,而且也减小了芯片的封装体积。
2.6多种外设和接口
为了加强DSP芯片的通用性,DSP芯片上增加了许多外设。
可能包括的外设有:
多路DMA通道、外部主机接口、外部存储器接口、芯片间高速链接口、外部中断、通信串口、定时器、可编程锁相环、A/D转换器、JTAG接口等。
2.7特殊寻址模式
为了满足FFT积等数字信号处理的特殊要求,DSP芯片大多包含专门的硬件地址产生器,用以实现循环寻址和位翻转寻址,并在软件上设置了相应的指令。
2.8零消耗循环控制
数字信号处理的一大特点是大部分处理时间花在了较小循环的少量核心代码上。
大部分DSP芯片具有零消耗循环控制的专门硬件,可以省去循环计数器的测试指令,从而提高了代码效率,减少了执行时间。
2.9JTAG接口
由于DSP芯片结构的复杂化、工作速度的提高、外部引脚的增多、封装面积减小而导致的引脚排列密集等原因,传统的并行仿真方式已不适合于DSP芯片的发展和应用开发。
1991年公布的JTAG接口标准满足了IC制造商和用户的要求,1993年JTAG接口标准修订为5线接口。
在片JTAG接口为DSP芯片的测试和仿真提供了很大的便利。
2.10程序的加载引导
加载引导是指器件在上电复位后执行一段引导程序,用于从端口(异步串口、I/O口、主机接口或外部EPROM/FLASH存储器中加载程序至高速RAM中运行。
一般用EPROM/FLASH存储器存储程序,但是其访问速度较慢,而一些已有的高速EPROM/FLASH存储器价格昂贵且容量有限;
同时高速大容量静态RAM
#17#
价格又在不断下降,因此这种加载方式是一个有效的性价比解决方法。
3主要DSP芯片简介
目前,90%以上的市场份额被四大DSP厂商瓜分,即TI、Lucent、AD和Motorola。
其他的DSP厂商还有AT&
T、Fujitsu、Harris、IDT、INMOS、NEC、OKI、SamSung等80余家,他们主要生产用于特殊功能的设备,如调制解调器、MPEG译码器、硬盘驱动器等。
3.1TI公司产品
TI公司自1982年推出其第一个DSP芯片TMS32010以来,目前已成为世界上最大的DSP芯片供应商,占全球份额近50%。
TI公司先后推出的TMS320系列产品包括:
cC1x、cC2x、cC2xx、cC5x、cC54x、cC55x、cC62x等定点系列DSP芯片,cC3x、cC4x、cC67x等浮点系列DSP芯片;
cC8x系列多核DSP集成系统等。
在TMS320系列产品中,cC1x、cC2x已属于淘汰产品,cC5x也将被淘汰,多核的cC8x由于价格昂贵和开发复杂也将被淘汰。
在低端应用中可采用cC2xx,而中端应用中可采用cC54x。
cC2xx向下兼容cC1x、cC2x,向上兼容cC5x;
cC54x向下兼容cC1x、cC2x、cC5x。
高端产品cC62x向下兼容所有定点芯片,cC67向下兼容cC3x、cC4x浮点芯片。
在老牌产品中,由于cC3x仍在不断改进中,因此还是TI公司目前主推产品之一。
TMS320系列今后将主要以三个平台为基础发展:
DSP控制平台cC2000(cC20x、cC24x;
DSP有效性能平台cC5000(cC54x、cC55x;
DSP高性能平台cC6000(cC62x、cC67x。
表1列出了TMS320系列DSP芯片主要产品的性能及其典型应用领域。
另外,TI公司新开发的控制平台内核cC28x速度可达400MIPS以上,而高性能平台内核cC64x可工作于600~1100MHz,速度可达4800~8800MIPS,基于核的设计可大大提高系统性能。
TI公司还与ARM公司联合开发了新的DSP/MCU双核平台,具有高性能和低功耗的特点,适用于蜂窝移动电话、短距离无线应用和无线LAN产品。
3.2Lucent公司产品
Lucent公司是仅次于TI的世界第二大DSP芯片供应商,集中力量于通信用DSP芯片的开发生产,在蜂窝电话、Modem和数字应答机等领域中占领导地位。
Lucent公司主要开发了基于DSP1600核和DSP16000核两大系列的DSP芯片,采用新型芯片DSP16210可使原先的无线通信基站设备造价降低约50%。
表2列出了Lucent公司DSP芯片的主要产品。
3.3AD公司产品
AD公司也是最早涉足DSP芯片的公司之一,先
(:
#18#
表1TI公司DSP芯片主要产品
系列
主要性能
典型应用
16位CPU、32位累加器、速度20~40MIPS、544/4.5KRAM、32KROM
电话、数字cC20x或FLASH、64K程序存储器、64K数
售货机等。
据存储器、1个定时器、2个串口等。
16位CPU、速度高达30MIPS、双500ns的A/D、16个PWM通道、4数字马达控制、工
cC24x个定时器、32KFLASH、异步和同业自动化、电力转
步串行接口、5个外部中断、4种低换系统、空调等。
功耗模式等。
16位CPU、40位累加器、32~532MIPS、5~640KRAM、2~48K
cC54xROM、30~532MIPS、HPI、McBSP、6
通道DMA、集成Vertibi加速模块等。
IP、便携式信息系统、PDA、PCS、Mo2dem、寻呼机、助听器等。
浮点系列是TI公司浮点DSP的强大竞争对手,DSP芯片间的直接高速互联更是其一大特色,特别适合于需要多片DSP芯片进行高速大量计算的应用。
表3列出了AD公司DSP芯片的主要产品。
表3AD公司DSP芯片主要产品
ADSP2218x
ADSP22100
ADSP2219x
ADSP2218x结构的扩展、300MIPS、
JTAG接口、指令缓冲、24位寻址。
超级哈佛结构、120MFLOPS、4MB可配置SRAM、10个DMA、主机接口、6个链接口用于构成总线集群结构、可由外部EPROM、外部主机或其他ADSP22106x启动。
硬件支持循环缓冲、位反转和零开销循环等。
结构基本同上,其中ADSP221160M是32位浮点DSP、速度为600MFLOPS;
ADSP221161N是32位定点、32/40位浮点DSP、速度600MFLOPS。
cC2000
16位CPU、33~80MIPS、160KB~2MBSRAM、2个串口、16位DMA等。
嵌入式语音处理、POS终端、智能卡读器、PBX、手持扫描仪、Modem等。
数字音频、条码扫描仪、图像处理、指纹识别、数字示波器等。
基站、雷达、声纳、图像、3D图形、语音识别等。
xDSL、VOIP、回波抵消、智能通信基站、飞行仿真、声纳、军用设备等。
cC5000
16位CPU、速度400MIPS、2个乘法低功耗和高性能器、2个累加器、160KRAM使其将成为无线
cC55x16KROM、具有EMIF、EHPI、定时电话手机和其他
器、McBSP等,性能是cC54x的5便携式电子产品倍,功耗是其1/5。
16位CPU、1200~2400MIPS、2个乘法器和6个ALU、4~512KRAM、4~
cC62x384KROM、1个HPI或扩展总线、1
个EMIF、4个DMA、2个定时器、2~3个串口等。
无线通信基XDSL、网络中心局交换机、数字音频广播等。
ADSP22106x
SHARC
ADSP22116x
cC6000
32位CPU、支持IEEE浮点格通信基站数字波
600M~1GFLOPS、2个乘法器和6
束形成、医学图像
cC67x个ALU、64KRAM、64KROM、HPI处理、语音EMIF、4个DMA、2个定时器、2个
32D图像处理等。
McBSP等。
32位CPU、33~150MFLOPS、指令周期13~60ns、34K数据RAM、64M字地址空间、4K字程序ROM、具有定时器、串口和DMA功能等。
数字马达控制、工
业自动化和机器人、激光打复印机、扫数字音频、视频会议等。
cC3x
包含定点和浮点DSP核、支持IEEE浮点格式、16位运算达1.2GMacs、32定点运算300MMacs、
TigerSHAREADSP2TS001M32位浮点运算达900MFLOPS、6M
可配置SRAM、4个双向链接口用于芯片间直接连接、14个DMA、64位外部接口、硬件ACS电路等。
ADMCx
表2Lucent公司DSP芯片主要产品
器件型号
DSP1611/1617/1618
DSP1627/1628/1629
ADMC4x
ADMC3x
一个DSP核、20~26MIPS、24位程序512~4KRAM、16位数
专用于马
据512~1KRAM、电机控制模
达控制。
块、5~8通道10~16位A/D、通信串口等。
16位CPU、20~100MPIS、2~16KRAM、4~12KROM、16乘法器和36位累加器、2个外部中断、双串行I/O端口、EMIFJTAG接口等。
16位CPU、240MMACs、双16位乘法器和40位累加器、60K字RAM、硬件ACS、电源管理、16位PHIF、增强串口、DMA、JTAG接口等。
双16位CPU(每个包含双16位乘法器和40位累加器800MMACs、194K半字RAM、16位PIU、2个增强串口支持L2law和A2law、DMA等。
DSP16xx
DSP16210
DSP16000
DSP16410A/B/C
寻呼机
语音检测语音编译码器调制解调器终端和基站等
3.4Motorola公司产品
Motorola公司着重于通信系统的开发应用,DSP芯片主要供公司内部通信系统使用,注重DSP与MPU的结合。
先后推出的DSP系列产品包括:
16位定点DSP56100系列、DSP56600系列、DSP56800系列、DSP56800E系列、MSC8100系列;
24位定点DSP56000系列、DSP56300系列;
32位浮点处理器DSP96002。
表4列出了Motorola公司目前主推的DSP芯片。
4DSP芯片在图像技术中的应用
随着计算机和通信技术的发展,有关图像和视频的应用越来越广。
国际电信联盟(ITU2T和国际标准化组织(ISO都开展了有关图像和视频的标准化工作,如1988年提出的H.261及1995年提出的H.263视频编码标准已应用于电视电话、会议电视等应用中,而1990年提出的MPEG22标准也已应用于数字电视、DVD等应用中。
由于图像数据量非常大,例如应用于会议电视的CIF格式(352@288像素,每像素12比特
后推出的产品包括:
AD21xx系列定点DSP芯片,ADSP22102x、ADSP22106x、ADSP22116x等系列浮点DSP芯片;
AD1406x、AD1416x、TigerSHARC等系列多核DSP集成系统;
ADMCx系列马达控制专用DSP芯片产品。
AD公司目前主推的三个系列是:
16位定点ADSP2218x和ADSP2219x系列;
32位浮点ADSP22106x、ADSP22116x系列;
多核DSP集成系统TigerSHARC。
其中ADSP22116x
表4Motorola公司DSP芯片主要产品
DSP/MCU双核。
其中MCU核为:
16位程序总线、32位数据总线、工作频率16.8M/52MHz、MCU的RAM为512/6.5KB、ROM为4K/16KB;
DSP核为:
24位程序总线、16位数据总线、工作频率58.8/104MHz、DSP的16位数据RAM为14~31K、数据ROM为18~44K、24位程序RAM为512~40K、程序ROM为2~84K。
片上外设包括EMI、MDI、SCP、QSPI、UART、Timer、PWM输出、键盘接口、JTAG接口等。
DSP56800系列:
一个16位CPU、工作频率70M/80MHz、1~4KB程序RAM、16~120KB程序FLASH、2~8KB数据RAM、4~16KB数据FLASH、3~16个定时器、SPI和SCI接口、双12比特A/D、6/12路PWM输出等。
DSP56800E系列是增强型,工作频率120MHz、24KB程序RAM、2KB程序ROM、8KB数据RAM、8KB数据ROM、4个定时器、SPI、ISSI和SCIs等。
#19#
高,动态范围大,寻址空间大,指令运算能力较强,但功
耗、成本、体积较大。
而定点DSP芯片的运算精度与浮点DSP芯片相同(定点的数据位数和浮点的位数相同的情况下,且功耗、成本、体积较小,但动态范围小,需要防止计算溢出,寻址空间小,指令运算能力较弱。
从总体性能上看,浮点DSP芯片优于定点DSP芯片。
此外,在硬件方面还应考虑芯片的外部总线结构、片上存储器结构、DMA功能、串行通信口和芯片间通信能力等因素;
在软件方面主要是开发软件的功能性、开发时间要求等因素。
综合考虑DSP芯片的性能和开发设计的要求后,在图像技术中应该首选浮点DSP芯片,但是在对价格敏感的产品设计中,目前采用定点DSP芯片的例子也有。
表5比较了代表目前最高DSP芯片技术水平的三种产品,包括TI公司的定点DSP芯片(TMS320C6203和浮点DSP芯片(TMS320C6701与AD公司浮点DSP芯片(ADSP221160。
由于工作时钟较高的原因,TI公司的DSP芯片在单芯片处理能力上优于AD公司的产品,但是在多芯片集成处理上AD公司的DSP芯片性能更好一些。
表5三种高性能DSP芯片的比较
性能工作时钟封值速度数据类型片上SRAM32位1024点FFT外存接口DMA数多处理器支持
ADSP221160100MHz600MFLOPS32位定点,16/32/40位浮点4Mb(双端口90Ls无14个通道可集群及6个100Mbps链接口
TMS320C6701167MHz1000MFLOPS8/16/32位定点,
32位浮点1Mbit120Ls
TMS320C6203300MHz2400MIPS8/16位定点7Mbit*
DSP56600峰窝技术
DSP56800
DSP56800E
数字无线通信、数字应答机、数字相机、电话、Modems等。
MSC8100
MSC8101芯片:
4个16位ALUs、2个32位AGUs、
3G宽带无
一个32位RISC、32位或64位总线接口、速度
线通信、IP
1200DSPMIPS、3000RISCMIPS、256KBRAM、16通
电话、多通
道DMA、HID16、CPM、SPI、SMC、SCC、MCC等。
道xSDL、
4个SC140核、16个16位ALUs、
多通道
4800DSPMIPS、1200RISCMIPS、718KBRAM、TDM、
Modem等。
UART等。
24位程序总线、24位数据总线、工作频率66~150MHz、数据RAM为2.5~96K、程序RAM为512~32K、部分产品有片上程序数据ROM、主机接口、定时器、SCI、DMA、ESSI、JTAG接口等。
Modems、峰
窝电话、多媒体、无线应用、控制等。
DSP56300
的彩色图像数据量约为1.2M比特/帧,而ITU2R709标准的高清晰度数字电视(1920@1152像素,每像素16比特的数据量约为35.4M比特/帧。
因此,为了有效实时地传输信息,必须采用有效的图像压缩技术。
同时海量的图像数据也需要压缩才能实现有效的存储。
图像压缩技术已经成为一个热门的研究课题。
目前实现图像处理的主要方式有四种:
¹
基于通用PC微机;
º
基于通用DSP芯片;
»
基于专用DSP芯片;
¼
基于可编程FPGA。
在通用PC微机上主要是软件实现图像处理,能够提供