最新DSP原理及应用第二章DSP的硬件结构总结精资料.docx
《最新DSP原理及应用第二章DSP的硬件结构总结精资料.docx》由会员分享,可在线阅读,更多相关《最新DSP原理及应用第二章DSP的硬件结构总结精资料.docx(12页珍藏版)》请在冰豆网上搜索。
最新DSP原理及应用第二章DSP的硬件结构总结精资料
第2章DSP的硬件结构
DSP的硬件结构:
DSP与标准微处理器有许多共同的地方,都是由CPU、存储器、总线、外设、接口、时钟组成。
从广义上讲,可以说DSP是一种CPU。
但DSP和一般的CPU又有不同,DSP有自己的一些独特的特点,比如采用哈佛结构、流水线操作、独立的硬件乘法器、独立的DMA总线和控制器等。
VonNeuman结构与Harvard结构:
Harvard结构
:
程序与数据存储空间分开,各有独立的地址总线和数据总线,取指和读数可以同时进行,从而提高速度,目前的水平已达到90亿次浮点运算/秒(9000MFLOPS)。
MIPS--MillionInstructionPerSecond
MFLOPS--MillionFloatingOperationPerSecond
流水操作(pipeline):
独立的硬件乘法器:
在卷积、数字滤波、FFT、相关、矩阵运算等算法中,都有A(kB(n-k一类的运算,大量重复乘法和累加。
通用计算机的乘法用软件实现,用若干个机器周期。
DSP有硬件乘法器,用MAC指令(取数、乘法、累加)在单周期内完成。
独立的DMA总线和控制器:
有一组或多组独立的DMA总线,与CPU的程序、数据总线并行工作,数据的传递和处理可以独立进行,DMA内部总线与系统总线完全分开,避开了总线使用上的瓶颈。
在不影响CPU工作的条件下,DMA速度已达800Mbyte/s。
CPU:
通用微处理器的CPU由ALU和CU组成,其算术运算和逻辑运算通过软件来实现,如加法需要10个机器周期,乘法是一系列的移位和加法,需要数十个机器周期。
DSP的CPU设置硬件乘法器,可以在单周期内完成乘法和累加.
移位:
通用微处理器的移位,每调用一次移位指令移动1-bit
DSP可以在一个机器周期内左移或右移多个bit,可以用来对数字定标,使之放大或缩小,以保证精度和防止溢出;还可以用来作定点数和浮点数之间的转换.
溢出:
通用CPU中,溢出发生后,设置溢出标志,不带符号位时回绕,带符号位时反相,带来很大的误差
DSP把移位输出的最高位(MSB)存放在一个位检测状态寄存器中,检测到MSB=1时,就通知下一次会发生溢出,可以采取措施防止.
数据地址发生器(DAG):
在通用CPU中,数据地址的产生和数据的处理都由ALU来完成
在DSP中,设置了专门的数据地址发生器(实际上是专门的ALU),来产生所需要的数据地址,节省公共ALU的时间.
外设(peripherals):
时钟发生器(振荡器与PLL)
定时器(Timer)
软件可编程等待状态发生器
通用I/O
同步串口(SSP)与异步串口(ASP)
JTAG扫描逻辑电路(IEEE1149.1标准便于对DSP作片上的在线仿真和多DSP条件下的调试
’C54x的内部结构:
中央处理器CPU、内部总线控制、特殊功能寄存器、数据存储器RAM、程序存储器ROM、I/O功能扩展接口、串行口、、主机通信接口HPI、定时系统、中断系统。
各部分的功能:
①中央处理器CPU
采用了流水线指令执行结构和相应的并行处理结构,可在一个周期内对数据进行高速的算术运算和逻辑运算。
②内部总线结构
由一组程序总线、三组数据总线和四组地址总线组成,可在一个指令周期内产生两个数据存储地址,实现流水线并行数据处理。
③特殊功能寄存器
共有26个特殊功能寄存器,位于具有特殊功能的RAM区。
主要用来对片内各功能模块进行管理、控制、监视。
④数据存储器RAM
DARAM:
在一个指令周期内,可对其进行两次存取操作,即一次读出和一次写入;
SARAM:
在一个指令周期内,只能进行一次存取操作。
⑤程序存储器ROM
可由ROM和RAM配置而成,即程序空间可以定义在ROM上,也可以定义在RAM中。
当需要高速运行的程序时,可将片外ROM中的程序调入到片内RAM中,以提高程序的运行速度,降低对外部ROM的速度要求,增强系统的整体抗干扰性能。
⑥I/O口
’C54x共有两个通用I/O引脚(BIO和XF)。
BIO:
主要用来监测外部设备的工作状态;
XF:
用来给外部设备发送信号。
’C54x芯片还配有主机接口(HPI)、同步串行口和64K字I/O空间。
HPI和串行口可以通过设置,用作通用I/O。
64K字的I/O空间可通过外加缓冲器或锁存电路,配合外部I/O读写控制时序构成片外外设的控制电路。
⑦串行口
不同型号的’C54x芯片,所配置的串行口功能不同。
可分为4种:
单通道同步串行口SP、带缓冲器单通道同步串行口BSP、并行带缓冲器多通道同步串行口McBSP、时分多通道带缓冲器串行口TMD。
⑧主机接口HPI
HPI是一个与主机通信的并行接口,主要用于DSP与其它总线或CPU进行通信。
信息可通过’C54x的片内存储器与主机进行数据交换。
不同型号的器件配置不同HPI口,可分为:
8位标准HPI接口、8位增强型HPI接口、16位增强型HPI接口。
⑨定时器
定时器是一个软件可编程的计数器,用来产生定时中断。
可通过设置特定的状态来控制定时器的停止、恢复、复位和禁止。
⑩中断系统
’C54x的中断系统具有硬件中断和软件中断。
硬件中断:
由外围设备信号引起的中断。
分为:
片外外设引起的硬件中断;片内外设引起的硬件中断。
软件中断:
由程序指令所引起的中断。
中断管理优先级:
11~16个固定级。
TMS320C54x的CPU:
(1)采用先进的多总线结构,通过1组程序总线、3组数据总线和4组地址总线来实现。
(2)40位算术逻辑运算单元ALU,包括1个40位桶形移位寄存器和2个独立的40位累加器。
(3)17×17位并行乘法器,与40位专用加法器相连,可用于进行非流水线的单周期乘法-累加运算。
(4)比较、选择、存储单元(CSSU),可用于Viterbi译码器的加法-比较-选择运算。
(5)指数编码器,是一个支持单周期指令EXP的专用硬件。
可以在一个周期内计算40位累加器数值的指数。
(6)配有两个地址生成器,包括8个辅助寄存器和2个辅助寄存器算术运算单元(ARAU)。
TMS320C54x的总线结构:
TMS320C54x的结构是以8组16位总线为核心,形成了支持高速指令执行的硬件基础。
总线结构:
1组程序总线PB、3组数据总线CB、DB、EB、4组地址总线PAB、CAB、DAB、EAB
1.程序总线PB
主要用来传送取自程序存储器的指令代码和立即操作数。
PB总线既可以将程序空间的操作数据(如系数表送至数据空间的目标地址中,以实现数据移动,也可以将程序空间的操作数据传送乘法器和加法器中,以便执行乘法-累加操作。
2.数据总线CB、DB和EB
3条数据总线分别与不同功能的内部单元相连接。
如:
CPU、程序地址产生逻辑PAGEN、数据地址产生逻辑DAGEN、片内外设和数据存储器等。
CB和DB用来传送从数据存储器读出的数据;EB用来传送写入存储器的数据。
3.地址总线PAB、CAB、DAB和EAB
用来提供执行指令所需的地址。
’C54x读/写操作占用总线情况:
(3ALU输入数据的预处理
当16位数据存储器操作数通过数据总线DB或CB输入时,ALU将采用两种方式对操作数进行预处理。
①若数据存储器的16位操作数在低16位时,则
当SXM=0时,高24位(39~16位用0填充;
当SXM=1时,高24位(39~16位扩展为符号位。
②若数据存储器的16位操作数在高16位时,则
当SXM=0时,39~32位和15~0位用0填充;
当SXM=1时,39~32位扩展为符号位,15~0位置0。
(4ALU的输出
ALU的输出为40位运算结果,通常被送至累加器A或B。
溢出处理:
ALU的饱和逻辑可以对运算结果进行溢出处理。
当发生溢出时,将运算结果调整为最大正数(正向溢出)或最小负数(负向溢出)。
当运算结果发生溢出时:
①若OVM=0,则对ALU的运算结果不作任何调整,直接送入累加器;
②若OVM=1,则对ALU的运行结果进行调整。
当正向溢出时,将32位最大正数007FFFFFFFH装入累加器;
当负向溢出时,将32位最小负数FF80000000H装入累加器。
③状态寄存器ST0中与目标累加器相关的溢出标志OVA或OVB被置1。
累加器A和B:
’C54x芯片有两个独立的40位累加器A和B,可以作为ALU或(乘法器/加法器MAC的目标寄存器,存放运算结果,也可以作为ALU或MAC的一个输入。
累加器A和B的差别:
累加器A中的31-16位可以作为乘法器的一个输入。
1.累加器结构
【例2.4.1】累加器A=FF01234567H,执行带移位的STH和STL指令后,求暂存器T和A的内容。
2.4.3桶形移位寄存器:
TMS320C54x的40位桶形移位寄存器主要用于累加器或数据区操作数的定标。
它能将输入数据进行0~31位的左移和0~16位的右移。
所移动的位数可由ST1中的ASM或被指定的暂存器T决定。
1.组成框图
①多路选择器MUX:
用来选择输入数据。
②符号控制SC:
用于对输入数据进行符号位扩展。
③移位寄存器:
用来对输入的数据进行定标和移位
④写选择电路:
用来选择最高有效字和最低有效字。
2.桶形移位寄存器的输入
通过多路选择器MUX来选择输入信号。
① 取自DB数据总线的16位输入数据;
② 取自DB和CB扩展数据总线的32位输入数据;
③来自累加器A或B的40位输入数据。
3.桶形移位寄存器的输出
① 输出至ALU的一个输入端;②经写MSW/LSW选择电路输出至EB总线。
4.桶形移位寄存器的功能
主要用于格式化操作,为输入的数据定标。
①在进行ALU运算之前,对输入数据进行数据定标;
②对累加器进行算术或逻辑移位;
③对累加器进行归一化处理;
④在累加器的内容存入数据存储器之前,对存储数据进行定标。
2.4.5比较、选择和存储单元CSSU
CSSU单元主要完成累加器的高阶位与低阶位之间最大值的比较,即选择累加器中较大的字,并存储在数据存储器中。
工作过程:
① 比较电路COMP将累加器A或B的高阶位与低阶位进行比较;
② 比较结果分别送入TRN和TC中,记录比较结果以便程序调试;
③比较结果输出至写选择电路,选择较大的数据;
④ 将选择的数据通过总线EB存入指定的存储单元。
例如,CMPS指令可以对累加器的高阶位和低阶位进行比较,并选择较大的数存放在指令所指定的存储单元中。
指令格式:
CMPSA,*AR1
功能:
对累加器A的高16位字(AH)和低16位字(AL)进行比较,
若AH>AL,则AH→*AR1,TRN左移1位,0→TRN(0,
0→TC;
若AH,则AL→*AR1,TRN左移1位,1→TRN(0,
1→TC。
TRN是状态转移寄存器,TC是状态比较寄存器。
指数编码器:
指数编码器用于支持单周期指令EXP的专用硬件。
在EXP指令中,求出累加器中的指数值,并能以二进制补码的形式存储在T寄存器中。
2.4.7CPU状态和控制寄存器
’C54x提供三个16位寄存器来作为CPU状态和控制寄存器,它们分别为:
状态寄存器0(ST0)、状态寄存器1(ST1)、工作方式状态寄存器(PMST)。
ST0和ST1主要包含各种工作条件和工作方式的状态;
PMST包含存储器的设置状态和其他控制信息。
1.状态寄存器0(ST0)
主要反映处理器的寻址要求和计算机的运行状态。
2.状态寄存器1(ST1
主要反映处理器的寻址要求、计算初始状态的设置、I/O及中断的控制等。
3.工作方式状态寄存器PMST
主要设定和控制处理器的工作方式和存储器的配置,反映处理器的工作状态。
2.5’C54x的存储空间结构
’C54x共有192K字的存储空间,分成3个相互独立可选择的存储空间:
程序存储空间:
用来存放要执行的指令和指令执行中所需要的系数表(数学用表;
数据存储空间:
用来存放执行指令所需要的数据;
I/O存储空间:
用来提供与外部存储器映射的接口,可以作为外部数据存储空间使用。
所有’C54x芯片都含有片内RAM和ROM。
DARAM和SARAM既可以被映射到数据存储空间用来存储数据,也可以映射到程序空间用来存储程序代码。
片内ROM:
主要存放固化程序和系数表。
一般构成程序存储空间,也可以部分地映射在数据存储空间。
片内存储器的优点:
●不需要插入等待状态;
●与外部存储器相比,成本低;
●比外部存储器功耗小。
TMS320C54x的存储器分配:
TMS320C54x有3位设置位在微处理器的方式状态寄存器(PMST中,用以配置片内存储器。
MP/MC位:
用来决定程序空间是否使用内部存储器。
如果该位清0,则片内ROM映象在程序存储器空间;如果该位设置为1,则片内ROM不映象在程序存储器实间。
OVLY位:
如果该位设置为1,则片内RAM分别映象在程序存储器空间和数据存储器空间;如果该位清0,则片内RAM只映象在数据存储器空间。
DROM位:
如果该位设置为1,则片内ROM的一部分映象在数据存储器空间;如果该位清0,则片内ROM的使用取决于MP/MC位。
TMS320C54x的各种型号片内存储器容量大小不同,片外寻址空间差别也很大,主要表现在数据空间(DS)和I/O空间(IS)都是64K,而程序空间(PS)随地址线的不同而不同。
地址线的数目有16个、20个、23个,相应的程序空间分别为64K、1M、8M。
TMS320C549存储器空间分配图
存储器映射寄存器(MMR
在C54X的数据存储空间中,前80H个单元中含有CPU寄存器和片内外设寄存器。
这些寄存器全部映射到数据存储空间。
采用寄存器映射的方法,可以简化CPU和片内外设的访问方式,使程序对寄存器的存取、累加器与其他寄存器之间的数据交换变得十分方便。
TMS320C54x的片内外设:
1.软件可编程等待状态发生器;
2.可编程分区转换逻辑电路;
3.带有内部振荡器和外部时钟源的片内锁相环(PLL)时钟发生器;
4.可编程定时器;
5.时分多路串行口(TDM)、缓冲串行口(BSP)、多通道缓冲串行口(McBSP);
6.并行主机接口(HPI)。
浮点DSP:
浮点格式用指数形式表示,其动态范围比用小数形式表示的定点格式要大得多,定点DSP中经常要考虑的溢出问题,在浮点DSP中基本上可以不考虑
为了保证底数的精度,浮点DSP基本上作成32-bit的,其总线、寄存器、存储器等的宽度也相应是32-bit的
浮点DSP的速度更快,尤其是作浮点运算
浮点DSP的价格高,开发难度也更大
多处理器接口:
TMS320C40有6个8-bit的接口,使多个处理器可以很方便的并行或串行工作,ADI公司的ADSP21160也有类似的接口
浮点DSP的典型芯片TMS320C30:
60ns单周期指令执行时间
33.3MFLOPS
16.7MIPS
片内4Kx32bit单周期内可访问两次的ROM
两个1Kx32bit单周期内可访问两次的RAM
64x32bit指令Cache
指令及数据字长32bit,地址宽度24bit(16M寻址空间
40/32bit浮点/整数乘法器及ALU
8个以40bit扩展精度寄存器为基础的Acc
32bit桶形移位器
精明的商家不失时机地打出“自己的饰品自己做”、“DIY(DoItYourself)饰品、真我个性”的广告,推出“自制饰品”服务,吸引了不少喜欢标新立异、走在潮流前端的年轻女孩,成为上海的时尚消费市场。
其市场现状特点具体表现为:
2个地址发生器,8个辅助寄存器和2个辅助寄存器计算单元
调研课题:
片内DMA控制器,使I/O与CPU并行工作
单周期内并行的ALU及乘法指令
、DIY手工艺市场现状分析零开销循环,单周期分支
两个外部接口
两个串口支持8/16/32bit数据传输
2003年,上海市人均GDP按户籍人口计算就达到46700元,是1995年的2.5倍;居民家庭人均月可支配收入为14867元,是1995年的2.1倍。
收入不断增加的同时,居民的消费支出也在增加。
2003年上海居民人均消费支出为11040元,其中服务性消费支出为3369元,是1995年的3.6倍。
两个32bit定时器
封装:
181脚PGA
工艺:
1mCMOS
特点:
图1-1大学生月生活费分布100MHz,10ns指令周期
峰值600MFLOPS,连续400MFLOPS
4Mbit片内双口SRAM,由核处理器、主机或DMA独立访问
DMA控制器支持:
14个零开销DMA通道,64bit后台DMA传输,与全速运行的处理器并行
1.www。
cer。
net/artide/2004021313098897。
shtml。
700Mbytes/sIO速率
大学生对手工艺制作兴趣的调研4GW片外寻址能力
6个连接口,作多处理器应用
而手工艺制品是一种价格适中,不仅能锻炼同学们的动手能力,同时在制作过程中也能体会一下我国传统工艺的文化。
无论是送给朋友还是亲人都能让人体会到一份浓厚的情谊。
它的价值是不用金钱去估价而是用你一颗真诚而又温暖的心去体会的。
更能让学生家长所接受。
2个50Mbps串口支持独立的发送与接收,并支持T1与E1接口
DSP的发展:
更高的运行速度和信号处理速度
多DSP协同工作
据调查统计在对大学生进行店铺经营风格所考虑的因素问题调查中,发现有50%人选择了价格便宜些,有28%人选择服务热情些,有30%人选择店面装潢有个性,只有14%人选择新颖多样。
如图(1-5)所示更方便的开发环境
大量专用DSP的出现(DSP核)
更低的价格,或更高的性能/价格比
更广泛的应用