流水线及并行处理技术Word文档下载推荐.docx
《流水线及并行处理技术Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《流水线及并行处理技术Word文档下载推荐.docx(11页珍藏版)》请在冰豆网上搜索。
fsample≤〔1-3〕
流水线采用沿着数据通路引入流水线锁存器〔本人理解是存放器〕的方法来减小有效关键路径〔effectivecriticalpath〕。
并行处理提高采样频率是采用复制硬件的方法,以使几个输入能够并行的处理,而几个输出能够在同一时间产生出来。
2.FIR数字滤波器的流水线
其流水线实现是通过引入两个附加锁存器而得到的,如图2所示:
图2流水线FIR滤波器,其中垂直虚线代表一个前馈割集
关键路径现在由TM+2TA减小为TM+TA。
在这种安排下,当左边的加法器启动当前迭代计算的同时,右边的加法器正在完成前次迭代结果的计算。
必须注意到,在一个M级流水线系统中,从输入到输出的任一路径上的延时原件数目是〔M-1〕,它要大于在原始时序电路中同一路径上的延时元件数。
虽然流水线技术减小了关键路径,但是它付出了增加迟滞〔latency〕的代价。
迟滞实质上是流水线系统第一个输出数据的时间与原来时序系统第一个输出数据时间相比的滞后。
流水线技术缺点:
增加了锁存器数目和增加了系统的迟滞。
下面要点需要注意:
(1)一个架构的速度〔或时钟周期〕由任意两个锁存器间、或一个输入与一个锁存器间、或者一个锁存器与一个输出间、或输入与输出间路径中最长的路径限定。
(2)这个最长的路径或“关键路径〞可以通过在架构中适当插入流水线锁存器来减小。
(3)流水线锁存器只能按照穿过任一图的“前馈割集〔feed-forwardcutset〕〞的方式插入。
割集:
割集是一个图的边的集合,如果从图中移去这些边,图就成为不相连的了。
前馈割集:
如果数据在割集的所有边上都沿前进的方向移动,这个割集就称为前馈割集。
3.并行技术
注意到并行处理与流水线技术互为对偶的这一特点是十分有趣,假设一个计算能够排成流水线,它也能并行的处理。
两种技术都开掘了计算中可供利用的并发性,只是方式不同。
当一组互不相关的计算能够在一个流水线系统中按交替方式计算时,那么它们也能够利用重复的硬件按并行处理的模式计算。
3阶FIR滤波器系统是一个单输入单输出〔SISO〕系统,可描述如下:
y(n)=ax(n)+bx(n-1)+cx(n-2)〔3-1〕
为了获得一个并行处理构造,SISO系统必须转换为MISO〔多输入多输出〕系统。
例如,以下方程组描述一个每个时钟周期由3个输入的并行系统〔即并行处理的级数L=3〕。
此处k表示时钟周期。
可以看出,在第k个时钟周期,有三个输入x(3k),x(3k+1),x(3k+2)被处理,同时输出中产生3个样点。
并行处理系统也称为块处理系统,而每个时钟周期处理的输入个数被称为块尺寸。
由于MISO的构造,在任意一条线处插入一个锁存器会产生一个有效延时,等于L个对应于采样率的时钟周期。
每个延时原件称为一个块延时〔也称为L级减慢,L-slow〕。
例如,把信号x(3k)延迟一个时钟周期将导致信号x(3k-3)而非x(3k-1),因为x(3k-1)已经是另一条输入线的输入。
3级并行FIR滤波器的框图架构如图3所示:
图3一个块处理的例子
其细节图如图4所示:
图4块尺寸为3的3阶FIR滤波器的并行构造处理
注意,块或并行处理系统的关键路径保持不变,而且时钟周期〔Tclk〕必须满足:
Tclk≥TM+2TA〔3-2〕
但是,由于3个样点是在同一个时钟周期而不是三个时钟周期处理的,因此迭代周期由下式确定:
Titer=Tsample=Tclk≥(TM+2TA)〔3-3〕
重要的是要理解在并行系统中Tclk≠Tsample,而在流水线系统中Tclk=Tsample,以下图给出了一个完整的并行处理系统,它包含串-并转换器和并-串转换器:
图5块尺寸为4的完全并行处理系统
其细节如以下图所示:
现在人们会问,当能够用流水线到达同样好的效果时,为什么还要并行处理呢?
为什么要复制和使用这么多硬件呢?
答复是,流水线存在一个根本的限制,就是输入/输出〔I/O〕的瓶颈问题。
考虑图6的芯片组:
图6一个芯片组图
例如,假设假定输出管腿、输入管腿和两个芯片之间连线的延时总和为8ns,那么Tclk必须大于或等于8ns。
假设关键路径的计算时间小于8ns,那么I/O延时的限制将占主导地位,该系统为通信受限的系统。
这实质上意味着,流水线仅在关键路径计算时间大于通信或I/O延时边界时才可以使用,一旦到达此边界后,流水线就不能进一步提高速度了。
这时,流水线必须结合并行处理才能进一步提高该架构的速度。
作为一个例子,考虑图7的并行滤波器:
图7块尺寸为3的3阶FIR滤波器的并行处理架构
假定一个乘法的计算时间〔TM〕是10ut,一个加法的计算时间为2ut。
细粒流水线可用到并行滤波器中来进一步缩小关键路径。
在这种情况下,乘法器分拆为两个较小的单元m1和m2,其计算时间分别为7ut和3ut。
流水线锁存器插入到穿过乘法器的水平割集上,如以下图所示。
虽然这些水平割集看起来似乎是无效的,但是实际上它们是有效的,因为去掉这些割集的边就断开了元件间的连接。
于是通过并行处理与流水线的结合,采样周期减至:
(3-4)
并行处理也被通过减慢是中来减少功耗,这种方法减少功耗是由于时钟方面的原因,相比之下,流水线系统需要工作在更快的时钟下,才能保持等价的吞吐率或采样速度。
进一步说,更不希望使用细粒度流水线,如位级流水线,因为硬件开销与迟滞时间都会由于锁存器的显著增加而增加。
4.流水线与并行处理的功耗减低
利用流水线和并行处理有两个主要的优点:
1〕高速度
2〕低功耗
由前面章节已经看出流水线与并行处理能够增加采样速度。
现在考虑在采样速度不需要增加的情况下如何利用这些技术来降低功耗。
回忆一下两个公式,一个是计算CMOS电路传播延时的公式,另一个是计算功耗的公式。
传播延时Tpd与在关键路径上各种晶体管栅极和杂散电容的充放电荷密切相关,对CMOS电路,传播延时可写为:
Tpd=(4-1)
其中Ccharge表示在单个时钟周期里充放电的电容,即沿着关键路径的电容,V0是电源电压,Vt是阈值电压。
参数k是工艺参数μ、W/L和Cox的函数。
CMOS电路的功耗可用以下方程来估计:
P=Ctotalf(4-2)
其中Ctotal代表电路中的总电容,V0是电源电压,f是电路的时钟频率。
图83阶FIR滤波器细粒度流水线与并行处理相结合的架构
4.1用流水线降低功耗:
流水线构造可以用来降低FIR滤波器的功耗,令
Pseq=Ctotalf(4-3)
表示原始滤波器的功耗。
注意f=1/Tseq,其中Tseq原始时序滤波器的时钟周期。
现在考虑一个M级流水线系统,其关键路径缩短为原始路径长度的1/M,一个时钟周期充放电电容减小为Ccharge/M,注意总电容没有变化。
如果时钟速度保持不变,即时钟频率f保持不变,在原来对电容Ccharge充放电的同样时间,现在只需对Ccharge/M进展充放电,这意味着,电源电压可以降低到βV0,其中β是一个小于1的常数。
这样,流水线滤波器的功耗将为:
Ppip=Ctotalβ2f=β2Pseq(4-4)
因此,和原始系统相比流水线系统的功耗降低了β2倍。
图9原始系统和3级流水线系统的关键路径
功耗降低因子β可以通过考察原始滤波器和流水线滤波器传播时之间的关系来确定。
原始滤波器的传播延时是
〔4-5〕
流水线滤波器的传播延时是
(4-6)
应该注意的是,时钟周期Tclk通常被设置为等于电路中的最大传播延时Tpd。
因为对于这两个滤波器来说使用一样的时钟速度,根据上述两个公式,从以下二次方程可以解出β,
(4-7)
一旦得到了β,流水线滤波器降低的功耗就可以由下面公式算出:
Ppip=Ctotalβ2f=β2Pseq(4-8)
4.2用并行处理降低功耗
和流水线一样,并行处理也可以通过降低电源电压来降低功耗。
在一个L路并行系统中,充电电容通常不变,而总电容增大L倍。
为了保持同样的采样速度,L级并行电路的时钟周期必须增加到LTseq,其中Tseq是由公式4-5决定的时序电路的传播延时。
这意味着Ccharge的充电时间是LTseq而不是Tseq。
换句话说,同样的电容有了更长的充电时间。
这就意味着电源电压可以降低到βV0。
图10顺序流水线系统和3级流水线系统的关键路径
对传播延时的考虑可以再次用来计算L级并行系统的电源电压。
原始系统的传播延时由公式3-13给出,而L级并行系统的传播延时由下式给出:
(4-9)
根据公式3-13和3-22可以得到以下二次方程来就出β:
(4-10)
一旦求出β,L路并行系统的功耗可以计算如下:
(4-11)
其中Pseq是由4-3给出的原始时序系统的功能。
所以,和流水线系统一样,L路并行系统功耗为原时序系统的β2倍。
4.3流水线和并行处理的结合
流水线技术和并行处理技术可以结合起来降低功耗。
原理是一样的,即流水线降低1个时钟周期充放电电容,而并行处理那么增加对原电容的充电放电时钟周期。
图11
并行流水线滤波器的传播延时如下:
(4-12)
根据该方程,得到以下二次方程:
(4-13)
应该注意的是,电源电压并不能通过使用更多级的流水线和并行处理而无限地降低,因为存在一个由工艺参数和噪声容限决定的电源电压下限。
结论:
本节容介绍了非递归数字滤波器中的流水线和并行处理方法。
这两种方法都可以用来提高滤波器的采样频率。
在流水线中,流水线锁存器放置在SFG中的前馈割集处,是关键路径的计算时间降低。
其结果使时钟频率的以提高,从而采样频率提高。
在并行处理中,复制原始的串行系统的硬件,得到一个MIMO并行系统。
在这种情况下,时钟频率不变,采样频率却增加了。
此外,还说明了流水线和并行处理在低功耗设计中的应用。
根本思路是利用降低电源电压的方法,用提高后的采样速度换取功耗的降低。
利用快速算法,并行FIR滤波器能够以小于并行级数线性增加的硬件代价实现。