第6节 Xilinx FPGA芯片底层单元的使用.docx

资源描述

第6节 Xilinx FPGA芯片底层单元的使用.docx

《第6节 Xilinx FPGA芯片底层单元的使用.docx》由会员分享，可在线阅读，更多相关《第6节 Xilinx FPGA芯片底层单元的使用.docx（15页珍藏版）》请在冰豆网上搜索。

第6节 Xilinx FPGA芯片底层单元的使用.docx

第6节XilinxFPGA芯片底层单元的使用

4.6.1Xilinx全局时钟网络的使用

在Xilinx系列FPGA产品中，全局时钟网络是一种全局布线资源，它可以保证时钟信号到达各个目标逻辑单元的时延基本相同。

其时钟分配树结构如图4-108所示。

图4-108XilinxFPGA全局时钟分配树结构

针对不同类型的器件，Xilinx公司提供的全局时钟网络在数量、性能等方面略有区别，下面以Virtex-4系列芯片为例，简单介绍FPGA全局时钟网络结构。

Virtex-4系列FPGA利用1.2V、90nm三栅极氧化层技术制造而成，与前一代器件相比，具备灵活的时钟解决方案，多达80个独立时钟与20个数字时钟管理器，差分全局时钟控制技术将歪斜与抖动降至最低。

以全铜工艺实现的全局时钟网络，加上专用时钟缓冲与驱动结构，从而可使全局时钟到达芯片内部所有的逻辑可配置单元，且I/O单元以及块RAM的时延和抖动最小，可满足高速同步电路对时钟触发沿的苛刻需求。

在FPGA设计中，FPGA全局时钟路径需要专用的时钟缓冲和驱动，具有最小偏移和最大扇出能力，因此最好的时钟方案是由专用的全局时钟输入引脚驱动的单个主时钟，去钟控设计项目中的每一个触发器。

只要可能就应尽量在设计项目中采用全局时钟，因为对于一个设计项目来说，全局时钟是最简单和最可预测的时钟。

在软件代码中，可通过调用原语IBUFGP来使用全局时钟。

IBUFGP的基本用法是：

IBUFGPU1（.I（clk_in）,.O（clk_out））;

全局时钟网络对FPGA设计性能的影响很大，所以本书在第11章还会更深入、更全面地介绍全局时钟网络以及相关使用方法。

4.6.2DCM模块的使用

1．DCM模块的组成和功能介绍

数字时钟管理模块（DigitalClockManager，DCM）是基于Xilinx的其他系列器件所采用的数字延迟锁相环（DLL，DelayLockedLoop）模块。

在时钟的管理与控制方面，DCM与DLL相比，功能更强大，使用更灵活。

DCM的功能包括消除时钟的延时、频率的合成、时钟相位的调整等系统方面的需求。

DCM的主要优点在于：

①实现零时钟偏移（Skew），消除时钟分配延迟，并实现时钟闭环控制；②时钟可以映射到PCB上用于同步外部芯片，这样就减少了对外部芯片的要求，将芯片内外的时钟控制一体化，以利于系统设计。

对于DCM模块来说，其关键参数为输入时钟频率范围、输出时钟频率范围、输入/输出时钟允许抖动范围等。

DCM共由四部分组成，如图M所示。

其中最底层仍采用成熟的DLL模块；其次分别为数字频率合成器（DFS，DigitalFrequencySynthesizer）、数字移相器（DPS，DigitalPhaseShifter）和数字频谱扩展器（DSS，DigitalSpreadSpectrum）。

不同的芯片模块的DCM输入频率范围是不同的，例如：

。

图4-109DCM功能块和相应的信号

1）DLL模块

DLL主要由一个延时线和控制逻辑组成。

延时线对时钟输入端CLKIN产生一个延时，时钟分布网线将该时钟分配到器件内的各个寄存器和时钟反馈端CLKFB；控制逻辑在反馈时钟到达时采样输入时钟以调整二者之间的偏差，实现输入和输出的零延时，如图4-110所示。

具体工作原理是：

控制逻辑在比较输入时钟和反馈时钟的偏差后，调整延时线参数，在输入时钟后不停地插入延时，直到输入时钟和反馈时钟的上升沿同步，锁定环路进入“锁定”状态，只要输入时钟不发生变化，输入时钟和反馈时钟就保持同步。

DLL可以被用来实现一些电路以完善和简化系统级设计，如提供零传播延迟，低时钟相位差和高级时钟区域控制等。

图4-110DLL简单模型示意图

在Xilinx芯片中，典型的DLL标准原型如图4-111所示，其管脚分别说明如下：

图4-111XilinxDLL的典型模型示意图

CLKIN（源时钟输入）：

DLL输入时钟信号，通常来自IBUFG或BUFG。

CLKFB（反馈时钟输入）：

DLL时钟反馈信号，该反馈信号必须源自CLK0或CLK2X，并通过IBUFG或BUFG相连。

RST（复位）：

控制DLL的初始化，通常接地。

CLK0（同频信号输出）：

与CLKIN无相位偏移；CLK90与CLKIN有90度相位偏移；CLK180与CLKIN有180度相位偏移；CLK270与CLKIN有270度相位偏移。

CLKDV（分频输出）：

DLL输出时钟信号，是CLKIN的分频时钟信号。

DLL支持的分频系数为1.5，2，2.5，3，4，5，8和16。

CLK2X（两倍信号输出）：

CLKIN的2倍频时钟信号。

LOCKED（输出锁存）：

为了完成锁存，DLL可能要检测上千个时钟周期。

当DLL完成锁存之后，LOCKED有效。

在FPGA设计中，消除时钟的传输延迟，实现高扇出最简单的方法就是用DLL，把CLK0与CLKFB相连即可。

利用一个DLL可以实现2倍频输出，如图4-112所示。

利用两个DLL就可以实现4倍频输出，如图4-113所示。

图4-112XilinxDLL2倍频典型模型示意图

图4-113XilinxDLL4倍频典型模型示意图

2）数字频率合成器

DFS可以为系统产生丰富的频率合成时钟信号，输出信号为CLKFB和CLKFX180，可提供输入时钟频率分数倍或整数倍的时钟输出频率方案，输出频率范围为1.5～320MHz（不同芯片的输出频率范围是不同的）。

这些频率基于用户自定义的两个整数比值，一个是乘因子（CLKFX_MULTIPLY），另外一个是除因子（CLKFX_DIVIDE），输入频率和输出频率之间的关系为：

比如取CLKFX_MULTIPLY=3，CLKFX_DIVIDE=1，PCB上源时钟为100MHz，通过DCM3倍频后，就能驱动时钟频率在300MHz的FPGA，从而减少了板上的时钟路径，简化板子的设计，提供更好的信号完整性。

3）数字移相器

DCM具有移动时钟信号相位的能力，因此能够调整I/O信号的建立和保持时间，能支持对其输出时钟进行0度、90度、180度、270度的相移粗调和相移细调。

其中，相移细调对相位的控制可以达到1%输入时钟周期的精度（或者50ps），并且具有补偿电压和温度漂移的动态相位调节能力。

对DCM输出时钟的相位调整需要通过属性控制PHASE_SHIFT来设置。

PS设置范围为-255到+255，比如输入时钟为200MHz，需要将输出时钟调整+0.9ns的话，PS=（0.9ns/5ns）?

56=46。

如果PHASE_SHIFT值是一个负数，则表示时钟输出应该相对于CLKIN向后进行相位移动；如果PHASE_SHIFT是一个正值，则表示时钟输出应该相对于CLKIN向前进行相位移动。

移相用法的原理图与倍频用法的原理图很类似，只用把CLK2X输出端的输出缓存移到CLK90、CLK180或者CLK270端即可。

利用原时钟和移相时钟与计数器相配合也可以产生相应的倍频。

4）数字频谱合成器

Xilinx公司第一个提出利用创新的扩频时钟技术来减少电磁干扰（EMI）噪声辐射的可编程解决方案。

最先在FPGA中实现电磁兼容的EMIControl技术，是利用数字扩频技术（DSS）通过扩展输出时钟频率的频谱来降低电磁干扰，减少用户在电磁屏蔽上的投资。

数字扩频（DSS）技术通过展宽输出时钟的频谱，来减少EMI和达到FCC要求。

这一特点使设计者可极大地降低系统成本，使电路板重新设计的可能性降到最小，并不再需要昂贵的屏蔽，从而缩短了设计周期。

2．DCM模块IPCore的使用

例4-7在ISE中调用DCM模块，完成50MHz时钟信号到75MHz时钟信号的转换。

1）在源文件进程中，双击“CreateNewSource”；然后在源文件窗口，选择“IP（CoreGen&ArchitectureWizard）”，输入文件名“my_dcm”；再点击“Next”，在选择类型窗口中，“FPGAFeaturesandDesign?

Clocking?

Virtex-4”，然后选择“SingleDCMADVv9.1i”，如图4-114所示。

图114新建DCM模块IPCore向导示意图

<2>点击“Next”，“Finish”进入Xilinx时钟向导的建立窗口，如图4-65所示。

ISE默认选中CLK0和LOCKED这两个信号，用户根据自己需求添加输出时钟。

在“InputClockFrequency”输入栏中敲入输入时钟的频率或周期，单位分别是MHz和ns，其余配置保留默认值。

为了演示，这里添加了CLKFX信号，并设定输入时钟为单端信号，频率为50MHz，其余选项保持默认值。

图-115DCM模块配置向导界面

<3>点击“Next”，进入时钟缓存窗口，如图4-116所示。

默认配置为DCM输出添加全局时钟缓存以保证良好的时钟特性。

如果设计全局时钟资源，用户亦可选择“Customizebuffers”自行编辑输出缓存。

一般选择默认配置即可。

图4-116DCM模块时钟缓存配置向导界面

<4>点击“Next”，进入时钟频率配置窗口，如图4-117所示。

键入输出频率的数值，或者将手动计算的分频比输入。

最后点击“Next”，“Finish”即可完成DCM模块IPCore的全部配置。

本例直接键入输出频率为75MHz即可。

图4-117指定DCM模块的输出频率

<5>经过上述步骤，即可在源文件进程中看到“my_dcm.xaw”文件。

剩余的工作就是在设计中调用该DCMIPCore，其例化代码如下：

moduledcm_top（

CLKIN_IN,

RST_IN,

CLKFX_OUT,

CLKIN_IBUFG_OUT,

CLK0_OUT,

LOCKED_OUT）;

inputCLKIN_IN;

inputRST_IN;

outputCLKFX_OUT;

outputCLKIN_IBUFG_OUT;

outputCLK0_OUT;

outputLOCKED_OUT;

mydcmdcm1（

.CLKIN_IN（CLKIN_IN）,

.RST_IN（RST_IN）,

.CLKFX_OUT（CLKFX_OUT）,

.CLKIN_IBUFG_OUT（CLKIN_IBUFG_OUT）,

.CLK0_OUT（CLK0_OUT）,

.LOCKED_OUT（LOCKED_OUT）

）;

endmodule

<6>上述代码经过综合SynplifyPro综合后，得到的RTL级结构图如图4-118所示。

图4-118DCM模块的RTL结构示意图

上述代码经过ModelSim仿真后，其局部仿真结果如图4-119所示。

从中可以看出，当LOCKED_OUT信号变高时，DCM模块稳定工作，输出时钟频率CLKFX_OUT为输入时钟CLK_IN频率的1.5倍，完成了预定功能。

需要注意的是，复位信号RST_IN是高有效。

图4-119DCM的仿真结果示意图

在实际中，如果在一片FPGA内使用两个DCM，那么时钟从一个clk输入，再引到两个DCM的clk_in。

这里，在DCM模块操作时，需要注意两点：

首先，用CoreGen生成DCM模块的时候，clk_in源是内部的，不能直接连接到管脚，需要添加缓冲器；其次，手动例化一个IBUFG，然后把IBUFG的输入连接到两个DCM的clk_in。

通常，如果没有设置clk_in源为内部的，而是完全按照单个DCM的使用流程，就会造成clk_in信号有多个驱动。

此时，ISE不能做到两个DCM模块输出信号的相位对齐，只能做到一个DCM的输出是相位对齐的。

而时钟管脚到两个DCM的路径和DCM输出的路径都有不同的延时，因此如果用户对相位还有要求，就需要自己手动调整DCM模块在芯片中的位置。

4.6.3Xilinx内嵌快存储器的使用

Xilinx公司提供了大量的存储器资源，包括了内嵌的块存储器、分布式存储器以及16位的移位寄存器。

利用这些资源可以生成深度、位宽可配置的RAM、ROM、FIFO以及移位寄存器等存储逻辑。

其中，块存储器是硬件存储器，不占用任何逻辑资源，其余两类都是Xilinx专有的存储结构，由FPGA芯片的查找表和触发器资源构建的，每个查找表可构成161位的分布式存储器或移位寄存器。

一般来讲，块存储器是宝贵的资源，通常用于大数据量的应用场合，而其余两类用于小数据量环境。

1．块存储器的组成和功能介绍

在XilinxFPGA中，块RAM是按照列来排列的，这样保证了每个CLB单元周围都有比较接近的块RAM用于存储和交换数据。

与块RAM接近的是硬核乘加单元，这样不仅有利于提高乘法的运算速度，还能形成微处理器的雏形，在数字信号处理领域非常实用。

例如，在Spartan3E系列芯片中，块RAM分布于整个芯片的边缘，其外部一般有两列CLB，如图4-120所示，可直接对输入数据进行大规模缓存以及数据同步操作，便于实现各种逻辑操作。

图4-120Spartan3E系统芯片中块RAM的分布图

块RAM几乎是FPGA器件中除了逻辑资源之外用得最多的功能块，Xilinx的主流FPGA芯片内部都集成了数量不等的块RAM硬核资源，速度可以达到数百兆赫兹，不会占用额外的CLB资源，而且可以在ISE环境的IP核生成器中灵活地对RAM进行配置，构成单端口RAM、简单双口RAM、真正双口RAM、ROM（在RAM中存入初值）和FIFO等应用模式，如图4-121所示。

同时，还可以将多个块RAM通过同步端口连接起来构成容量更大的块RAM。

图4-121块RAM组合操作示意图

1）单端口RAM模式

单端口RAM的模型如图4-122所示，只有一个时钟源CLK，WE为写使能信号，EN为单口RAM使能信号，SSR为清零信号，ADDR为地址信号，DI和DO分别为写入和读出数据信号。

图4-122Xilinx单端块RAM的示意模型

单端口RAM模式支持非同时的读写操作。

同时每个块RAM可以被分为两部分，分别实现两个独立的单端口RAM。

需要注意的是，当要实现两个独立的单端口RAM模块时，首先要保证每个模块所占用的存储空间小于块RAM存储空间的1/2。

在单端口RAM配置中，输出只在read-during-write模式有效，即只有在写操作有效时，写入到RAM的数据才能被读出。

当输出寄存器被旁路时，新数据在其被写入时的时钟上升沿有效。

2）简单的双端口RAM

简单双端口RAM模型如图4-123所示，图中上边的端口只写，下边的端口只读，因此这种RAM也被称为伪双端口RAM（PseudoDualPortRAM）。

这种简单双端口RAM模式也支持同时的读写操作。

图4-123Xilinx简单双端口块RAM的示意模型

块RAM支持不同的端口宽度设置，允许读端口宽度与写端口宽度不同。

这一特性有着广泛地应用，例如：

不同总线宽度的并串转换器等。

在简单双端口RAM模式中，块RAM具有一个写使能信号wren和一个读使能信号rden，当rden为高电平时，读操作有效。

当读使能信号无效时，当前数据被保存在输出端口。

当读操作和写操作同时对同一个地址单元时，简单双口RAM的输出或者是不确定值，或者是存储在此地址单元的原来的数据。

3）真正双端口RAM模式

真正双端口RAM模型如图4-124所示，图中上边的端口A和下边的端口B都支持读写操作，WEA、WEB信号为高时进行写操作，低为读操作。

同时它支持两个端口读写操作的任何组合：

两个同时读操作、两个端口同时写操作或者在两个不同的时钟下一个端口执行写操作，另一个端口执行读操作。

图4-124Xilinx真正双端口块RAM的示意模型

真正双端口RAM模式在很多应用中可以增加存储带宽。

例如，在包含嵌入式处理器MiroBlaze和DMA控制器系统中，采用真正双端口RAM模式会很方便；相反，如果在这样的一个系统中，采用简单双端口RAM模式，当处理器和DMA控制器同时访问RAM时，就会出现问题。

真正双端口RAM模式支持处理器和DMA控制器同时访问，这个特性避免了采用仲裁的麻烦，同时极大地提高了系统的带宽。

一般来讲，在单个块RAM实现的真正双端口RAM模式中，能达到的最宽数据位为36比特*512，但可以采用级联多个块RAM的方式实现更宽数据位的双端口RAM。

当两个端口同时向同一个地址单元写入数据时，写冲突将会发生，这样存入该地址单元的信息将是未知的。

要实现有效地向同一个地址单元写入数据，A端口和B端口时钟上升沿的到来之间必须满足一个最小写周期时间间隔。

因为在写时钟的下降沿，数据被写入块RAM中，所以A端口时钟的上升沿要比B端口时钟的上升沿晚到来1/2个最小写时钟周期，如果不满足这个时间要求，则存入此地址单元的数据无效。

4）ROM模式

块RAM还可以配置成ROM，可以使用存储器初始化文件（.coe）对ROM进行初始化，在上电后使其内部的内容保持不变，即实现了ROM功能。

5）FIFO模式

FIFO即先入先出，其模型如图4-125所示。

在FIFO具体实现时，数据存储的部分是采用简单双端口模式操作的，一个端口只写数据而另一个端口只读数据，另外在RAM（块RAM和分布式RAM）周围加一些控制电路来输出指示信息。

FIFO最重要的特征是具备“满（FULL）”和“空（EMPTY）”的指示信号，当FULL信号有效时（一般为高电平），就不能再往FIFO中写入数据，否则会造成数据丢失；当EMPTY信号有效时（一般为高电平），就不能再从FIFO中读取数据，此时输出端口处于高阻态。

图4-125XilinxFIFO模块的示意模型

2．块RAMIPCore的使用

块RAM已在本书第3章有过介绍，这里就不再赘述。

3．ROM存储器IPCore的使用

对于ROM模块，主要是生成相应的.coe文件。

下面以一个实例介绍如何借助MATLAB生成ROM的.coe文件。

例4-8生成定点正余弦波形数值，形成.coe文件并加载到块ROM中。

整体过程主要分为下面的3步。

首先，利用MATLAB计算出正余弦波形的浮点值，并量化16比特的定点波形数值：

x=linspace（0,6.28,1024）;//在区间[0,6.28]之间等间隔地取1024个点

y1=cos（x）;//计算相应的正余弦值

y2=sin（x）;

//由于正余弦波形的值在[0,1]之间，需要量化成16比特，先将数值放大

y1=y1*32678;

y2=y2*32768;

//再将放大的浮点值量化，并写到存放在C盘的文本中

fid=fopen（'c:

/cos_coe.txt','wt'）;

fprintf（fid,'%16.0f\n',y1）;//在写文件的时候量化成16比特

fclose（fid）

fid=fopen（'c:

/sin_coe.txt','wt'）;

fprintf（fid,'%16.0f\n',y2）;

fclose（fid）

其次，生成coe文件。

在C盘根目录下，将cos_coe.txt和sin_coe.txt的后缀改成.coe，打开文件，把每一行之间的空格用文本的替换功能换成逗号“,”，并在最后一行添加一个分号“;”。

最后在文件的最开始添加下面两行：

memory_initialization_radix=10;

memory_initialization_vector=

然后保存文件退出。

最后，将coe文件加载到BLOCKROM所生成的ROM中。

新建一个BLOCKRAM的IPcore，其位置为“Memories&StorageElementsRAMs&ROMSBlockMemoryGeneratorv2.4”，在第一页选择singleportrom，在第二页选择位宽为16、深度为1024，在第三页下载coe文件，如图4-126所示，然后双击“Finish”，完成IPcore的生成。

如果coe文件生成的不对，图中用椭圆标志之处是红色的，coe文件错误的类型主要有数据基数不对和数据的长度不对这两类。

图4-126块ROM加载coe文件的用户配置界面

展开阅读全文