余伦静影响流水线的性能和解决方法.docx

资源描述

余伦静影响流水线的性能和解决方法.docx

《余伦静影响流水线的性能和解决方法.docx》由会员分享，可在线阅读，更多相关《余伦静影响流水线的性能和解决方法.docx（14页珍藏版）》请在冰豆网上搜索。

余伦静影响流水线的性能和解决方法.docx

余伦静影响流水线的性能和解决方法

影响流水线性能的因素与解决办法

借鉴了工业流水线制造的思想，现代CPU也采用了流水线设计。

在工业制造中采用流水线可以提高单位时间的生产量；同样在CPU中采用流水线设计也有助于提高CPU的频率。

先让我们以汽车装配为例来解释流水线的工作方式。

假设装配一辆汽车需要4个步骤：

1.冲压：

制作车身外壳和底盘等部件，2.焊接：

将冲压成形后的各部件焊接成车身，3.涂装：

将车身等主要部件清洗、化学处理、打磨、喷漆和烘干，4.总装：

将各部件（包括发动机和向外采购的零部件）组装成车；同时对应地需要冲压、焊接、涂装和总装四个工人。

如果不采用流水线，那么第一辆汽车依次经过上述四个步骤装配完成之后，下一辆汽车才开始进行装配，最早期的工业制造就是采用的这种原始的方式。

不久之后大家就发现，某个时段中一辆汽车在进行装配时，其它三个工人处于闲置状态，显然这是对资源的极大浪费！

于是大家开始思考能有效利用资源的方法：

有什么办法让四个工人一起工作呢？

那就是流水线！

在第一辆汽车经过冲压进入焊接工序的时候，立刻开始进行第二辆汽车的冲压，而不是等到第一辆汽车经过全部四个工序后才开始。

之后的每一辆汽车都是在前一辆冲压完毕后立刻进入冲压工序，这样在后续生产中就能够保证四个工人一直处于运行状态，不会造成人员的闲置。

这样的生产方式就好似流水川流不息，因此被称为流水线。

CPU的工作我们也可以大致分为指令的获取、解码、运算和结果的写入四个步骤，采用流水线设计之后，指令（好比待装配的汽车）就可以连续不断地进行处理。

在同一个较长的时间段内，显然拥有流水线设计的CPU能够处理更多的指令。

　　Intel和AMD在桌面CPU市场上的激烈竞争，使双方都千方百计地拿出更强大产品来压制对方，而最引人瞩目的就是CPU的频率之争。

随着CPU频率不断地攀升，Intel总是在自己某个核心的处理器到达极限之时采用新的、更长流水线的核心来消除频率的瓶颈。

那么流水线和频率之间有什么关系呢？

还是以上面的例子来说明。

假如冲压、焊接、涂装和总装四个过程各自需要1个小时，现在我们把这四个工序细化：

冲压分为冲压1（外壳）和冲压2（底盘）两个子工序，另外三个工序同样各自分成两个子工序，一共八个子工序。

这样一来，完成每个子工序平均只需要半个小时，因此每隔半个小时就有一辆汽车完成装配，下线速度提高了一倍！

如果再进一步细化，一分为二，那么完成每个工序平均只需要15分钟，即每隔15分钟就有一辆汽车下线，速度又提高了一倍（单辆汽车的生产时间仍是4个小时，但是两辆汽车的生产间隙更小了）。

所以工序分得越细，单位时间内（例如8个小时）生产的汽车就越多。

正是这样，CPU厂商才试图不断加长流水线，以利于频率的提升。

那么为什么Prescott核心的处理器才31级流水线，流水线级数能不能无限增长呢

首先，由于现有芯片制造工艺的限制，频率的提升带来高功耗、高发热量的问题。

尽管流水线增长，频率提升的空间相应增大，但是处理器频率提升的其它瓶颈却无法解决。

而且过长的流水线意味着更加复杂的内部结构，生产的良品率也难以保证。

其次，在CPU的工作中，指令往往不是孤立的，许多指令按一定的顺序执行才能完成一个任务。

而一旦某个指令在运算过程中发生了错误，或者执行了没有用的指令，那么其后与之相关的指令就都没有用了。

这些指令必须清除掉，然后再执行其它的指令，CPU相当于做了许多无用功！

流水线越长，一旦出错影响也就越大，比如一个指令在最后一级出错，那么可能在后续流水线中的所有指令都要被清除，Northwood核心处理器要浪费20级工序的时间，而Prescott核心处理器就要浪费31级工序的时间！

最基本的CPU流水线分成5级，如果将每一步细化便可以扩展到10级。

流水线必须实现相同的目标：

引入指令，输出结果，但级数的不同会让效率发生变化。

5级流水线每一步花费的工作量要比十级流水线更大。

　如果其他保持不变，那么我会选择5级流水线，因为实现5级数据处理更加容易，如果每一级不能保持全速运算，那CPU的效率会大大下降。

选择更多流水线的理由是，如果每一级的处理过程更简单，那处理的速度会加快。

最复杂的那一级会是整个运算中最慢的一环，它将决定整体的运行速度。

如果我们假设5级流水线的每一级都要花费1ns来完成，每一级运算的周期为一个时钟频率，那么我们得到了1GHz的处理速度。

当我们增加线管级数时，这时很难保证每一级都全速运行，我们必须通过缩短每一级运算的周期来进行弥补。

庆幸的是，由于每个时钟频率的工作量减少了，我们能有效缩短周期，在后者的设计中，时钟周期可以缩短到0.5ns。

十级流水线实现了2GHz的运行频率，它是前者运行频率的两倍。

如果我们假定每一级流水线都全速工作，那么它的性能也将是前者的两倍。

但现实是，流水线不可能每刻都处于满负荷状态，因此市场上的2GHzCPU不可能有1GHzCPU两倍的性能。

对于CPU来说，它的工作可分为获取指令、解码、运算、结果几个步骤。

其中前两步由指令控制器完成，后两步则由运算器完成。

按照传统的方式，所有指令按顺序执行，先由指令控制器工作，完成一条指令的前两步，然后运算器工作，完成后两步，依此类推……很明显，当指令控制器工作时运算器基本上处于闲置状态，当运算器在工作时指令控制器又在休息，这样就造成了相当大的资源浪费。

于是CPU借鉴了工业生产中被广泛应用的流水线设计，当指令控制器完成了第一条指令的前两步后，直接开始第二条指令的操作，运算器单元也是，这样就形成了流水线。

流水线设计可最大限度地利用了CPU资源，使每个部件在每个时钟周期都在工作，从而提高了CPU的运算频率。

影响流水线性能的因素：

流水线处理方式是一种时间重叠并行处理的处理技术，具体地说，就是流水线可以在同一个时间启动2个或以上的操作，借此来提高性能。

为了实现这一点，流水线必须要时时保持畅通，让任务充分流水，但在实际中，会出现2种情况使流水线停顿下来或不能启动：

1、多个任务在同一时间周期内争用同一个流水段。

例如，假如在指令流水线中，如果数据和指令是放在同一个储存器中，并且访问接口也只有一个，那么，两条指令就会争用储存器；在一些算数流水线中，有些运算会同时访问一个运算部件……

2、数据依赖。

比如，A运算必须得到B运算的结果，但是，B运算还没有开始，A运算动作就必须等待，直到A运算完成，两次运算不能同时执行。

不过，就算是这样，我们也不用担心，因为对于第一种情况，我们可以增加运算部件的数量来使他们不必争用同一个部件；第二种情况，我们可以用指令调度的方法重新安排指令或运算的顺序。

流水线是现代RISC核心的一个重要设计，它极大地提高了性能。

对于一条具体的指令执行过程，通常可以分为五个部分：

取指令，指令译码，取操作数，运算（ALU），写结果。

其中前三步一般由指令控制器完成，后两步则由运算器完成。

按照传统的方式，所有指令顺序执行，那么先是指令控制器工作，完成第一条指令的前三步，然后运算器工作，完成后两步，在指令控制器工作，完成第二条指令的前三步，在是运算器，完成第二条指令的后两部……很明显，当指令控制器工作是运算器基本上在休息，而当运算器在工作时指令控制器却在休息，造成了相当大的资源浪费。

解决方法很容易想到，当指令控制器完成了第一条指令的前三步后，直接开始第二条指令的操作，运算单元也是。

这样就形成了流水线系统，这是一条2级流水线。

如果是一个超标量系统，假设有三个指令控制单元和两个运算单元，那么就可以在完成了第一条指令的取址工作后直接开始第二条指令的取址，这时第一条指令在进行译码，然后第三条指令取址，第二条指令译码，第一条指令取操作数……这样就是一个5级流水线。

很显然，5级流水线的平均理论速度是不用流水线的4倍。

流水线系统最大限度地利用了CPU资源，使每个部件在每个时钟周期都工作，大大提高了效率。

但是，流水线有两个非常大的问题：