AMD四核发布 K10新品全面解析.docx-资源下载

AMD四核发布 K10新品全面解析.docx

1、AMD四核发布 K10新品全面解析前进是历史车轮的必然方向，Pentium 4在欢呼声中取代Pentium 3，4年后Core构架又卷土重来替代饱受非议的NetBurst构架。是非成败转头空，青山依旧在，几度夕阳红。或许十年河东十年河西的情况暂时不会发生在稳步前进的AMD身上，但出于技术角度的考虑，AMD目前已经再一次飞跃性的推出K10微架构处理器。AMD K10 Phenom X4核心照前不久，AMD服务器/工作站产品全球业务经理庄富瑞(John Fruehe)正式宣布AMD将在9月10日正式发布代号巴塞罗那的四核处理器，由于时差的原因，中国此次将成为全球首发地，早于美国发布12个小时。庄

2、富瑞此次来到北京只是为巴塞罗那宣传的其中一站，未来几天，他还将前往香港、台湾、新加坡等地，在正式发布前为新品预热造势。庄富瑞否认外界所谓的巴塞罗那“跳票”一说，他表示，AMD一直说将在夏季结束时发布，而9月10日并不晚。“其实巴塞罗那早已准备好，原本我们也计划先推出高端的型号，之后再慢慢去降低功耗。但在和客户交流后，我们发现这并不是他们所希望的，所以我们改变了计划，决定首发的产品就保证足够低的功耗，这是符合客户需求的做法。”庄富瑞表示。那么，竞争对手英特尔在去年11月就发布了自己四核，并于今年6月宣布出货量突破百万片，新一代45nm Penryn也已经蓄势待发，可以说在四核市场英特尔已经占得先

3、机。AMD如何在逆境成功“突围”成为业界关注的焦点。庄富瑞表示，在和英特尔的对抗中，AMD的核心竞争力主要体现在两方面。首先，从产品上来看，巴塞罗那处理器在功耗方面更有优势，虽然是四核产品，但功耗并没有比之前的双核有所提高。其次，AMD一直是以客户为本的公司，考虑到客户的需求，我们的平台更加稳定，更具可扩展性。用户无需更换任何部件就可以使用最新的巴塞罗那，并且我们下一代代号“Shanghai”的产品也是如此。产能一直是困扰AMD的一大问题，但此次庄富瑞似乎并不担心。他表示，巴塞罗那将采用65nm工艺，目前已经开始量产，9月10日发布后就可以大量供货。此外，AMD方面并没有公布巴塞罗那的售价，但

4、业界分析普遍认为，英特尔今年11月发布45nm Penryn后，必将引发两家新一轮的价格战。而在性能方面，相信更多的测试结果将与大家见面。简单回顾一下，相比Intel处理器架构上的不断改进，AMD在过去几年里显得略为保守。AMD的成功从K7架构开始，在当年其凭借低成本，高性能成为晚期P6型号的直接对手。但AMD可没有雄厚的资金来养活两个开发团队，其在架构方面可以说是稳扎稳打。K8架构的诞生可以说是演进自K7：略微加深的流水线级数、些许架构方面的改进，重点则是在将北桥芯片中的内存控制器整合到了处理器内部。从现在来看，K8架构的很多设计理念的确非常超前，并且提供了出色的性能。Core 2的确在性能

5、上要好于K8，但和上一代的Dothan和Banias相比，K8在很多应用上都保持领先。AMD Opteron处理器而Intel为了保持优势，在Conroe发布不到4个月的时间里，再次祭出了业内首款四核心处理器，进一步巩固了自己在CPU性能方面的优势。Intel在高端市场的优势，使得AMD的K8处理器显得暗淡无光，只能靠低廉的价格来保住中低端市场份额。虽然AMD凭借产品优良的性价比在中低端市场占据了主动的地位，并在去年的市场份额占有率中取得不错的成绩，但是Intel方面，其在高端布署好产品线之后，随即发动了价格战，挥师而下，对AMD传统较为强势的中低端市场进行打击。一向走高端路线路线的Intel

6、也意识到了中低端市场的重要性，将于6月份上市的Conroe-L，奔腾E系列就是Intel又一强有力武器，誓要夺回这块失去的部分市场。AMD也深深明白单靠价格上的优势，很难去抵挡Intel一轮接一轮的攻势，而这样亏本式的产品价格策略更是AMD不能承受之重。为了解决目前的困境，AMD唯有靠发布新品来取代沿用了将近四年之久的K8微架构处理器，而K10微架构的出现，正是AMD今年绝地反击的重要法宝。那么，究竟K10与K8有什么不同？与Core又有哪些优势？等等关于K10的问题，本文将为您一一揭晓。AMD K10桌面处理器新品牌“Phenom” 相信大家仍然还是最关注AMD面向桌面的四核处理器，让我们先

7、来看看官方正式宣布了用于下一代四核心、双核心高端、主流桌面处理器的新品牌“Phenom”。在K6之后，AMD的K7、K8架构桌面产品都采用了Athlon品牌，与笔记本的Turion和服务器的Opteron组成AMD的整体产品线。而进入K10架构之后，Athlon将被废弃，取而代之的是新的“Phenom”。AMD确认“Phenom”命名据AMD代表确认，Phenom的确源自英语口语，意为“杰出人才”，发音类似精简版的“phenomenal”(显著的、现象的)。Phenom处理器由三部分组成：双路四核心Phenom FX(Agena FX)、四核心Phenom X4(Agena)、双核心Phen

8、om X2(Kuma)。AMD只是说它们的架构都源自于服务器的Barclona Opteron，但没有披露任何型号和规格信息。有消息称，Phenom X4主频2.7-2.9GHz，功耗125W；Phenom X2主频2.0-2.9GHz，功耗89W。 AMD产品经理Ian McNaughton指出，Phenom平台支持DDR2-1066规格内存，而“在OEM厂商有所需求之前”，AMD不会转向DDR3。在启用新品牌后，AMD还将全面放弃型号中的“64”字样，因此原来的Athlon 64 X2将改名Athlon X2并进入低端市场，单核心Athlon消失，单核心Sempron暂时还会存在，竞争I

9、ntel的Celeron。今年第三季度，AMD将发布多款新Sempron，基于65nm Sparta核心，包括35W节能型的3800+、3600+、3500+、3400+等。此前我们已经知道的四核心Agena FX Phenom FX系列是用于双路系统Quad FX的旗舰型号，主频2.2-2.4GHz和2.4-2.6GHz，接口Socket F 1207+，二级缓存4512KB，三级缓存2MB，热设计功耗(TDP)未定。AMD K10桌面处理器规格/上市日期面向高端服务器方面的，AMD用于单路普通系统的Phenom FX，主频2.2-2.4GHz，接口Socket AM2+。其他各款型号也都

10、会采用这种接口。高端桌面市场为四核心Agena，其中四核心Phenom X4已知两款，主频2.4、2.2GHz，二级缓存4512KB，三级缓存2MB， TDP 89W。中端桌面是双核心Kuma Phenom X2已知六款，主频2.8、2.6、2.4、2.3、2.1、1.9GHz，二级缓存2512KB，三级缓存2MB，TDP前两款89W、第三款65W、后三款节能型45W。中低端双核心主要是Rana Athlon 64 X2，已知有一款，主频2.2GHz，二级缓存2512KB，没有三级缓存，TDP 65W。低端单核心则是Spica Sempron，已知两款，主频2.4、2.2GHz，二级缓存5

11、12KB，没有三级缓存，TDP 45W。上市时间方面，从高端到低端依次推出，Phenom FX和Phenom X4在今年第三季度率先登场，89W和65W的常规型Phenom X2第四季度跟上，节能型Phenom X2、Athlon 64 X2和Sempron都要等到明年第一季度。对于“Phenom”品牌的中文命名，有人认为抛弃使用已久的Athlon名称更说明了K10的革命性，以及AMD对这款全新架构的处理器能带来全新突破的希望。但此前AMD处理器中文名以“龙”为命名已经被广大用户所接受，那么Phenom能是什么“龙”呢？我们也做了相关的投票调查，结果网友认为可能是“飞龙”的占55.8%，意

12、思是“飞龙在天”，表达出了大家的祝福。由于AMD还没有正式公布最新一代“Phenom”处理器的中文名，因此AMD会赋予“Phenom”品牌什么样中文名还是个迷，让我们拭目以待。K10是什么？K10微架构又有哪些新特性？作为AMD下一代的处理器架构，K10还在孕育期时就受到各方的关注。K10也就是通常俗称的K8L，是AMD现有K8架构产品的继任者(没有K9)，在架构上有所进步，并将四核心引入桌面。K10是AMD下一代CPU的架构，AMD声称其K10架构四核心具备一系列“革命性设计”，其中最大的卖点依然是“原生”，另外还有每核心512KB二级缓存、共享2MB三级缓存、HyperTransport

13、3.0总线、增强型PowerNow省电技术、AMD-V虚拟化技术、领先的性能每瓦特指标等。下面我们通过Barcelona核心介绍，来了解一下K10微架构的几大新特性。 Barcelona核心介绍：四核、4.63亿晶体管Barcelona是AMD第一款四核处理器，原生架构基于65nm工艺技术。和Intel Kentsfield四核不同的是，Barcelona并不是将两个双核封装在一起，而是真正的单芯片四核心。尽管在技术上AMD似乎更为领先，但是否能体现在实际性能表现上目前还不得而知。AMD四核与Intel四核：原生与非原生对比基于AMD 65nm工艺，Barcelona相比K8在结构上更为复杂

14、，其需要11层金属层，而K8只需要9层。在同工艺情况下Barcelona相比Intel处理器需要更多的金属层，这意味着量产的复杂程度也更高。拥有四个核心和2MB三级缓存，Barcelona的晶体管数量达到4.63亿个，相比Intel四核Kentsfield的5.82亿还是要少1.19亿。这1.19亿晶体管主要来自于缓存方面：每一个Barcelona核心拥有128KB L1缓存和512KB L2缓存，四个核心共享2MB L3缓存，那么芯片上总缓存容量为4.5MB。而Intel Kentsfield中每一个核心配备了64KB L1缓存，两个核心共享4MB L2缓存，总缓存容量为8.25MB，比Ba

15、rcelona高出80%，体现在晶体管数量上有25.6%的增加。然而Barcelona并不仅仅是配备了L3缓存的四核K8，我们估计不算缓存的双核Athlon 64 X2晶体管数量在9400万左右，而Barcelona大约是2.47亿，比前者双倍还要多，那么新增的晶体管用处何在呢？Barcelona新特性解析：引入全新SSE128技术Barcelona中的一项重要改进是被AMD称为“SSE128”的技术，在K8架构中，处理器可以并行处理两个SSE指令，但是SSE执行单元一般只有64位带宽。对于128位的SSE操作，K8处理器需要将其作为两个64位指令对待。也就是说，当一个128位 SSE指令被取

16、出后，首先需要将其解码为两个micro-ops，因此一个单指令还占用了额外的解码端口，降低了执行效率。而Barcelona加宽了执行单元从64位到128位，所有128位的SSE操作不再需要进行解码分解为两个64位操作，并且浮点调度器也可以支持这种128位 SSE操作，提高了执行效率。提高SSE指令执行单元带宽的同时，也会带来一些新的变化，也可以说是新的瓶颈：指令存取带宽。为了将并行处理器过程中解码数量最大化，Barcelona开始支持32字节每时钟周期的指令存取，而先前K8架构只支持16字节。32字节的指令存取带宽不仅对处理器SSE代码有帮助，同时对于整数指令也有效果。AMD Architec

17、ture ComparisonK8BarcelonaSSE Execution Width64-bit128-bitInstruction Fetch Bandwidth16 bytes/cycle32 bytes/cycleData Cache Bandwidth2 x 64-bit loads/cycle2 x 128-bit loads/cycleL2/Northbridge Bandwidth64 bits/cycle128 bits/cycleFP Scheduler Depth36 Dedicated x 64-bit ops36 Dedicated x 128-bit ops现在

18、你获得了存取和解码更多的指令，而你还需要获得更多的数据送往执行核心，因此AMD还加宽了L1数据缓存和SSE寄存器之间的带宽。AMD在SSE128方面的改进非常类似Intel Yonah到Merom的变化。在Conroe/Merom之前，Yonah在浮点SSE方面的表现并不如K8，我们之前曾经对比过同频下Yonah和K8处理器这方面的性能，在一般应用、3D渲染和游戏等测试中，Yonah基本可以和K8打平，但在视频编码方面，K8性能更好。不过在Core 2处理器发布后，AMD K8则不再有这方面的优势。Barcelona新特性解析：512级间接分支预测听起来好象Barcelona中关于SSE128

19、的改进很重大，但实际上这只不过是新架构改变中的九牛一毛。下面我们来谈谈更为精彩的branch predictor分支预测器。一般来讲，处理器的分支预测精准度取决于设计架构的深度和广度。K8在分支预测方面的表现出色，对架构优化的很好。但Intel Pentium 4和Pentium M在这方面做的更好，这也让AMD看到了提升的空间。Barcelona中加入了512级间接分支预测(Indirect Branch Predictor)，所谓间接分支预测是指在运用时并不是立即分支，而是从寄存器中装载需要的预测目标，它实际上是一个首选目标地址的历史记录表。间接分支预测(Indirect Branch P

20、redictor)在运用时并不是立即分支，而是从寄存器中装载需要的预测目标，它实际上是一个首选目标地址的历史记录表。在ROB和RS需要间接分支的时候它就可以提供帮助，ROB和RS就可以快速提取到适用的结果，这与P6构架用可预测的条件分支替换间接分支来改善性能是相反的。在Prescott中，由于加入间接分支预测器，结果使SPEC CPU2000测试软件中12%的分支预测错误，但是AMD和Intel在算法结构上的区别则不被公开，在SPEC CPU2000的253.perlbmk测试项目中，非预测分支减少是非常明显的，达到了将近55%。间接分支预测并不是Barcelona唯一的性能提升亮点，回归堆栈

21、（return stack）大小较K8有双倍大小的改进，举个例子，在一个很长的命令条中，命令代码包括了很多子程序（比如递归函数），CPU实际上会用完所有空间来纪录它的路径，一旦开始丢失回归地址的路径，就会导致无法进行下一步的分支预测，双倍大小的设计正好是为了解决这个问题，据说这个改进是在收到一个大型软件公司的请求才确定的。Barcelona新特性解析：堆栈操作与乱序执行Intel最早的Pentium M处理器引入了一项名为“dedicated stack manager”（专注堆栈管理器）的新特性，正如其名字所暗示的一样，专注堆栈管理器专门处理所有的X86堆栈操作（例如push, pop, c

22、all, return等）。它将这些伐数据集中处理而无需其他执行单元参与，这尤其简化了CPU整数执行单元的工作，加快了整数执行单元的处理速度。AMD在Barcelona中也引入了类似的技术，AMD称之为Sideband Stack Optimizer（边带堆栈优化器）。有了边带堆栈优化器，处理器中的伐指令不再需要经过3路编码，也不再由整数执行单元处理，这加快了堆栈的处理速度，也同时加快了整数执行单元的处理速度。在Intel Core微构架中一个重要改进是OOOE乱序执行：当装载指令队列发生等待时，处理器可以将队列后方处于等待的指令优先装载并执行，而不是一直等待到堵塞结束。平均而言，约30%的指

23、令会发生一定时间的堵塞，这一乱序执行模式的引入，使新构架CPU性能有了明显的提高。AMD的K8构架并不支持OOOE乱序执行指令，所以即使K8构架有优秀的内置内存控制器，也依然被对手的Core构架击败。正视这一技术上的落后，AMD在K8L构架的首款芯片Barcelona上及时改进为OOOE技术，这一改进必将为K8L构架的性能带来极大的提高。Barcelona将可以乱序执行指令，同样也可以在前一指令尚未处理完成时，装载并用空载单元处理下一指令，即使这两条指令需要读取不同的内存地址。Barcelona拥有3个地址生成单元，可以完成3个寄存指令每周期，而Core构架每周期只能执行1次-K8L构架的寄存

24、速度要比Core构架强大3倍。K8L构架中加入了新的SSE4指令扩展：SSEEXTRQ/INSERTQ指令和MOVNTSD/MOVNTSS指令。前者可以将多条指令合并为一条指令执行，后者用来计算流量寄存指令。Intel也会将在稍候发布的Penryn处理器中加入。Barcelona新特性解析：内存控制器再度强化当年当AMD将内存控制器集成至CPU内部时，我们看到了崭新而强大的K8构架。如今，Barcelona的内存控制器在设计上将又一次极大的改进其内存性能。Intel Xeon服务器所有使用的FB-DIMM内存一大优势是，可以同时执行读和写命令到AMB，而在标准的DDR2内存中，你只能同时进行一

25、个操作，而且读和写的切换会有非常大的损失。如果是一连串的随机混合执行的话，将会带来非常严重的资源浪费，而如果是先全部读然后再转换到写的话，就可以避免性能的损失。K8内存控制器就采用读取优先于写的策略来提高运行效率，但是Barcelona则更加智能化。但是读取的数据会被先存放在buffer中，而不采用先直接执行写，但当它的容量达到了极限就会溢出，为了避免这种情况，在此之前才对读写之间进行切换，同时可以带来带宽和延迟方面效率的提高。K8核心配备的是128-bits宽度的单内存控制器，但是在Barcelona中，AMD把它分割成两个64-bit，每个控制器可以独立的进行操作，因此它可以带来效率上的不

26、小提升，尤其是在四核执行的环境下，每个核心可以独立占有内存访问资源。Barcelonas中集成的北桥部分（注意不是主板北桥）也被设计成更高的带宽，更深的buffers将允许更高的带宽利用率，同时北桥自身已经可以使用未来的内存技术，比如DDR3。内存控制器的预取功能是运用相当广泛、十分重要的一项功能。预取可以减少内存延迟对整体性能的负面影响。当NVIDIA发布nForce2主板时，重点介绍的就是nForce2芯片组的128位智能预取功能。INTEL在发布Core 2处理器之时也强调了CORE构架每核心拥有三个预取单元。K8构架中每个核心设计有2个预取器，一个是指令预取器，另一个是数据预取器。K8

27、L构架的Barcelona保持了2个的数量，但在性能上有了较大的改进。一个明显的改进是数据预取器直接将数据寄存入L1缓存中，相比K8构架中寄存入L2缓存的做法，新的数据预取器准确率更高，速度更快，内存性能及CPU整体性能将得益于此。Barcelona新特性解析：创新三级缓存受工艺技术方面的影响，AMD处理器的缓存容量一直都要落后于Intel，AMD自己也清楚自己无法在宝贵的die上加入更多的晶体管来实现大容量的缓存，但是勇于创新的AMD却找到了更好的办法集成内存控制器。处理器整合内存控制器可以说是一项杰作，拥有整合内存控制器的K8构架仅依靠512KB的L2缓存就能够击败当时的对手Pentium

28、 4。直到现在的Athlon 64 X2也依然保持着Intel 2002年就已过时的512KB L2缓村。现在Core 2已经拥有了4MB的L2缓存，看来Intel和AMD之间的缓存差距还将保持，因为Barcelona的L2缓存依然是512KB。相比之下，Intel四核的Kentsfield芯片拥有8MB的L2缓存，而2007年末上市的新型Penryn芯片将拥有12MB的L2缓存。Barcelona的缓存体系和K8构架有一定的相似之处，它的四颗核心各拥有64KB的L1缓存和512KB的L2缓存。从简化芯片设计的角度来看，四核心共享巨大的L2缓存对K8L构架而言并不合适，所以AMD引入了L3缓存

29、，得益于65nm工艺，Barcelona在一颗晶圆上集成四颗核心外，还集成了一块2MB容量的L3缓存。也就是说L3缓存与4颗内核同样原生于一块晶圆，其容量为最小2M起跳。同L2缓存一样，L3缓存也是独立的，L1缓存的数据和L3缓存的数据将不会重复。Barcelona的缓存工作原理是：L2缓存是作为L1缓存的备用空间。L1缓存储存着CPU当前最需要的数据，而当空间不足时，一些不是最重要的数据就转移到L2缓存中。而当未来再次需要时，则从L2缓存中再次转移到L1缓存中。新加入的L3缓存延续了L2缓存的角色，四颗核心的L2缓存将溢出的数据暂时寄存在L3缓存中。L1缓存和L2缓存依然分别是2路和16路，

30、L3缓存则是32路。快速的32路L3缓存不仅可以更好的满足多任务并行，而且对单任务的执行也有着较大积极作用。尤其在3D运用方面，2MB的L3缓存将对性能产生极大的推进作用。Barcelona新特性解析：虚拟化与功耗水平虚拟化技术在未来将有着更广泛的应用，以往是服务器处理器的标志，现在也渐渐被更多桌面处理器所支持。在虚拟技术方面，Barcelona也有了很大的改进，由于采用了更快的虚拟地址转换算法，在拥有多个客户操作系统的虚拟软件堆栈中，有一个内存地址转换必须处理，客户系统向系统管理程序的地址转换，因为每个客户系统拥有独立的内存管理，据AMD表示，在此之前这个转换过程都是通过软件来实现的，并且是

31、基于一个叫shadow paging的技术，而Barcelona提供的是硬件级加速转换，AMD把它称为Nested Paging。根据推算大约系统管理程序所消耗的75%的时间是用于shadow paging，转换的地址是在Barcelonas TLBs中被缓存的，而且AMD指出Nested Paging并不需要太复杂的设定，这对于软件开发商来说就变得非常简单。处理器的功耗问题开始被越来越多的人重视，目前的Intel四核的功耗非常高，而Barcelona的四个核心工作电压都一样，同时内部的北桥单元则使用独立的电压计划，可以根据另外一个工作情况在0.8V到1.4V之间改变，它们的电压可以独立管理，

32、这将提高功耗效率。独立的核心虽然共享同样的电压，但是每个核心都拥有自己的PLL电路，所以它们可以根据负载情况，运行在不同的频率下。Barcelona每个核心支持五个独立的p-states（频率等级）转换，改变只是在频率上，p-states完全是硬件控制的，所以我们不需要驱动就可以开启这个功耗管理特性，同时AMD也增加了clock gating（时钟频率比）的数量，配合最新的65nm工艺，保证AMD首款四核处理器的功耗表现和目前的双核Opteron一样。Intel与AMD真正的角逐即将正式上演Intel去年7月份发布的Core 2系列处理器，其在性能方面的提升可以说接近革命性，近年来新处理器性能有如此大的提升恐怕也只有Core

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？