AMD四核发布 K10新品全面解析.docx

资源描述

AMD四核发布 K10新品全面解析.docx

《AMD四核发布 K10新品全面解析.docx》由会员分享，可在线阅读，更多相关《AMD四核发布 K10新品全面解析.docx（21页珍藏版）》请在冰豆网上搜索。

AMD四核发布 K10新品全面解析.docx

AMD四核发布K10新品全面解析

前进是历史车轮的必然方向，Pentium4在欢呼声中取代Pentium3，4年后Core构架又卷土重来替代饱受非议的NetBurst构架。

是非成败转头空，青山依旧在，几度夕阳红。

或许十年河东十年河西的情况暂时不会发生在稳步前进的AMD身上，但出于技术角度的考虑，AMD目前已经再一次飞跃性的推出K10微架构处理器。

AMDK10PhenomX4核心照

前不久，AMD服务器/工作站产品全球业务经理庄富瑞（JohnFruehe）正式宣布AMD将在9月10日正式发布代号巴塞罗那的四核处理器，由于时差的原因，中国此次将成为全球首发地，早于美国发布12个小时。

　　庄富瑞此次来到北京只是为巴塞罗那宣传的其中一站，未来几天，他还将前往香港、台湾、新加坡等地，在正式发布前为新品预热造势。

庄富瑞否认外界所谓的巴塞罗那“跳票”一说，他表示，AMD一直说将在夏季结束时发布，而9月10日并不晚。

“其实巴塞罗那早已准备好，原本我们也计划先推出高端的型号，之后再慢慢去降低功耗。

但在和客户交流后，我们发现这并不是他们所希望的，所以我们改变了计划，决定首发的产品就保证足够低的功耗，这是符合客户需求的做法。

”庄富瑞表示。

　　那么，竞争对手英特尔在去年11月就发布了自己四核，并于今年6月宣布出货量突破百万片，新一代45nmPenryn也已经蓄势待发，可以说在四核市场英特尔已经占得先机。

AMD如何在逆境成功“突围”成为业界关注的焦点。

　　庄富瑞表示，在和英特尔的对抗中，AMD的核心竞争力主要体现在两方面。

首先，从产品上来看，巴塞罗那处理器在功耗方面更有优势，虽然是四核产品，但功耗并没有比之前的双核有所提高。

其次，AMD一直是以客户为本的公司，考虑到客户的需求，我们的平台更加稳定，更具可扩展性。

用户无需更换任何部件就可以使用最新的巴塞罗那，并且我们下一代代号“Shanghai”的产品也是如此。

　　产能一直是困扰AMD的一大问题，但此次庄富瑞似乎并不担心。

他表示，巴塞罗那将采用65nm工艺，目前已经开始量产，9月10日发布后就可以大量供货。

　　此外，AMD方面并没有公布巴塞罗那的售价，但业界分析普遍认为，英特尔今年11月发布45nmPenryn后，必将引发两家新一轮的价格战。

而在性能方面，相信更多的测试结果将与大家见面。

简单回顾一下，相比Intel处理器架构上的不断改进，AMD在过去几年里显得略为保守。

AMD的成功从K7架构开始，在当年其凭借低成本，高性能成为晚期P6型号的直接对手。

但AMD可没有雄厚的资金来养活两个开发团队，其在架构方面可以说是稳扎稳打。

　　K8架构的诞生可以说是演进自K7：

略微加深的流水线级数、些许架构方面的改进，重点则是在将北桥芯片中的内存控制器整合到了处理器内部。

从现在来看，K8架构的很多设计理念的确非常超前，并且提供了出色的性能。

Core2的确在性能上要好于K8，但和上一代的Dothan和Banias相比，K8在很多应用上都保持领先。

AMDOpteron处理器

　　而Intel为了保持优势，在Conroe发布不到4个月的时间里，再次祭出了业内首款四核心处理器，进一步巩固了自己在CPU性能方面的优势。

Intel在高端市场的优势，使得AMD的K8处理器显得暗淡无光，只能靠低廉的价格来保住中低端市场份额。

虽然AMD凭借产品优良的性价比在中低端市场占据了主动的地位，并在去年的市场份额占有率中取得不错的成绩，但是Intel方面，其在高端布署好产品线之后，随即发动了价格战，挥师而下，对AMD传统较为强势的中低端市场进行打击。

一向走高端路线路线的Intel也意识到了中低端市场的重要性，将于6月份上市的Conroe-L，奔腾E系列就是Intel又一强有力武器，誓要夺回这块失去的部分市场。

　　AMD也深深明白单靠价格上的优势，很难去抵挡Intel一轮接一轮的攻势，而这样亏本式的产品价格策略更是AMD不能承受之重。

为了解决目前的困境，AMD唯有靠发布新品来取代沿用了将近四年之久的K8微架构处理器，而K10微架构的出现，正是AMD今年绝地反击的重要法宝。

那么，究竟K10与K8有什么不同？

与Core又有哪些优势？

等等关于K10的问题，本文将为您一一揭晓。

AMDK10桌面处理器新品牌“Phenom”

相信大家仍然还是最关注AMD面向桌面的四核处理器，让我们先来看看官方正式宣布了用于下一代四核心、双核心高端、主流桌面处理器的新品牌“Phenom”。

在K6之后，AMD的K7、K8架构桌面产品都采用了Athlon品牌，与笔记本的Turion和服务器的Opteron组成AMD的整体产品线。

而进入K10架构之后，Athlon将被废弃，取而代之的是新的“Phenom”。

AMD确认“Phenom”命名

据AMD代表确认，Phenom的确源自英语口语，意为“杰出人才”，发音类似精简版的“phenomenal”（显著的、现象的）。

Phenom处理器由三部分组成：

双路四核心PhenomFX（AgenaFX）、四核心PhenomX4（Agena）、双核心PhenomX2（Kuma）。

AMD只是说它们的架构都源自于服务器的BarclonaOpteron，但没有披露任何型号和规格信息。

有消息称，PhenomX4主频2.7-2.9GHz，功耗125W；PhenomX2主频2.0-2.9GHz，功耗89W。

AMD产品经理IanMcNaughton指出，Phenom平台支持DDR2-1066规格内存，而“在OEM厂商有所需求之前”，AMD不会转向DDR3。

在启用新品牌后，AMD还将全面放弃型号中的“64”字样，因此原来的Athlon64X2将改名AthlonX2并进入低端市场，单核心Athlon消失，单核心Sempron暂时还会存在，竞争Intel的Celeron。

今年第三季度，AMD将发布多款新Sempron，基于65nmSparta核心，包括35W节能型的3800+、3600+、3500+、3400+等。

此前我们已经知道的四核心AgenaFXPhenomFX系列是用于双路系统QuadFX的旗舰型号，主频2.2-2.4GHz和2.4-2.6GHz，接口SocketF1207+，二级缓存4×512KB，三级缓存2MB，热设计功耗（TDP）未定。

AMDK10桌面处理器规格/上市日期

　　面向高端服务器方面的，AMD用于单路普通系统的PhenomFX，主频2.2-2.4GHz，接口SocketAM2+。

其他各款型号也都会采用这种接口。

　　高端桌面市场为四核心Agena，其中四核心PhenomX4已知两款，主频2.4、2.2GHz，二级缓存4×512KB，三级缓存2MB，TDP89W。

中端桌面是双核心KumaPhenomX2已知六款，主频2.8、2.6、2.4、2.3、2.1、1.9GHz，二级缓存2×512KB，三级缓存2MB，TDP前两款89W、第三款65W、后三款节能型45W。

　　中低端双核心主要是RanaAthlon64X2，已知有一款，主频2.2GHz，二级缓存2×512KB，没有三级缓存，TDP65W。

低端单核心则是SpicaSempron，已知两款，主频2.4、2.2GHz，二级缓存512KB，没有三级缓存，TDP45W。

上市时间方面，从高端到低端依次推出，PhenomFX和PhenomX4在今年第三季度率先登场，89W和65W的常规型PhenomX2第四季度跟上，节能型PhenomX2、Athlon64X2和Sempron都要等到明年第一季度。

对于“Phenom”品牌的中文命名，有人认为抛弃使用已久的Athlon名称更说明了K10的革命性，以及AMD对这款全新架构的处理器能带来全新突破的希望。

但此前AMD处理器中文名以“龙”为命名已经被广大用户所接受，那么Phenom能是什么“龙”呢？

我们也做了相关的投票调查，结果网友认为可能是“飞龙”的占55.8%，意思是“飞龙在天”，表达出了大家的祝福。

由于AMD还没有正式公布最新一代“Phenom”处理器的中文名，因此AMD会赋予“Phenom”品牌什么样中文名还是个迷，让我们拭目以待。

K10是什么？

K10微架构又有哪些新特性？

　　作为AMD下一代的处理器架构，K10还在孕育期时就受到各方的关注。

K10也就是通常俗称的K8L，是AMD现有K8架构产品的继任者（没有K9），在架构上有所进步，并将四核心引入桌面。

K10是AMD下一代CPU的架构，AMD声称其K10架构四核心具备一系列“革命性设计”，其中最大的卖点依然是“原生”，另外还有每核心512KB二级缓存、共享2MB三级缓存、HyperTransport3.0总线、增强型PowerNow省电技术、AMD-V虚拟化技术、领先的性能每瓦特指标等。

下面我们通过Barcelona核心介绍，来了解一下K10微架构的几大新特性。

◎Barcelona核心介绍：

四核、4.63亿晶体管

　　Barcelona是AMD第一款四核处理器，原生架构基于65nm工艺技术。

和IntelKentsfield四核不同的是，Barcelona并不是将两个双核封装在一起，而是真正的单芯片四核心。

尽管在技术上AMD似乎更为领先，但是否能体现在实际性能表现上目前还不得而知。

AMD四核与Intel四核：

原生与非原生对比

　　基于AMD65nm工艺，Barcelona相比K8在结构上更为复杂，其需要11层金属层，而K8只需要9层。

在同工艺情况下Barcelona相比Intel处理器需要更多的金属层，这意味着量产的复杂程度也更高。

　　拥有四个核心和2MB三级缓存，Barcelona的晶体管数量达到4.63亿个，相比Intel四核Kentsfield的5.82亿还是要少1.19亿。

这1.19亿晶体管主要来自于缓存方面：

每一个Barcelona核心拥有128KBL1缓存和512KBL2缓存，四个核心共享2MBL3缓存，那么芯片上总缓存容量为4.5MB。

而IntelKentsfield中每一个核心配备了64KBL1缓存，两个核心共享4MBL2缓存，总缓存容量为8.25MB，比Barcelona高出80%，体现在晶体管数量上有25.6%的增加。

　　然而Barcelona并不仅仅是配备了L3缓存的四核K8，我们估计不算缓存的双核Athlon64X2晶体管数量在9400万左右，而Barcelona大约是2.47亿，比前者双倍还要多，那么新增的晶体管用处何在呢？

Barcelona新特性解析：

引入全新SSE128技术

　　Barcelona中的一项重要改进是被AMD称为“SSE128”的技术，在K8架构中，处理器可以并行处理两个SSE指令，但是SSE执行单元一般只有64位带宽。

对于128位的SSE操作，K8处理器需要将其作为两个64位指令对待。

也就是说，当一个128位SSE指令被取出后，首先需要将其解码为两个micro-ops，因此一个单指令还占用了额外的解码端口，降低了执行效率。

　　而Barcelona加宽了执行单元从64位到128位，所有128位的SSE操作不再需要进行解码分解为两个64位操作，并且浮点调度器也可以支持这种128位SSE操作，提高了执行效率。

　　提高SSE指令执行单元带宽的同时，也会带来一些新的变化，也可以说是新的瓶颈：

指令存取带宽。

为了将并行处理器过程中解码数量最大化，Barcelona开始支持32字节每时钟周期的指令存取，而先前K8架构只支持16字节。

32字节的指令存取带宽不仅对处理器SSE代码有帮助，同时对于整数指令也有效果。

AMDArchitectureComparison

Barcelona

SSEExecutionWidth

64-bit

128-bit

InstructionFetchBandwidth

16bytes/cycle

32bytes/cycle

DataCacheBandwidth

2x64-bitloads/cycle

2x128-bitloads/cycle

L2/NorthbridgeBandwidth

64bits/cycle

128bits/cycle

FPSchedulerDepth

36Dedicatedx64-bitops

36Dedicatedx128-bitops

　　现在你获得了存取和解码更多的指令，而你还需要获得更多的数据送往执行核心，因此AMD还加宽了L1数据缓存和SSE寄存器之间的带宽。

　　AMD在SSE128方面的改进非常类似IntelYonah到Merom的变化。

在Conroe/Merom之前，Yonah在浮点SSE方面的表现并不如K8，我们之前曾经对比过同频下Yonah和K8处理器这方面的性能，在一般应用、3D渲染和游戏等测试中，Yonah基本可以和K8打平，但在视频编码方面，K8性能更好。

不过在Core2处理器发布后，AMDK8则不再有这方面的优势。

Barcelona新特性解析：

512级间接分支预测

　　听起来好象Barcelona中关于SSE128的改进很重大，但实际上这只不过是新架构改变中的九牛一毛。

下面我们来谈谈更为精彩的branchpredictor分支预测器。

　　一般来讲，处理器的分支预测精准度取决于设计架构的深度和广度。

K8在分支预测方面的表现出色，对架构优化的很好。

但IntelPentium4和PentiumM在这方面做的更好，这也让AMD看到了提升的空间。

　　Barcelona中加入了512级间接分支预测（IndirectBranchPredictor），所谓间接分支预测是指在运用时并不是立即分支，而是从寄存器中装载需要的预测目标，它实际上是一个首选目标地址的历史记录表。

　　间接分支预测（IndirectBranchPredictor）在运用时并不是立即分支，而是从寄存器中装载需要的预测目标，它实际上是一个首选目标地址的历史记录表。

在ROB和RS需要间接分支的时候它就可以提供帮助，ROB和RS就可以快速提取到适用的结果，这与P6构架用可预测的条件分支替换间接分支来改善性能是相反的。

　　在Prescott中，由于加入间接分支预测器，结果使SPECCPU2000测试软件中12%的分支预测错误，但是AMD和Intel在算法结构上的区别则不被公开，在SPECCPU2000的253.perlbmk测试项目中，非预测分支减少是非常明显的，达到了将近55%。

　　间接分支预测并不是Barcelona唯一的性能提升亮点，回归堆栈（returnstack）大小较K8有双倍大小的改进，举个例子，在一个很长的命令条中，命令代码包括了很多子程序（比如递归函数），CPU实际上会用完所有空间来纪录它的路径，一旦开始丢失回归地址的路径，就会导致无法进行下一步的分支预测，双倍大小的设计正好是为了解决这个问题，据说这个改进是在收到一个大型软件公司的请求才确定的。

Barcelona新特性解析：

堆栈操作与乱序执行

　　Intel最早的PentiumM处理器引入了一项名为“dedicatedstackmanager”（专注堆栈管理器）的新特性，正如其名字所暗示的一样，专注堆栈管理器专门处理所有的X86堆栈操作（例如push,pop,call,return等）。

它将这些伐数据集中处理而无需其他执行单元参与，这尤其简化了CPU整数执行单元的工作，加快了整数执行单元的处理速度。

　　AMD在Barcelona中也引入了类似的技术，AMD称之为SidebandStackOptimizer（边带堆栈优化器）。

有了边带堆栈优化器，处理器中的伐指令不再需要经过3路编码，也不再由整数执行单元处理，这加快了堆栈的处理速度，也同时加快了整数执行单元的处理速度。

　　在IntelCore微构架中一个重要改进是OOOE乱序执行：

当装载指令队列发生等待时，处理器可以将队列后方处于等待的指令优先装载并执行，而不是一直等待到堵塞结束。

平均而言，约30%的指令会发生一定时间的堵塞，这一乱序执行模式的引入，使新构架CPU性能有了明显的提高。

AMD的K8构架并不支持OOOE乱序执行指令，所以即使K8构架有优秀的内置内存控制器，也依然被对手的Core构架击败。

正视这一技术上的落后，AMD在K8L构架的首款芯片Barcelona上及时改进为OOOE技术，这一改进必将为K8L构架的性能带来极大的提高。

　　Barcelona将可以乱序执行指令，同样也可以在前一指令尚未处理完成时，装载并用空载单元处理下一指令，即使这两条指令需要读取不同的内存地址。

Barcelona拥有3个地址生成单元，可以完成3个寄存指令每周期，而Core构架每周期只能执行1次-K8L构架的寄存速度要比Core构架强大3倍。

　　K8L构架中加入了新的SSE4指令扩展：

SSEEXTRQ/INSERTQ指令和MOVNTSD/MOVNTSS指令。

前者可以将多条指令合并为一条指令执行，后者用来计算流量寄存指令。

Intel也会将在稍候发布的Penryn处理器中加入。

Barcelona新特性解析：

内存控制器再度强化

　　当年当AMD将内存控制器集成至CPU内部时，我们看到了崭新而强大的K8构架。

如今，Barcelona的内存控制器在设计上将又一次极大的改进其内存性能。

　　 IntelXeon服务器所有使用的FB-DIMM内存一大优势是，可以同时执行读和写命令到AMB，而在标准的DDR2内存中，你只能同时进行一个操作，而且读和写的切换会有非常大的损失。

如果是一连串的随机混合执行的话，将会带来非常严重的资源浪费，而如果是先全部读然后再转换到写的话，就可以避免性能的损失。

K8内存控制器就采用读取优先于写的策略来提高运行效率，但是Barcelona则更加智能化。

　　但是读取的数据会被先存放在buffer中，而不采用先直接执行写，但当它的容量达到了极限就会溢出，为了避免这种情况，在此之前才对读写之间进行切换，同时可以带来带宽和延迟方面效率的提高。

K8核心配备的是128-bits宽度的单内存控制器，但是在Barcelona中，AMD把它分割成两个64-bit，每个控制器可以独立的进行操作，因此它可以带来效率上的不小提升，尤其是在四核执行的环境下，每个核心可以独立占有内存访问资源。

　　Barcelonas中集成的北桥部分（注意不是主板北桥）也被设计成更高的带宽，更深的buffers将允许更高的带宽利用率，同时北桥自身已经可以使用未来的内存技术，比如DDR3。

　　内存控制器的预取功能是运用相当广泛、十分重要的一项功能。

预取可以减少内存延迟对整体性能的负面影响。

当NVIDIA发布nForce2主板时，重点介绍的就是nForce2芯片组的128位智能预取功能。

INTEL在发布Core2处理器之时也强调了CORE构架每核心拥有三个预取单元。

　　K8构架中每个核心设计有2个预取器，一个是指令预取器，另一个是数据预取器。

K8L构架的Barcelona保持了2个的数量，但在性能上有了较大的改进。

一个明显的改进是数据预取器直接将数据寄存入L1缓存中，相比K8构架中寄存入L2缓存的做法，新的数据预取器准确率更高，速度更快，内存性能及CPU整体性能将得益于此。

Barcelona新特性解析：

创新——三级缓存

　　受工艺技术方面的影响，AMD处理器的缓存容量一直都要落后于Intel，AMD自己也清楚自己无法在宝贵的die上加入更多的晶体管来实现大容量的缓存，但是勇于创新的AMD却找到了更好的办法——集成内存控制器。

　　处理器整合内存控制器可以说是一项杰作，拥有整合内存控制器的K8构架仅依靠512KB的L2缓存就能够击败当时的对手Pentium4。

直到现在的Athlon64X2也依然保持着Intel2002年就已过时的512KBL2缓村。

　　现在Core2已经拥有了4MB的L2缓存，看来Intel和AMD之间的缓存差距还将保持，因为Barcelona的L2缓存依然是512KB。

相比之下，Intel四核的Kentsfield芯片拥有8MB的L2缓存，而2007年末上市的新型Penryn芯片将拥有12MB的L2缓存。

　　Barcelona的缓存体系和K8构架有一定的相似之处，它的四颗核心各拥有64KB的L1缓存和512KB的L2缓存。

从简化芯片设计的角度来看，四核心共享巨大的L2缓存对K8L构架而言并不合适，所以AMD引入了L3缓存，得益于65nm工艺，Barcelona在一颗晶圆上集成四颗核心外，还集成了一块2MB容量的L3缓存。

也就是说L3缓存与4颗内核同样原生于一块晶圆，其容量为最小2M起跳。

同L2缓存一样，L3缓存也是独立的，L1缓存的数据和L3缓存的数据将不会重复。

　　Barcelona的缓存工作原理是：

L2缓存是作为L1缓存的备用空间。

L1缓存储存着CPU当前最需要的数据，而当空间不足时，一些不是最重要的数据就转移到L2缓存中。

而当未来再次需要时，则从L2缓存中再次转移到L1缓存中。

新加入的L3缓存延续了L2缓存的角色，四颗核心的L2缓存将溢出的数据暂时寄存在L3缓存中。

　　L1缓存和L2缓存依然分别是2路和16路，L3缓存则是32路。

快速的32路L3缓存不仅可以更好的满足多任务并行，而且对单任务的执行也有着较大积极作用。

尤其在3D运用方面，2MB的L3缓存将对性能产生极大的推进作用。

Barcelona新特性解析：

虚拟化与功耗水平

　　虚拟化技术在未来将有着更广泛的应用，以往是服务器处理器的标志，现在也渐渐被更多桌面处理器所支持。

在虚拟技术方面，Barcelona也有了很大的改进，由于采用了更快的虚拟地址转换算法，在拥有多个客户操作系统的虚拟软件堆栈中，有一个内存地址转换必须处理，客户系统向系统管理程序的地址转换，因为每个客户系统拥有独立的内存管理，

　　据AMD表示，在此之前这个转换过程都是通过软件来实现的，并且是基于一个叫shadowpaging的技术，而Barcelona提供的是硬件级加速转换，AMD把它称为NestedPaging。

根据推算大约系统管理程序所消耗的75%的时间是用于shadowpaging，转换的地址是在BarcelonasTLBs中被缓存的，而且AMD指出NestedPaging并不需要太复杂的设定，这对于软件开发商来说就变得非常简单。

　　处理器的功耗问题开始被越来越多的人重视，目前的Intel四核的功耗非常高，而Barcelona的四个核心工作电压都一样，同时内部的北桥单元则使用独立的电压计划，可以根据另外一个工作情况在0.8V到1.4V之间改变，它们的电压可以独立管理，这将提高功耗效率。

独立的核心虽然共享同样的电压，但是每个核心都拥有自己的PLL电路，所以它们可以根据负载情况，运行在不同的频率下。

　　Barcelona每个核心支持五个独立的p-states（频率等级）转换，改变只是在频率上，p-states完全是硬件控制的，所以我们不需要驱动就可以开启这个功耗管理特性，同时AMD也增加了clockgating（时钟频率比）的数量，配合最新的65nm工艺，保证AMD首款四核处理器的功耗表现和目前的双核Opteron一样。

Intel与AMD真正的角逐即将正式上演

　　Intel去年7月份发布的Core2系列处理器，其在性能方面的提升可以说接近革命性，近年来新处理器性能有如此大的提升恐怕也只有Core

展开阅读全文