AMD四核发布 K10新品全面解析.docx

上传人:b****8 文档编号:10947352 上传时间:2023-02-23 格式:DOCX 页数:21 大小:867.89KB
下载 相关 举报
AMD四核发布 K10新品全面解析.docx_第1页
第1页 / 共21页
AMD四核发布 K10新品全面解析.docx_第2页
第2页 / 共21页
AMD四核发布 K10新品全面解析.docx_第3页
第3页 / 共21页
AMD四核发布 K10新品全面解析.docx_第4页
第4页 / 共21页
AMD四核发布 K10新品全面解析.docx_第5页
第5页 / 共21页
点击查看更多>>
下载资源
资源描述

AMD四核发布 K10新品全面解析.docx

《AMD四核发布 K10新品全面解析.docx》由会员分享,可在线阅读,更多相关《AMD四核发布 K10新品全面解析.docx(21页珍藏版)》请在冰豆网上搜索。

AMD四核发布 K10新品全面解析.docx

AMD四核发布K10新品全面解析

前进是历史车轮的必然方向,Pentium4在欢呼声中取代Pentium3,4年后Core构架又卷土重来替代饱受非议的NetBurst构架。

是非成败转头空,青山依旧在,几度夕阳红。

或许十年河东十年河西的情况暂时不会发生在稳步前进的AMD身上,但出于技术角度的考虑,AMD目前已经再一次飞跃性的推出K10微架构处理器。

 AMDK10PhenomX4核心照

   前不久,AMD服务器/工作站产品全球业务经理庄富瑞(JohnFruehe)正式宣布AMD将在9月10日正式发布代号巴塞罗那的四核处理器,由于时差的原因,中国此次将成为全球首发地,早于美国发布12个小时。

  庄富瑞此次来到北京只是为巴塞罗那宣传的其中一站,未来几天,他还将前往香港、台湾、新加坡等地,在正式发布前为新品预热造势。

庄富瑞否认外界所谓的巴塞罗那“跳票”一说,他表示,AMD一直说将在夏季结束时发布,而9月10日并不晚。

“其实巴塞罗那早已准备好,原本我们也计划先推出高端的型号,之后再慢慢去降低功耗。

但在和客户交流后,我们发现这并不是他们所希望的,所以我们改变了计划,决定首发的产品就保证足够低的功耗,这是符合客户需求的做法。

”庄富瑞表示。

  那么,竞争对手英特尔在去年11月就发布了自己四核,并于今年6月宣布出货量突破百万片,新一代45nmPenryn也已经蓄势待发,可以说在四核市场英特尔已经占得先机。

AMD如何在逆境成功“突围”成为业界关注的焦点。

  庄富瑞表示,在和英特尔的对抗中,AMD的核心竞争力主要体现在两方面。

首先,从产品上来看,巴塞罗那处理器在功耗方面更有优势,虽然是四核产品,但功耗并没有比之前的双核有所提高。

其次,AMD一直是以客户为本的公司,考虑到客户的需求,我们的平台更加稳定,更具可扩展性。

用户无需更换任何部件就可以使用最新的巴塞罗那,并且我们下一代代号“Shanghai”的产品也是如此。

  产能一直是困扰AMD的一大问题,但此次庄富瑞似乎并不担心。

他表示,巴塞罗那将采用65nm工艺,目前已经开始量产,9月10日发布后就可以大量供货。

  此外,AMD方面并没有公布巴塞罗那的售价,但业界分析普遍认为,英特尔今年11月发布45nmPenryn后,必将引发两家新一轮的价格战。

而在性能方面,相信更多的测试结果将与大家见面。

简单回顾一下,相比Intel处理器架构上的不断改进,AMD在过去几年里显得略为保守。

AMD的成功从K7架构开始,在当年其凭借低成本,高性能成为晚期P6型号的直接对手。

但AMD可没有雄厚的资金来养活两个开发团队,其在架构方面可以说是稳扎稳打。

  K8架构的诞生可以说是演进自K7:

略微加深的流水线级数、些许架构方面的改进,重点则是在将北桥芯片中的内存控制器整合到了处理器内部。

从现在来看,K8架构的很多设计理念的确非常超前,并且提供了出色的性能。

Core2的确在性能上要好于K8,但和上一代的Dothan和Banias相比,K8在很多应用上都保持领先。

 AMDOpteron处理器

  而Intel为了保持优势,在Conroe发布不到4个月的时间里,再次祭出了业内首款四核心处理器,进一步巩固了自己在CPU性能方面的优势。

Intel在高端市场的优势,使得AMD的K8处理器显得暗淡无光,只能靠低廉的价格来保住中低端市场份额。

虽然AMD凭借产品优良的性价比在中低端市场占据了主动的地位,并在去年的市场份额占有率中取得不错的成绩,但是Intel方面,其在高端布署好产品线之后,随即发动了价格战,挥师而下,对AMD传统较为强势的中低端市场进行打击。

一向走高端路线路线的Intel也意识到了中低端市场的重要性,将于6月份上市的Conroe-L,奔腾E系列就是Intel又一强有力武器,誓要夺回这块失去的部分市场。

  AMD也深深明白单靠价格上的优势,很难去抵挡Intel一轮接一轮的攻势,而这样亏本式的产品价格策略更是AMD不能承受之重。

为了解决目前的困境,AMD唯有靠发布新品来取代沿用了将近四年之久的K8微架构处理器,而K10微架构的出现,正是AMD今年绝地反击的重要法宝。

那么,究竟K10与K8有什么不同?

与Core又有哪些优势?

等等关于K10的问题,本文将为您一一揭晓。

AMDK10桌面处理器新品牌“Phenom”

   相信大家仍然还是最关注AMD面向桌面的四核处理器,让我们先来看看官方正式宣布了用于下一代四核心、双核心高端、主流桌面处理器的新品牌“Phenom”。

在K6之后,AMD的K7、K8架构桌面产品都采用了Athlon品牌,与笔记本的Turion和服务器的Opteron组成AMD的整体产品线。

而进入K10架构之后,Athlon将被废弃,取而代之的是新的“Phenom”。

 AMD确认“Phenom”命名

   据AMD代表确认,Phenom的确源自英语口语,意为“杰出人才”,发音类似精简版的“phenomenal”(显著的、现象的)。

Phenom处理器由三部分组成:

双路四核心PhenomFX(AgenaFX)、四核心PhenomX4(Agena)、双核心PhenomX2(Kuma)。

AMD只是说它们的架构都源自于服务器的BarclonaOpteron,但没有披露任何型号和规格信息。

有消息称,PhenomX4主频2.7-2.9GHz,功耗125W;PhenomX2主频2.0-2.9GHz,功耗89W。

   AMD产品经理IanMcNaughton指出,Phenom平台支持DDR2-1066规格内存,而“在OEM厂商有所需求之前”,AMD不会转向DDR3。

   在启用新品牌后,AMD还将全面放弃型号中的“64”字样,因此原来的Athlon64X2将改名AthlonX2并进入低端市场,单核心Athlon消失,单核心Sempron暂时还会存在,竞争Intel的Celeron。

今年第三季度,AMD将发布多款新Sempron,基于65nmSparta核心,包括35W节能型的3800+、3600+、3500+、3400+等。

   此前我们已经知道的四核心AgenaFXPhenomFX系列是用于双路系统QuadFX的旗舰型号,主频2.2-2.4GHz和2.4-2.6GHz,接口SocketF1207+,二级缓存4×512KB,三级缓存2MB,热设计功耗(TDP)未定。

 AMDK10桌面处理器规格/上市日期

  面向高端服务器方面的,AMD用于单路普通系统的PhenomFX,主频2.2-2.4GHz,接口SocketAM2+。

其他各款型号也都会采用这种接口。

  高端桌面市场为四核心Agena,其中四核心PhenomX4已知两款,主频2.4、2.2GHz,二级缓存4×512KB,三级缓存2MB,TDP89W。

   中端桌面是双核心KumaPhenomX2已知六款,主频2.8、2.6、2.4、2.3、2.1、1.9GHz,二级缓存2×512KB,三级缓存2MB,TDP前两款89W、第三款65W、后三款节能型45W。

  中低端双核心主要是RanaAthlon64X2,已知有一款,主频2.2GHz,二级缓存2×512KB,没有三级缓存,TDP65W。

   低端单核心则是SpicaSempron,已知两款,主频2.4、2.2GHz,二级缓存512KB,没有三级缓存,TDP45W。

   上市时间方面,从高端到低端依次推出,PhenomFX和PhenomX4在今年第三季度率先登场,89W和65W的常规型PhenomX2第四季度跟上,节能型PhenomX2、Athlon64X2和Sempron都要等到明年第一季度。

   对于“Phenom”品牌的中文命名,有人认为抛弃使用已久的Athlon名称更说明了K10的革命性,以及AMD对这款全新架构的处理器能带来全新突破的希望。

但此前AMD处理器中文名以“龙”为命名已经被广大用户所接受,那么Phenom能是什么“龙”呢?

我们也做了相关的投票调查,结果网友认为可能是“飞龙”的占55.8%,意思是“飞龙在天”,表达出了大家的祝福。

由于AMD还没有正式公布最新一代“Phenom”处理器的中文名,因此AMD会赋予“Phenom”品牌什么样中文名还是个迷,让我们拭目以待。

K10是什么?

K10微架构又有哪些新特性?

  作为AMD下一代的处理器架构,K10还在孕育期时就受到各方的关注。

K10也就是通常俗称的K8L,是AMD现有K8架构产品的继任者(没有K9),在架构上有所进步,并将四核心引入桌面。

K10是AMD下一代CPU的架构,AMD声称其K10架构四核心具备一系列“革命性设计”,其中最大的卖点依然是“原生”,另外还有每核心512KB二级缓存、共享2MB三级缓存、HyperTransport3.0总线、增强型PowerNow省电技术、AMD-V虚拟化技术、领先的性能每瓦特指标等。

   下面我们通过Barcelona核心介绍,来了解一下K10微架构的几大新特性。

◎Barcelona核心介绍:

四核、4.63亿晶体管

  Barcelona是AMD第一款四核处理器,原生架构基于65nm工艺技术。

和IntelKentsfield四核不同的是,Barcelona并不是将两个双核封装在一起,而是真正的单芯片四核心。

尽管在技术上AMD似乎更为领先,但是否能体现在实际性能表现上目前还不得而知。

 AMD四核与Intel四核:

原生与非原生对比

  基于AMD65nm工艺,Barcelona相比K8在结构上更为复杂,其需要11层金属层,而K8只需要9层。

在同工艺情况下Barcelona相比Intel处理器需要更多的金属层,这意味着量产的复杂程度也更高。

  拥有四个核心和2MB三级缓存,Barcelona的晶体管数量达到4.63亿个,相比Intel四核Kentsfield的5.82亿还是要少1.19亿。

这1.19亿晶体管主要来自于缓存方面:

每一个Barcelona核心拥有128KBL1缓存和512KBL2缓存,四个核心共享2MBL3缓存,那么芯片上总缓存容量为4.5MB。

而IntelKentsfield中每一个核心配备了64KBL1缓存,两个核心共享4MBL2缓存,总缓存容量为8.25MB,比Barcelona高出80%,体现在晶体管数量上有25.6%的增加。

  然而Barcelona并不仅仅是配备了L3缓存的四核K8,我们估计不算缓存的双核Athlon64X2晶体管数量在9400万左右,而Barcelona大约是2.47亿,比前者双倍还要多,那么新增的晶体管用处何在呢?

Barcelona新特性解析:

引入全新SSE128技术

  Barcelona中的一项重要改进是被AMD称为“SSE128”的技术,在K8架构中,处理器可以并行处理两个SSE指令,但是SSE执行单元一般只有64位带宽。

对于128位的SSE操作,K8处理器需要将其作为两个64位指令对待。

也就是说,当一个128位SSE指令被取出后,首先需要将其解码为两个micro-ops,因此一个单指令还占用了额外的解码端口,降低了执行效率。

  而Barcelona加宽了执行单元从64位到128位,所有128位的SSE操作不再需要进行解码分解为两个64位操作,并且浮点调度器也可以支持这种128位SSE操作,提高了执行效率。

  提高SSE指令执行单元带宽的同时,也会带来一些新的变化,也可以说是新的瓶颈:

指令存取带宽。

为了将并行处理器过程中解码数量最大化,Barcelona开始支持32字节每时钟周期的指令存取,而先前K8架构只支持16字节。

32字节的指令存取带宽不仅对处理器SSE代码有帮助,同时对于整数指令也有效果。

AMDArchitectureComparison

K8

Barcelona

SSEExecutionWidth

64-bit

128-bit

InstructionFetchBandwidth

16bytes/cycle

32bytes/cycle

DataCacheBandwidth

2x64-bitloads/cycle

2x128-bitloads/cycle

L2/NorthbridgeBandwidth

64bits/cycle

128bits/cycle

FPSchedulerDepth

36Dedicatedx64-bitops

36Dedicatedx128-bitops

  现在你获得了存取和解码更多的指令,而你还需要获得更多的数据送往执行核心,因此AMD还加宽了L1数据缓存和SSE寄存器之间的带宽。

  AMD在SSE128方面的改进非常类似IntelYonah到Merom的变化。

在Conroe/Merom之前,Yonah在浮点SSE方面的表现并不如K8,我们之前曾经对比过同频下Yonah和K8处理器这方面的性能,在一般应用、3D渲染和游戏等测试中,Yonah基本可以和K8打平,但在视频编码方面,K8性能更好。

不过在Core2处理器发布后,AMDK8则不再有这方面的优势。

Barcelona新特性解析:

512级间接分支预测

  听起来好象Barcelona中关于SSE128的改进很重大,但实际上这只不过是新架构改变中的九牛一毛。

下面我们来谈谈更为精彩的branchpredictor分支预测器。

  一般来讲,处理器的分支预测精准度取决于设计架构的深度和广度。

K8在分支预测方面的表现出色,对架构优化的很好。

但IntelPentium4和PentiumM在这方面做的更好,这也让AMD看到了提升的空间。

  Barcelona中加入了512级间接分支预测(IndirectBranchPredictor),所谓间接分支预测是指在运用时并不是立即分支,而是从寄存器中装载需要的预测目标,它实际上是一个首选目标地址的历史记录表。

  间接分支预测(IndirectBranchPredictor)在运用时并不是立即分支,而是从寄存器中装载需要的预测目标,它实际上是一个首选目标地址的历史记录表。

在ROB和RS需要间接分支的时候它就可以提供帮助,ROB和RS就可以快速提取到适用的结果,这与P6构架用可预测的条件分支替换间接分支来改善性能是相反的。

  在Prescott中,由于加入间接分支预测器,结果使SPECCPU2000测试软件中12%的分支预测错误,但是AMD和Intel在算法结构上的区别则不被公开,在SPECCPU2000的253.perlbmk测试项目中,非预测分支减少是非常明显的,达到了将近55%。

  间接分支预测并不是Barcelona唯一的性能提升亮点,回归堆栈(returnstack)大小较K8有双倍大小的改进,举个例子,在一个很长的命令条中,命令代码包括了很多子程序(比如递归函数),CPU实际上会用完所有空间来纪录它的路径,一旦开始丢失回归地址的路径,就会导致无法进行下一步的分支预测,双倍大小的设计正好是为了解决这个问题,据说这个改进是在收到一个大型软件公司的请求才确定的。

Barcelona新特性解析:

堆栈操作与乱序执行

  Intel最早的PentiumM处理器引入了一项名为“dedicatedstackmanager”(专注堆栈管理器)的新特性,正如其名字所暗示的一样,专注堆栈管理器专门处理所有的X86堆栈操作(例如push,pop,call,return等)。

它将这些伐数据集中处理而无需其他执行单元参与,这尤其简化了CPU整数执行单元的工作,加快了整数执行单元的处理速度。

  AMD在Barcelona中也引入了类似的技术,AMD称之为SidebandStackOptimizer(边带堆栈优化器)。

有了边带堆栈优化器,处理器中的伐指令不再需要经过3路编码,也不再由整数执行单元处理,这加快了堆栈的处理速度,也同时加快了整数执行单元的处理速度。

  在IntelCore微构架中一个重要改进是OOOE乱序执行:

当装载指令队列发生等待时,处理器可以将队列后方处于等待的指令优先装载并执行,而不是一直等待到堵塞结束。

平均而言,约30%的指令会发生一定时间的堵塞,这一乱序执行模式的引入,使新构架CPU性能有了明显的提高。

AMD的K8构架并不支持OOOE乱序执行指令,所以即使K8构架有优秀的内置内存控制器,也依然被对手的Core构架击败。

正视这一技术上的落后,AMD在K8L构架的首款芯片Barcelona上及时改进为OOOE技术,这一改进必将为K8L构架的性能带来极大的提高。

  Barcelona将可以乱序执行指令,同样也可以在前一指令尚未处理完成时,装载并用空载单元处理下一指令,即使这两条指令需要读取不同的内存地址。

Barcelona拥有3个地址生成单元,可以完成3个寄存指令每周期,而Core构架每周期只能执行1次-K8L构架的寄存速度要比Core构架强大3倍。

  K8L构架中加入了新的SSE4指令扩展:

SSEEXTRQ/INSERTQ指令和MOVNTSD/MOVNTSS指令。

前者可以将多条指令合并为一条指令执行,后者用来计算流量寄存指令。

Intel也会将在稍候发布的Penryn处理器中加入。

Barcelona新特性解析:

内存控制器再度强化

  当年当AMD将内存控制器集成至CPU内部时,我们看到了崭新而强大的K8构架。

如今,Barcelona的内存控制器在设计上将又一次极大的改进其内存性能。

   IntelXeon服务器所有使用的FB-DIMM内存一大优势是,可以同时执行读和写命令到AMB,而在标准的DDR2内存中,你只能同时进行一个操作,而且读和写的切换会有非常大的损失。

如果是一连串的随机混合执行的话,将会带来非常严重的资源浪费,而如果是先全部读然后再转换到写的话,就可以避免性能的损失。

K8内存控制器就采用读取优先于写的策略来提高运行效率,但是Barcelona则更加智能化。

  但是读取的数据会被先存放在buffer中,而不采用先直接执行写,但当它的容量达到了极限就会溢出,为了避免这种情况,在此之前才对读写之间进行切换,同时可以带来带宽和延迟方面效率的提高。

K8核心配备的是128-bits宽度的单内存控制器,但是在Barcelona中,AMD把它分割成两个64-bit,每个控制器可以独立的进行操作,因此它可以带来效率上的不小提升,尤其是在四核执行的环境下,每个核心可以独立占有内存访问资源。

  Barcelonas中集成的北桥部分(注意不是主板北桥)也被设计成更高的带宽,更深的buffers将允许更高的带宽利用率,同时北桥自身已经可以使用未来的内存技术,比如DDR3。

  内存控制器的预取功能是运用相当广泛、十分重要的一项功能。

预取可以减少内存延迟对整体性能的负面影响。

当NVIDIA发布nForce2主板时,重点介绍的就是nForce2芯片组的128位智能预取功能。

INTEL在发布Core2处理器之时也强调了CORE构架每核心拥有三个预取单元。

  K8构架中每个核心设计有2个预取器,一个是指令预取器,另一个是数据预取器。

K8L构架的Barcelona保持了2个的数量,但在性能上有了较大的改进。

一个明显的改进是数据预取器直接将数据寄存入L1缓存中,相比K8构架中寄存入L2缓存的做法,新的数据预取器准确率更高,速度更快,内存性能及CPU整体性能将得益于此。

Barcelona新特性解析:

创新——三级缓存

  受工艺技术方面的影响,AMD处理器的缓存容量一直都要落后于Intel,AMD自己也清楚自己无法在宝贵的die上加入更多的晶体管来实现大容量的缓存,但是勇于创新的AMD却找到了更好的办法——集成内存控制器。

  处理器整合内存控制器可以说是一项杰作,拥有整合内存控制器的K8构架仅依靠512KB的L2缓存就能够击败当时的对手Pentium4。

直到现在的Athlon64X2也依然保持着Intel2002年就已过时的512KBL2缓村。

  现在Core2已经拥有了4MB的L2缓存,看来Intel和AMD之间的缓存差距还将保持,因为Barcelona的L2缓存依然是512KB。

相比之下,Intel四核的Kentsfield芯片拥有8MB的L2缓存,而2007年末上市的新型Penryn芯片将拥有12MB的L2缓存。

  Barcelona的缓存体系和K8构架有一定的相似之处,它的四颗核心各拥有64KB的L1缓存和512KB的L2缓存。

从简化芯片设计的角度来看,四核心共享巨大的L2缓存对K8L构架而言并不合适,所以AMD引入了L3缓存,得益于65nm工艺,Barcelona在一颗晶圆上集成四颗核心外,还集成了一块2MB容量的L3缓存。

也就是说L3缓存与4颗内核同样原生于一块晶圆,其容量为最小2M起跳。

同L2缓存一样,L3缓存也是独立的,L1缓存的数据和L3缓存的数据将不会重复。

  Barcelona的缓存工作原理是:

L2缓存是作为L1缓存的备用空间。

L1缓存储存着CPU当前最需要的数据,而当空间不足时,一些不是最重要的数据就转移到L2缓存中。

而当未来再次需要时,则从L2缓存中再次转移到L1缓存中。

新加入的L3缓存延续了L2缓存的角色,四颗核心的L2缓存将溢出的数据暂时寄存在L3缓存中。

  L1缓存和L2缓存依然分别是2路和16路,L3缓存则是32路。

快速的32路L3缓存不仅可以更好的满足多任务并行,而且对单任务的执行也有着较大积极作用。

尤其在3D运用方面,2MB的L3缓存将对性能产生极大的推进作用。

Barcelona新特性解析:

虚拟化与功耗水平

  虚拟化技术在未来将有着更广泛的应用,以往是服务器处理器的标志,现在也渐渐被更多桌面处理器所支持。

在虚拟技术方面,Barcelona也有了很大的改进,由于采用了更快的虚拟地址转换算法,在拥有多个客户操作系统的虚拟软件堆栈中,有一个内存地址转换必须处理,客户系统向系统管理程序的地址转换,因为每个客户系统拥有独立的内存管理,

  据AMD表示,在此之前这个转换过程都是通过软件来实现的,并且是基于一个叫shadowpaging的技术,而Barcelona提供的是硬件级加速转换,AMD把它称为NestedPaging。

根据推算大约系统管理程序所消耗的75%的时间是用于shadowpaging,转换的地址是在BarcelonasTLBs中被缓存的,而且AMD指出NestedPaging并不需要太复杂的设定,这对于软件开发商来说就变得非常简单。

  处理器的功耗问题开始被越来越多的人重视,目前的Intel四核的功耗非常高,而Barcelona的四个核心工作电压都一样,同时内部的北桥单元则使用独立的电压计划,可以根据另外一个工作情况在0.8V到1.4V之间改变,它们的电压可以独立管理,这将提高功耗效率。

独立的核心虽然共享同样的电压,但是每个核心都拥有自己的PLL电路,所以它们可以根据负载情况,运行在不同的频率下。

  Barcelona每个核心支持五个独立的p-states(频率等级)转换,改变只是在频率上,p-states完全是硬件控制的,所以我们不需要驱动就可以开启这个功耗管理特性,同时AMD也增加了clockgating(时钟频率比)的数量,配合最新的65nm工艺,保证AMD首款四核处理器的功耗表现和目前的双核Opteron一样。

Intel与AMD真正的角逐即将正式上演

  Intel去年7月份发布的Core2系列处理器,其在性能方面的提升可以说接近革命性,近年来新处理器性能有如此大的提升恐怕也只有Core

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 信息与通信

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1