ImageVerifierCode 换一换
格式:DOCX , 页数:21 ,大小:867.89KB ,
资源ID:10947352      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/10947352.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(AMD四核发布 K10新品全面解析.docx)为本站会员(b****8)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

AMD四核发布 K10新品全面解析.docx

1、AMD四核发布 K10新品全面解析前进是历史车轮的必然方向,Pentium 4在欢呼声中取代Pentium 3,4年后Core构架又卷土重来替代饱受非议的NetBurst构架。是非成败转头空,青山依旧在,几度夕阳红。或许十年河东十年河西的情况暂时不会发生在稳步前进的AMD身上,但出于技术角度的考虑,AMD目前已经再一次飞跃性的推出K10微架构处理器。AMD K10 Phenom X4核心照 前不久,AMD服务器/工作站产品全球业务经理庄富瑞(John Fruehe)正式宣布AMD将在9月10日正式发布代号巴塞罗那的四核处理器,由于时差的原因,中国此次将成为全球首发地,早于美国发布12个小时。庄

2、富瑞此次来到北京只是为巴塞罗那宣传的其中一站,未来几天,他还将前往香港、台湾、新加坡等地,在正式发布前为新品预热造势。庄富瑞否认外界所谓的巴塞罗那“跳票”一说,他表示,AMD一直说将在夏季结束时发布,而9月10日并不晚。“其实巴塞罗那早已准备好,原本我们也计划先推出高端的型号,之后再慢慢去降低功耗。但在和客户交流后,我们发现这并不是他们所希望的,所以我们改变了计划,决定首发的产品就保证足够低的功耗,这是符合客户需求的做法。”庄富瑞表示。那么,竞争对手英特尔在去年11月就发布了自己四核,并于今年6月宣布出货量突破百万片,新一代45nm Penryn也已经蓄势待发,可以说在四核市场英特尔已经占得先

3、机。AMD如何在逆境成功“突围”成为业界关注的焦点。庄富瑞表示,在和英特尔的对抗中,AMD的核心竞争力主要体现在两方面。首先,从产品上来看,巴塞罗那处理器在功耗方面更有优势,虽然是四核产品,但功耗并没有比之前的双核有所提高。其次,AMD一直是以客户为本的公司,考虑到客户的需求,我们的平台更加稳定,更具可扩展性。用户无需更换任何部件就可以使用最新的巴塞罗那,并且我们下一代代号“Shanghai”的产品也是如此。产能一直是困扰AMD的一大问题,但此次庄富瑞似乎并不担心。他表示,巴塞罗那将采用65nm工艺,目前已经开始量产,9月10日发布后就可以大量供货。此外,AMD方面并没有公布巴塞罗那的售价,但

4、业界分析普遍认为,英特尔今年11月发布45nm Penryn后,必将引发两家新一轮的价格战。而在性能方面,相信更多的测试结果将与大家见面。简单回顾一下,相比Intel处理器架构上的不断改进,AMD在过去几年里显得略为保守。AMD的成功从K7架构开始,在当年其凭借低成本,高性能成为晚期P6型号的直接对手。但AMD可没有雄厚的资金来养活两个开发团队,其在架构方面可以说是稳扎稳打。K8架构的诞生可以说是演进自K7:略微加深的流水线级数、些许架构方面的改进,重点则是在将北桥芯片中的内存控制器整合到了处理器内部。从现在来看,K8架构的很多设计理念的确非常超前,并且提供了出色的性能。Core 2的确在性能

5、上要好于K8,但和上一代的Dothan和Banias相比,K8在很多应用上都保持领先。AMD Opteron处理器而Intel为了保持优势,在Conroe发布不到4个月的时间里,再次祭出了业内首款四核心处理器,进一步巩固了自己在CPU性能方面的优势。Intel在高端市场的优势,使得AMD的K8处理器显得暗淡无光,只能靠低廉的价格来保住中低端市场份额。虽然AMD凭借产品优良的性价比在中低端市场占据了主动的地位,并在去年的市场份额占有率中取得不错的成绩,但是Intel方面,其在高端布署好产品线之后,随即发动了价格战,挥师而下,对AMD传统较为强势的中低端市场进行打击。一向走高端路线路线的Intel

6、也意识到了中低端市场的重要性,将于6月份上市的Conroe-L,奔腾E系列就是Intel又一强有力武器,誓要夺回这块失去的部分市场。AMD也深深明白单靠价格上的优势,很难去抵挡Intel一轮接一轮的攻势,而这样亏本式的产品价格策略更是AMD不能承受之重。为了解决目前的困境,AMD唯有靠发布新品来取代沿用了将近四年之久的K8微架构处理器,而K10微架构的出现,正是AMD今年绝地反击的重要法宝。那么,究竟K10与K8有什么不同?与Core又有哪些优势?等等关于K10的问题,本文将为您一一揭晓。AMD K10桌面处理器新品牌“Phenom” 相信大家仍然还是最关注AMD面向桌面的四核处理器,让我们先

7、来看看官方正式宣布了用于下一代四核心、双核心高端、主流桌面处理器的新品牌“Phenom”。在K6之后,AMD的K7、K8架构桌面产品都采用了Athlon品牌,与笔记本的Turion和服务器的Opteron组成AMD的整体产品线。而进入K10架构之后,Athlon将被废弃,取而代之的是新的“Phenom”。AMD确认“Phenom”命名 据AMD代表确认,Phenom的确源自英语口语,意为“杰出人才”,发音类似精简版的“phenomenal”(显著的、现象的)。Phenom处理器由三部分组成:双路四核心Phenom FX(Agena FX)、四核心Phenom X4(Agena)、双核心Phen

8、om X2(Kuma)。AMD只是说它们的架构都源自于服务器的Barclona Opteron,但没有披露任何型号和规格信息。有消息称,Phenom X4主频2.7-2.9GHz,功耗125W;Phenom X2主频2.0-2.9GHz,功耗89W。 AMD产品经理Ian McNaughton指出,Phenom平台支持DDR2-1066规格内存,而“在OEM厂商有所需求之前”,AMD不会转向DDR3。 在启用新品牌后,AMD还将全面放弃型号中的“64”字样,因此原来的Athlon 64 X2将改名Athlon X2并进入低端市场,单核心Athlon消失,单核心Sempron暂时还会存在,竞争I

9、ntel的Celeron。今年第三季度,AMD将发布多款新Sempron,基于65nm Sparta核心,包括35W节能型的3800+、3600+、3500+、3400+等。 此前我们已经知道的四核心Agena FX Phenom FX系列是用于双路系统Quad FX的旗舰型号,主频2.2-2.4GHz和2.4-2.6GHz,接口Socket F 1207+,二级缓存4512KB,三级缓存2MB,热设计功耗(TDP)未定。AMD K10桌面处理器规格/上市日期面向高端服务器方面的,AMD用于单路普通系统的Phenom FX,主频2.2-2.4GHz,接口Socket AM2+。其他各款型号也都

10、会采用这种接口。高端桌面市场为四核心Agena,其中四核心Phenom X4已知两款,主频2.4、2.2GHz,二级缓存4512KB,三级缓存2MB, TDP 89W。 中端桌面是双核心Kuma Phenom X2已知六款,主频2.8、2.6、2.4、2.3、2.1、1.9GHz,二级缓存2512KB,三级缓存2MB,TDP前两款89W、第三款65W、后三款节能型45W。中低端双核心主要是Rana Athlon 64 X2,已知有一款,主频2.2GHz,二级缓存2512KB,没有三级缓存,TDP 65W。 低端单核心则是Spica Sempron,已知两款,主频2.4、2.2GHz,二级缓存5

11、12KB,没有三级缓存,TDP 45W。 上市时间方面,从高端到低端依次推出,Phenom FX和Phenom X4在今年第三季度率先登场,89W和65W的常规型Phenom X2第四季度跟上,节能型Phenom X2、Athlon 64 X2和Sempron都要等到明年第一季度。 对于“Phenom”品牌的中文命名,有人认为抛弃使用已久的Athlon名称更说明了K10的革命性,以及AMD对这款全新架构的处理器能带来全新突破的希望。但此前AMD处理器中文名以“龙”为命名已经被广大用户所接受,那么Phenom能是什么“龙”呢?我们也做了相关的投票调查,结果网友认为可能是“飞龙”的占55.8%,意

12、思是“飞龙在天”,表达出了大家的祝福。由于AMD还没有正式公布最新一代“Phenom”处理器的中文名,因此AMD会赋予“Phenom”品牌什么样中文名还是个迷,让我们拭目以待。K10是什么?K10微架构又有哪些新特性?作为AMD下一代的处理器架构,K10还在孕育期时就受到各方的关注。K10也就是通常俗称的K8L,是AMD现有K8架构产品的继任者(没有K9),在架构上有所进步,并将四核心引入桌面。K10是AMD下一代CPU的架构,AMD声称其K10架构四核心具备一系列“革命性设计”,其中最大的卖点依然是“原生”,另外还有每核心512KB二级缓存、共享2MB三级缓存、HyperTransport

13、3.0总线、增强型PowerNow省电技术、AMD-V虚拟化技术、领先的性能每瓦特指标等。 下面我们通过Barcelona核心介绍,来了解一下K10微架构的几大新特性。 Barcelona核心介绍:四核、4.63亿晶体管Barcelona是AMD第一款四核处理器,原生架构基于65nm工艺技术。和Intel Kentsfield四核不同的是,Barcelona并不是将两个双核封装在一起,而是真正的单芯片四核心。尽管在技术上AMD似乎更为领先,但是否能体现在实际性能表现上目前还不得而知。AMD四核与Intel四核:原生与非原生对比基于AMD 65nm工艺,Barcelona相比K8在结构上更为复杂

14、,其需要11层金属层,而K8只需要9层。在同工艺情况下Barcelona相比Intel处理器需要更多的金属层,这意味着量产的复杂程度也更高。拥有四个核心和2MB三级缓存,Barcelona的晶体管数量达到4.63亿个,相比Intel四核Kentsfield的5.82亿还是要少1.19亿。这1.19亿晶体管主要来自于缓存方面:每一个Barcelona核心拥有128KB L1缓存和512KB L2缓存,四个核心共享2MB L3缓存,那么芯片上总缓存容量为4.5MB。而Intel Kentsfield中每一个核心配备了64KB L1缓存,两个核心共享4MB L2缓存,总缓存容量为8.25MB,比Ba

15、rcelona高出80%,体现在晶体管数量上有25.6%的增加。然而Barcelona并不仅仅是配备了L3缓存的四核K8,我们估计不算缓存的双核Athlon 64 X2晶体管数量在9400万左右,而Barcelona大约是2.47亿,比前者双倍还要多,那么新增的晶体管用处何在呢?Barcelona新特性解析:引入全新SSE128技术Barcelona中的一项重要改进是被AMD称为“SSE128”的技术,在K8架构中,处理器可以并行处理两个SSE指令,但是SSE执行单元一般只有64位带宽。对于128位的SSE操作,K8处理器需要将其作为两个64位指令对待。也就是说,当一个128位 SSE指令被取

16、出后,首先需要将其解码为两个micro-ops,因此一个单指令还占用了额外的解码端口,降低了执行效率。而Barcelona加宽了执行单元从64位到128位,所有128位的SSE操作不再需要进行解码分解为两个64位操作,并且浮点调度器也可以支持这种128位 SSE操作,提高了执行效率。提高SSE指令执行单元带宽的同时,也会带来一些新的变化,也可以说是新的瓶颈:指令存取带宽。为了将并行处理器过程中解码数量最大化,Barcelona开始支持32字节每时钟周期的指令存取,而先前K8架构只支持16字节。32字节的指令存取带宽不仅对处理器SSE代码有帮助,同时对于整数指令也有效果。AMD Architec

17、ture ComparisonK8BarcelonaSSE Execution Width64-bit128-bitInstruction Fetch Bandwidth16 bytes/cycle32 bytes/cycleData Cache Bandwidth2 x 64-bit loads/cycle2 x 128-bit loads/cycleL2/Northbridge Bandwidth64 bits/cycle128 bits/cycleFP Scheduler Depth36 Dedicated x 64-bit ops36 Dedicated x 128-bit ops现在

18、你获得了存取和解码更多的指令,而你还需要获得更多的数据送往执行核心,因此AMD还加宽了L1数据缓存和SSE寄存器之间的带宽。AMD在SSE128方面的改进非常类似Intel Yonah到Merom的变化。在Conroe/Merom之前,Yonah在浮点SSE方面的表现并不如K8,我们之前曾经对比过同频下Yonah和K8处理器这方面的性能,在一般应用、3D渲染和游戏等测试中,Yonah基本可以和K8打平,但在视频编码方面,K8性能更好。不过在Core 2处理器发布后,AMD K8则不再有这方面的优势。Barcelona新特性解析:512级间接分支预测听起来好象Barcelona中关于SSE128

19、的改进很重大,但实际上这只不过是新架构改变中的九牛一毛。下面我们来谈谈更为精彩的branch predictor分支预测器。一般来讲,处理器的分支预测精准度取决于设计架构的深度和广度。K8在分支预测方面的表现出色,对架构优化的很好。但Intel Pentium 4和Pentium M在这方面做的更好,这也让AMD看到了提升的空间。Barcelona中加入了512级间接分支预测(Indirect Branch Predictor),所谓间接分支预测是指在运用时并不是立即分支,而是从寄存器中装载需要的预测目标,它实际上是一个首选目标地址的历史记录表。间接分支预测(Indirect Branch P

20、redictor)在运用时并不是立即分支,而是从寄存器中装载需要的预测目标,它实际上是一个首选目标地址的历史记录表。在ROB和RS需要间接分支的时候它就可以提供帮助,ROB和RS就可以快速提取到适用的结果,这与P6构架用可预测的条件分支替换间接分支来改善性能是相反的。在Prescott中,由于加入间接分支预测器,结果使SPEC CPU2000测试软件中12%的分支预测错误,但是AMD和Intel在算法结构上的区别则不被公开,在SPEC CPU2000的253.perlbmk测试项目中,非预测分支减少是非常明显的,达到了将近55%。间接分支预测并不是Barcelona唯一的性能提升亮点,回归堆栈

21、(return stack)大小较K8有双倍大小的改进,举个例子,在一个很长的命令条中,命令代码包括了很多子程序(比如递归函数),CPU实际上会用完所有空间来纪录它的路径,一旦开始丢失回归地址的路径,就会导致无法进行下一步的分支预测,双倍大小的设计正好是为了解决这个问题,据说这个改进是在收到一个大型软件公司的请求才确定的。Barcelona新特性解析:堆栈操作与乱序执行Intel最早的Pentium M处理器引入了一项名为“dedicated stack manager”(专注堆栈管理器)的新特性,正如其名字所暗示的一样,专注堆栈管理器专门处理所有的X86堆栈操作(例如push, pop, c

22、all, return等)。它将这些伐数据集中处理而无需其他执行单元参与,这尤其简化了CPU整数执行单元的工作,加快了整数执行单元的处理速度。AMD在Barcelona中也引入了类似的技术,AMD称之为Sideband Stack Optimizer(边带堆栈优化器)。有了边带堆栈优化器,处理器中的伐指令不再需要经过3路编码,也不再由整数执行单元处理,这加快了堆栈的处理速度,也同时加快了整数执行单元的处理速度。在Intel Core微构架中一个重要改进是OOOE乱序执行:当装载指令队列发生等待时,处理器可以将队列后方处于等待的指令优先装载并执行,而不是一直等待到堵塞结束。平均而言,约30%的指

23、令会发生一定时间的堵塞,这一乱序执行模式的引入,使新构架CPU性能有了明显的提高。AMD的K8构架并不支持OOOE乱序执行指令,所以即使K8构架有优秀的内置内存控制器,也依然被对手的Core构架击败。正视这一技术上的落后,AMD在K8L构架的首款芯片Barcelona上及时改进为OOOE技术,这一改进必将为K8L构架的性能带来极大的提高。Barcelona将可以乱序执行指令,同样也可以在前一指令尚未处理完成时,装载并用空载单元处理下一指令,即使这两条指令需要读取不同的内存地址。Barcelona拥有3个地址生成单元,可以完成3个寄存指令每周期,而Core构架每周期只能执行1次-K8L构架的寄存

24、速度要比Core构架强大3倍。K8L构架中加入了新的SSE4指令扩展:SSEEXTRQ/INSERTQ指令和MOVNTSD/MOVNTSS指令。前者可以将多条指令合并为一条指令执行,后者用来计算流量寄存指令。Intel也会将在稍候发布的Penryn处理器中加入。Barcelona新特性解析:内存控制器再度强化当年当AMD将内存控制器集成至CPU内部时,我们看到了崭新而强大的K8构架。如今,Barcelona的内存控制器在设计上将又一次极大的改进其内存性能。Intel Xeon服务器所有使用的FB-DIMM内存一大优势是,可以同时执行读和写命令到AMB,而在标准的DDR2内存中,你只能同时进行一

25、个操作,而且读和写的切换会有非常大的损失。如果是一连串的随机混合执行的话,将会带来非常严重的资源浪费,而如果是先全部读然后再转换到写的话,就可以避免性能的损失。K8内存控制器就采用读取优先于写的策略来提高运行效率,但是Barcelona则更加智能化。但是读取的数据会被先存放在buffer中,而不采用先直接执行写,但当它的容量达到了极限就会溢出,为了避免这种情况,在此之前才对读写之间进行切换,同时可以带来带宽和延迟方面效率的提高。K8核心配备的是128-bits宽度的单内存控制器,但是在Barcelona中,AMD把它分割成两个64-bit,每个控制器可以独立的进行操作,因此它可以带来效率上的不

26、小提升,尤其是在四核执行的环境下,每个核心可以独立占有内存访问资源。Barcelonas中集成的北桥部分(注意不是主板北桥)也被设计成更高的带宽,更深的buffers将允许更高的带宽利用率,同时北桥自身已经可以使用未来的内存技术,比如DDR3。内存控制器的预取功能是运用相当广泛、十分重要的一项功能。预取可以减少内存延迟对整体性能的负面影响。当NVIDIA发布nForce2主板时,重点介绍的就是nForce2芯片组的128位智能预取功能。INTEL在发布Core 2处理器之时也强调了CORE构架每核心拥有三个预取单元。K8构架中每个核心设计有2个预取器,一个是指令预取器,另一个是数据预取器。K8

27、L构架的Barcelona保持了2个的数量,但在性能上有了较大的改进。一个明显的改进是数据预取器直接将数据寄存入L1缓存中,相比K8构架中寄存入L2缓存的做法,新的数据预取器准确率更高,速度更快,内存性能及CPU整体性能将得益于此。Barcelona新特性解析:创新三级缓存受工艺技术方面的影响,AMD处理器的缓存容量一直都要落后于Intel,AMD自己也清楚自己无法在宝贵的die上加入更多的晶体管来实现大容量的缓存,但是勇于创新的AMD却找到了更好的办法集成内存控制器。处理器整合内存控制器可以说是一项杰作,拥有整合内存控制器的K8构架仅依靠512KB的L2缓存就能够击败当时的对手Pentium

28、 4。直到现在的Athlon 64 X2也依然保持着Intel 2002年就已过时的512KB L2缓村。现在Core 2已经拥有了4MB的L2缓存,看来Intel和AMD之间的缓存差距还将保持,因为Barcelona的L2缓存依然是512KB。相比之下,Intel四核的Kentsfield芯片拥有8MB的L2缓存,而2007年末上市的新型Penryn芯片将拥有12MB的L2缓存。Barcelona的缓存体系和K8构架有一定的相似之处,它的四颗核心各拥有64KB的L1缓存和512KB的L2缓存。从简化芯片设计的角度来看,四核心共享巨大的L2缓存对K8L构架而言并不合适,所以AMD引入了L3缓存

29、,得益于65nm工艺,Barcelona在一颗晶圆上集成四颗核心外,还集成了一块2MB容量的L3缓存。也就是说L3缓存与4颗内核同样原生于一块晶圆,其容量为最小2M起跳。同L2缓存一样,L3缓存也是独立的,L1缓存的数据和L3缓存的数据将不会重复。Barcelona的缓存工作原理是:L2缓存是作为L1缓存的备用空间。L1缓存储存着CPU当前最需要的数据,而当空间不足时,一些不是最重要的数据就转移到L2缓存中。而当未来再次需要时,则从L2缓存中再次转移到L1缓存中。新加入的L3缓存延续了L2缓存的角色,四颗核心的L2缓存将溢出的数据暂时寄存在L3缓存中。L1缓存和L2缓存依然分别是2路和16路,

30、L3缓存则是32路。快速的32路L3缓存不仅可以更好的满足多任务并行,而且对单任务的执行也有着较大积极作用。尤其在3D运用方面,2MB的L3缓存将对性能产生极大的推进作用。Barcelona新特性解析:虚拟化与功耗水平虚拟化技术在未来将有着更广泛的应用,以往是服务器处理器的标志,现在也渐渐被更多桌面处理器所支持。在虚拟技术方面,Barcelona也有了很大的改进,由于采用了更快的虚拟地址转换算法,在拥有多个客户操作系统的虚拟软件堆栈中,有一个内存地址转换必须处理,客户系统向系统管理程序的地址转换,因为每个客户系统拥有独立的内存管理,据AMD表示,在此之前这个转换过程都是通过软件来实现的,并且是

31、基于一个叫shadow paging的技术,而Barcelona提供的是硬件级加速转换,AMD把它称为Nested Paging。根据推算大约系统管理程序所消耗的75%的时间是用于shadow paging,转换的地址是在Barcelonas TLBs中被缓存的,而且AMD指出Nested Paging并不需要太复杂的设定,这对于软件开发商来说就变得非常简单。处理器的功耗问题开始被越来越多的人重视,目前的Intel四核的功耗非常高,而Barcelona的四个核心工作电压都一样,同时内部的北桥单元则使用独立的电压计划,可以根据另外一个工作情况在0.8V到1.4V之间改变,它们的电压可以独立管理,

32、这将提高功耗效率。独立的核心虽然共享同样的电压,但是每个核心都拥有自己的PLL电路,所以它们可以根据负载情况,运行在不同的频率下。Barcelona每个核心支持五个独立的p-states(频率等级)转换,改变只是在频率上,p-states完全是硬件控制的,所以我们不需要驱动就可以开启这个功耗管理特性,同时AMD也增加了clock gating(时钟频率比)的数量,配合最新的65nm工艺,保证AMD首款四核处理器的功耗表现和目前的双核Opteron一样。Intel与AMD真正的角逐即将正式上演Intel去年7月份发布的Core 2系列处理器,其在性能方面的提升可以说接近革命性,近年来新处理器性能有如此大的提升恐怕也只有Core

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1