英特尔与AMD四核技术谜团

时间:2022-09-28 07:31:55

英特尔与AMD四核技术谜团

在K10架构出现之前,AMD将无法在产品层面上与英特尔竞争,如果它想在这种局面下保持强劲的增长,或许应该把精力更多放在OEM合作以及市场宣传方面,大概这也是真伪四核争端的由来吧。

继双核处理器进入主流之后,四核心处理器便成为发烧市场和服务器领域的新旗舰。在11月份,英特尔率先四核架构的Core 2 Quad处理器,率先进入到4核心时代。与此同时,AMD针锋相对也公开代号为“Altair”的四核Opteron处理器,但与英特尔不同的是,AMD必须等到2007年下半年才会将其正式推向市场,整整比英特尔滞后了半年(AMD公布了两款四核处理器计划,代号分别为“Altair”与“Barcelona”,前者针对高端桌面和双路服务器,后者针对四路服务器市场)。在会上,AMD官方抨击英特尔Kentsfield核心的Core 2 Quad并不是真正意义上的四核心产品,而是双芯片构成的“伪四核”,与之不同,AMD的四核Opteron采用单芯片原生四核设计,是“真正意义上”的四核产品。其实早在2005年双核产品刚刚面市时,AMD与英特尔就有过类似的争论,AMD抨击Smithfield Pentium D为“伪双核”,自家的Athlon 64 X2才是“真双核”,引起双方激烈的口水战。现在的情况与当时颇为类似,真伪四核成为微处理器领域的争论焦点,双方各执一词,令消费者普遍感到无所适从。这场争论固然是因商业公关行为引发,但在背后也暗示出英特尔和AMD迥然不同的四核设计架构。为了彻底解决这一问题,我们在接下来的文字中将向大家详细介绍Core 2 Quad与四核Opteron的差异所在。

四核构成

四核构成方案是争议的焦点所在:Kentsfield核心的Core 2 Quad并不是在一个芯片上集成四枚硬件核心,而是将两颗双核芯片封装在同一个基板上,这样处理器事实上也拥有四个硬件核心。这种设计的优势在于可保证良品率与生产灵活性,因为四核芯片的晶体管数量为双核芯片的两倍―我们知道,Conroe核心Core 2 Duo处理器拥有2.91亿晶体管,如果将两枚Conroe集成在同一颗芯片上,晶体管总量就要接近6亿个,生产良品率肯定不高,不可避免导致较高的制造成本。其次,单芯片四核处理器需要额外的研发工作,英特尔不可能快速将其推向市场,而必须在双核产品推出后半年到一年,才有可能完成相应的研发工作。相比之下,采用双芯片的组合方式就没有这个问题,英特尔只需要生产双核Core 2 Duo处理器,然后再将两枚芯片封装在一起,成为四核心的Core 2 Quad。这不仅能够保证很高的良品率,而且能够在生产出双核Core 2 Duo的同时拿出四核Core 2 Quad产品,并且可对市场需求及时调整生产计划―如四核需求旺盛就多生产出Core 2 Quad,如四核需要不高就转为双核的Core 2 Duo。总之,双芯片四核设计的优点主要体现在以下三个方面:可快速推向市场;保证较高的生产良率,避免高制造成本;可对市场需求积极作出反馈。

不过,Core 2 Quad双芯片四核设计存在的硬伤也不可否认。Core 2 Duo芯片内部的双核心可以共享二级缓存,具有较高的协作效率,但如果两枚Core 2 Duo芯片要进行任务协作,问题就产生了。两枚处理器之间缺乏直接的通讯渠道,只能通过“共享前端总线-北桥(内存控制器)-内存”的链路才可以完成二级缓存的数据同步,例如芯片0中的CPU1要与芯片1的CPU3进行任务协作,两者的缓存数据便需要保持同步,但CPU0与CPU3无法直接通讯,数据同步操作必须通过内存中转,这个过程需要耗费较长的延迟,从而导致协作效率的降低。Kentsfield核心Core 2 Quad便存在这个问题,这也是AMD斥其为“伪四核”的原因。但在微处理器科学体系中,从来没有所谓真四核、伪四核的概念,AMD的说法不过是公关言论,更准确的说法是Kentsfield Core 2 Quad是采用“MCM(Multi-Chip Module,多芯片模块)”设计的四核处理器,但四个核心的耦合较为松散。业界一般以各个核心间耦合的紧密程度来描述多核心处理器的协作效率高低,如Core 2 Duo采用共享二级缓存设计,属于紧密耦合型双核处理器,AMD双核Athlon 64 X2/Opteron独立二级缓存,但两个核心间可直接通讯,耦合紧密度稍次之;双芯片Smithfield Pentium D和Kentsfield Core 2 Quad都属于松散的耦合。

我们接着来看看AMD Altair Opteron的四核方案。Altair Opteron在一枚芯片内集成了四个硬件内核,每个内核拥有独立的512KB二级缓存,这样Altair Opteron总共就有2MB二级缓存。在此基础上Altair Opteron还拥有2MB的共享三级缓存,这样各个核心缓存同步化就可通过共享的三级缓存进行。不难看出,Altair Opteron的耦合程度非常紧密,四核协作效率优于双芯片的Core 2 Quad,但问题在于,Core 2 Quad是现在唯一可以买到的四核心处理器,而Altair Opteron要等到2007年中期才能推出。届时英特尔将推出代号为“Yorkfield”的45纳米四核处理器,它将采用单芯片结构,并且共享高达12MB容量的二级缓存,属于紧密耦合设计(也就是AMD所说的“真四核”),其性能将在Kentsfield基础上有大幅度的提升,因此尽管AMD 65纳米的Altair Opteron拥有卓越的设计,但它要获得胜利并不容易。

处理器微架构

耦合度的松紧决定四核协作的效率高低,而微架构则决定每个核心的运算效率、实际性能、功耗高低等关键的特性。英特尔Kentsfield/Yorkfield两代Core 2 Quad处理器都基于Core微架构,它所具有的卓越性能有目共睹。Core架构的优势体现在以下几个方面:一、拥有超宽的执行单元,在每个周期,Core架构的指令解码器可以同时发射4条指令,而AMD K8架构只能发射3条指令,换句话说,Core架构拥有更加出色的指令并行度;二、Core架构具有“微操作融合(Micro-Op Fusion)”和“宏操作融合(Macro-Op Fusion)”两项技术,可以对执行指令进行优化,通过减少指令的数量获得更高的效率,英特尔表示这两项技术最多可带来67%的效率提升,这也是Core架构产品在低功耗状态下依然拥有强劲效能的主要秘密;三、Core微架构的SSE执行单元首度提供完整的128位支持,每个单元都可以在一个时钟周期内执行一个128位SSE指令,而在多个执行单元的共同作用下,Core架构核心可以在一个时钟周期内同时执行128位乘法、128位加法、128位数据载入以及128位数据回存,或者是可以同时执行4个32位单精度浮点乘法和4个32位单精度浮点加法,进而显著提升多媒体性能;四、Core微架构采用共享缓存设计,缓存资源利用率也高于独占式设计,且多个核心可以高效协作,当然,双芯片的Kentsfield Core 2 Quad无法从这个优点中受益。

AMD Altair四核处理器将基于改良的K8L架构,相对于K8架构,K8L主要增强点在于浮点性能和SSE性能。K8L架构中的浮点单元(加法器和乘法器)数量增加了一倍,其浮点性能可比现有K8产品高出50%左右(AMD官方语),从而增强与英特尔Core架构产品抗衡的能力。其次,K8L的SSE执行单元也扩展到128位,这让它拥有与Core架构等同的SSE执行效率。但除此之外,K8L微架构并没有带来更多的变化,指令解码器依然只能发射3条指令,且没有任何指令优化技术,无法改变指令执行效率落后于Core架构的事实。而且K8L的整数执行部分没有增强设计,整数性能与现有K8产品相当,难以缩小同Core架构产品的差距。综合这些因素来看,我们可以判定K8L在浮点和多媒体方面将有显著的性能提升,但整数性能落后依旧,整体依然逊于对手。另一个不利的消息是,浮点单元的扩展可能让K8L产品频率提升困难,这在很大程度上抵消了65纳米带来的优势,AMD很难凭借K8L微架构达到击败对手的目的,能够将双方现存的巨大性能差距缩小到10%-20%左右就是个了不起的胜利。

注:根据Linpack测试,一颗主频3GHz的双核心Woodcrest在64位精度下可以提供24GFLOPS(十亿浮点计算每秒,30亿×4浮点操作×2个核心)的理论峰值运算速度(Rpeak),而AMD 2.8GHz的双核Opteron峰值浮点性能只有11.2GFLOPS(28亿×2浮点操作×2个核心),这足以说明Core微架构在效率方面的巨大优势。

系统连接

Core对于K8L的效率优势没有太大的疑问,不过微架构并不能说明一切,尤其是在多处理器系统中,处理器的连接架构以及管理内存的方式往往对性能影响更大。一套出色的连接架构可带来处理器80%以上的效能提升,但如果连接架构糟糕,性能提升可能还不到40%,甚至在某种情况下会导致性能不升反降。系统中处理器的数量越多,连接架构对性能的影响就越大,而在这一方面,AMD的K8L远优于Core架构的多核处理器产品。

我们回头再来看看Core 2 Quad,不论双芯片的Kentsfield还是未来单芯片的Yorkfield,都没有集成内存控制器功能,而必须通过前端总线共享内存。如果系统中存在多个处理器,这些处理器也无法直接通讯,必须通过“前端总线-芯片组-内存”的链路实现数据共享,而内存在这里就成为唯一的联系纽带。假如系统中有2个独立的4核处理器,彼此进行任务协作,两枚处理器必须通过前端总线共享内存,不仅内存延迟时间较长,数据调度耗费资源。虽然英特尔通过多个内存控制器和FB-DIMM模组来缓解问题,但随着处理器数量的增加,系统很容易又出现内存资源紧张,导致协作效率越来越差的局面。例如,若某个处理器对内存段进行修改,这段数据就会被锁定,其他处理器如果要访问该段数据就不得不停下来等待;处理器的数量越多,这样的冲突就越频繁,反而可能因此造成性能下降。为了尽可能降低冲突,英特尔拿出的办法就是使用大容量的缓存,但缓存必须与内存数据保持同步,缓存容量越大,保持数据同步的资源开销就越可观,英特尔不得不小心翼翼对待这个问题。

AMD的K8L架构就完全不存在这个问题,K8L拥有专门的内存控制器,可同时支持DDR2/DDR3/FB-DIMM等内存规范,每颗处理器都拥有属于自己的内存资源,加上内存控制器直接集成,访问延迟极低,使得K8L在这方面拥有绝对的优势。其次,K8L通过5.2Gbps的低延迟HyperTransport 3.0总线与其他的K8L处理器连接,如果采用32位总线,总线带宽达到20.8GBps,通过直连总线,系统内的多个处理器可以直接通讯,始终保持极高的任务协作效率;另外HyperTransport 3.0技术还可以支持线缆连接,允许不同主机内的K8L处理器直连,这样的架构就使得K8L具有巨大的弹性:它既可以用在只有1-2个处理器的企业服务器系统,也可以用于超级计算机的构建,而Core架构显然没有这样的优点。因此,尽管K8L架构效率不如Core,单机性能逊于后者,但随着服务器内处理器数量的增多,K8L系统能够轻松超越对手。换句话说,英特尔Core 2 Quad会拥有更出色的单机性能,但AMD的四核Opteron更适合用于构建多路服务器以及超级计算机系统。

英特尔很清楚第一代Core架构的不足,在2008年它将带来第二代Core架构,主要改进就是集成内存控制器和支持CSI(Common System Interconnect,通用系统互联)总线技术,实际上也就是效仿K8的连接架构。

其他方面

英特尔处理器的缓存规格一向大幅度领先于对手,Core 2 Quad处理器也不例外。Kentsfield Core 2 Quad由两枚Conroe芯片构成,二级缓存总量达到8MB(2X4MB);而AMD的Altair处理器采用4X512KB二级缓存设计,也就是总计只有2MB二级缓存,不过四核Opteron还共享了2MB三级缓存,这样它的缓存总量也只有4MB。AMD还推出一款针对旗舰市场的Altair FX,它与Altair区别就是将二级缓存容量增加到4MB(每核心1MB),但三级缓存容量仍为2MB,总计拥有6MB二级缓存。遗憾的是,Altair要到2007年中期后才会推出,届时英特尔将推出45纳米的“Yorkfield”四核芯片,它的二级缓存容量高达12MB。总的来说,英特尔的四核处理器缓存容量比同期竞争对手多出一倍,而二级缓存的速度显然要快于三级缓存,在这方面英特尔的产品优势明显。

大容量缓存必然意味着晶体管集成度的急剧攀升,并导致成本上扬,但英特尔领先一代的生产工艺足以克服这个问题,Kentsfield Core 2 Quad采用65纳米工艺进行生产,两颗芯片的晶体管总数为5.8亿个,芯片总面积为286平方毫米(一个Conroe核心面积为143平方毫米)―相比nVIDIA G80图形处理器惊人的496平方毫米和不佳的良率,Kentsfield Core 2 Quad的制造成本可要低得多。AMD方面,Altair系列四核处理器也是采用65纳米工艺,但至少还要半年我们才能在市场上看到它。AMD没有透露Altair的晶体管规模和预期芯片尺寸,不过我们可以大体推测出来:现有双核Opteron处理器晶体管总量为2.05亿个(2MB二级缓存),这样拥有4MB缓存的Altair晶体管规模大概在4亿至4.5亿范围内(考虑到K8L架构逻辑单元的扩展),芯片面积要小于Kentsfield,这样做可以较好地控制制造成本;即便是6MB缓存的Altair FX,其芯片面积大概也与Kentsfield相当,不过AMD的问题在于2007年中期才引入65纳米技术,初期生产良率很难达到理想水平,处理器生产成本未必能够低于对手。

在AMD实现65纳米的时候,英特尔将愉快地开始45纳米之旅,这样它将比对手拥有领先一代的完全优势。显然,45纳米技术能够有效降低Core 2 Quad的生产成本,不过由于Yorkfield缓存容量多达12MB,芯片面积不可能小于Kentsfield,英特尔似乎更希望获得性能的完胜,而非优先考虑生产成本。这种做法非常明智,毕竟对英特尔来说,能否有效压制对手的强势进攻是影响其未来的最大关键。

高效的Core微架构和领先一代的生产工艺决定了英特尔的四核产品在功耗方面游刃有余,Kentsfield Core 2 Quad的TDP功耗仅为100瓦,Extreme版则达到130瓦,相比之下,AMD双核心的Athlon 64-FX 62(2.8GHz/2MB L2)处理器的TDP就达到125瓦,加之Core架构拥有先进的节能特性,使得在实测环境下,Kentsfield无论普通版还是Extreme版功耗都低于Athlon 64-FX 62(包括Idle和全速运行状态),而性能整整比Athlon 64-FX 62平台快出两倍还多,AMD现有产品完全没有优势可言。不过,65纳米的Altair可望带来不同的体验:K8L架构支持先进的电源管理技术,每个核心的电源供应都可以单独进行管理,这样Altair可根据任务执行情况动态打开和关闭CPU单元,节能效果将相当突出。此外,处理器还可根据负载情况进入5种工作状态,最低功耗时仅为32瓦,最高功耗也不超过95瓦,现有产品功耗高的缺陷将得到完美克服。AMD除了计划推出95瓦TDP的标准功耗版Opteron/Athlon 64 X4处理器外,还打算推出68瓦的低功耗型四核Opteron,英特尔势必推出节能版Core 2 Quad方能应对威胁。

支持平滑的升级是AMD四核处理器的一大优点。Altair对应Socket F1207+接口(Opteron/Athlon 64 FX)和Socket AM2+(Athlon 64 X4)接口,不过它也可以直接运行在现有的Socket F1207主板和AM2接口主板上,使用DDR2内存,这样,用户就不必为了升级四核而更换主板。当然,倘若你想使用DDR3或FB-DIMM内存,更换一块主板是非常必要的。相比之下,英特尔的Kentsfield与Yorkfield虽然都是采用LGA775接口,但对电源供应和芯片组配合的要求都不相同,用户除了更换主板外别无选择。

总结

Kentsfield Core 2 Quad的到来标志着PC进入崭新的四核时代。也许Kentsfield的双芯片四核设计不够完美,但它是一款不折不扣的四核心产品,固然从理论上讲Kentsfield协作效率不佳,但凭借Core架构的威力,Kentsfield Core 2 Quad在测试中依然完胜AMD顶级的Quad FX 4X4平台(两枚双核Opteron处理器系统,同样拥有4个硬件内核),Quad FX不仅没能取得哪一项领先,在许多测试项目中甚至大比分落败,而功耗又比Kentsfield Core 2 Quad高出许多,给人的感觉就是两者完全不是一个层面的对手。我们相信基于K8L架构的Altair会带来积极的改变,如果它的性能能够与所谓“伪四核”的Kentsfield Core 2 Quad比肩,那么就是了不起的成就。但非常遗憾的是,它将面对的不是所谓“伪双核”的Kentsfield,而是45纳米的Yorkfield四核处理器。可以肯定,在K10架构出现之前,AMD将无法在产品层面上与英特尔竞争,如果它想在这种局面下保持强劲的增长,或许应该把精力更多放在OEM合作以及市场宣传方面,大概这也是真伪四核争端的由来吧。

上一篇:关于V系列F-RAM的技术说明 下一篇:追逐神的光辉