整合≠融聚 透过Fusion APU架构看AMD如何融聚

时间:2022-10-18 04:34:10

处理器在成功夺取内存控制器和PCI Express控制器后,又将从传统的北桥芯片中夺走显示核心。桌面平台的两大巨头Intel和AMD都是这场吞并行动的幕后推手。不过,两家厂商的思路略有不同,透过即将发售的第一代APU,或许我们能看到AMD在“融聚”上的“别有用心”。

众所周知,带宽和延迟是处理性能提升中最容易遇到的瓶颈。在处理器的发展过程中,不论是将缓存集成进处理器,还是集成内存控制器和总线控制器都是为了进一步降低延迟和增加带宽,以带来性能上的明显提升。由此也可见,受低带宽影响严重的集成显示核心被处理器集成其实是件迟早的事。

不过,已经的Intel Core i5系列处理器,虽集成了显示核心,但它并没有将处理器内核和显示核心集成在一颗Die里,更像是将传统北桥和处理器封装在一块PCB基板上。事实也证明,这样的集成并没能提高处理器带宽和优化延迟,实质上和传统架构比起来也没有明显的不同。

但是,即将到来的Sandy Brige处理器和Fusion APU就会颠覆现有的架构,处理器核心和显示核心将会被集成在同一颗Die上,实现芯片级物理层的融合。在此基础上,拥有出色显示核心设计能力和丰富设计经验的AMD为自己的集成做了更深一步的规划――“融聚”,将CPU,GPU从架构底层彻底融合在一起。

只是,GPU和CPU想从架构底层融合并非简单的事。为此,AMD拟定了四步走的方案。第一步“物理整合”(Physical Integration),CPU、GPU集成在一块硅芯片上,辅以高带宽集成内存控制器,再借助开放的软件生态系统促成异构计算基本形态。此步的第一个任务就是消除现有平台上各部分之间的互连瓶颈。其实,当前部分北桥模块和内存控制器都已经集成在CPU内部,但是二者之间、内存控制器与内存之间的带宽都只有17GB/s左右,北桥模块与GPU集成显卡之间的带宽更是仅有7GB/s左右,已经成为瓶颈,特别是集成显卡与内存通信时需要绕道北桥部分。而Fusion APU将它们全部整合到一块硅片之中后,带宽就不是问题了。GPU图形阵列、UVD解码引擎与北桥模块、内存控制器之间的通道带宽高达27GB/s左右,内存控制器和内存之间也同样有27GB/s之多的带宽。如此一来,GPU与内存之间也可以直接通信,相比当前带宽增加了三倍,即使是同等规模的GPU也能凭借此带宽优势获得执行效率上的显著提高。而且,跨芯片通信所需的额外延迟和功耗不复存在,整体封装面积也更加小巧。

第二步“平台优化”(Optimized Platforms),CPU、GPU之间互连接口继续增强,并且统一进行双向电源管理,GPU也支持高级编程语言。而且FusionAPU并不排斥独立显卡,还可以通过PCI Express x16高速总线与其相连。整合的、独立的GPU可以同时进行图形渲染、并行计算,并支持OpenCL 1.1、DirectCompute等并行计算标准。下一步,AMD还会继续全面提升系统互联带宽,包括整合GPU与北桥、内存控制器之间、内存控制器与内存之间、APU与显卡之间、显卡与存储器之间,特别是独立显卡的连接将建立在第三代PCIExpress 3.0总线基础上,理论上通信带宽将再次翻番。

第三步“架构整合”(ArchiteeturalIntegration),实现统一的CPU/GPU寻址空间、GPU使用可分页系统内存、融入GPU硬件调度器、CPU、GPU、APU一致性内存等等。这才是AMD心目中真正的融合,CPU、GPU真正融为一体,在存储系统调用上是共同可见的。

第四步“架构和系统整合”(Architectural&OS Integration),主要特点包括GPU计算上下文切换、GPU图形优先、独立显卡PCI Express一致性、任务并行运行时调度整合等等。硬件上的这种异构计算融合自然也需要软件生态系统的支持才能发挥威力。根据AMD的设想,驱动层将被任务队列运行模式所取代,GPU成为一个与CPU对等的可编程处理器(事实上它们共同组成了新的处理核心),向任何应用程序开放,并且依然允许程序员调用特定领域库来获得更高的效率,诸如ConcRT、GCD、TBB等等。

最先上市的APU代号为“Ontario”和“Zacate”,“Ontario”的功耗只有9W,针对轻便型笔记本和小型台式机市场;“Zacate”的功耗为18W,面向超轻薄笔记本、主流笔记本和一体机等市场应用。“ontario”和“Zacate”都采用了代号为“山猫”的AMD下一代架构CPU核心,并融合了支持DirectX 11的GPU核心,能够带来出色的高清效果和超长的电池续航时间。

作为第一个APU的处理器核心,“山猫”被AMD寄予了厚望。它跟“推土机”并非完全一样,“推土机”的设计更注重性能,而“山猫”则更注重效能。事实上,“山猫”并没有沿用顺序执行架构,而是采用乱序执行引擎,集成了两个解码器(即双发射),也就是同时间只能解码两条指令,比K8/K10的3指令发射、“推土机”的4指令发射都精简了不少,但如果与顺序执行设计相比,“山猫)”仍然可以在指令效能方面占据优势。“山猫”并不会成为一枚单独的X86芯片,它只作为AMD Fusion APU融合处理器的子集。其实,就目前所知的“ontario”APU就是采用了没有顶盖的(IHS)的“Socket FT1”封装,它是一种BGA形式、必须焊接在主板上而不会单独出售,芯片本体尺寸只有15mm×15mm,核心面积不超过100mm2,当前样品的TDP热设计功耗只有9W,未来甚至可降至5W的级别,这确实让人很期待。

“山猫”的流水线长度为13级,它拥有1个整数单元和1个浮点单元,并配备了32KB一级缓存和512KB二级缓存,完整支持ISA、SSE1/2/3、SSSE3指令集和虚拟化技术一一这些技术指标看起来非常的眼熟,没错,“山猫”其实就是K10架构的精简版,它的首要目标同样是低功耗、低成本,再次才考虑性能表现。AMD表示,单核心的“山猫”功耗指标可降低到1W以下,能够以不到一半的核心面积就获得接近主流处理器的性能,这一点也让人们颇为期待。不过作为新一代处理器,“山猫”身上也有“推土机”的影子,比如“山猫”也是典型的整数+浮点计算器,并为整数单元配备了L1缓存,与“推土机”一样,它也将整数调度器和浮点调度器分割开,从而使两者互不影响效率提高。这一点尤为重要,作为融合的倡导者,AMD希望其融合的显示核心不仅仅是作为图形处理器,而是作为一种颗可编程协处理器,向任何应用程序开放。分离式指令调度现在是做的分别调度整数和浮点单元,而以后则可以很自然地将并行运算和浮点运 算调度给可编程的“GPU”来处理,大大提升处理器的浮点运算能力和提高效能表现。这算是为真正的融聚,即硬件底层的融合所做的准备。不过作为当前市场的妥协产物,采用2~4个K10架构核心并融合了DireetX 11显示核心的“L1ano”APU将会在不久后上市。作为融聚第一步,硬件物理整合的代表,“Llano”APU芯片间带宽的提升,延迟的降低将会非常明显。而且凭借AMD在显示核心设计方面的深厚功底,相比对手“L1ano”APU毫无疑问能在显示性能上更胜一筹。之后,采用2~4个“推土机”核心,融合了DireetX 11图形核心,32nm工艺制造的“Trinity”APU将会接过融合大旗,将运算效能推向有一个高峰。不过,即将到来集成“山猫”的“ontario”是典型的小核心设计,首批产品采用台积电40nm工艺制造,拥有10个金属层。性能上。传统x86应用超过Atom平台是没有悬念的,至于集成的显示核心的性能Atom平台更望尘莫及。不过就它的超低功功耗移动平台的定位来说,“Ontario”不可能会在处理器性能上为我们带来多大的惊喜,解决功耗才是它的首要任务。和“推土机”类似,它会在2012年进行一次增强,并改用28nm工艺,而在2013年也会进化为下一代。到那时候,APU就会更加接近AMD心中真正的融合理念,会进一步完善CPU、GPU两颗核心间的底层结合,为之后的异构运算打好坚实基础。

事实上,纵观CPU的发展史我们可以发现,每一次CPU的整合都依照了先物理融合然后底层整合的基本路线。想当初缓存都还是独立于CPU以外的功能芯片,而今早已成为CPU密不可分的部分。整数运算单元和浮点运算单元这对欢喜冤家,曾经不也是两个不同概念的处理核心么?由此可以猜测,这一次和GPU的融合大抵也会有这类似的过程和类似的结果。而Intel前期的双芯片方案也就恰恰印证了初步物理人融合的试水方式,在这一点上AMD显然更为激进,对自己的设计实力更是信心百倍,直接进行了更深一步的物理融合――即单芯方案,不过离真正的异构运算架构估计还有不小的距离。但是,可以肯定的是,I、A两家的最绔目的都将是完成两种核心的底层整合,凸显异构运算结构在高精度浮点运算方面的优势,进一步提高我们的多媒体使用体验。可见,继多核大战后,处理核心的新战场已经清晰――异构运算核心大战。剩下的,只是看两家如何完善自己的异构运算体系,相信到那时再不会区分CPU、GPU两个核心的概念,GPU(我们姑且这么称呼它吧)只是类似缓存、内存控制器或者浮点计算单元那样的一个功能区域,是我们处理器的一部分而已。那样的处理器便是AMD心中真正的APU――真正的融合加速处理器!

上一篇:漫步在桌面的音乐精灵 下一篇:15英寸及以上产品总览