下一代处理器进入众核时代

时间:2022-09-08 01:44:03

下一代处理器进入众核时代

本刊编译自《日经电子》

不久前,IDF(英特尔信息技术峰会)和HOT CHIPS 20大会相继在美国召开,会上介绍的新产品和新技术揭示出处理器今后的发展动向。会议上发表的论文大多涉及众核(Many-Core)技术。

半导体工艺正从65nm向45nm发展,除了为实现多核架构而需要把集成度提高到极高水平之外,还需要实现满足高性能和低功耗等不同要求的超并行结构(见图1)。

以前的多核技术追求的是超高的指令级并行性,即尽量提高程序的并行执行程度。其目的在于利用超标量技术、超级流水线技术和乱序执行技术,增加可同时执行的指令,并提高VLIW(超长指令字)指令集的并行执行程度。但是,要实行如此复杂的处理,就需要大量的晶体管,使得性能提高的幅度很小;在一定的功耗下,性能甚至反而会下降。在这种情况下,众核处理器技术应运而生。众核处理器也被称为异构多核处理器,是指具有通用主核和大量异构从核的处理器。

引领这一趋势的是面向特定应用领域的处理器。如思科公司今年推出的ASR 1000系列路由器产品,采用了业内首款全集成的可编程处理引擎Quantum Flow处理器(QFP),内置40个内核。QFP处理器采用90nm212艺,在382mm2的芯片面积上集成了3.07亿个晶体管。

图形处理器(GPU)中集成的内核更多,NVIDIA公司今年推出了内核被称为Thread Processor(线程处理器)的GTX200,集成了240个内核,能同时执行3万个线程。在执行通用数据运算时,速率可达到1TFLOPS(每秒运算1万亿次)。

英特尔公司的Larrabee和Nehalem

Larrabee是由英特尔公司开发、集成了多个x86内核的图形处理器,并计划于2009年~2010年进入实用。Larrabee中集成了大量采用顺序执行(in-order)结构的Pentium内核。但由于仅凭Pentium内核进行图形处理还不能保证所需的运算性能,因此还为每个内核配置了向量处理单元,结果,其运算时的吞吐量超过了采用乱序执行结构的内核。

为保持各内核间的一贯性,每个内核里都集成了256KB的L2高速缓存,并采用环状总线连接L2缓存。据英特尔以往的产品推测,环状总线最多可连接约16个内核,环状总线之间采用的其它环线进行连接,以形成众核架构。

英特尔另外还了下一代面向PC和服务器的低功耗处理器Nehalem(开发代号)。Nehalem Core 17处理器具有4核结构,共集成7.31亿个晶体管,内建8MB的L3共享高速缓存。与现有处理器Penryn相比,Nehalem的指令级并行性更高。

低功耗的Nehalem采用了两种电源管理方法。首先,其引入了使处理器和高速缓存全部停止工作的深层休眠状态――C6状态。该技术在英特尔公司现有的Penryn处理器和面向移动设备的Atom处理器中已经得到使用。英特尔为此开发了Power Gate(电源门)技术,可以自动关断空闲的内核电源。公司还特别开发了新的工艺。为了获得极低的导通电阻,布线层上增加了7mm厚的铜金属层,同时还提高了抑制漏电流的关断电阻。

Nehalem中采用的另一种电源管理方法是其可支持“TurboM0de”高性能模式,在必要时可提高相应的时钟频率以提高处理能力。这样,电源控制就有可能更为精密。当处理能力有冗余时,可以增加某个内核的处理量,而关断其它内核的电源,以降低整体功耗。

Sun公司的通用多核处理器Rock

Sun公司在HOT CHIPS 20会议上的用于服务器的下一代处理器Rock也备受与会者瞩目。Sun公司在去年的HOT CHIPS 19和今年的ISSCC大会上都曾过Rock处理器,这次则是较为详细地介绍了提升Rock处理器多线程能力的两大关键技术:scout线程和事务型内存(transacfion memory)。

scout线程是为收集数据而先期实施的线程,它是一种指令级的并行处理方式,能够节省收集数据的时间。事务型内存用于将存储方面一连串的操作作为“事务”来进行管理,是为避免资源竞争且易于描述并行处理的一种方法。Rock处理器的特点是,当处理多个线程共享的数据(称为“临界区”)时,如果某一线程正在利用该数据,那么其它线程不会更改数据,因此可确保在多线程处理情况下读出数据的一致性,从而进行连续处理。

众核技术目前面临的课题是软件的开发。在数据并行性高的图像处理、识别处理等方面,众核架构的有效性已经得到确认。但对于事务处理等一般性处理,因为会遭遇资源竞争问题,因此较难实现并行化。事务型内存作为这一问题的解决方案之一而受到关注。

草木 编译

上一篇:日本电子元件工业走向何方? 下一篇:便携式系统的RF功率测量方法