PC技术的瓶颈

时间:2022-10-29 03:03:07

PC技术的瓶颈

在PC技术领域,摩尔定律究竟还可以延续多久是大家非常关心的问题。本期,CHIP将与大家一起一探究竟。

更小、更强、更快――1965年诞生的摩尔定律对PC技术的发展做出了最著名的预测。直到今天,芯片上集成的晶体管数量仍然可以每隔18~24个月翻一番,硬盘和闪存盘的容量、速度也在不断提升。然而,在纪念摩尔定律发表40周年(2005年)的时候,英特尔公司荣誉主席摩尔针对他当年的预测说道“未来10~20年里摩尔定律也许还可以适用,但是随着硬件性能逐渐接近极限,摩尔定律终将走到尽头”。今天,我们甚至可以说,摩尔定律再有10年的生命就很不错了,因为2015年年底,将有不少技术遇到物理性能极限。具体来说:CPU核心的时钟频率自从2007年起就停滞不前;目前的传统硬盘结构将会在2012年遭遇瓶颈;如果按照芯片厂商的未来蓝图看,到了2015年,我们就要与计算机芯片的基础材料硅说再见了。但是,PC产业不会轻易“投降”,新的技术和材料终将战胜现有技术的物理极限。

芯片遭遇隧道效应

4年之内,芯片制程工艺就将达到11nm。如此微小的结构必然将不可避免地遭遇一些量子力学规律的影响。

瓶颈 按照英特尔的规划,芯片再过两代就会遇到11nm制程工艺的瓶颈,更小制程的晶体管由于物理限制,在性能上会受到波及,影响到CPU的精确计算。

如右图所示,在11nm~14nm晶体管的结构中,栅极长度只有5nm~6nm,栅极氧化层则更薄。在如此微小的结构中,隧道效应将会扮演相当重要的角色:根据量子力学的理论,微观粒子具有波的性质,所以存在穿过位势障壁的概率。如果绝缘层足够薄,晶体管中的电子就可能穿过它们本来无法通过的“通道”――1就可能突然变为0,所以到时候计算出1+1=3也就不足为怪了。

新材料取代硅芯片

解决方案 临时性的解决方案是预估CPU出错事件,即时检查并修正计算结果。英特尔已经开发出了新的栅极模型,可以识别出由超频引起的计算错误,当芯片检测出计算错误时,可以降低自身的芯片时钟频率,通过重新计算来修正计算结果。现在市面上的部分处理器已经支持该功能,但是对于未来的芯片而言,这只是一个修正因芯片设计问题引起的计算错误的过渡方法。

需要为整个晶体管结构寻找新的原材料,才可以完全避免因11nm制程CPU隧道效应引起的计算错误。第一个候选者是石墨烯,因为电子可以自由地通过石墨烯的“扁平”原子层结构,做到100GHz甚至更高的时钟频率。但是,石墨烯没有硅稳定,石墨烯晶体管必须永远保持通电状态,否则,就会丢失存储的电子及状态值(1或0)。相比之下,钼(Mo)有着更好的应用前景,它是单分子层材料,不仅可以做到体积更小、功耗更低,所以可以像半导体硅一样适合用于制造晶体管结构。现在,使用石墨烯和钼作为原材料的芯片原型已经出现。

但是,即使采用石墨烯或者钼代替半导体硅的实验最终成功了,芯片生产工艺还面临着另一道难关――光刻曝光技术。目前,32nm制程CPU采用的是成熟的193nm沉浸式光刻曝光技术,浸入液的折射率和掩模层技术决定光的波长和最终的结构。采用多重掩模技术后,沉浸式光刻技术甚至可以用于11nm制程工艺。来自尼康公司的光刻技术专家称,11nm制程工艺需要8次曝光完成。而造价昂贵的下一代13.5nm波长光刻技术EUV(极紫外线光刻)技术可以更高效地进行光刻,但是它也面临着问题:未找到合适的光源、没有无缺陷的掩模。

散热大难题

散热问题也是摩尔定律的绊脚石之一,这个问题困扰着当今的CPU制造工艺,阻碍着多核心CPU发挥最高的性能。

瓶颈 在奔腾4处理器的时候,英特尔预言“到2011年,CPU的频率将可以达到10GHz”。其实,关于CPU时钟频率的神话是一个不大不小的陷阱:这么多年来CPU时钟频率一直被认为是决定处理器性能的唯一标准,其实,处理器的性能主要由整体架构设计决定。CPU内核时钟频率由晶体管栅极的长度决定,现在随着栅极的长度变小,提高CPU的时钟频率变得有可能。但是,随着栅极的减小,漏电电流就会上升,只有采用新的材料比如铪(Hafnium)才可以有效改善漏电电流的限制。

时钟频率的增加意味着功耗的上升和热量的产生,AMD和英特尔为了保证CPU的功耗不超过150W,将现在单个核心的时钟频率控制在4GHz之下。但是服务器CPU需要更高的时钟频率,IBM已经将Power6处理器时钟频率提高到5GHz,并且支持超频,使用液氮为CPU降温,更是创下了8GHz频率的最高记录。

提高运算性能不依赖于增加一个处理器核心的时钟频率,而是依靠越来越多的处理器核心并行计算,尤其是执行特定计算的专业处理器内核。

专用内核为电脑提速

解决方案 除了CPU之外,电脑中另一个承担计算任务的是图形处理器(GPU)。AMD和英特尔分别开发了Fusion和Sandy Bridge平台,将CPU和GPU集成于一个芯片上,并且 CPU核心和GPU核心共享高速缓存。其中,Sandy Bridge平台引入的环形总线,巧妙地解决了共享三级缓存带来的性能缩水问题,Fusion为我们带来了超低功耗、不必担心散热问题的新处理器平台。

对于整合型的处理器而言,在执行大量并行计算任务时,比如图像处理、视频播放、编解码等等,如何为GPU和CPU合理分配任务是软件开发者必须重新思考的问题。目前,只有少数人掌握了OpenCL和DirectCompute等开放式通用计算并行编程标准。

AMD提出了“异构计算”的概念,特定的计算核心执行特定的任务。这个概念对于智能手机和平板电脑非常重要,到了2012年,新一代移动终端将会采用超过12个核心的处理器。其中,4个ARM架构处理器核心的功能与传统CPU相当,分别执行常规任务和密集型计算。这4个内核被8个执行特定计算的专用内核包围,它们可以执行以前只有高性能CPU可以运行的任务,比如解码全高清电影、处理3D图像显示等等。这种架构不仅可以更加高效而且可以降低功耗。目前看来,“异构计算”为移动终端设备性能带来的提升是显而易见的。

多核高性能的代价

瓶颈 更多的CPU核心意味着更强的运算能力――这是计算机产业信奉的“真理”。但是摩尔定律并不适用于多核CPU领域,在这里起作用的是“阿姆达定律”,它的大意是:一个程序存在两个部分,“只能串行计算的部分”和“可以并行计算的部分”,多核为程序运行速度带来的提升取决于“可以并行计算的代码”所占的比重。如果“可以并行计算的部分”占的比重极少,那么多核带来的速度提升就会非常有限;如果“可以并行计算的部分”占50%的比重,那么无论采用多少个核心的CPU,该程序的运算速度只能翻1倍。David Patterson在并行计算领域非常有声望,他一针见血地指出了问题的所在“芯片制造商忙于生产更多核心、更高性能的微芯片,但是却没有几个程序员可以写出真正可以发挥出这些芯片性能的代码”。更别提,就算是对于视频处理这样可以最大程度获益于并行计算的程序,由图形显示卡硬件加速带来的速度提升也远远高于CPU核心的增加。

解决方案 对于并行计算的研究,有一个共同的结论――单纯通过软件的方法对性能的提升是有限的,硬件架构也需要匹配。英特尔试验性的研究项目Anaphase正是如此:这个硬件与软件的混合体编译器可以智能地将单线程程序“分拆”,这样就可以在多个内核上处理这些程序。由于单线程的“分拆”会有潜在的故障危险,所以英特尔引入了一个被称为Inter-Core Memory Coherency Module(ICMC)的新单元,它会更新程序排序的内存状态,检测内存错误,实施检查点和恢复机制来修复错误。未来,待技术成熟之后ICMC模块将会集成到英特尔处理器设计中。美国马里兰大学教授Vishkin主导了另一个新项目,为C语言程序加入两条多线程化代码命令,从而实现更精确的管理多线程计算。其中,Spawn命令负责为代码分配多个线程,执行并行计算;Join命令整合并行计算的结果,执行串行计算。

简化进程管理的一个小而高效的步骤是提供硬件加速。CPU队列包含了CPU待执行的软件和操作系统的线程列表。高速缓存中的队列越长,系统运行速度就越慢。如何将队列进程拆分为更多的线程,是并行计算的关键。北卡罗来纳州大学的HAQu项目致力于重新定义线程管理的架构,利用新的处理器指令集SSE和MMX直接处理队列,有效地提高CPU执行效率。通过在处理器内核中加入新的硬件QF Unit模块(Queue Functionnal Unit),使用专用的高速缓存去处理待运行的线程表,管理并发线程。

硬盘容量极限

1TB、2TB、3TB、4TB……如果不是“超顺磁效应”的影响,传统硬盘的容量提升或许真会无可阻挡。

瓶颈 硬盘的容量每隔16个月就会翻倍,对于硬盘制造商而言,满足每年新增的4000万TB存储容量并不会遇到太多的困难。但是同时,采用4颗盘片的典型3.5英寸硬盘的存储密度也在不断上升。以目前市面上最多的3TB硬盘为例,单个盘片的容量达到750GB,硬盘制造商希捷和西部数据认为,当单个盘片的容量达到1.3TB~1.4TB的时候,由于磁存储密度的增加,将会遇到超顺磁效应的影响。

1位(bit)数据在硬盘上需要一组金属微粒来表达,通过金属微粒磁化后的移动来确定1位数据的值。可以通过减少微粒的大小或者数量来增加磁存储密度,但是硬盘的读取头需要超过20个微粒才可以有效识别出1位数据的值,否则将会受到磁转变噪音(Magnetic Transition Noise)的影响,使磁场强度降低,而微粒越小磁性就越不稳定,最终导致存储失效。

增加数据存储密度的两条路

超顺磁效应的产生由两个因素决定:微粒的大小和磁性材料的磁晶各向异性能。磁晶各向异性能的大小就是磁头读取数据时克服磁强度的大小。微粒的体积越小、磁晶各向异性能越强存储信号就越稳定。但是磁晶各向异性能越强也意味着磁强度越难克服,读取头越不容易读取数据。但是,如果激光写入的时候,磁微粒被加热,他们的各向异性能就会降低到读取头可以读取的程度,这就是“热辅助磁记录”技术的理念。希捷预言,HAMR技术可以将磁盘的容量再增大10倍左右。目前看来,传统硬盘的微粒直径在6nm左右,采用HAMR技术的铁铂基合金微粒的直径只有3nm,磁存储密度可以增大5倍。但是因为缺少可以精确在纳米级别、加热到500℃的激光,HAMR原型目前还无法完全发挥出潜力。

其实,超顺磁效应也不是完全不可避免的,可以采用数量更少但是体积更大的微粒组。西部数据和东芝在开发一项被称为“位元规则介质”(Bit Patterned Media,BPM)的技术,该技术将粒子组孤立起来,增加信噪比。BPM硬盘包含一系列凸起而不是传统的扁平型硬盘。东芝已经开发出了第一个模型,每个凸起的直径为17nm。东芝硬盘的读写头只可以读取磁性,却无法改变磁性(写入)。另外,BPM硬盘的大规模生产也是一个问题,这种盘片需要使用芯片领域的光刻技术实现,技术成本比传统硬盘要昂贵很多。

闪存变得不可靠

瓶颈 固态硬盘读写速度的提高势不可挡。但是,也有越来越多的迹象表明,固态硬盘同样面临着技术局限。采用25nm工艺的固态硬盘已经问世,下一代20nm工艺固态硬盘也在计划之中。但是,20nm之后会遇到什么情况,固态硬盘制造厂商也不清楚。其中的一个困惑就是闪存单元的结构:通过浮动栅极晶体管技术控制电子的移动,电子的分布决定了闪存单元的位值。常规的MLC闪存存储单元可以保存4个电荷,得到2位(bit)数据。但是,每次存储必然伴随着部分栅极氧化物的消失,达到一定程度的时候,闪存单元就会失效。也就是说,闪存单元越小,就越容易失效。

解决方案 最简单的提升固态硬盘数据存储密度的方法就是在一个闪存单元中存储3位(bit)数据,但是这会增大数据纠错负担。为此,固态硬盘制造商美光改善了闪存系统设计方案,加强了系统的ECC纠错能力。另外,未来3D存储单元也是一大趋势,东芝计划在2013年之后生产3D闪存单元,它是否可以成为未来的主流技术还不得而知,但是已经有更多厂商投入这场研究之中。

相变存储器技术(PCM)是一种基于硫族化物材料的晶态与非晶态两相的转换作为存储信息的技术。它的典型材料如锗-锑-碲合金或其他类似的硫族元素的可能组合。在相变存储器技术中,合金材料通过加热探头,在不同的条件下加热或者冷却,形成晶态与非晶态两种电阻率不同的状态,从而得到两种不同阻值代表的0和1。相变存储器的读取速度与内存相当,但是写入速度一般,因为写入操作需要将原材料在瞬间加热到600℃。如何降温是该技术亟待解决的问题之一,只有做到快速冷却,才能保证存储数据的可靠性。

另一个候选技术是磁阻式随机存取器,它的存储原理基于隧穿磁电阻效应,研究者试图利用流过MRAM存储元的电流来改变它的存储状态。磁隧穿结型MRAM是MRAM的主流类型之一,它的典型结构为:两边是铁磁层,中间一层为绝缘层,其中一层铁磁层为自由磁层,磁化方向随外加磁场的方向而改变,另一层为硬磁层,磁化方向不会因外界影响而发生改变。目前该技术面临的问题是由于磁性多层膜加工工艺的限制,很难精确控制存储元的状态的改变。据称,新一代的磁阻式随机存取器技术,自旋转移力矩随机存取内存(STT-RAM)已经问世了。STT-RAM解决了目前传统MRAM技术遇到的大部分问题,采用新的存储机制,不仅耗电量更低,而且制程更精密,只是目前制造成本还非常高,距离正式商用至少还需要3~4年的时间。

上一篇:未来之家 第6期 下一篇:自动删除过期照片