Intel的融合术

时间:2022-10-13 07:48:17

当今显卡不仅具备强大的运算能力,在可编程性方面也有了长足的进步。面对显卡市场的高额利润。Intel在2006年成立了可视化计算工作组(visual Computing Group,简称VCG),并且希望在2007年底重返独立显卡市场,近期Intel VSG公布的最新研究成果震动了整个业界―Intel准备让GPU和CPU合二为一,凭借自己在CPU领域的霸主地位让GPU在未来彻底消失!Intel凭什么能让GPU在未来走人历史?就让我们一起探个究竟。

一“芯”多用,从根基撼动显卡世界

作为一个后来者,Intel如果在显卡市场和NVIDIA、ATi展开正面交锋显然不是明智之举。为此Intel希望在未来借助CPU市场的成功来统治显卡市场,CPU、GPU混合芯片的大胆尝试应运而生。Intel的研究表明,和GPU相比CPU具有不可超越的灵活性,但却在浮点运算能力和并行性方面远不及前者。而这两个特性对于图形操作来恰恰是至关重要的。一旦CPU具有强大并行性和浮点运算能力,再加上天生的完全可编程能力,GPU就彻底失去了存在的必要。为了实现这一目标,Intel提出了顺序执行多内核处理器的概念。

所谓顺序执行就是CPU按照每个线程的指令顺序依次运行的指令执行模式。而当今所有桌面CPU使用的乱序执行,则会由CPU自动将线程上指令分拆执行,最后再合成。对于单线程任务来说,乱序执行由于减少了指令之间的等待,因此具有极高的效率,但由于多出了指令分析和结果合成逻辑,所以要耗费大量的晶体管。顺序执行尽管效率只有乱序执行的1/3,但消耗的晶体管也少得惊人。在图形操作领域,指令具有很强的并行性,这也是顺序执行大显神威的地方。

当今Core2 Duo双内核处理器在65纳米制程下的芯片面积为140平方毫米。如果改用顺序执行单元,同样芯片面积能够容纳多达10个内核,每个内核都具有同步多线程(SMT)功能,这样Intel顺序执行处理器就能在一个时钟周期执行40条线程,从而达到1200GFlops浮点运算能力,远远高于GeForce8800GTX的346GFlops。如果这款芯片配合VLIW超长指令集,就能轻松完成各种Shader运算,从而支持DirectX 10标准。

除了集成度惊人之外,Intel顺序执行处理器还将和CPU一样具有4MB缓存。每个内核都具有独立的缓存区域,并且可以相互随时访问。这种实际共享但却又相互独立的缓存架构,使得每个内核都能获得充足的带宽――新架构使得芯片内部互联带宽达到了1TB/s,CPU与周边设备连接带宽也达到150GB/0s。

针对顺序执行处理器难以高效完成的抗锯齿和各向异性过滤操作,Intel考虑在芯片内部集成专门负责这些工作的固定单元,从而获得最高效率。另外,采用顺序执行之后的处理器的单线程执行效率极为落后。为了解决这个问题,Intel希望通过大量并行线程来弥补单线程的低效率――在实现40线程并行之后,顺序执行处理器的单线程性能已经达到了乱序执行的50%。

必须指出的是,采用了全新顺序执行架构和超长指令集之后,新的处理器无法兼容X86指令集,这意味无法在这款处理器上运行Windows等软件。由此看来Intel很可能在初期将这款芯片作为协处理器与普通X86 CPU配合,然后逐步接替更多的图形、声音等浮点密集操作,最后将GPU彻底赶出机箱。

结语

尽管我们无法在短期内看到Intel这款处理器和昱卡展开殊死搏斗,但是Intel顺序处理器使我们看到了图形芯片发展的全新道路,在SSE4指令集中Intel也增加了CPU-GPU交互的指令,也许这款顺序执行架构处理器仅仅是我们彻底摆脱显卡功耗和成本狂飙的发展怪图的开端……

上一篇:刻出个性自我玩转光雕刻录机 下一篇:改变QQ聊天信息对齐方式等