上下求索 第17期

时间:2022-10-04 02:35:28

2010年我们有充分理由相信,在全球TOP500最快性能超级计算机排行榜中会出现1Pflops超级计算机。但是要等到持续应用性能1Pflops的超级计算机系统的出现,我们恐怕还要走更长的路。

未来千万亿次超级计算机的构建将采用何种结构,是集群(Cluster)抑或是MPP?是继续依靠摩尔定律的发展,还是全新体系结构的突破?

我们基本可以预测,以FPGA(Field Programable Gate Array,现场可编程门阵列)、专用加速部件、通用商品化CPU为主体的混合异构结构将成为未来千万亿次超级计算机发展的主流,在这其中,将包括节能、PIM、流式计算、光互联、高效编译器、并行计算环境等诸多方面的创新和整合。

在发展千万亿超级计算机上,全球不同机构,包括公司、研究机构和用户,采用了不同的技术路线和方法,这里我们选取几个主要的方面来看看人们在千万亿次之路上的探索。

1.可重构计算

可重构计算结构能以较低的硬件复杂度,实现指令、数据及线程级的并行。FPGA能完成任何数字器件的功能,上至高性能CPU,下至简单的74电路,都可以实现。当前虽然FPGA的广泛应用尚存在诸多问题,如透明化结构的多样性,进一步提升不同算法硬件描述效率等,但是好消息却不断传来,包括:

FPGA硅晶体尺寸和速度不断优化完善;

编译器技术不断改进;

AMD Torenza 协处理平台开发

Intel前端总线系统架构开放计划;

降低功耗、减少成本、优化计算模型等诸多方面技术进展不断。

所有这些因素让可重构计算结构在系列计算密集型应用中具有较大的性能/功耗、性能/价格优势。在未来千万亿次研发之旅中,我们期待可重构计算能有着更为成熟和广阔的应用。基于可重构计算构建的高性能计算机系统包括:Cray XD1系统、IBM PERCS系统等等。

Cray于2004年10月推出了该公司第一款配有可重构加速部件的高性能计算机Cray XD1。XD1的每个计算节点中有6块SMP(对称多处理结构)节点卡,每个SMP节点卡上有两个单核心或双核心的AMD Opteron处理器。节点卡之间采用Cray的RAIS(RapidArray Interconnection System)系统互连,在节点卡上使用了RACP通信处理器(RapidArray Communication Processor),连接Opteron的HT(HyperTransport)通道和RAIS,实现了CPU和互联网络之间的紧耦合。RACP通信处理器的作用相当于传统的HPC中的网络接口卡,它可以将通信任务从主CPU中卸载下来,充分实现计算与通信的重叠,其MPI通信延迟只有1.7ms。同时,RACP通信处理器还提供了CPU、互连网络和FPGA加速器之间的高速互连通道。FPGA和CPU之间的通信带宽为3.2GB/s,FPGA的外部存储器为144位宽的QDR SRAM,访存带宽高达12.8GB/s。

2.专用加速部件

专用加速部件是指基于ASIC或FPGA实现特殊应用算法的硬件,从而达到较高的加速比和更低的计算能耗。典型的系统有日本的MD-GRAPE和GRAPE-DR系统。

MDGRAPE-3系统是专用加速部件应用的典型。之前也曾被称为“蛋白质探索者(Protein Explorer)”,它是由大量通用服务器组成,每一个服务器上都连接有运算部件,每个运算部件上都构建有24个日本理化研究所于2004年8月开发成功的分子动力学专用LSI(MDGRAPE-3芯片)。计算程序的一般算法由通用服务器执行,而分子间的库仑力和范德华力的计算则在专用LSI上进行。

3.混合异构结构

虽然目前还存在软件的可用性、任务调度、编程模式等诸多问题,基于标量处理器、FPGA、向量及多线程处理器、图形处理器等来构建混合异构的千万亿次超级计算机系统已成为可能的途径之一。典型的系统有Cray的Cascade系统和IBM的RoadRunner千万亿次计算机系统。

Cray的Cascade系统是一种非常典型的集异构与可重构为一体的超级计算机体系结构,基于Cray XT3/XT4未来版本的混合设计,以AMD多核Opteron处理器为核心,采用基于HT的3D Mesh网络互连,并在此基础上集成XD1中的可重构计算技术、X1E向量处理器技术、MTA多线程系统等多项技术。

RoadRunner也将是一个异构的混合系统,其包含1.6万颗Opteron多核处理器和1.6万颗Cell宽带引擎(CBE:Cell Broadband Engine),其中,Opteron处理器将负责一般的计算进程、文件I/O和通信,Cell将负责那些复杂的、重复的、大量消耗机器资源的计算过程,该系统的峰值计算能力将超过1.6Flops。

4.节能技术

大部分当前性能最快的TOP500超级计算机,其每瓦Gflops性能都在0.1以下。未来的千万亿次超级计算机系统,其每瓦Gflops性能应在1.0GFlops以上,除FPGA、液体冷却、低功耗专用芯片、芯片级冷却等技术以外,一些系统级节能技术也有望解决千万亿次能耗问题,包括:

基于负载情况动态调整系统状态;

实施部分节点或部件的休眠;

根据各进程能耗的不同对CPU任务队列进行调整,如将一些产生较多热量的任务从温度较高的CPU上迁移到温度较低的CPU上,从而实现能耗的均衡。

在IBM Roadrunner的设计中因其采用先进的冷却和功耗管理技术,据估计将节约50%以上的电能消耗,并能保证Roadrunner高效率工作。

2010年我们有充分理由相信,在全球TOP500最快性能超级计算机排行榜中会出现1Petaflops超级计算机,但我们如果以高效用为目标,这意味着系统将具有更好的扩展性、可靠性、均衡性、低功耗,也意味着将有更高效的编程算法、编程模型和编程语言,更高效的并行编译和并行编程环境。

如果期待这一天,期待实际应用中持续应用性能1Petaflops的超级计算机系统的出现,恐怕我们还有更长的路要走,也许是2016年以后,也许是2018年以后,路漫漫其修远兮,千万亿次超级计算机探索之路还很慢长,这条路最终将滑向何方?我们拭目以待!

上一篇:Sun与富士通共推新款SPARC服务器 下一篇:千万亿次的梦想与现实