“应用先导”引领HPC发展方向

时间:2022-10-29 09:30:21

“应用先导”引领HPC发展方向

高性能计算从某种意义上说,衡量了一个国家计算机产业的科研能力,同时也是支持生物工程、气候、科研、军事等关键领域快速、良性发展的基础。“高性能计算集群本身没有意义,有意义的是如何利用集群工具来创造出新的发明创造和科研成果,这才是高性能计算发展的要义。”这是日前举行的2008全国高性能计算学术年会上与会者达成的共识。

作为我国一年一度高性能计算领域的盛会,该年会始终是该领域专家、学者交流合作、前沿科研成果的平台。这次年会也是如此,其主题就是面向应用的高性能计算。

补齐应用短板

高性能计算机发展已经走过了三个阶段,1964年~1975年是高性能计算机发展的萌芽阶段,此后一直到1990年,向量机处于鼎盛时期,几乎占据了当时高性能计算机90%的市场。然而,向量机在发展中存在的先天问题也逐渐显露出来,尤其是标量速度一般应达到向量速度的1/3,否则整机速度会明显下降。同时,向量机在上世纪80年代末,还遭遇了一系列问题,尤其是受工艺限制,处理器频率难以提高。另一方面,32位、64位微处理器芯片的相继问世,引发了大规模并行计算机的蓬勃兴起。

从1990年发展至今,大规模并行计算机已成为高性能计算机的主流产品,体系结构发展活跃,尤其是1997年以来,以商品化部件(COTS)为主要技术实现手段的集群系统迅速发展,而自2005年开始,加速应用的系统也成为了重要的研究方向。这一发展时期的高性能计算机,其性能平均每四年就提高一个量级,今年IBM推出的RoadRunner已经突破了千万亿次(Pflops)的计算能力。美国自然科学基金会(NSF)已经提出了2010年的目标:至少一台高性能计算机的峰值性能达到1~10Pflops,以支持需要最高水平计算能力的挑战性应用。

“神威”高性能计算机系统总设计师――中国工程院院士金怡濂是我国著名的高性能计算机专家,他见证并推动了我国高性能计算机向大规模并行处理方向发展。在此次年会上,他做了主题为《高性能计算机的现状与发展》的学术报告。金怡濂指出,我国高性能计算机发展的主要瓶颈还是在于应用以及软件。

当千万亿次高性能计算机系统扩展到成千上万颗的处理器以及几百TB内存时,如何保障硬件系统的可靠性?在这样大规模的系统运行中,软件错误在所难免,又该如何延长系统的平均无故障时间?这些可靠性问题带来的挑战一点儿都不亚于提升数量级带来的技术挑战,而设计系统级的故障隔离、故障恢复机制,使系统具备容错计算的能力,终究还是从软件层面实现系统相关故障的隔离和应用迁移最为可行。

金怡濂认为,发展高性能计算、提高处理器性能水平应该与发展应用软件、提高编程水平同步进行。从处理器一端来看,它是研制国际先进水平的大规模并行计算机的关键;同时也要注意到,在一些特殊领域,采用相适应的定制芯片,也将使计算机性能较采用通用芯片大幅度提高;随着高性能计算机的发展,许多功能还将集成到处理器上,构成片上系统(SOC)。从软件一端看来,我国高性能计算机已经具有一定的研制能力,但应用面不够广泛,其原因是自主创新能力不强。推广高性能计算机就应该大力发展应用软件。伴随处理器快速发展,高性能计算机中处理器数量越来越多,编程瓶颈、存储瓶颈、输入输出瓶颈日益突出,应用程序编制难度也随之加大。“我们必须开发编程工具,提高编程水平,努力发展应用软件。” 金怡濂表示,大力推广应用是当务之急。

软硬协同发展

从企业端来看,英特尔无疑是高性能计算的重要推动者,它既是核心硬件――处理器的提供者,同时也在高性能体系结构中需要发展的各个技术领域都投入相应的技术力量。尤其在软件支持方面,用户的软件投资能否得到保护,与其技术路线图密切相关。英特尔高性能计算解决方案设计师Tom Metzger认为,集群架构和定制化系统的差距越来越小,达到相同计算能力的间隔时间也越来越短,这就是主流处理器的巨大力量,当然主流处理器最大的不一样还是性价比。

Tom Metzger在主题演讲中表示,硬件和软件的发展直接面向的就是亟待解决的能耗与扩展性这两大挑战。“从英特尔的角度来说,未来的能效之路就是多核并行,这是必经之路,也是驱动核心部件处理器继续提升能效的关键。”英特尔的技术驱动集中在三个层面,在芯片层面,就是在摩尔定律的驱动下不断优化能效比,而在服务器层面,随着Nehalem新架构,类似于Power manager这样的技术会在服务器平台层面对服务器能耗做到智能化管理或按需管理。在这两个层面,Nehalem还引入了Turbo模式,把不繁忙的处理器能耗省下来,把繁忙的处理器主频提升,这也是从节省能耗、提升能效的角度出发的新技术。而在基础设施的层面来看,英特尔要做的就是联合更多合作伙伴共同构造产业链,英特尔供应数据中心的核心部件,因而有能力驱动绿色计算组织一起合作。

“谈到能耗问题,更多的是从上述层面解决。但谈到效率问题,如何让软件厂商更快地适应新的多核架构,在大规模扩展的集群里让应用扩展得更好,这就是软件层面的问题,也就是效率和扩展性的问题。”英特尔高性能计算软件经理Sanjay Goil说,未来在超大规模的系统中实现扩展意味着用户当前编写或者使用的高性能计算代码要能在未来的多核平台甚至众核(many core)平台上实现可兼容的扩展。从这个角度来说,英特尔的工作重点在于让软件迁移、扩展变得更简单。“从当前多核到未来多核配合新指令集再到未来众核,我们致力于让程序得到很好的投资保护,让程序在更强大的硬件平台上更好地扩展。”

Sanjay Goil表示,众核其实就是异构的核,这表明英特尔也一定会面向高端做异构。但与当前的异构不同,编程模式将大大简化,可以实现编程方式一致,并且可以智能扩展。而这种优势是当前的混合架构编程不可比拟的。“能耗和软件编程难易度的问题将随着英特尔众核出现一齐解决,众核走的是轻量级多核道路,能耗表现会更好;同时,众核拥有强大的软件工具支持,虽然是异构的核,但是编程环境也非常简单。”

上一篇:云计算与数据空间 下一篇:联想网御万兆校园网安全解决方案