高性能计算HPC梦想征途

时间:2022-08-20 11:56:25

高性能计算HPC梦想征途

让欧洲粒子物理研究所(CERN)的科学家们找到“上帝粒子”的,是一个全球性的超级计算机网络。它帮助科学家们从5年累积的海量监测数据中,找到了希格斯玻色子存在的证据。

美国国家大气研究中心怀俄明州超级计算中心,刚刚上线了每秒能实现2万万亿次运算的气候研究超级计算机,用以分析研究中心和美国海洋暨大气总署(NOAA)在过去半个世纪里统计的地面和天气观测数据,它能模拟大气或海洋的变化,对暴雨、飓风进行准确的追踪、预警。

淘宝的量子统计系统是淘宝掌柜离不开的工具,它能对销售、收藏等数据进行实时分析,让掌柜们随时了解顾客的喜好、地理位置,分析、解读店铺的经营状况。作为淘宝进行服务增值的利器,它同样是依靠高性能计算实现的。

……

近十年来,高性能计算的每一步发展都推动了科技、商业的深刻变革。在超级计算系统不断刷新记录的同时,人类在军事航天、核工业、能源勘探、天气预报、生命科学、基因分析、游戏视频制作、电力、教育、工程、政府决策、互联网服务等众多领域,也获得了飞速发展的可能。

在今年6月召开的2012国际超级计算机大会上,超算TOP500排行榜单(以下简称TOP500)中全球最快的超算系统的浮点运算速度已经达到了16.32 PetaFLOPS(千万亿次/秒)。仅几个月后,美国橡树岭国家实验室刚刚建成的超级计算系统Titan,就凭借20 PetaFLOPS以上的峰值性能改写了这一记录。在刚刚结束的2012年全国高性能计算学术年会上,与会专家预测:峰值100 PetaFLOPS的超算系统将在2014年到2015年之间出现在中国。

超级计算系统从P级计算(PetaFLOPS,千万亿次)迈向E级计算(Exascale,百亿亿次)时代的时间表越来越明确,未来的无限可能将如何展开?面向云计算、大数据时代的应用,E级计算面临的真正挑战又是什么?对于中国,超级计算这条路又应该如何走下去?

E级计算猜想

技术对国家发展带来的巨大实惠远超人们的想象。据IDC预计,百亿亿次级计算将极大推动科学进步,增加各国的工业和经济竞争力,改善人们的生活品质。这也是为什么今天美国、日本、中国、俄罗斯等和欧盟,均在E级计算领域不惜投入展开激烈竞争的原因。

科技、经济发展对高性能计算的依赖,已让计算力成为国力的表征。在美国能源部(DOE)的一份关于百亿亿级计算的研讨报告中,曾经充分论述了百亿亿级超级计算系统在美国能源与环境、国家安全、高能物理、核物理和天体物理等研究项目中的价值。在这份报告中,百亿亿次计算被视为支撑核能、生物学与生物燃料、材料、气候建模研究,确保国家核储备安全,以及探索宇宙奥秘和发现微观物质组成的“必要条件”。

在通往E级计算时代的阶梯上,中国与美国的差距到底有多大呢?在TOP500排行榜中,中国的两套超算系统“天河1A”和“曙光星云”进入了TOP10榜单,分别排在第五位和第十位。“天河-1A”的Linpack性能已达到2.57 PetaFLOPS,峰值达到4.7 PetaFLOPS。在TOP500

的榜单上,中国有68套超算系统上榜,成为仅次于美国的第二大超算国家。

国际超算权威专家、TOP500的发起人之一Hans Werner Meuer博士曾用“极具震撼力”来形容中国超算的发展。2011年,中国了首台自主研发CPU及底层系统的千万亿次超算系统“神威蓝光”,将全世界高性能计算领域技术专家的眼光转移到中国。Hans Werner Meuer

在接受Super Computers记者的采访时表示:“‘神威蓝光’意味着中国已经形成了足以改写未来产业格局的技术储备。”

在2012中国高性能计算TOP100(以下简称中国TOP100)榜单上,共有8家厂商上榜,国内厂商数量为6家,国外厂商只剩下IBM和惠普两家。曙光以36%的份额超过IBM,夺取了TOP100数量份额第一的宝座,浪潮则以12%的份额位居第三。中国计算机学会高性能计算专委会秘书长张云泉认为,曙光与IBM之间的竞争正在加剧,而浪潮等厂商崛起,意味着中国本土厂商在高性能计算市场位置的巩固。在应用领域,由中科院计算技术研究所自主研发的龙芯系列CPU,也开始在嵌入式应用、桌面应用、服务器应用领域处处开花。现在,龙芯在工业领域的市场份额已达到了5%。基于未来“百亿亿次”计算时代的众核架构应用,浪潮还推出了全自主研发的HPC专用“云冈”刀片服务器等产品。

E级计算不得不推倒“能耗墙”

采用了8700个计算核心(SW 1600)但电力消耗仅为百万瓦特,这正是让Hans Werner Meuer等高性能计算领域的专家对计算性能与英特尔处理器相当的“神威”CPU刮目相看的原因。

超级计算机在性能提升的同时,也带来了能耗问题。“天河1A”要想达到百亿亿次计算级别,必须付出16亿瓦的耗电量,相当于200万个家庭的用电量。在高性能计算发展到P级计算时,能耗问题的严重性就已经显现。IBM深度计算部门副总裁戴夫·特瑞克曾表示,一台只配置中央处理器处理核心的P级超级计算机的能耗约为20亿瓦特,相当于一个中等规模的原子能核工厂的耗能,降低能耗必将成为研究人员考虑的重点。

“高性能计算机的计算速度每十年提高1000倍,大规模应用已经表现出对超高E级计算机能力的需求。但是,根据ITRS预测,未来高性能CUP的功耗将达到120~200W。”在2012年全国高性能计算学术年会上,国防科技大学杨学军院士指出,“能耗墙”将是E级计算将要面对的最大挑战之一。

“每一代芯片的发展,都会使能耗问题变得更糟,未来计算架构必须使系统更加高效才能解决这一问题,未来的高性能计算必将走向混合计算架构。”NVIDIA的Tesla事业部CTO Steve Scott在大会演讲中谈到,为了解决能耗问题,高性能计算的架构演进已经出现了明确方向。

英特尔资深院士、数据中心及互联系统事业部首席技术官、架构事业部和数据中心及互联系统事业部拓展部总经理 StephenS.Pawlowski告诉记者,晶体管本身的耗电问题将成为E级计算发展的羁绊,电压升高可以提升计算能力,但同时又会造成系统稳定性下降,必须为此寻找一个合适的平衡点,在控制能耗的同时还能提升性能。

他指出,要在20兆瓦内做到E级计算,意味着数据在整个系统内部的能耗必须降到20皮焦以内。而现在数据仅从内存迁移到计算单元就大约会产生50皮焦的能耗,让20皮焦变成整个系统内数据移动的全部能耗几乎是不可想象的任务。但如果不完成这个任务,人们就没有办法在有限能耗下完成E级计算。据介绍,英特尔目前正在尝试通过尽量减少数据在系统内移动路径的方法节能降耗,类似的思路也被扩展到了片上通信、片间通信及系统内部通信过程的节能降耗。在他看来,减少数据移动的路径将成为在20兆瓦内做到E级计算的有效方案之一。

谁在束缚E级计算释能

高性能计算应用大多是数据密集型和计算密集型相结合的,对计算和I/O的处理能力都有较高的要求。数据的I/O瓶颈一直是制约高性能计算释放计算能力的关键因素:如果集群中的节点无法获得高速率的数据传输性能,其计算性能也无法获得充分发挥。

高性能计算发展到今天,超级计算机需要处理的任务也越来越庞大复杂,集群需要支持多种类型的数据流。过去只能在同一集群中采用不同类型的互联网络,而这些网络又拥有各自的网络协议,因为网络性能和特性的不同,反而会束缚高性能计算数据中心计算性能的释放。不仅如此,数据中心的运维、管理也会因此而格外复杂。目前,集群计算、存储区域网、网格计算、内部处理器通信等,都在对高带宽、高扩展性、高QoS以及高RAS(Reliability、Availability and Serviceability)产生迫切的需求。目前,石油勘探行业对高性能计算系统的需求已经显露出对E级计算能力的渴望。石油勘探领域的用户非常关注如何将应用迁移到Hadoop架构,以解决计算性能的提升和成本的降低等细节问题。在本次全国高性能计算学术年会上,当记者向美国俄亥俄州立大学的Dhabaleswar K. Panda教授咨询石油勘探应用向Hadoop架构迁移可能存在的风险时,他指出最大问题正是要解决网络通信的瓶颈。“Hadoop架构只有在完成网络优化后,才有可能实现计算性能提升和成本降低的双向受益。如果没有高效的网络通信,基于Hadoop架构的计算平台只是鸡肋。”

“网络通讯将成为E级计算发展的瓶颈。”国际高性能计算咨询委员会主席、Mellanox全球市场开发副总裁Gilad Shainer认为,传输介质所能提供的带宽、传输速率以及数据传输的稳定性和成本效益,都将成为影响超算中心计算能力的关键因素。从操作管理的角度来看,传统方案已经让高性能计算数据中心的维护费用上涨到硬件成本的8倍。从功耗的角度看,用于冷却的能耗费用也上升为硬件成本的两倍。但在很多数据中心,却有超过一半的CPU处于无应用负载的闲置状态。他认为,面向大数据、云计算等应用需求,Infiniband标准显然更具优势。

在Top500榜单中,目前有41.2%的超算系统采用了Infiniband互连技术。据统计,中国超算Top100榜单中,位于前十的系统,也有半数都采用了Mellanox的Infiniband产品,如天河一号、曙光星云等。Gilad表示,Infiniband互连技术在高性能计算市场的占有率已经超过了以太网,高性能计算的网络标准已经转变,这是未来发展的一个趋势。从成本和性能的角度来看,Infiniband的特性比以太网更胜一筹;在扩展性方面,Infiniband的前景也要更好。据他介绍,56Gb/s FDR是当前最高带宽、最低延迟的Infiniband产品,具有最快的网络连接速度和最低的CPU开销。它具有完整的I/O架构包括适配器、交换机、电缆和软件,能够实现12GB/s的网络带宽,是QDR的两倍,延迟却只有0.7us,是QDR的一半。

超算竞赛将是应用的竞赛

TOP500榜单,只是一次计算力的竞赛结果。比如亚洲最快的超级计算机“K Computer”,虽然在LinPack测试中获得了高分,但其对实际应用的贡献还非常有限。仅将某些超级计算机变成“计算超人”,并不能代表一个国家在高性能计算领域的真正实力。

从今年中国TOP100榜单超算系统的行业分布情况来看,超级计算机的应用领域比去年有所下降。机器数量上变化最明显的是互联网领域,从去年的21%增加到今年的35%,工程领域的占比为11%,首次排到第三位。

在中国科学院计算技术研究所所长孙凝晖看来,虽然中国目前在高性能计算的技术方面与领先国家还有差距,但中国在应用领域的需求却走在了世界的前列,这一变化不容忽视。特别是在互联网和通信领域,中国产生的应用负载需求可能是任何一个国家都难以出现的。

“当前如何让高性能计算承载互联网应用的发展,也是国际领先科研机构和技术领导型企业需要攻克的难题,而如何降低成本、制造更加便宜廉价的产品,满足更广泛的需求,这些问题全球的研究机构和技术企业都是无解的,大家又站在了同样的起跑线上。”他指出,未来中国需求将刺激高性能计算领域的技术发展,中国在高性能计算领域的研究一旦在互联网这样的领域解决了中国的问题,也会连带解决世界的问题。

HPC商业应用新方向

在商用市场,HPC的技术发展正在成为CIO们最关心一个话题。未来,HPC在商业市场的应用前景如何,HPC云与商用云的区别在哪里,HPC在大数据领域又将如何前行……

Platform Computing于去年10月被IBM收购。这家企业服务于全球2000多家客户,包括30家最大规模跨国企业中的23家,欧洲核子研究组织、花旗集团、英飞凌、红牛车队、挪威国家石油公司都是它的客户,它还是HPC在全球商业应用的软件事实标准制定者。针对HPC商业应用的热点问题,本报记者独家采访了Platform Computing

联合创始人,IBM系统与科技部Platform Computing全球开发总监王敬文博士。

大数据HPC

中国计算机报:传统的HPC主要用于科学计算,而IBM Platform Computing却在商业领域推进了HPC的发展,为HPC打开了更为广阔的天地。

王敬文:传统应用就像“象牙塔”中的HPC,而我们希望它能够应用于各行各业。可以说我们的技术重点有三个领域,一是将HPC的计算推广到商业领域,二是让HPC用户从现有的IT模式转入到云计算模式,三是让HPC在新兴的商业分析和大数据领域发挥作用。

中国计算机报:新兴的商业分析和大数据是未来资源密集型计算的重要领域,能够应用HPC也是一个新的增长点。

王敬文:是的。其实生命科学、CAE、EDA,以及HPC在石油等领域的应用也还只能算是传统的HPC应用。在现今的经济体系下,模拟和分析能力是产品竞争能力的关键,因此商业模型和数据分析应用是HPC商用的发展方向。

这主要分为计算密集型和数据密集型。计算密集型是一种随机过程,模拟未来经济如何发展,根据市场数据计算承担风险。这个模型在银行当中应用很多,比如金融市场和信用风险与保险领域的应用,包括金融衍生品,定价与风险价值模型,信用风险。

数据密集型分析则是最近两三年热起来的“大数据”,包括防欺诈检测、Web分析,以及用户行为分析。大数据最开始热在Web分析,实际上最大的潜力不是Web,而是商业、银行、电信、零售、政府、安全各行各业当中的大数据应用。

中国计算机报:新的需求需要全新的应用软件结构,不能按照传统的模式。那么,Platform Computing

的产品架构是怎样的?

王敬文:我们的产品构架很明晰,最高层是应用,最低层是设备。理想状态下这些应用直接在设备上运行,但现实是多台计算机组成集群,操作系统不同,有Windows、Linux、KVM,存储设备各异,用户有很多,应用也千差万别,比如制造业、石油、科学计算、智能商务、金融分析、大数据分析。这么多的应用怎么使用这些分散的设备呢?这就需要软件来组织,因此设备之上一层是动态集群管理平台,也可以说是一种云技术,它使得HPC动态调配,按需变化,自助服务。

机器配置好了怎么与应用结合?动态集群管理平台之上就是应用管理中间件,通过一个界面,让用户把需求描述出来,并找到最合适的资源。当然软件是不同的,有的串行、有的并行,有的长作业,有的短作业,应用环境也不一样,所以我们有两大家族的软件来支持。一个是LSF分布式批处理应用管理平台,另一个就是Symphony并行SOA分析类应用管理平台。这个结构不是传统的物理模型,而是随机的模型,这和传统的机械计算、工程模拟的数据模型完全不一样,它更适合于做经济模型的模拟。另外,我们也支持第三方应用管理中间件。

架构的演变

中国计算机报:软件在HPC领域是非常重要的,传统的一对一开发不利于HPC的推广。那么在没有Platform Computing之前,所有HPC用户都是自行研制和开发么?

王敬文:可以这么说。因为我们成立公司之前,在20年前,HPC集群用的是工作站,主要是UNIX平台。大部分用户一台计算机不够用了就用两台,手工编写程序脚本,模拟和分析规模都很小。而有了我们的产品之后,用户就可以同时应用几百台计算机。

中国计算机报:几百台都是x86架构服务器吗?

王敬文:不是,最开始都用的工作站,那时都是价格昂贵的机器,几百台已经是很大规模的计算集群了。上世纪90年代末 x86才开始正式进入普及, 2000

年以后慢慢转向x86架构。而我们的软件业大大降低了单台x86服务器故障对整体集群所造成的影响,减少了x86的不可靠性。

中国计算机报:我们不得不提银行领域应用的z系列主机,我们知道在国外HPC的商业应用客户有一部分来自于银行,那么两者有什么区别?

王敬文:主机应用很多是“Bank office”,每天做完交易,每天要结账,所有用户的账号是绝对不能出错的,不敢冒哪怕是百万分之一的风险。所以,主机的可靠性很重要的。从这个角度看,很多银行客户的“Bank office”数据交易的关键应用都在主机上,作为一种通用的商业机器,它的特点是可靠,以前的应用都一直保持,几十年前的,很老的语言都继续支持,有很好的历史兼容性。

而HPC在银行业的应用主要是“Analytics Computing”,用于数据分析。数据是存储在固定的地方,分析之后再做结论。而且HPC是高并发式的,一旦出问题还可以重算,但如果用户存款、取款就不可以出现重算的可能。此外,计算密集型需要很多个CPU同时运算,里面用的全部都是数学模型。

HPC云不用虚拟化

中国计算机报:HPC云和一般商业云的区别在于很少用到虚拟化,这与我们一直在商业云领域强调的虚拟化是云化的基础截然不同。那么HPC云和商业云的主要区别在哪里呢?

王敬文:个人认为,HPC首先强调的是高性能。虚拟化在技术上其实是在硬件上又加了一层虚拟机,需要通过软件模拟实现,从某种程度上会降低机器的计算速度。对于性能要求很高的HPC应用并不应该采用虚拟化方案。事实上大部分HPC用户是比较排斥虚拟化的,至少目前阶段是这样。

另外,HPC云的分配单位是集群而不是虚拟机,关注的是整体容量。HPC云所分配的资源,其硬件基本架构是一样的,系统配置也是一样的,所以从云实现的角度来讲将更容易。但商业云则完全不同,每台服务器的硬件、软件配置可能完全不同,个体配置复杂,更适合用虚拟化方案。所以,HPC云的配置是可以批处理的,但商业云中的每一台服务器则需单独处理,云管理更为复杂。

中国计算机报:HPC云一般应用在什么地方?

王敬文:HPC云普通应用在计算中心,比如中国应用较多的是超算中心,国外有很多大型研究中心,也会借此进行化学、生物等领域的研究。

HPC的昨天、今天与明天

与原子能、航天等领域的高精尖技术一样,高性能计算(HPC)也诞生于军事需求,其发展在相当长的时间里都是为军事用途所驱动的。上述重大项目的实施往往需要智力、技术、资金的高强度投入,因而注定是国家行为,也决定了其最初用户往往是国防部门。

在军事与摩尔定律的双重驱动下,HPC在不断追求更高性能的同时,也从军事、科学计算扩展到技术计算、商业应用乃至公共服务。如同电力、通信、交通等一样,HPC成为社会基础设施只是时间问题。

军用需求催生HPC

HPC的历史源头可以追溯到1946年,应美国陆军军械部要求,美国宾夕法尼亚大学研制了ENIAC计算机,用于炮弹弹道的计算,这也是全球首台电子管计算机。之后,ENIAC的两位研发者于1951年为美国人口统计局研发了UNIVACⅠ,这台商品化的计算机开启了公众服务先河,严格意义上说,当时UNIVACⅠ还不能算是商业应用。

最早把核物理和计算机这两个领域联系起来的是哥伦比亚大学。早在1939年,物理学家费米在哥大普平实验室用实验证实了原子的裂变。1942年,来到芝加哥大学的费米主持研发了核反应堆,实现了受控原子裂变反应,从而用实验证实了原子弹的裂变理论,人类从此进入原子能时代。3年后的1945年,老沃森在哥伦比亚大学设立了IBM第一个实验室沃森科学计算实验室。1953年,沃森实验室研发出IBM 701计算机,这是IBM推出的第一台计算机,也是IBM进入计算领域的起点。

也许,上述发生在哥大的两件事只是一种巧合,但高性能计算技术与核技术相辅相成地发展,却是不争的事实。在今年6月最新的全球HPC500强中,美国性能最高的3台机器分别安装在美国能源部下属的洛斯阿拉莫斯、阿贡和橡树岭等3家国家实验室。

在核技术应用拉动HPC技术发展的同时,半导体技术则是HPC技术发展的驱动力。在晶体管问世后不到7年,贝尔实验室于1954推出全球首台全晶体管计算机TRADIC。

HPC将成为基础设施

HPC追求的是性能为王,当HPC的性能尚不能满足核武这样单一应用的需求时,HPC必须针对特定的应用进行性能优化,与此同时,高昂的拥有和使用成本也只有军用、气象、石油勘探等极少数的用户可以承受,因此,HPC长期都是专机专用。

然而,伴随着信息技术的发展,商品化的通用处理器和通用图形处理器不断增进HPC的性价比;而集群架构以及其后的虚拟化技术使得HPC在多任务的动态部署与管理上变得方便起来。当用户无须拥有HPC而只须为使用付费时,应用门槛大为降低,HPC也就从专用走向通用。

我国商用高性能计算的先行者曙光公司,于2001年推出曙光3000,开始了HPC通用化的探索。到了2008年,曙光5000A成为我国首个进入全球超算500前10名的商用HPC,更大的意义在于它是当时全球性能最高的通用高性能计算系统。以曙光5000A为核心的上海超级计算中心,在2000年已经拥有300多个用户,涉及航空航天、汽车、核电、钢铁、机电装备、市政工程、油气勘探、气象、气候、生命科学、药物、新材料、物理和化学等多个领域。

迈向百亿亿次

如果个人计算过去四十多年的快速发展让人们感叹不已,那么,HPC性能发展的速度更令人惊讶。从1961年IBM7030的1.2MF(百万次),提高到1983年苏联M-13的2.4GF(10亿次),再到1997年英特尔ASCIRed的1.338TF(万亿次),直至2008年IBM走鹃的1.026PF(千万亿次),HPC性能每提高1000倍所用的时间,依次为22年、14年、11年,而据预测,2018年,HPC将迈入百亿亿次时代,此番1000倍性能的提高预计只用10年时间。

近十多年来,我国的HPC发展速度更为惊人。2008年曙光5000A首次挤进全球超算500强前十阵容,排名第十;2010年国防科大为国家超级计算天津中心建造的天河一号跃居全球超算500强首位;2011年,国家并行计算机工程技术研究中心为国家超级计算济南中心研制的神威蓝光落成。

神威蓝光从处理器到系统软件都是自主研发的,因而成为我国第一个自主可控的千万亿次HPC。虽然神威蓝光在当年中国HPC百强中名列第二,但研发单位表示,神威蓝光采用的是万万亿次体系架构,言外之意,神威蓝光还有数十倍的性能扩展能力。神威蓝光采用自主研发的16内核处理器和水冷散热,在性能功耗比、组装密度位居世界先进水平。

根据市场研究公司Market Research Media的预测,从2015年至2020年,全球军用HPC市场将以10.4%的年复合增长率成长,到2020年将达到655亿美元;而全球非军用HPC市场将以8.3%的年复合增长率成长,到2020年达到400亿美元。

从千万亿次到百亿亿次,将引发芯片、网络到体系架构的技术变革,其中最值得关注的是处理器内核的急剧增加,特别是硅光电子学对现有高速网络总线标准Infiniband的颠覆。无生产线的芯片设计厂商Luxtera公司今年3月与意法半导体达成单片硅光电子解决方案量产协议,这意味着,单块集成电路就可以完成光电转换以及400Gb/s速率的发射和接收,HPC节点间互连简单到只用一根光纤,而Luxtera的愿景是实现系统间、板卡间乃至芯片间的光互连。

迈向百亿亿次意味着竞争更加激烈。阿贡国家实验室主任Isaacs曾表示:美国难以忍受在计算机技术领域位居中国或其他国家之后。引领HPC发展的国家在每一个领域都将具有巨大的竞争优势,这也包括国防领域。

迈向百亿亿次,也是HPC走向社会基础设施的开始,这才是最令人兴奋的。

《经济观察报》

上一篇:计算机网络应用安全探析 下一篇:当前社会焦虑现象形成的原因及对策