高性能计算引发南航科研“核”聚变

时间:2022-08-29 08:51:15

高性能计算引发南航科研“核”聚变

部署在南京航空航天大学的基于AMD皓龙的曙光TC4000L系统可“在线”扩展到80个机柜、1300个CPU、每秒6.75万亿次峰值速度、4000GB内存、600TB存储的海量处理系统,使以往一个月的工作两三小时内即可完成。

南京航空航天大学(以下简称南航)是国家“211工程”建设的全国重点大学,是全国56所设立研究生院的大学之一,现隶属于国防科学技术工业委员会。在科学研究上,南航在基础研究、高新技术应用基础研究和国防重点型号工程研究等方面显示出强劲的实力,其中直升机技术、无人驾驶飞机技术、机械制造与自动化等15个研究方向居国内领先水平,而众多致力世界前沿的科研项目也对于计算中心系统的先进性、稳定性、可管理性以及可扩展性四大方面有着很高的需求。

南京航空航天大学网格系统的建立需要利用网格技术实现大规模科学数据集的协作虚拟化,实现高要求数据分析所进行的分布式计算(共享计算能力和存储空间)。网格将在科学计算、信息集成领域一展身手,提高南航的科学试验计算能力,是典型的高性能计算(HPC)应用,需要大规模HPC系统。

对应于南京航空航天大学的实际需要,曙光公司提出了采用基于集群架构的设计思想,选用最新的曙光TC4000L系统。曙光4000L是基于Linux的超级服务器系统,也是当前国内最大的IDC数据处理主机,存储与处理能力均十分强大。并且根据实际情况,该系统最大可“在线”扩展到80个机柜、1300个CPU、每秒6.75万亿次峰值速度、4000GB内存、600TB存储、1200A最大电流、160千瓦最大功耗的海量处理系统,极大地满足了学校的计算需求。

南航计算节点选择采用2U机架式服务器的曙光天阔A620r,该服务器配置两颗AMD 双核皓龙处理器,AMD双核处理器可以在相同的功耗水平下,实现性能的巨大提升,大大提高了每瓦性能。

在南航的高性能计算系统中,每个天阔A620r节点都内置4GB的ECC Register DDR400内存,这样的节点一共有32个。同时,网络中心还有另外两个天阔A620r节点,一个节点负责I/O吞吐服务,一个节点负责用户登录服务,并且两个节点互为备份。32个计算节点通过千兆网络连接,形成计算网络。所有计算节点均引入“网卡绑定”技术,将两个千兆网络绑定在一起,增加网络带宽,提高系统可靠性。

集群的效率取决于其组件。基于AMD64技术,AMD皓龙处理器具有独特的直连架构,并在芯片上集成内存控制器,通过超传输总线技术,可实现处理器和I/O、内存以及处理器核心之间的高速互连,消除了传统前端总线的固有瓶颈,大大提高了系统的总体性能和效率。

所有这些性能上的提高都是在不增加总拥有成本的基础上完成的。AMD PowerNow!TM节能技术可按需动态优化功耗,在不影响性能的情况下极大地节省能源。AMD 皓龙处理器支持的集群可减少空间、电源、硬件和管理成本,同时提供高效、安全的计算基础结构。

另外,曙光4000L采用数据交换网和管理网分开的方式,有效地减轻了对数据网的负载,做到系统管理对业务网络完全没有干扰。接入管理网采用了百兆以太网,在本项目的曙光4000L集群系统中,采用了一台24端口百兆交换机组成一个百兆以太网,各节点通过它连接成百兆的管理网队进行整个集群的管理、监控。而千兆计算网络主要用于集群的登录、任务调度等系统管理员常用工作。这个网络既是用户接入、系统管理网络,也是高速数据网的备份网络。通过网络管理软件,南航网络中心的管理员可以通过中央工作站控制所有网捷网络产品软件和配置的升级,极大地简化了网络分配、故障诊断和清除,从而减少安装和维护网络基础设施的总成本。

据介绍,该系统部署完成后可以进行每秒4000亿次的高性能运算,相当于一秒钟内全国每个人运算300多次,然后把所有人的运算结果加到一起。和南航旧的运算设备相比,以往用一个月才能处理完的核物理试验数据,现在2~3个小时就可以处理完成。大大提高了科研工作的效率。

上一篇:国家工商总局企业信用联网项目 下一篇:VPN技术发展趋势