发电企业高性能计算中心的建设与实践

时间:2022-02-25 12:39:42

发电企业高性能计算中心的建设与实践

摘 要:随着国华电力研究院海水淡化、燃煤效能分析等一批自主科研项目的深入开展,普通计算终端已经无法满足专业设计与仿真软件的配置要求。为满足技术人员对高速计算的需求,研究院建设高性能计算中心。本文就计算中心的网络架构、高性能计算集群的配置、作业调度与集群管理系统,信息安全管控措施与机制,以及最终的平台性能测试情况进行介绍。该中心已经成为企业技术研发的基础平台,有效提高企业自主设计、自主创新能力,实现了知识产权的保护与核心技术的保密。

关键词:高性能计算;集群;并行计算、网格计算、计算中心

中图分类号:TP393

随着信息技术在科学领域的不断发展发展,高性能计算已经成为理论科学和实验科学以后科技创新的主要工具[1],也成为科技研发能力新的竞争点[2].90年代后期以来,一些传统行业和高性能计算结合的交叉学科不断涌现。在能源领域,随着技术水平和技术难度的不断提高,工程设计和设备制造对于计算机性能的要求越来越高。在电力行业,高性能计算已经被应用于电力系统的潮流计算、短路计算、稳定计算[3],以及大电网系统的可靠性评估[4]。高性能计算通过将多台机器连接起来同时处理复杂的计算问题,是一种并行计算(ParallelProcessing)集群的实现方法,平台主要功能是利用所有的计算资源同时运行在并行环境下开发的并行应用程序,以解决单个计算机系统不能解决的问题(如问题规模大、单机运行速度慢)[5]。运行在高性能的软件需要支持并行计算机制,大量应用的有CAE(ComputerAidedEngineering)工程仿真分析软件、CFD(ComputationalFluidDynamics)流体力学计算软件等[6]。高性能计算中心建设是构建高性能计算能力的系统工程,要从业务需求出发,考虑软件、硬件的合理投入与综合管理。

1 工作背景

神华国华(北京)电力研究院(以下简称“研究院”)作为技术支持与服务单位,承担了国华电力技术研究职能。近年,研究院自主设计、自主研发和自主创新的力度不断加大,科研工作复杂度进一步提高。一方面,热机、电控、化学、土建、脱硫、脱硝等发电专业性研究都对高速计算提出了新的要求。例如在海水淡化产业化及大型化研究中,低温多效海水淡化技术热力计算软件、蒸汽压缩喷射器模拟计算程序的自主研发和应用,是海水淡化工艺流程和主要设备选型的重要依据。其计算过程比较复杂,需借助大型商业CFD流体力学计算软件来完成,且多采用划分计算单元的方法进行迭代计算,计算量是普通终端计算机难于负担的。另一方面,自主开发的计算软件集成了研究院多年来的关键技术,花费了巨大的财力和人力。核心技术的保密工作以及知识产权的保护工作一直以来都十分受到重视。这就需要一个统一的技术平台,实现集中式管理。为此,研究院组织建设高性能计算中心,作为技术研发的基础技术平台,助力企业创新发展。

2 整体网络架构

高性能计算中心采用集群技术实现并行计算,其建设思路是“按需配置、逐步扩展”,即根据业务实际需要构建计算能力,预留充分的扩展空间,减少初期投入,避免资源浪费。它的整体架构由网络系统、服务器集群及计算系统、存储备份系统、计算中心内用户管理系统、机房配套系统五部分组成。

网络系统是计算中心的骨架,是业务人员访问数据资源的基础平台,为了保证网络数据安全,防范一些恶意攻击、人为破坏或者非法操作,将部署严密的安全方案,保证计算中心的数据安全。服务器集群系统:部署在研究院高性能计算中心机房,实现计算资源和并行计算软件的配置与管理,提供硬件监控与管理功能,为各业务部门提供高性能、高质量的计算服务。存储备份系统:分为存储和备份两个部分,其中存储系统为服务器集群系统提供共享数据存储空间,并提供高可用和高可靠性的存储环境,保证存储系统的数据安全;备份系统负责将业务系统的重要数据定期的备份到磁带中,当业务系统需要恢复数据时,可以通过备份系统自动恢复,减少由于数据丢失给用户带来的损失。计算中心内用户管理系统:计算中心内部用户仅允许访问计算中心内部授权使用的资源,不允许访问计算中心以外的任何资源。为了保证内部资源和数据的安全,需要提供良好的安全策略配置,保证用户接入的安全。机房配套系统:机房配套系统主要包括两部分的功能,一是设置UPS电源保护;二是用于数据展示的投影和显示设备。

3 高性能计算集群

高性能计算服务器集群系统是高性能计算和高可用技术有机结合的性能强大、高可用的集群系统[7],是整个高性能计算平台的核心。按照业务实际需要,研究院高性能计算集群配置刀片服务器作为计算节点;配置高性能服务器节点作为I/O节点,配置高性能服务器同时复用为登录节点和集群管理节点,负责整个集群系统的软、硬件管理、维护与监控。所有节点服务器通过InfiniBand网络连接,使得这些节点可以高速访问。

Cluster1是并行计算节点,它提供核心计算能力,即各种系统资源,包含处理器、内存及I/O设备。Cluster1一方面连接到登陆/管理节点,接收执行指令,一方面通过Infiniband交换机,实现进程之间高速消息通信;同时访问I/O节点上的文件系统,从而获得较好的I/O性能。I/O节点为计算节点提供共享文件系统、数据传送等功能[8]。与I/O系统相关的网络包括三部分:一是共享文件系统控制支撑网络,在I/O节点上建立网络文件系统(NFS),作为服务器共享存储,实现统一数据访问。它控制支撑网络,用来传递共享文件系统NFS的控制信息,是支撑计算节点和I/O节点间数据交换的管理网络。当多个计算节点同时访问某个建立在共享存储上的共享文件系统时,共享文件系统需要通过该网络系统在多个节点间进行协调和管理。共享文件系统控制支撑网络传输的只是些控制信息,而非数据本身,所以网络负载非常小。二是节点间数据传输网络,用来支持计算节点和I/O节点间的数据传输,即通过Infiniband网络实现进程之间高速消息通信。三是存储备份网络,实现数据的转移与备份。本项目中未配置单独备份,而是在I/O节点上配置磁盘阵列,通过RAID实现磁盘冗余,在满足存储要求的情况下,提高了读写效率。登陆/管理节点完成集群系统的监控、管理、登录、作业调度等任务,用户登录到这个节点上编译源程序,并提交作业。该节点上部署的作业调度与集群管理系统是管理员与用户主要使用的应用软件系统,将在下一章节具体介绍。Cluster2是非并行计算资源,包含高性能图形计算机等,它主要是为了满足特定计算要求,尤其是对图形性能要求较高的计算任务,为用户提供相应的计算能力。与并行计算集群分开,更加有利于调度与管理。Infiniband技术是一种开放标准的、目前全球带宽最高的高速网络互联技术,它的传输协议具有高带宽、低时延、系统扩展性好的特点,最高理论带宽可以达到120Gb/s,最小延时不超过4us。另外Infiniband标准支持RDMA(RemoteDirectMemoryAccess),使得在使用Infiniband构筑服务器、存储器网络时比万兆以太网具有更高的性能、效率和灵活性。

4 作业调度与集群管理系统

在并行计算环境中,为了更充分的利用和安排计算资源,必须要有作业调度软件对用户发起的计算请求分配相应的计算资源,在接收到来自用户的资源请求后,分配详细的硬件资源给应用程序,进行后台运算,并对多个业务进行负载分担和排队。研究院计算中心作业调度与集群管理系统主要由两部分组成,即内核信息基础架构和管理工具集,内核信息基础架构处理底层系统配置,实时监控系统处理器、内存及网络流量;管理工具集是一个供备、稳定、易管理、可定制、可扩展的集群管理环境,提供完备的用于高性能计算的应用开发和运行工具、数学库和并行环境,下面介绍其主要功能。

4.1 快速部署。在大规模的集群系统中,操作系统和软件的部署单调重复,但工作量却非常大,一直都是令系统管理员十分苦恼的问题。快速部署系统帮助系统管理员快速、简便地完成节点的操作系统和软件的部署。此功能通过基于Web的图形用户界面(GUI)可以随时生成集群节点(管理/登陆/IO/计算)镜像,实现节点系统自动部署和备份恢复的功能。可以同时保持多个不同或相同镜像版本,实现多个镜像的切换。

4.2 系统管理。通过浏览器实现现场和远程的集群管理和使用,包括系统登录、节点角色管理、用户管理(查看/增加/删除用户)、文件管理和服务管理(DNS,NIS,NTP,DHCP,DNS)和并行命令等。

4.3 作业调度。作业调度的目的是合理、高效地管理系统中的所有软硬件资源和用户提交的作业,最大化的提升集群系统的吞吐率和利用率。它需支持任务间相关、自动文件传送(FileStaging)、多个任务队列、多种系统分组、多种任务优先级政策和配置、多资源管理和任务高级预约、QOS(QualityofService,包括服务对象和资源,以及功能访问控制)、可配置的节点分配政策、多种可配置的回填政策(backfillpolicies)、详尽的系统诊断(systemdiagnostic)以及各种资源使用情况跟踪和统计。

4.4 系统监控。监控模块能够轻松快捷的获取当前集群运行状态的信息,使管理员方便地进行集群系统的维护和管理。图形界面与集群中服务器的摆放位置相同。监控信息包括整机的CPU负载,内存用量,网络流量,硬盘用量和系统负载等。

4.5 统计与分析。系统提供资源统计功能,对某个用户的已执行作业、占用CPU时间等选择相应的日期,即可生成资源使用的报表和图。

4.6数据的前处理和后处理。每一个集群用户上传到集群的文件以及该用户在集群上产生的文件在进行计算前都要进行前处理,包含目录建立、文件名称修改和自动备份,该备份只有授权人员可以处理,未授权用户无权处理。在计算结束后,对计算结果进行后处理,即自动备份和分发。

4.7节能配置。系统会检测高性能服务器中有多少节点在使用,有多少节点是空闲的,并实现按需开关机,即将空闲的节点自动关机;当正在运行的机器使用得非常饱和,并且有用户的作业在队列里排队的时候,将已经关机的节点自动开机。此功能在保证了用户资源正常使用的情况下,帮助用户自动、合理的选择开机的数目,降低用户的使用成本,实现节能。

5 信息安全管控

研究院计算中心的网络安全设计上将采用“从外向内+从内向外”的立体架构。保证整个计算中心资源的安全性。从外向内,进行访问控制,主要措施有四:一是Vlan隔离,即在交换机上设置不同的Vlan,计算集群、管理节点、I/O节点、非并行计算机与用户终端分别处于不同的Vlan,Vlan之间设置访问规则,不允许用户终端直接访问计算集群,同时用户终端内部按照权限还要分为不同的Vlan,防止内部不同Vlan的用户越权访问和非法控制;二是端口控制,基于端口的ACL(访问控制列表)策略在IP层防止非计算中心内部人员访问计算中心资源并且在业务端口屏蔽TCP&UDP协议端口的通信,只放开特定应用到的协议端口。三是终端接入认证,分析筛选出不合法接入网络的主机,对非法接入的主机进行报警,生成日志和报表信息,对非法接入的主机进行自动阻断或阻断恢复。四是终端安全管理,实现安全策略管理、终端入网认证、终端出网许可、用户登录计算机的身份认证、网络进程访问控制、防病毒软件监测、系统补丁管理、安全操作管理等功能。保证安全策略的合规性,保障终端的安全运行环境。从内向外,进行关键数据安全设置,实现知识产权和核心技术的保护。目前所有的网络安全产品大部分都集中在核心数据的,并没有针对数据本身的安全保障提出有效的解决方案。防火墙、入侵检测、内外网隔离以及其它针对外部网络的访问控制系统,难以解决内部的网络安全问题。内部人员可以轻松地将计算机中的机密信息通过移动存储设备或者网络泄露出去,而且不会留下任何痕迹。

6 平台性能测试

研究院高性能计算平台采用Linpack进行性能测试,评价集群的浮点计算能力。测试编译器采用GNUC和Fortran,并行环境版本为openmpi-1.4.3,数学库采用GotoBLAS,测试软件采用开源HPL。测试参数结合通信方式、矩阵规模、网络、处理器速度进行设置。测试分三步开展,(1)单节点单核测试,(2)单节点多核测试,(3)多节点测试。

通过Linepack测试,并行计算实际浮点计算能力达到417.28Gflops,总体浮点计算能力理论峰值最大达到655.36Gflops,集群的并行效率达到91.17%,读带宽3254.21MB/s,读延迟为2.42s,写带宽3249.27MB/s,写延迟为1.30s,达到设计要求。

7 结语

研究院高性能计算中心建设为发电技术研究工作提供了高速计算能力,拓展了公司信息化建设的领域,包含海水淡化系统大型蒸汽喷射器的设计与优化、海水淡化蒸发器结构应力的计算、脱硫脱硝反应器的流场优化和结构应力计算、脱硫事故喷淋水均匀性优化、空冷系统的结构优化和燃烧器的优化模拟等。以海水淡化计算程序模型百万级网格、复杂程度在中等为例,单个工况的计算时间在60-90分钟,全工况的计算时间为4天,较个人工作站缩短了10倍以上,大大节约了计算时间,提高了工作效率。同时,计算中心实现了网络、信息和数据的安全,提供计算中心内用户行为与内容的监控和文档安全服务,实现了网络内所有的用户行为都可控可查,实现企业内部的信息和数据的安全保密。

参考文献:

[1]顾国平,周隽.基于IBM的高性能计算平台解决方案[C].中国建筑学会首届工程设计高性能计算(HPC)技术应用论坛论文汇编,2007,12.

[2]李伟,徐志伟,唐志敏.国家高性能计算环境的设计与实现[C].863计划智能计算机主题学术会议论文集,2001,2.

[3]刘洋,周家启,谢开贵.基于集群技术构建电力系统高性能计算平台[J].计算机仿真,2005,22(2).

[4]刘洋,谢开贵,周家启.基于集群技术构建电力系统高性能计算平台[J].电力系统自动化,2006,30(18).

[5]赵毅,朱鹏,迟学斌.浅析高性能计算应用的需求与发展[J].计算机研究与发展,2007,44(10).

[6]徐斌,刘晓明.高性能计算平台架构搭建之浅见[C].CAD/CAM学术交流会议论文集,2009,05.

[7]王强,刘振安,徐昊.高性能计算节点智能平台管理模块的设计[J].核电子学与探测技术,2011,31(5).

[8]李亮,聂瑞华.高性能计算平台的IO性能测试与分析[J].计算机与现代化,2011(6).

作者简介:王曦钊(1984.2-),男,北京,硕士学位,工程师,研究方向:企业信息化、信息系统设计与建设。

上一篇:基于K60单片机的SDRAM控制模型设计及实现 下一篇:基于ASP.NET平台的高校成绩管理系统的设计与实...