高性能计算机范文

时间:2023-03-01 08:52:22

高性能计算机

高性能计算机范文第1篇

现代高性能计算机的研制需要投入巨大的人力、物力和时间,对于千万亿次级别的系统,处理器个数将超过10万个,研发费用将达到数亿元人民币,正确的系统设计决策显得尤为重要。由于高性能计算系统研制的主要动力来自用户需求,因此高性能计算机的研制决策必须以是否满足用户需求为最重要的标准,在系统设计时就需要深入分析目标应用特点,以用户需求驱动高性能计算机系统的研制。

用户需求驱动计算机的研制

以目前在TOP500上排名第一的IBM BlueGene/L系统为例。该系统在设计之初就定位于解决大规模分子动力学问题,系统在设计时采用了高并行度、低主频策略。目前的BlueGene/L系统的处理器个数达到13万多个,处理器主频仅为700Mhz。由于分子动力学应用具有良好的并行性,使得系统可以通过多个处理器的聚合计算能力达到较高的整体性能,而低主频策略对系统能耗的降低起到了很好的作用。但是,BlueGene/L显然并不适应所有的并行应用,对于通信频繁或负载不平衡的应用来说,并行度在提高到一定程度之后系统的整体性能反而可能下降,因此可能无法在BlueGene/L这样的系统上高效率地执行。

日本的地球模拟器在2002年~2004年TOP 500上排名第一。该系统在运行实际应用中达到了很好的性能。地球模拟器获得成功的一个主要原因是系统设计者与用户进行了长期合作,深入分析了用户应用。处理器是特制的向量处理器,针对应用提供了极高的单处理器性能,高性能的网络使得系统能够有效处理用户应用的通信需求,使得整个地球模拟器系统对用户应用来说是一个均衡的系统,因此能够得到满意的性能。

高性能计算机的性能评测技术提供了分析用户需求的系统化方法,可以帮助高性能计算机研制单位根据用户应用的需求特点,进行系统的设计和选择,其主要内容包括:

1. 用户需求收集技术,用于分析需求的应用领域,选取有代表性的应用程序。

2. 应用程序特征分析,如该应用的访问特性、通信特性以及并行度特性等。

3. 测试程序构造技术,即根据需求,采用有代表性的程序,并根据需求中各个程序的重要性构建Benchmark程序集。

4. 系统建模和应用程序性能预测技术,可用来比较不同的系统设计方案,分析系统性能瓶颈以及为优化应用程序和系统提供依据。

本文将简要介绍上述技术在国内外的发展现状。

用户需求的收集

用户需求的收集是高性能计算机性能评测技术的基础。用户需求的收集就是通过征集并选取当前有代表性的应用程序来评测高性能计算机系统,典型应用的征集主要集中在对高性能计算需求较大的一些领域。

核武器研制: 国际上的超级计算机很多是用来做核武器研究的,比如美国能源部的ASC(Advanced Simulation and Computing)计划支持的大部分系统、法国的CEA(Atomic Energy Commission)工程。在核武器研究方面有很多大规模并行模拟程序需要运行在超级计算机上。因此,一些公开的核武器模拟并行程序可以作为高性能计算机评测的代码。比如,公开的程序SAGE、Sweep3D等。

国防安全: 这类应用主要是国防上用于密码破译、间谍侦探等方面。这类应用程序主要是信息处理和信息分析,对浮点计算需求比较小,一般对单次计算的响应时间要求比较高。

气象预报: 天气预报是高性能应用的一个传统领域,复杂的气候三维模型对超级计算机有着巨大需求。日本的地球模拟器就是用来做气象预报的超级计算机,我国新一代的数值天气预报系统Grapes就是这类典型应用。这类应用程序对系统的通信性能要求较高。

生物信息学: 通过超级计算机强大的计算能力来解决生物领域的难题是近些年研究的热点。生物领域有很多海量数据处理应用程序,比如基因拼接、多序列比对、蛋白质三维结构预测等,它们都需要使用具有强大的计算能力的服务器来解决。

此外,石油勘探、地震预测、计算流体力学等领域都有着对超级计算机的巨大需求。通过对这些领域的典型应用程序进行征集和初步的分析,我们就可以为下一步的应用程序特征分析做好基础。通过采取广泛征集,在各个领域选择几个候选的应用程序,作为下一步程序特征分析的基础。

应用程序的分析

对选取的典型应用程序进行特征分析是进行高性能计算机性能评测技术的一个关键步骤。只有清晰地了解每个典型应用的程序特征,才可以为下一步的测试程序集构建提供科学的依据。

不同应用领域的科学程序使用的算法不同,对系统的要求也有所不同。比如,通信密集型的算法对机器的网络性能要求较高,计算密集型的算法对处理器性能要求较高。对应用程序进行分析能够让我们了解该应用领域的程序特点,了解程序对系统各部件的不同需求,为用户评测和购买高性能计算机系统提供依据,也能给系统设计者设计相关领域的计算机系统提供参考。对应用程序的分析,主要分析程序的访存特性、通信特性、I/O特性等。

表1是典型的科学应用程序中使用的主要算法描述,其中列举了纳米计算、气象应用、化学应用、聚变、燃烧应用等八个典型科学应用所使用的算法。

对具有多物理、多尺度的科学应用最好在一个通用的、各方面性能都较好的系统上运行; 对于稠密线性代数计算需要高性能的处理器,尤其是具有较高浮点计算能力的机器; 对于稀疏线性代数计算,需要内存的性能较高; 对于多维FFT算法,由于通信较多,需要较高的网络性能; 对于AMR(Adaptive mesh refinement)的应用,需要系统对不规则数据和控制流的性能较高; 对于数据或者I/O密集型的应用,应该需要较好的存储和数据管理能力的机器。

对应用程序的分析,主要包括对程序中访存模式、通信模式、I/O特征以及程序的可扩展性分析。程序的访存模式和通信模式是影响高性能应用程序的两个主要特征,本文下面将重点介绍。

访存特性分析 由于处理器速度和内存速度差异越来越大,应用程序的访存特征严重地制约着并行程序性能提高。通过对应用程序中访存特征的分析,可以帮助优化程序性能。应用程序访存模式主要包括顺序访问和随机访问,可以通过数据局部性来描述程序的访存特征。程序的数据局部性包括时间局部性和空间局部性。

时间局部性: 反映程序中对相同内存地址数据重新引用的趋势;

空间局部性: 反映程序中被引用数据周围地址单元数据被使用的趋势。

例如,程序顺序读取内存地址单元,那么该程序的空间局部性就比较好; 如果程序中频繁地引用相同的数据,那么它的时间局部性就比较好。程序访存的局部性特征是程序的固有的特征,它并不随运行的系统结构改变而改变。因此,可以使用时间局部性和空间局部性作为衡量程序访存特征的两个关键指标。实际上,计算机系统中的Cache也是应用了程序的访存具有时间局部性和空间局部性来设计的。

通过对程序的时间局部性和空间局部性进行量化,我们就可以把不同的应用程序画在一个以时间局部性和空间局部性为坐标的二维坐标图中。图1是一些常见基准测试程序中程序访存局部性示意图,其中横轴表示程序的空间局部性,纵轴表示程序的时间局部性。

其中,HPL、FFT、Random Access和Streams是HPCC(High Performance Computing Challenge Benchmark)基准测试程序集中的测试程序; CG是NPB(NAS Parallel Benchmark)测试程序中的程序; AVUS是一个计算流体力学代码。通过对这张图观察,可以发现HPL和FFT程序具有几乎相同的空间局部性,AVUS和NPB中CG程序具有相同的时间局部性; Streams测试程序顺序的读取内存地址单位,因此程序的空间局部性非常好,但基本没有时间局部性。

通信特性分析 并行程序通过进程间通信、同步完成大规模并行计算,因此程序的通信模式是影响并行程序性能和可扩展性的主要因素。程序的通信模式包括点对点通信和组通信两类。正确理解并行应用程序中的通信行为,对于设计真实的测试程序,优化并行应用程序的性能以及设计更好的网络拓扑结构都具有较好的参考价值。

点对点的通信操作是基于消息传递的并行应用中比较常见的操作,它是在进程间进行点对点的通信。在MPI的应用中,有阻塞式和非阻塞式的两种通信方式。传统的对于并行应用程序的通信可以通过以下几个特征来进行分类: 时间、空间和容量。通信模式的时间特性用来说明消息产生的速率; 空间特性用来说明消息目的地址的分布情况; 消息的容量用来衡量消息大小的分布特征。组通信是由通信库提供的可以实现一对多或者多对多等方式的通信模式,一般在具体实现过程中也是通过点对点通信完成。

对应用的通信模式分析,一般的方法是通过对程序的通信函数部分进行插装(Instrumentation),得到程序的通信事件记录(Communication Event Trace),通过对通信事件分析得到程序的通信模式特征。图2是对国家气象局的新一代数值气象预报系统Grapes程序的点对点通信分析的部分结果,分别描述了消息大小分布和消息目的进程分布的情况。

我们可以发现,Grapes程序中点对点通信的消息大小集中在100KB到1MB之间,0号进程与所有的进程进行通信。Grapes的通信操作较频繁,程序对系统的通信性能要求较高。

通过对程序的通信模式研究,可以把应用程序按照访存特征分别归为不同的类别。此外,程序的特征分析还包括程序的计算特征,如程序以浮点计算为主或以整数计算为主,以及程序的I/O特征、程序中I/O访问的顺序性和I/O访问文件的大小等。

程序集的构建

测试程序构造技术,即根据需求采取有代表性的程序,并根据需求中各个程序的重要性构建benchmark程序集。它需要使用应用程序分析的结果,通过把程序特征相似的程序聚类,并根据应用程序的权重选取代表性的程序,构建最后的基准测试程序。在构建程序集的时候主要从以下几个方面考虑:

1. 程序的重要性。选择典型的应用程序是构建程序集的根本,由于购买的高性能计算机主要用于这些典型的应用领域,所以选择有代表性的应用程序可以和实际的需求更加一致。因此,这类应用在选取的时候具有较高优先级。

2.程序性能特征。通过对程序性能特征的分析,对程序的访存模式、通信模式、I/O特征都有一定的了解。可以通过聚类的方式,使选择的程序集能够覆盖整个性能空间,同时,具有相同或者相似性能的程序,我们可以选取其中的一个作为代表。

3.程序的移植性。由于构建的程序集要在不同的体系结构上运行,所以程序的移植性非常重要。一般针对某个特定领域开发的应用只可在某个体系结构下运行,所以为使基准测试具有通用性,需要把程序移植到各种平台。

此外,基准测试程序还需要考虑数据集以及运行规模等各方面的问题。它是用户理解系统性能最直接的方式,因此在性能评测中是一个极其重要的研究内容。

性能建模和性能预测

通过需求的征集、并行程序的性能分析和最后程序集的构建,我们就构造好了一套用于测试高性能计算机的基准测试程序集。这些测试程序集在用户购买超级计算机以及厂商进行系统比较等方面都具有重要的作用。但这种测试技术不能预测当系统某个设备有轻微改变时系统整体性能的变化,因此无法在系统尚未搭建好的时候,为系统设计人员提供参考建议,也不能对未来的科学应用程序进行预测分析,为面向未来应用需求的系统设计提供帮助。

为了解决这些问题,需要采用系统建模和性能预测技术。性能建模就是对应用程序和高性能计算机系统建立合适的模型; 性能预测就是使用程序和系统的模型,预测应用程序在系统中性能。性能建模和性能预测在高性能计算机系统的性能评测过程中扮演着重要的角色。性能建模和预测的好处在于: 不需要实际运行应用代码就可以分析系统性能,这可以减少运行应用的时间开销,而且在高性能系统还处于设计阶段就可以预测系统性能,及时发现系统设计的瓶颈,分析未来应用模式对系统的需求。

对并行程序的性能预测主要有基于模拟的方法和基于分析的方法。基于模拟的方法主要通过模拟器来模拟系统的Cache、内存、网络、I/O等行为,从而实现系统性能的预测。基于分析的方法主要是对系统和程序建立数学的模型,通过测试等手段获得模型的参数,从而实现性能的预测。

基于模拟的方法又包括执行驱动的模拟器和事件记录驱动的模拟器。执行驱动的模拟器就是仅模拟需要分析的部分,其余的部分通过实际运行。比如,我们需要分析系统的网络性能,只需要模拟通信部分,其他的计算和访存部分可以通过实际运行代码来实现。典型的执行驱动的模拟器现在有UIUC大学的Bigsim模拟器和UCLA大学开发的MPI-SIM模拟器。这种模拟器一般精度很高,缺点是对于访存密集型的应用程序,很难实现在小规模的机器上模拟。

事件记录驱动的模拟器通过事件驱动模拟器执行。比如事件记录驱动的网络模拟器,它的工作原理是对应用程序的通信模块进行插装,得到程序的通信事件记录,然后把这些通信事件记录输入模拟器。模拟器根据输入的事件以及待模拟机器的通信参数指标就可以预测出程序的通信时间,这类模拟器典型的有欧洲UPC大学的DIMEMAS模拟器。

美国的圣地亚哥超级计算中心(San Diego Super-computer Center,SDSC)提出一套基于模拟的性能预测框架。它们认为,影响并行程序性能的主要因素包括单处理器性能和互连网络性能,因此,需要对单处理器性能和互连网络分别建立模型。单处理器上的性能主要由程序的访存和浮点计算需求决定。互连网络的性能主要由程序的通信模式决定。程序的特征和机器的性能分别进行描述,通过两者之间的映射分别实现程序在单处理器和互连网络上的性能预测,最后实现整个并行程序在超级计算机上的性能预测。

基于分析的方法通过对需要预测的并行程序进行分析,对并行程序的访存、通信建立一个数学模型,通过数学模型进行求解,得到程序的性能预测。美国的劳斯阿拉莫斯国家实验室(Los Alamos National Laboratory LANL)使用分析的方法分析了一些并行应用程序。

比较两种方法可以看出,模拟的方法由于可以精确地模拟系统的行为,因此预测的精度比较高,但缺点是模拟的运行时间一般都比较长。分析的方法优点是可以非常灵活地分析各个参数之间的相互影响,预测时间比较短,成本比较低,缺点是预测精度比较低,同时,对于复杂的应用,分析方法很难构建数学的模型。因此,需要把模拟的方法和分析方法结合起来,才可以实现快速、精确的性能预测。总之,系统建模和应用程序性能预测技术,可用来比较不同的系统设计方案,分析系统性能瓶颈以及为优化应用程序和系统提供依据。

作者简介

郑纬民

清华大学计算机系教授、博士生导师,863高性能计算机评测中心主任。同时还担任中国计算机学会副理事长、中国计算机学会学术工会主任、北京市科技进步奖第八届评审委员会委员等。

链接:863高性能计算机评测中心

高性能计算机范文第2篇

用数值计算的方法来制作预报是今后气象预报业务发展的主流方向,也是现代化气象预报业务的基础。数值预报的发展与计算机性能的提高有着密切联系,为了提高预报的准确性,要求数值预报模式具有较高的分辨率、较细的物理过程以及预报时效等,而这些都依赖于计算机技术的发展。

计算机是现代气象预报业务的主要工具,高性能计算机则是数值预报业务最重要的基础支撑平台。

数值预报发展迅猛

1982年2月16日,我国第一个数值预报业务系统―短期数值天气预报业务系统(简称B模式)在中型计算机上建立并正式投入业务应用,结束了我国只使用国外数值预报产品的历史。1991年6月15日,我国第一个中期数值预报业务系统(简称T42)在CYBER大型计算机上建立并正式投入业务运行。这一系统的建成使我国步入了世界少数几个开展中期数值天气预报的先进国家行列。

近些年数值预报又有了大幅进展,2005年12月14日,首次建立起我国自主研发的、具有国际先进技术水平的GRAPES全球同化与中期数值预报系统,它将成为我国新一代的中期数值预报业务系统升级的基础,为改进我国部级的指导预报水平和增强对国家安全需要的全球预报服务能力提供技术支持。

在气候模式系统方面,我国也建立起了由大气环流模式、海洋环流模式及其耦合的海气耦合模式、区域气候模式组成的气候动力模式系统,已经成为制作季节和年度气候预测的重要工具。中国气象局数值预报业务离不开高性能计算机系统的支持。

1991年6月,在CYBER大型计算机上建立了我国第一个中期数值预报业务系统(简称T42);

1996年5月,在Cray-C92系统上建立了区域台风路径预报系统;

1998年,在Cray-C92系统上建立了核污染扩散传输模式系统;

1998年6月,在IBM SP2系统上建立了北京地区中尺度模式系统;

2007年8月和2004年9月,在神威I系统上分别建立了华北地区中尺度模式系统(HB-MM5)和NMC中尺度模式系统;

1999年,在Cray-C92系统上建立了森林火险气象条件预报(模型);2004年9月,在IBM SP系统上建立了森林火险气象等级预报系统;

2000年3月,在神威I系统上建立中期集合预报系统T106L19/32成员;

2001年6月,在神威I系统上分别建立了城市空气质量预报系统;

2002年9月1日,在IBM SP系统上建立了全球T213L31全球中期分析预报系统(简称T213);

2004年6月,在IBM SP系统上建立了紫外线等级预报系统及全球台风路径预报系统;

2005年,在IBM高性能计算机系统上建立了海浪数值预报系统;

2005年12月,在IBM高性能计算机系统上建立了短期气候预测业务系统;

2006年4月,在IBM高性能计算机系统上建立了Grapes_Meso模式系统。

气象服务走向深入

目前,中国气象局高性能计算机有以神威Ⅰ系统、神威新世纪集群系统、IBM SP系统、IBM高性能计算机等为代表的一批国内一流的高性能计算资源,总峰值能力达23TFLOPS以上。神威I系统在建设后,主要承担MM5、集合预报、空气污染、台风路径等气象业务模式,目前只承担北京高性能计算机应用中心的任务,拥有中科院软件所、中科院计算所、中科院金属所、总装29基地、上海药物所、医科院药物所、北方计算中心、中国石化集团等60多个用户。

IBM大SP系统是上一代数值预报系统的业务用机,主要承担T213、HLAFS等数值天气预报业务模式,目前承担的是天气、气候的科研任务。IBM小SP系统则运行气候资料数据库和科研等业务工作,随着业务模式移植到新的计算机系统上,整个系统的利用率逐渐下降。

神威新世纪32P、32I系统分别承担的是青海、武汉MM5的业务模式,以及IPCC任务、CAM、REGCM等科研模式。其系统利用率整体情况比较平稳,由于承担了IPCC气候变化预估任务的作业,对磁盘的需求很大,磁盘空间比较紧张,使用率超过80%。

IBM高性能计算机系统是目前主要的天气气候业务科研模式的重要基础平台。系统共有446个用户,系统磁盘和CPU使用率都比较高,CPU利用率今年平均为48.68%,磁盘利用率超过70%,承担的应用有:

业务模式系统,包括数值天气预报业务系统和短期气候预测业务系统。数值天气预报业务系统主要包括:常规观测资料处理、全球数值预报T213模式、中尺度天气数值预报系统MM5、台风路径预报系统、区域数值预报GRAPES模式、亚洲沙尘暴业务系统、环境拓展模式预报。短期气候预测业务系统包括:海洋资料同化、月动力延伸集合预报、海气耦合模式季节预测。

准业务及重点科研项目,包括T639和T213全球集合预报、WRF区域集合预报、T213台风集合预报、人影指导预报、海浪预报系统、精细指导数值模式和专业服务模式,IPCC未来气候变化评估,沙尘暴、紫外线等大气成分数值准业务模式。

科研模式,包括风能资源评估方法试验、CCM3、Regcm3、GRAPES等科研模式。

在现有使用的高性能计算机系统中,IBM高性能计算机系统的用户数和资源使用率最高,而神威I系统由于所有的业务已经移植到新系统,CPU利用率下降最快,维持在3%以下。

从中国气象局数值预报的发展进程来看,高性能计算机系统是数值预报系统基础平台,每一次数值预报水平和能力的提升都有与之匹配的高性能计算机系统的支撑。

运行速度将大幅提升

气象应用一直是高性能计算机使用的一个重要领域。在2007年6月的全球TOP500高性能计算机排行榜中有19台是主要应用于大气科学和气象预报。而国内的银河、曙光、神威等高性能计算机系统对于气象应用也有很好的支持。

未来高性能计算机的运行速度将快速发展。在2010年前,美国计划研发三台千万亿次浮点运算/秒的高性能计算机系统,分别是IBM PERCS(2008年)、Sun Hero(2008年)和Cray Cascade(2010年),它们将应用于天气业务和海洋业务预报。欧洲中期天气预报中心(ECMWF)和英国国家大气研究中心(NCAR)等国外气象部门在2007~2008年左右,都计划引进规模在100TFLOPS的计算机系统,以支持对气候变化和地球的科学研究。

高性能计算机范文第3篇

从今年7月开始,惠普开展了为期半年、涉及全国20个油田的高性能计算机应用巡展,石油行业用户对由刀片和集群构建的高性能计算机非常热衷,对这种高性能计算机所表现出的高性能、低能耗、易管理、易扩展等特性赞赏有加。

无独有偶,随着最新一期的全球最快计算机排行榜(TOP500)于11月30日出炉,专家关于刀片+集群快速增长的预言成真。在TOP500中,采用刀片和集群架构的高性能计算机数量大幅增加,成为TOP500中增长最好的一种类型。惠普入围TOP500的系统中,95%是采用刀片服务器。

刀片保证投资回报

早在两年前,就有专家预言:未来的2~3年内,刀片式服务器将以其高服务器密度、敏捷式部署维护、全方位监控管理融合、高可扩展性与可用性,全面取代传统基于机架式服务器的集群系统,基于刀片式服务器的集群系统将得到大量应用。

事实表明,基于刀片服务器的集群系统的潜力正在逐渐释放。2006年的中国TOP100排行榜显示,超过70%的系统采用了集群体系结构,而值得关注的是,其中有26套是刀片服务器集群系统,惠普和IBM分别占有13套和11套。在这26套系统中,有17套用于石油勘探,6套用于网络游戏。

中国惠普有限公司副总裁,商用产品事业部总经理杨诺础认为:过去,用户大量采用基于PC服务器的集群系统,并在过去3~5年成为一个主流发展方向。不过在最近两三年,基于刀片服务器的集群系统开始大范围推广应用。在中国,石油行业是采用刀片服务器最多的一个行业。

在分析形成这一趋势的原因时,江汉油田勘探开发研究院计算机中心的总工程师罗忠辉认为,刀片服务器作为一种高可用高密度的低成本服务器平台,在高密度、易扩展和低成本方面都更适合地震资料处理等石油行业的关键应用需求;同时,刀片式服务器集群节点密度高于传统的1U机柜,占地面积更少,可以在有限的空间整合巨大的运算能力,即使在未来增加更多的节点,也不需要考虑机房空间问题;在通风、耗电等方面,比1U机柜更适合地球物理的应用;在密集型的高性能计算中,刀片式服务器在布线和相互连接方面比传统的机架式服务器又有很大的改进。

而杨诺础认为,石油行业在IT应用上与大部分行业不一样的地方是更重视投资回报,IT应用与企业的回报率直接挂钩,勘探的一个误差会导致几十万美元的成本增加。采用刀片构建集群系统,可以降低风险成本,IT投资回报率比较明显。

两大典型应用

在中国,高性能计算机应用已经有十多年的历史,用户在选择适合自己的系统上更显理性。相比用机架式服务器构建HPC,用刀片构建HPC具有更多优势:它可以节省机柜空间,系统密度高;节省电力,刀片系统的能耗明显比机架系统低;容易部署和管理,刀片采用模块化架构,需要就可以插入,没有太多的线缆,都在机架内完成;集成了网络设施,可以配置10G光纤通道与Infiniband等。

在中国石油行业,两大基于刀片的集群系统广受好评。第一个集群系统是部署在大庆油田公司勘探开发研究院的刀片服务器集群地震资料处理系统。该系统采用惠普开发出的刀片服务器架构,集成了692台惠普第三代服务器产品――HP BL20PG3、HP DL380G3和HP DL580G3三种服务器,选用了1432个Intel 至强CPU,其峰值浮点计算能力超过 9.8万亿次,位居中国刀片服务器集群系统榜首,是国内处理规模最大的地震资料处理系统。该处理系统用于大庆探区地震资料的高分辨目标处理和叠前偏移处理,使大庆油田公司勘探开发研究院具备了二维地震资料目标处理2万公里、三维叠前偏移处理1万平方公里的年处理能力。

刀片服务器集群系统采用惠普的刀片服务器架构。整个系统由常规计算节点、偏移计算节点、管理节点、I/O节点、核心交换网络和管理网络组成,并安装了Redhat Linux AS 3.5版本操作系统、CMU和SIM集群管理及监控等系统软件,利用惠普公司开发的iLO高级管理技术,实现服务器集群的远程管理。常规计算节点采用200多台HP ProLiant BL20pG3刀片服务器,千兆网络端口直联,安装在6个机柜中。HP ProLiant BL20pG3采用2个Intel 至强3.4 GHz DP处理器。而偏移计算节点则采用400多台HP ProLiant BL20pG3。

另一个典型系统部署在中国地球物理界最大的专业服务公司――中国石油集团东方地球物理公司研究院大港分院。大港分院采用了HP高性能计算集群系统,以HP刀片式服务器作为计算节点,实现二维常规处理12000公里、三维常规处理6000平方公里、迭前偏移处理3000平方千米的年处理能力,使大港分院地震资料处理能力和处理水平大幅度提升。

大港分院选用了由HP提供的包括硬件和软件在内的整套高性能计算方案,包括119个HP ProLiant BL20P节点、14个基于Intel至强处理器ProLiant DL380G2作为I/O节点,以集群技术组成超级并行计算机作为地震资料处理的主机系统,共131个节点,262个处理器,整体计算能力实现浮点计算达1.4万亿次/秒。

在整套系统中,硬件系统包括:I/O节点采用主频为3.06Hhz的HP ProLiant DL380G2 2U机架式服务器,计算节点采用主频为2.8Hhz的HP ProLiant BL20pG2刀片式服务器,监控分发节点采用HP ProLiant DL380G2 2U机架式服务器,物理节点采用HP ProLiant DL360 1U机架式服务器,互连网络系统采用HP ProCurve Switch 高性能网络交换机,每套PC-Cluster计算机系统由两个网络系统组成,一个为高性能的千兆以太网传输数据信息,一个为10/100快速以太网传输管理控制信息;存储系统采用HP Smart Array机群阵列盘柜。

管理和服务最被看重

那么,用户选择刀片的标准是什么?江汉油田勘探开发研究院计算中心总工程师罗中辉指出,用户最看重的是管理和服务。大港分院副总工程师兼计算机服务中心主任张武斌也认为,以刀片服务器为节点的高性能集群系统试运行以来,最大的感觉之一就是系统管理方便了。HP提供的集群系统管理软件Cluster Management Utility管理功能全面,还具有远程管理特性,使用户能够在任何终端管理集群系统,查看机器的运行状况。“现在,我们在自己的办公室里就可以管理这套系统,不必再跑到机房了,非常便捷。”

集群系统管理软件Cluster Management Utility(CMU)是一个Beowulf Cluster系统环境下的管理软件,它提供了友好的图形用户界面。比如,CMU使用了RILOE板并集成了iLO的特性,使远程文本控制台在服务器的所有状态下均可远程控制服务器电源。无论服务器处于何种状态,远程BIOS设置借助独立于CMU的WEB浏览器,远程访问图形控制台。由于CMU具有将一个节点的系统磁盘分区克隆到其他集群节点的能力,能够避免对集群中各节点进行系统安装或配置所带来的耗时、费力的工作,这一特性使大港分院能够在3天内就完成了集群系统的安装。

同时,HP ProLiant刀片服务器配置了HP Insight Manager 7,这一基于Web的企业管理控制台,可以通过Insight Manager管理所有的刀片式服务器,而且还能管理存储、电源、打印机等。管理人员能够高效、低成本地管理和控制数据中心的数百台服务器。

高性能计算机范文第4篇

论坛嘉宾现场访谈

在很多人印象中,高性能计算机既遥远又神秘,似乎只有科学家们才会与之发生联系。作为世界第六大高性能计算机制造商和国内最大的高性能计算机企业——曙光公司也常常遇到这样的误解。

“过去确实是这样的,高性能计算机是只有极少数的科研机构、政府部门才能够使用的,但现在高性能计算机已经渗透到各行各业。”在参加第十三届中国经济论坛时,曙光公司总裁历军告诉《中国经济周刊》。

12月14日,嫦娥三号探测器在月球表面预选着陆区域成功着陆,这标志着我国已成为世界上第三个实现地外天体软着陆的国家。这背后的英雄便是曙光的高性能计算机。而且不仅仅是嫦娥三号,“神舟”、“玉兔”、“天宫”背后也统统都有曙光的身影。

超级计算机为宇宙飞船在目标轨道计算、空间碎片定轨计算、控制飞船入轨、发射气象气候监测、飞船发射窗口设计等方面,做出了其他信息化设备无可替代的贡献。

但是,如果你将这看作是高性能计算机的主要作用就大错特错了,你所吃的米饭得益于杂交水稻技术,而这是通过高性能计算机进行基因配对的;你所观看的电影,其中的特效让人心驰神往,这是通过高性能计算机完成的;你的小汽车消耗的汽油,是通过高性能计算机模拟找到的油田生产的;你每天关注的PM2.5数值可以通过高性能计算机进行分析和预测;你每天用手机刷微博、玩微信、逛淘宝,背后全部是高性能计算机……

“随着基于高性能计算机的云计算技术和大数据分析的普及,我们可以肯定高性能计算机将会成为未来一个重要的生产工具,各行各业都会使用到,特别是对传统的制造业,会带来翻天覆地的变化。”历军说。

“传统的中国制造业主要依靠人力成本的优势,而未来的中国制造要想继续成功,就要更多依靠技术创新,高性能计算机能够为科技创新提供基础性的支撑,给中国制造的转型升级提供无穷的可能性,未来我们应该叫高科技制造业。” 历军补充说。

目前,曙光在国内高性能计算机领域已经占据35%左右的市场份额,超过了国际巨头IBM,位列行业第一,而仅仅在20年前,我们在这一领域还是一片空白。曙光公司脱胎于中国科学院,中国自主研发的高性能计算机“曙光一号”成功之后,为了将其引向市场,一群科学家开始“下海”做市场,于是有了今天的曙光公司。

高性能计算机范文第5篇

[关键词]芯片测试 可测型设计 内建自测试 扫描设计

[中图分类号]TN492 [文献标识码]A [文章编号]1009-5349(2016)20-0147-02

一、可测性设计与测试功耗

为了保证芯片的正确性,最重要的两个环节就是在设计时的验证,以及制造后的测试,然后随着芯片规模的不断扩大,导致测试的成本、难度和功耗都随之增大。为了解决这些难题,学术界和业界都做出了相应的研究和贡献。在这些成果之中,最为广泛的就是:在设计时就考虑到测试问题,即进行可测性设计(Design for Test)。可测性技术将测试的问题提升到设计阶段,因为越早的解决问题,消耗的成本越少,所以,在设计时不仅要考虑设计规则,同时也要满足DFT规则。通常的可测型设计方法包括扫描设计(Scan Design)、内建自测试(BIST)和边界扫描设计(Boundary Scan Design),针对逻辑电路和存储器各自的特征和不同的故障类型,都有适合其本身的DFT方法,其中,扫描设计主要用于数字逻辑电路,边界扫描设计主要用于板级电路,内建自测试主要用于存储器的测试,同时随着逻辑电路规模的不断上升,逻辑内建自测试也成为了一个研究的热点,除此之外,IDDQ的测试也是一种常用的方法,但随着特征尺寸的不断下降,它逐渐失去了原有的检测功能。在解决SOC的测试时,The Test Technology Technical Council (TTTC) of IEEE Computer Society 成立了一个嵌入式核测试的委员会,制定了IEEE P1500标准,同时基于NOC(Network On Chip)的测试也在不断发展中。[2]

二、常见的可测性技术

在现代集成电路的测试中,不仅要保证检测到芯片中所有的故障,并且同时要降低测试成本,其中包括测试时间、功耗和测试压缩。然而进入纳米时代后,集成规模不断扩大,使得只利用传统的测试方法根本无法对被测芯片做到完整的测试。其根本原因在于芯片内部各个节点的可测性,即可控制性和可观测性。无数的学者和工程师都为了改善可控制性和可观测性做了非常深入的研究。最初的方法是一种叫做Ad Hoc的方法,这种方法直截了当的在电路中插入控制点和观测点来改善它的可测性,一般的做法是加入多路选择器和一些简单的组合逻辑门,这样虽然在当时取得了非常不错的效果,但是随着电路功能的进一步复杂,规模的进一步扩大,这种方法也显现出了它的局限性。[3]为此,业界不得不探究新的方法来解决这一问题,最终产生了三种被广为接受的可测试设计方法,即扫描设计(Scan Design)、内建自测试(BIST)和边界扫描设计(Boundary Scan Design)。这三种方法至今仍是工业界主流的可测试设计方法,并且为多数EDA工具供应商所接受,将他们整合到相应的EDA工具中,完成自动化设计流程。

扫描设计的优化:由于全扫描设计存在面积开销较大和测试路径较长等问题,因此在一般的设计中都要插入不止一条的扫描链,将这些扫描触发器连接在不同的扫描链上,但扫描条数也不应过多,因为每增加一条扫描链将要增加一个扫描输入端口和一个扫描输出端口,通常所遵循的原则是:尽量使每条扫描链的长度相等,充分考虑端口的数目和复用,同时也要参考自动测试仪(ATE)的通道数目和数据存储量,对扫描链条数进行合理的分配。

测试图形生成:经过了扫描设计的电路,扫描触发器代替了原来的普通触发器形成了扫描链,使得原本要利用时序电路测试生成方法的电路,现在只需要利用组合电路的测试生成方法就可以达到很高的故障覆盖率,降低了测试生成的难度,同时也减少了测试数据。在现在EDA设计平台下,所有的EDA公司都提供了扫描链插入和测试图形生成的整套EDA工具,并且两者之间可以很好结合。例如Synopsys公司的DFT Compiler和TetraMax就是专门的用于扫描设计的工具,DFT Compiler可以对电路进行触发器的替换,之后再将替换后的触发器按设计者的实际需要连接成扫描链,之后将生成的文档交给TetraMax,让它根据所选的故障类型生成满足一定覆盖率要求的测试图形,同时可以对测试图形进行压缩,测试图形包括STIL、Verilog等多种形式可供选择。这些都可以很好地被ATE所支持,最终完成芯片的测试。[5]

内建自测试:当芯片的功能进一步加强,使得芯片的复杂度和规模不断上升,扫描设计也出现了一些较为棘手的问题。例如测试图形的加载、管脚数目较少和测试费用较高。针对这一系列的问题,内建自测试(BIST)的方法应运而生。内建自测试的基本思想就是将测试图形发生器和测试响应比较器都内嵌到电路里面。它一般包括测试激励生成电路、测试响应压缩电路、测试响应比较电路、理想响应存储电路和测试控制电路。

穷举测试:穷举测试是要对电路中的每一个状态都进行测试,在Intel 80386中就利用了这种方法进行测试激励的生成,但是一般情况下这种方法是不可行的,也是不必要的。因为大规模电路的内部状态将随着它的内部节点和逻辑门数随指数增长,同时,在一个芯片内部,很多状态在实际的功能中并未被使用,因此并没有必要λ们进行测试。

伪穷举测试:伪穷举测试克服了穷举测试中测试图形较多的缺点。一般的做法是将电路进行模块划分或进行敏化路径分割。模块划分是对电路中的模块按照功能进行合理划分,这样就可以对每一部分进行直接的控制和观测,但是这样会增加额外的电路面积。而敏化路径分割是根据PI和PO建立起敏化路径,对每一部分进行单独的测试,并且利用逻辑模拟其他部分的功能,这样就可以使故障在路径上进行正常的传播。

伪随机测试:这种测试图形生成方法是现下比较成功的一种,因为在现实的测试中,想要生成真正的随机测试码是不可能的。伪随机生成的测试图形是确定的,并且具有重复性。最常使用的伪随机测试图形都是根据线性反馈移位寄存器(LFSR)生成的,LFSR作为一个数据发生器,它在每一位上出现0和1的概率都是相等的,一般是利用DFF和异或门进行组合。根据LFSR的本原多项式随着时钟的变化生成一系列的测试图形,在该方法的启示下,又提出了加权伪随机测试图形生成方法。同时随着电路测试数据的进一步压缩,之前的研究中提出了一种新型的二维伪随机测试图形生成方法,该方法是利用了LFSR和Johnson序列进行运算,Johnson计数器随着时钟周期每次变化一位,当Johnson计数器完成了所有的跳变,LFSR根据本原多项式生成新的种子,从新运算得到新的测试图形,该方法由于利用了二维结构使得测试数据取得了很高的压缩率,并且每次只有一位进行变化,从而达到了降低功耗的目的,同时由于具有很好的伪随机性,使得故障覆盖率达到了很好的效果。

测试响应:当得到测试响应后,因为测试响应的数据量过大,不可能直接与理想响应进行比较,因此一般都是要先对测试响应进行压缩,然后再进行对比。然而在响应压缩过程中,有可能会对原有信息造成丢失,这种压缩称为有损压缩,不丢失信息的则是无损压缩,大多数情况下的响应压缩都是有损的,由于经压缩后的响应为特征符号,当该特征符号与理想的特征符号一样时,由于有信息丢失也不能确保该芯片一定没故障,这种情况称为混淆,混淆度的大小决定于压缩算法。常用的压缩算法有:“1”计数和跳变次数压缩。

“1”计数:这种压缩方法是对测试响应中的“1”进行计数,最终得到的特征符号就是该测试响应中“1”的个数。用该特征符号与理想的特征符号进行比较,如果有故障的电路的测试响应的“1”个数也与理想响应的一样,这样就会出现混淆,混效率随着测试响应的长度变长而减小。

内建自测试的分类:内建自测试在最初提出的时候,主要是用于存储器,因为存储器的故障模型和逻辑电路不同,而且它的内部结构十分的规律,同时又只有很少的面积开销,因此使用内建自测试得到了很好的效果。后来随着逻辑电路规模的进一步扩大,对ATE的要求越来越高,使得测试成本急剧上升,从而逻辑电路内建自测试的方法也得到了广大学者和业界的关注。

存储器内建自测试:当在存储器内建自测试中,最主要的问题是测试的调度和隔离问题。在现代集成电路中,每一块芯片中都不止一块的存储器,它们协同合作与逻辑电路交换数据。对于他们进行测试时,一般是共用一个测试图形发生器,根据测试功耗及端口的数目对它们进行合理的测试调度,使得在不超过额定测试功耗的前提下,最大程度的减少测试时间和成本。在与逻辑电路的交互中,存储器周边的逻辑单元起着至关重要的作用,当对存储器测试时,要将存储器和周围的逻辑单元隔离开,使得测试数据可以直接加载到存储器上,同时也可以直接对测试响应进行观测,而不受周围逻辑的限制。

逻辑内建自测试:逻辑内建自测试的原理与存储器的类似,而它的关键问题在于测试激励的生成。因为内建自测试不同于ATPG工具,ATPG工具可以根据软件的方法生成能检测到故障的测试图形,但内建自测试却不同,它是要根据硬件电路生成固定的测试图形,在这其中,或许有很多的测试图形是不能检测到故障的。因此如果要达到与ATPG工具同样的故障覆盖率就较为困难。当前较常使用的激励生成方法还是主要利用LFSR的伪随机性,再结合一些加权因子,这些方法不仅在测试覆盖率上有不错的效果,而且在功耗及时间方面都表现出很好的潜力。

边界扫描设计作为又一种DFT方法,它遵循JTAG标准,早期主要利用于一些FPGA电路中,后来经过进一步的修订和标准化,现在将它扩展到主要解决板级测试和诊断的问题。基本结构:边界扫描的整体结构包括一个测试存取通道(TAP)、一组边界扫描寄存器和一个TAP控制器。

边界扫描寄存器环绕在器件周围,功能和扫描设计的寄存器类似,内部的逻辑可以通过这些存储器进行数据和指令的读写,主要包括指令寄存器和数据寄存器。而数据寄存器又包括旁路寄存器、边界扫描寄存器和器件标志寄存器。

TAP控制是个状态机,主要含有了多种逻辑状态,包括:测试逻辑复位、选择指令寄存器扫描、选择数据寄存器扫描、捕获数据寄存器和数据寄存器移位等,由这些状态的转换可以完成整个测试过程。

边界扫描指令:在边界扫描设计下,TAP控制器有多重测试指令,按照这些指令可以完成相应的测试功能,主要包括以下指令:外测试指令(EXTEST):该指令是为了测试芯片外部的互联结构。内测试指令(INTEST):该指令是为了测试芯片内部的逻辑。运行内建自测试指令(RUNBIST):该指令是为了向器件内部发送一个内建自测试的命令。取器件标志指令(IDCODE):该指令主要是从器件内部读取器件的标号及厂商信息。组件指令(CLAMP):该信号是为了强制器件的输出信号与边界扫描寄存器驱动。旁路指令(BYPASS):该指令的功能是用旁路寄存器旁路掉边界扫描链。

本文重要介绍了集成电路测试的一些基本原理,其中最主要的是可控制性和可观测性,它们作为整个集成电路测试的重中之重,所有的测试方法和算法都是为了提高这两方面的性能。接下来简述了故障和ATPG相关信息,它们是电路测试的理论基础,只有建立了完整的故障模型,才有可能对电路进行接下来的测试。最后概述了常用的几种可测性设计方法,它们都是现下主流的方法,芯片在应用了这些可测性设计方法以后,大大提高了测试效率,使得测试成本急剧下降,但由于芯片规模的进一步扩大,测试的时间及功耗成为了研究的热点问题,尤其是扫描设计的功耗更是成为学者所关心的焦点。

【参考文献】

[1]Qiu W, Wang J, Walker DMH, et al. K Longest Paths Per Gate Test Generation for Scan-Based Sequential Circuit[C].IEEE International Test Conference,2004:223-231.

[2]Semiconductor Industry Association(SIA).Test and Test Equipment,International Technology Roadmap for Semiconductors(ITRS) 2006 Update[R].2006.http:///辛希孟信息技术与信息服务国际研讨会论文集:A集[C].北京:中国社会科学出版社,1979.

[3]Sehgal A, Chakrabarty K. Optimization of Dual-Speed TAM Architectures for Efficient Modular Testing of SOCs[J].IEEE Transactions On Computers,2007,56(1):120-133.

[4]Maxwell P,Hartanto I,Bentz paring Functional and Structural Test[C].IEEE International Test Conference,2000:400-407.

[5]Girard P.Low Power Testing of VLSI Circuits: Problems and

高性能计算机范文第6篇

关键词:高性能计算机;系统管理 ;资源;应用;模式

中图分类号:TP315 文献标识码:A 文章编号:1009-3044(2015)30-0186-02

Research on High Performance Computer System Management Technology

LIU Jin-xia1, LI Jing1, LUAN Yong-ming1,WANG Hui-yu,ZHAO Wei1,ZHAO Miao2

(1.Liaoning Provincial Meteorological Information Center, Shenyang 110166,China;2.Liaoning Provincial Meteorological Bureau,Shenyang 110001,China)

Abstract: High performance computing is an important basic platform for meteorological service and scientific research. The high performance computing power of northeast area meteorological center is rapidly enhanced, and the business and scientific research mode is more and more, and the user is more and more, especially in the business meteorological model. This puts forward higher requirements for high performance computer management and business application management. In order to provide better computing resources and support services as a starting point, it introduces the technical methods of high performance computer operation management, users and management. It helps to reduce the cost of management and maintenance.

Key words: high performance computer;system management;resource;applicaton;model

1 概述

高性能计算机是气象业务及科研应用的重要的基础平台,高性能计算机技术在气象海量资料处理、科学计算、产品应用等方面发挥着重要的支撑作用。 东北区域气象中心目前拥有IBM Cluster 1600 、IBM IBM Flex System P460 Cluster系统,计算能力迅速增强,依托于该高性能计算平台,东北区域中尺度数值预报系统,台风模式HWRF、东北区域空气质量模式预报系统CMAQ,天气数值模式预报检验等业务及科研应用顺利开展。业务及科研模式多种多样,用户越来越多,尤其是业务气象模式精度提高以后,对系统资源需求加大。这给高性能计算机管理以及业务应用管理提出了更高的要求。高性能计算机系统管理者必须采取一定的技术手段确保系统稳定运行,资源有效利用。

2 计算机运行监视

高性能计算机采取集群架构,由一组相互独立的计算机利用高速通信网络组成一个单一的计算机系统,并以单一系统的模式加以管理。集群内包括小型机、服务器、存储、网络等设备近百台,每天到机房检查硬件报警信息是硬件检查的常用方法。然而,在例行检查之后,无法预测硬件下一次报警的时间,也很难保证硬件总是不出故障。通过一些集群管理命令和单机操作系统命令,可以读取到一些有用的信息,通过分析这些信息判断出硬盘、内存、cpu等部件以及各个节点的运行状态,通过运行监视平台实时展示,在故障时通过文字的颜色和声音等方式向值班人员报告系统出现的一些异常情况。

3 高性能计算机性能监视系统

在IBM Cluster1600高性能计算系统上,采用Ganglia分布式监控技术建立了高性能计算机性能监视系统[1]。该系统采用B/S架构,实现了对集群和各个计算节点的CPU利用率、网络流量、负载的运行情况、内存情况等性能指标的监视、统计和图形显示等功能。系统管理员通过Web浏览器可以实时了解IBM 高性能计算机运行状况和资源使用情况,还可以通过性能监视系统生成的不同时间尺度下各种度量信息的统计图表,了解集群系统在一特定时间段内的资源使用情况;用户也可以通过访问网站的方式清楚地了解各个计算节点的资源使用情况,该监视系统对于指导用户提交作业和监视作业运行提供很大帮助。如图1。

4 资源统计与分析

反映高性能计算机系统运行及资源使用最直观的标示就是CPU利用率[2]。基于各节点性能监视工具sar的结果,

在HPC系统计算节点获取单节点的cpu利用率,在系统管理节点转换处理为整个系统的平均cpu利用率,同时生成每天及每月的系统平均cpu利用率。根据需求,可以统计分钟-小时-天-月不同时段的系统cpu利用率,绘制成曲线图,很容易看出资源利用高峰时段。

由于用户提交的作业较多,还要对用户的作业情况进行统计。可从作业管理软件提取作业运行的详细信息 ,包括用户信息、资源数量、所在队列、作业提交、运行、结束的时间等。这对于存在于不同单位的用户管理是十分重要的,为资源分配和管理提供了重要依据。

用户的模式程序以及模式运行的数据均存储在高性能计算机上。存储资源划分不同的文件系统,用户及模式信息与模式数据分开存储,增加数据的安全性。同时,各文件系统采用限额对所有用户的存储资源进行统一分配和管理。

通过资源统计结果分析,高性能计算机管理员较全面地了解资源的使用情况,分析结果作为资源分配、回收的重要依据。

5 用户及作业管理

用户从资源申请到开始应用,需要按照规定经过申请、审核、复核、审批等过程。用户应对拟在高性能计算机上运算的模式有一定的了解,提出对计算环境、编译环境、计算资源使用量、存储资源使用量等需求。系统管理员对于不了解模式的用户暂时分配临时资源,便于用户熟悉高性能计算机系统的操作以及对模式部署的规划。用户被分成组,按照一定的规则为用户命名。用户提交的作业也会根据业务需求被定义不同的优先级,分配到不同优先级的队列中。当低优先级的作业正在运行时,高优先级的作业将会在资源不够的情况下抢夺低优先级作业的资源,确保高优先级的业务作业正常进行。

6 模式运行管理

应用SMS(Supervisor Monitor Scheduler)监控管理调度系统技术架构,实现对东北区域数值预报模式――WRF V3.5.1模式的监控管理调度。首先按照SMS的技术规范将WRF V3.5.1模式作业的运行流程按照功能分成初始化、解码、插值、变分同化、WRF模式计算、后处理等十余个模块,其次将每个模块尽可能的分解成一个个简单独立的任务。作业通过该监控管理调度系统自动提交后,通过直观的图形化界面详细监视模式的运行过程和运行状态,并可实现作业断点自动重做。这将进一步提高模式业务运行能力,保证模式运行的时效性和可靠性。

7 结论

要充分利用高性能计算机强大的计算 能力,就必须通过有效的系统管理使其能够稳定的提供服务,建立资源分配、回收的有效机制,不断挖掘可用的系统资源,合理分配资源。高性能计算机的系统管理复杂,本文结合工作实际,仅从几个方面进行了相关的研究和实践,还应不断总结出理论和经验,进一步提高高性能计算机系统管理水平。

参考文献:

[1] 李晶,王恕,刘金霞,等. 东北区域气象中心高性能计算机性能监视系统[J]. 计算技术与自动化,2013,32(3):187-191.

高性能计算机范文第7篇

【 关键词 】 高性能计算机系统;GPFS文件系统;HPS高速交互网络;FastT存储;高可靠性

1 引言

高性能计算机系统是天气、气候、地球环境数值模拟业务和相关科学研究所必须的基础平台,中国气象局(CMA)目前采用IBM Cluster1600高性能计算机系统作为主要的业务应用平台。该系统共有382个节点,包含3200颗Power4+处理器,理论峰值运算能力21TFlops,在当年全球HPC Top500排名中列第18。IBM系统运行至今,系统资源利用率和用户数逐步攀升,截止到2012年12月,整个系统用户总数超过500人,系统的CPU利用率超过60%,存储利用率超过70%。

IBM系统承担了CMA全部业务和大部分科研项目的计算任务,由于气象领域业务和科研的特殊性,对高性能计算机系统的可靠性具有很高的要求,因此在考虑性能的基础上,系统在方案设计和具体实施的过程中,对可靠性、可用性方面做了重点考虑。

2 CMA IBM系统概况

CMA的IBM系统由业务分区和科研分区两个独立运作但相连的集群组成。382个各类型节点中,126个节点组成业务分区,256个节点组成科研分区。整个系统的基本结构和系统配置如图1所示。

2.1 节点分类

IBM系统的两个分区的所有节点按其功能可以分为四类。

NFS服务器节点(图1中“N”表示):连接到千兆以太网上,能同时被两个分区的所有节点访问,负责对用户Home主目录文件系统进行管理。

计算节点(图1中“C”表示):计算节点主要承担各类应用的计算任务。业务分区中由120个p655节点组成,科研分区中由248个p655节点和两个p690中的一个LPAR组成。

I/O节点(图1中“I”表示):作为GPFS服务器,每个分区中各有4个p655节点作为I/O节点,为分区内的高性能计算提供快速的I/O访问。

登录节点(图1中“L”表示):每个分区系统中各配置了两台p690节点(其中一个p690做LPAR)作为登录节点,供外部用户登录系统。

此外,每个分区各配置了两个管理节点,用于分区的统一管理。

2.2 网络配置

在IBM系统中,两个分区共有382个节点,因此整个系统配备了多种网络来满足系统管理、计算、数据传输等多方面的需求,具体的网络配置包括几方面。

管理网络Mangement VLAN:各分区管理节点和硬件管理控制台(HMC)之间构成的网络,主要用于管理节点通过HMC对节点硬件方面的控制。

集群网络Cluster VLAN:各分区管理节点和所有节点间构成的网络,用于节点的安装和管理。

千兆网络Gigabit VLAN:该网络连接到CMA局域网,主要用于外部用户登录使用系统,以及两个分区之间大量数据的传送。

HPS网络:系统各分区内部的高速数据传输网络,用于计算时数据的高速交换。两个分区中每个节点均通过两块SNI卡连接到两组不同的HPS网络中。

2.3 主要文件系统

从用户使用角度出发,CMA IBM系统的主要文件系统包括几方面。

用户Home主目录:创建在IBM FastT900上,用于存放用户信息、用户环境设置、重要程序等,不用做大数据的存放,分别由两个NFS服务器管理,被两个分区的所有节点共享。

GPFS文件系统:创建在IBM FastT900上,用于模式运行时I/O,提供快速的数据访问。GPFS文件系统被本分区内所有节点通过HPS网络共享,同时能被另外一个分区NFS mount。

本地文件系统scratch:创建在各节点本地rootvg,存放作业运行时临时输出数据。

3 系统高可靠性性设计

由于中国气象局的高性能计算机系统是属于部级关键应用,该系统上线后承担了中国气象局所有的业务及绝大部分科研项目的计算任务,因此系统的设计方案特别考虑了整个系统的高可靠性。

3.1 双集群的设计

在CMA IBM系统的方案设计中,最大的特点就是没有采用单一集群的方案,而是改为建立业务分区和科研分区两个独立运作但相连的集群。这个设计参考了其他国际级气象组织的数据中心,如欧洲中期气象预报中心(ECMWF)、美国环境预报中心(NCEP)等,他们的系统均采用了两个计算集群、相互备份的设计,能带来接近100%的可靠性、可用性及可服务性。

双集群架构将业务分区与科研分区完全隔离开,保证了业务系统的安全和稳定,科研分区又可为业务分区提供运行能力备份,当业务分区出现故障时,其业务仍能运行于科研分区。

近年来,CMA已在科研分区为多个主要数值预报业务如T213、T639等建立了模式备份系统并进行故障演练,一旦业务分区出现严重故障,模式备份系统在科研分区紧急启动,保证每日基础业务的不间断运行。

此外,对业务分区硬软件的改变和优化都可在科研分区上先行验证,从而不影响业务的运行,便于两个系统之间的计划性停机、软硬件升级、系统维护等重大操作的实施。

3.2 系统主要部件高可靠性

3.2.1 IBM eServer pSeries单机

IBM系统上线以后,除去计划性停机,系统及其所有部件都将每天24小时不间断运行。系统各部分硬件的高可靠性直接关系到整个系统安全稳定的运行。

系统中使用的IBM服务器(p630/p655/p690)汲取了IBM大型主机的许多高可靠性和高可用性的特点:

* 监视系统运行状态,对一些软性错误进行修正,可自动隔离其使用,避免潜在风险。

* 第一次故障数据获取(FFDC)实时识别并记录系统故障的根源,便于分析诊断,可防止停机和缩短检修时间,增强系统可用性。

* IBM Chipkill存储技术能大大降低因内存故障导致系统宕机的可能性。检错与纠错(ECC)内存和备用主存储器芯片作为Chipkill内存的补充,提高系统可靠性。

* 发生故障时,重新分配关键的系统资源,包括处理器和PCI—X总线,故障部件可在计划停机时间安排更换,以减少意外停机时间。

* 备用热插冷却风扇和选配热插电源,更换时不影响系统正常运行。同时,环境监测功能通过保持系统稳定操作所需的条件提高可靠性。

除具有上述高可靠性特性外,系统在设计和实施中根据各服务器节点承担的不同功能,通过冗余设计、配置高可用软件等进一步提高系统的可靠性。

NFS服务器节点:系统中配置的两台NFS节点nfsserv1和nfsserv2之间使用HACMP(High Availability Cluster MultiProcessing)形成互备关系,实现高可用。同时,NFS节点独立于两个分区外,任何一个分区的整体不可用都不会影响另外一个分区的使用。

计算节点:具有完善的checkpoint/restart机制,可以将任意作业在checkpoint之后在其他节点上继续运行,如出现意外,一个节点的失效,不会对整个系统处理能力造成大的影响。

I/O节点:每个分区中的四台I/O节点,两个一组,组成两两互备的GPFS服务器组,任一节点的宕机不影响GPFS文件系统的使用。每个I/O节点通过各自的双光纤通道分别连接到两台Fiber Channel交换机上。

登录节点:业务分区和科研分区均包含两台p690节点作为登录节点,备用节点在正常运行时可作为计算节点,承担交互作业。在主登录节点宕机的情况下由备用节点接替主节点,保证系统正常运行。

3.2.2 高性能交换网络HPS

CMA IBM系统采用了先进的HPS(High Performance Switch)网络来连接所有的计算节点。对每个计算节点提供一块两个端口的SNI(Switch Network Interface)卡,连接到两组独立的HPS网络,两个端口为主备的方式来提供硬件层上的高可靠性。HPS网络本身采用两级HPS互联,一级HPS的失效,不会影响整个连接的中断,如图2所示。

同时,在HPS相关硬件部件的设计中,内置了许多高可靠性和可用性特点:N+1 电源/风扇、N+1热插拔switch supervisor、热插拔riser card、冗余路径、Reliable in-order delivery、链路重传和端到端重传功能等。

3.2.3 硬件管理控制台HMC

为了进一步提高整个系统的可靠性,对于硬件管理控制台HMC(Hardware Management Console)也采用了冗余的设计。

业务分区里的每一个节点以及HPS交换机均被连接到两台的HMC。两台HMC设置有对方需要管理的节点和交换机配置信息,任何一台HMC出现故障不会影响业务分区的管理功能。

科研分区里,考虑到系统的相对重要性, 以及机房空间与HMC数量的限制,对关键的p690节点以及HPS采用两台HMC冗余管理。其余普通计算节点, 因为数量众多并可作相互补足的关系,单台HMC已经足够。

3.2.4 IBM SAN Switch和IBM FastT磁盘阵列

CMA IBM系统采用了IBM的FastT磁盘阵列作为主要存储,本身具有高可靠性的设计特点,如双路电源供电、双热插拔的RAID控制器、冗余热交换电源、自动故障切换能力等,都有助于避免单点故障。

同时,架构上全系统配置了两台Fiber Channel交换机,登录节点和I/O节点通过双光纤通道分别连接到这两台交换机,任意交换机的故障都不会影响节点对存储系统的使用。同时光纤交换机与磁盘阵列的连接也是冗余的,分别连接到阵列的双控制器上,因此链路的故障和控制器的故障均不会影响存储系统的功能和服务。

3.3 文件系统的高可靠性

用户Home主目录在应用中非常关键,如果用户主目录不可访问,应用就无法运行。由于从节点到用户Home目录需要经过NFS服务节点、登录节点千兆网络接口以及登录节点的HPS接口,因此主目录的高可用性需要考虑两层:NFS SERVER节点的高可用性;登录节点的高可用性。

3.3.1 NFS节点配置

针对NFS服务器节点的高可用性问题,系统在nfsserv1和nfsserv2上安装HACMP软件,以实现热备份。nfsserv1和nfsserv2上运行的资源包括千兆网络服务接口及其管理或接管的文件系统。当任何一个NFS服务器出现问题时,另一台nfsserv可以接管上述资源,由此实现NFS服务器节点的高可用性。

3.3.2 LOGIN节点配置

业务分区和科研分区各有两个登录节点,这两个Login节点之间主要承担如下任务:(1)提供外部用户登录的可用地址;(2)集群内部节点访问NFS Server的Gateway。

对第一个功能:在CMA现有的外部网络的DNS服务器上配置别名,使外部用户总能够访问到活动节点的IP地址。对第二个功能,在各节点上配置两个路由,第一个路由使用主登录节点的HPS接口ml0作为Gateway,第二个路由使用备份节点的HPS接口ml0作为Gateway。当第一个路由不通时,会自动使用第二个路由。

3.4 GPFS的高可靠性设计

CMA IBM系统采用GPFS并行文件系统,保证资源组内的所有节点可以并行访问整个文件系统,而且针对文件系统的服务操作,可同时安全的在使用此文件系统的多个节点上实现。

GPFS是一种日志文件系统,可为每个节点产生单独的日志,在节点失效时,用来快速的恢复,保持数据的一致性。GPFS允许同时的读写操作,并对同样的文件有多个独立的访问路径,当节点失效时,GPFS可提供另外有效的路径。

在系统GPFS具体的设计实施上,在业务分区和科研分区,都配置有4个VSD服务器节点,分成两组,每组内的两个节点互为备份,保证VSD的高可用性。每组的两个节点位于不同的机柜中,这样保证即使整个机柜掉电,VSD仍然是可用的。

4 CMA IBM系统的运行情况

CMA IBM系统投入运行至今,无论是业务分区或者科研分区,硬件设备和软件应用都保持了稳定运行,7年来节点平均可用率98.55%,系统平均可用率99.47%,为中国气象局的业务和科研应用系统提供了高可靠和高可用的基础平台。

其中,主机节点可用率=(1-)×100%

Tdown:系统单节点硬件故障导致该节点无法运行的时间(分钟),Day:当月的自然日天数

主机系统可用率=(1-)×100%

Tdown:系统存在两个以上节点无法运行或全系统无法运行的时间(分钟),Day:当月的自然日天数

以2012年为例,全年IBM高性能计算机系统共更换了279个损坏部件,平均每1.3天发生一起部件故障,其中计算节点(p655节点)、FastT存储系统以及HPS高性能交换机系统、故障较多,三者之和占总故障数的92.5%,如图4所示。

在如此高的故障率下,2012年全年的系统可用率仍达到了99.74%,这主要归功于系统的高可靠性设计,系统运行发生故障最为频繁的部件如磁盘、光纤卡、机柜电源等由于具有冗余设计或者高可靠性特性,发生故障或者更换时并不影响系统的运行。

当然,除了系统的可靠性设计外,规范的系统日常维护和实时监控、定期全面巡检和预防性维护、故障发生后的及时响应和修复、常用备件的现场储备、对故障原因的分析以及指导用户正确使用系统,这些都有助于提高系统的可靠性和可用性。

5 结束语

气象应用是高性能计算的典型应用,要求系统具有超强的计算能力,以满足海量数据的处理需求,提高气象预报的精度和准确度,而这些都以系统的可靠性和可用性为基础。中国气象局的IBM高性能计算系统在设计和实施过程中,充分考虑其在可靠性和可用性方面的提升,两年多来稳定的运行确保了中国气象局业务和科研的提供了坚实的保障。

参考文献

[1] General Parallel File System - Concepts, Planning and Installation Guide, Version2.3, IBM Red Book, 2004.12.

[2] Linux Clustering With CSM and GPFS, Jean-Claude Daunois, Eric Monjoin, Antonio Forster, Bart Jacob,etc.2002.3.

[3] CMA HPCS 技术方案建议书.IBM Corporation,2004.

[4] 魏梓栋.IBM P系列服务器高性能交换机.计算机世界报,2002.

[5] IBM FAStT产品解决方案优势,IBM白皮书.IBM Corporation,2006.

[6] 王伟,高能,江丽娜.云计算安全需求分析研究[J].信息网络安全,2012,(08):75-78.

[7] 郝斐,王雷,荆继武等.云存储安全增强系统的设计与实现[J].信息网络安全,2012,(03):38-41.

作者简介:

沈瑜(1979-),女,工程师/硕士研究生,2006年毕业于南京大学计算机科学与技术系,目前在国家气象信息中心高性能计算室从事高性能计算机系统管理及应用支持工作。

高性能计算机范文第8篇

关键词:高性能计算机;计算速度;高端计算

1、高性能计算机与大众生活息息相关

1.1对制造业的推动:我国是一个制造业大国,高性能计算在制造业的广泛使用,不仅可以帮助工程师在设计阶段更科学地计算材料强度,更合理地选择和使用材料,设计出更符合空气和流体动力学原理和人体工程的产品结构和外形,而且可以在仿真基础上全面规划整个制造过程,有效提高产品制造的质量和产量。高性能计算的全数字化设计制造环境在缩短产品设计周期、节能降耗、降低污染、提高产品质量方面的作用不可限量。

1.2 对网络信息服务的影响:在网络日益普及的今天,我们已经渐渐习惯于从网上获得信息和服务,但是同时也经常为服务响应速度的迟缓而烦恼。要面对数千万、数亿用户的访问请求,服务器必须有强大的数据吞吐和处理能力。这又是高性能计算机发挥作用的舞台。高性能服务器每秒种可以处理数千万乃至数亿次服务请求,及时提供用户所需要的信息和服务,保证服务质量。

2、国内外高端计算发展现状

2.1国内高端计算机发展现状:根据中国软件行业协会数学软件分会2003年11月份公开的2003年中国高性能计算机TOP100排行榜最新统计,我国高端计算机系统的总计算能力在19.56TF/s峰值左右。 我国高端计算机系统研制开始于20世纪70年代中后期,大体经历了3个主要发展阶段:第一阶段从70年代中后期到80年代中期,主要以研制大型向量系统为主(以银河I为代表);第二阶段从80年代中后期到90年代末,主要以研制大规模并行系统为主(以神威I为代表);第三阶段从90年代中期起,主要以研制大规模机群系统为主(以曙光机为代表)。目前,参与高端计算机研制的单位已经从科研院所发展到企业界。

进入新世纪,随着研制高端计算机系统的诸多关键技术被攻克(尤其是机群技术),我国自行研制的高端计算机系统已开始形成自己的品牌系列和一定的市场规模,其发展呈现星火燎原之势头。近两年,随着“神威”、“银河”、“曙光”、“深腾”、“天梭”等一批知名产品的出现,使我国成为继美、日之后第三个具备高端计算机系统研制能力的国家,被誉为世界未来高端计算市场的“第三股力量”。根据中国软件行业协会数学软件分会2003年11月份公开的2003年中国高性能计算机TOP100排行榜最新统计,我国高端计算机系统的总计算能力在19.56TF/s峰值左右。

2.2 国外高端计算机发展现状“21世纪,高端计算技术已成为衡量一个国家经济技术综合实力的重要标志,它对国民经济、社会发展、国家安全和国防现代化建设具有重要意义。以美国和日本为代表的发达国家十分重视高端计算机系统的研制及其应用技术的开发。根据全球实用超级计算机500强最新排行榜的统计分析,目前国际上已经有242台系统的Linpack实测性能超过1万亿次/秒(2003年12月前只有131台);500强系统的总性能为813TF/(2003年12月前为528TF/s);排行榜中“最慢”系统(第500台机器)的速度为624GF/s(2003年12月前为40314GF/s);现在500强系统的主流结构是Cluster,Constellations和MPP三种结构类型。所有系统分布在世界上35个国家和地区,美、日、德、英等发达国家占了80%的计算资源,其中仅美国就安装了255台,占总性能的56%;并且500台系统中的91%是由美国制造的,所有这些数据均表明美国在高端计算机的使用和生产方面仍然保持着绝对的领先优势。

3、高端计算机发展趋势

国外高端计算系统今后的开发热点是计算速度为十万亿次/秒左右的系统,中期目标是百万亿次秒,长期目标是千万亿次/秒甚至更高。未来国际高端计算的发展将呈现以下趋势:随着高性能计算向高效能服务转变,超级计算机系统追求的目标也将从/高性能走向“高效能”。按美国DARPAHPCS计划说明,High productivity的综合含义是指提高超级计算机系统的计算性能、可编程性、可移植性和鲁棒性,同时努力降低系统的开发、运行及维护成本。HPCS计划表明,超级计算机要想保持快速发展势头,必须要有本质的变化,即必须采用先进技术,平衡各项设计指标,实现系统的高可靠性、高可用性、高可维性、高安全性和低功耗。

4、高性能计算机发展任重道远

4.1 应用软件匮乏:我国长期以来存在的重硬件、轻软件的现象在高性能计算领域格外突出,影响更大。对于高性能计算机而言,缺乏合适的应用软件就根本无法开展相应的应用,也无法吸引用户来使用高性能计算机。高性能计算机上运行的应用软件专业性强,价格昂贵,国内应用部门每年都花费大量经费,采购应用软件,但是这种采购一般是分散进行的,缺少相互协调,因此国家整体布局还不尽合理,有些软件多个部门重复采购,而另一些急需的软件又没人购买。

4.2 资源分布不均匀:国内高性能计算机主要分布在科研院所、大学以及石油勘探、气象预报等应用部门,地域分布也不均匀。资源分布的不均匀和资源访问的困难,使得不少高性能计算的潜在用户放弃了应用的打算。在经济效益不够好的传统产业尤其如此。这种资源分布的不均匀性一方面使需要资源的用户难以获得资源,另一方面也造成宝贵资源的闲置和浪费。

结语

我国的高性能计算事业必须走可持续均衡发展的道路。高性能计算是昂贵的,不仅有设备的初始投入,而且有场地条件、电力消耗、运行维护和人员队伍建设等多种费用。因此,一定要切实从应用需求出发,大力促进应用的进步,以此推动高性能计算的发展。强调应用需求牵引并不是忽视技术的推动作用。技术的进步可以创造新的应用,调动新的应用需求。网格以其资源共享、协同工作的固有能力和网格服务的形式,支持用户共享使用Internet中的各类资源;网格允许用户克服地理的障碍,更便捷地获得高性能计算的能力;网格简化高性能计算机的使用方式,使更多的普通用户能够利用高性能计算机的能力去解决过去难以解决的问题,扩大了高性能计算机的应用范围。需要强调的是,高性能计算的技术创新有赖于国家持续的支持,以保证足够的研究经费和一支高水平精干的研究队伍。高性能计算人才的培养是一项长期的艰巨任务,不仅要通过改革高校的学科划分和专业设置来加强高性能计算复合型人才的培养,还要通过应用系统的开发,培养和锻炼各个行业与领域熟悉高性能计算的人才,只有这样才能真正保证高性能计算及应用的可持续发展。

参考文献:

[1]中国软件行业协会数学软件分会.中国TOP100制造商分析[J].

高性能计算机范文第9篇

关键词 高性能;计算机网络;分析

中图分类号 TP391 文献标识码 A 文章编号 1673-9671-(2012)092-0172-01

传统的计算机网络难以适应时展的要求,与下一代网络技术发展相匹配的是新一代高性能计算机网络。随着电信技术的发展,电信网将与互联网合而为一,这为新一代高性能计算机网络的发展提供了可能性。通过对当今计算机网络问题的研究,为新一代高性能计算机网络的发展提供了可能,也为下一代计算机网络技术的研究提供了理论依据。

1 当今计算机网络面临的问题和挑战

以互联网技术为基础的计算机网络在当今社会的发展下面临诸多问题和挑战:

1.1 缺乏较高安全性的网络系统

目前使用的互联网技术存在之初主要运用于科研领域,安全能力并不强。但随着经济和科技的发展,互联网开始进入诸多领域,如商业、军事、金融、交通等,这些领域对互联网的安全性要求比较高,因此如何提高安全可靠的信息就成为计算机网络发展面临的一个主要问题。

1.2 无法提供较高的服务水平

互联网在发展之初主要用于传输简单的数据,而目前越来越多的多媒体应用需要计算机网络的传递,多媒体应用需要支持连续数据流的传递,它在时间上有着严格的要求,当今互联网技术无法满足这么高的服务。

1.3 无法提供开放集成的网络平台

互联网相对来说还是一个相对封闭、专有的服务平台,它无法提供开放、高效、灵活的网络服务。由于网络软硬件的多样性,互联网被划分成不同的管理领域,互联网的这种异构性使得服务平台多样,这就无法提供一个高性能的服务平台来开发、集成、部署网络应用。

1.4 无法提供无处不在的移动网络

现在的移动网络主要是互联网的无线技术拓展,采用无限局域网或者移动IP技术,缺乏快速切换、实时跟踪和分布管理的功能,它不具备开放的结构,无法提供高效的多媒体服务,这就给用户造成了一定的不便,严重影响着移动网络的发展,也无法满足信息社会人们的需求。

2 当今计算机网络研究的主要问题

2.1 网络安全技术的研究

为了解决网络完全问题,对以下几个问题进行了探索研究:1)安全协议,主要是改进现有的安全协议和设计新型的安全协议;2)安全算法,主要是对加密技术的研究,包括数据传输加密、数据存储加密等;3)网络防御技术,主要是对防火墙的研究,提高网络的综合防护能力。

2.2 网络服务水平的研究

目前主要有互联网集成服务体系结构和区分服务体系结构。集成服务体系结构提高的服务虽然能够与客户的要求相匹配,但是却很难大规模部署;区分服务体系结构能够提供简单、可伸缩的服务,但是它的任务都比较复杂,需要复杂的端对端信令。

2.3 开放集成的网络平台技术研究

开放集成的网络平台技术主要有高性能分布对象中间件技术、特殊应用环境下的分布对象中间件技术,其中高性能和可靠性分布对象的中间件技术是新一代高性能计算机网络的前提,它主要吸收操作系统的最新研究成果。

2.4 移动网络技术研究

移动网络的研究主要包括移动性支持和移动管理、服务水平保障机制、空中接口标准等。对于移动网络的发展策略主要包括全IP网络体系、网络域和服务域相分离等。由于未来移动网络切换频率高、需要支持大量用户,因此对快速切换机制成为移动网络研究的重点。

3 新一代高性能计算机网络的发展模式

3.1 下一代网络技术的发展趋势

下一代网络技术是计算机网络和电信网络的有机结合,今后的网络将分成计算机网、电信网、移动网和固定网三部分,它能够提供有效的网络服务平台和开放集成的网络服务,它对网络安全的要求更加严格,需要支持多媒体流的传输,它能够高效合理利用网络中的各种信息,是网络服务更加有意义。总之,它将是一个开放集成的、伸缩性强的、便于统一管理的网络服务。

3.2 新一代高性能计算机网络发展的理论基础

互联网技术与电信网的结合是下一代网络技术发展的设想,下一代网络技术能够进行同一控制和管理,能够提供多种业务,主要包括应用域、网络域和分布处理环境。近十年来,随着互联网技术的发展和人们对互联网的研究,为下一代网络技术发展提供了全新的技术理念,根据A.Modarressi等人的观点,光纤、微电子和软件技术是支持未来网络发展的主要动力,因此互联网技术的发展在下一代网络发展中有着重要地位,而与下一代网络技术发展相匹配的新一代高性能计算机就成为发展的必然要求。

3.3 新一代高性能计算机网络的体系结构

1)大规模网络技术行为分析,主要包括性能数据的搜集与分析、网络行为的仿真、性能模型的建立、网络增长分析等等,其中最主要的工作就是对网络行为进行测量,这就需要一种标准网络技术的产生。2)面向网络应用,新一代高性能计算机是基于网格的计算,它对中间件网格互联系统有着严格的要求,要求它提供信息支持平台,采取透明、集成的方式管理数据;要能够提供资源发现的机制,面向各个应用领域增强服务。3)移动网络技术,它必须解决移动结点的问题、服务质量问题、多点投递问题和屏蔽的异构性,使移动网络能够适应完全异构复杂的环境。4)开放、集成、安全的网络平台,要建立统一开放的分布对象计算机平台分布体系,要加强实时CORBA、嵌入式CORBA和容错CORBA的研究,形成一个安全可靠、可扩展可伸缩、高性能的网络平台。

4 总结

新一代高性能计算机网络要能够符合下一代网络技术的发展,它将互联网和电信网合而为一,将大大促进计算机网络技术的发展和运用。它需要处理以下问题,如网络的安全性和开放性,无处不在的移动网络的发展,对网络服务平台也有着较高的要求,只有加强对这些方面的研究,才能促进新一代高性能计算机网络的发展。

参考文献

[1]顾冠群,沈苏彬,顾伯萱,赵阿群,沈卓炜.新一代高性能计算机网络[J].东南大学学报(自然科学版),2008,03.

[2]杨鹏,吴家皋.基于交互、面向服务的新一代网络体系结构模型研究[J].电子学报,2009,05.

[3]白岩,周海燕,王桂艳.计算机网络信息技术[J].现代情报,2010,10.

高性能计算机范文第10篇

关键词 高性能计算机 管理软件 接口

中图分类号:TP311 文献标识码:A

1基本原理

1.1主要管理功能

高性能的计算机的管理软件,主要是使用IPMI协议,通过对网络的启动以及结合BMC卡来达到对计算机的管理的目的。同时还可以通过Internet网来进行远程的关机,远程的对计算机进行安装系统、检测等操作,这些都是通过Java程序执行存放在指定位置的;linux脚本来实现的。

1.2工作原理

PXE是基于TCP/IP、DHCP、TFTP等Internet协议之上的一种扩展的网络协议,它能够提供网络启动的功能、协议又分为客户端(client)和服务端(server)两端,PXE client存储于网卡的ROM之中,在计算机引导的时候,BIOS能够把PXE client调入到内存中,然后对其进行执行,并且能够显示出命令菜单的操作,经过用户的选择之后,PXE client将在远端的操作系统能够通过网络下载到本地上,并且在本地上运行。

PXE能够通过网络传输来保证其最后橙红的运行,在计算机启动的时候,DHCP server能够给PXE client动态的分配一个IP地址,为了实现这个目的,在对DHCP server进行配置的时候应该增加对应的PXE特有的配置。由于在PXE client所在的那个ROM内部,已经存在和TFTP client,因此PXE client可以使用TFTP client,通过使用TFTP协议来在TFTP server上对其需要的文件进行下载。

在上述的条件下,PXE协议就能够正常的运行了。在这个过程中,把PXE client是需要安装Linux的计算机,TFTP server以及DHCP server是运行在不同的另一个Linux server之上的。并且,配置文件、,Bootstrap 文件、Linux内核以及Linux根目录等都是放置在Linux server 上面的TFTP服务器的根目录之下的。

需要值得注意的是,在PXE Client 正常的工作的过程中,还需要 3 个二进制文件:即

Bootstrap、Linux 内核以及 Linux 根文件系统这三种文件。其中,Bootstrap 文件是可执行的程序,它能够向用户提供一个比较简单的控制界面,并且可以通过用户自主的选择,来进行相匹配的 Linux 内核以及 Linux 根文件系统的下载。

2实现方案

2.1涉及基本内容

目前来看,对于高性能计算机的管理软件使用的是基于Java语言的管理软件,它能够在集机群中使用上面介绍的各种技术来完成需要完成的各项功能,并且与此同时,各个功能都是封装在shell脚本之中的,并且还可以通过使用跨平台的编程的 Java 语言中的进程管理来对shell脚本文件进行调用。在计算机的管理软件的前台,会使用JSP来对Java进行调用。

其中,shell脚本文件的调用过程中,会涉及到网络启动、本地启动和网络安装服务这三种十分重要的技术,它们都可以在Linux的操作系统的环境下把调用的服务写成脚本文件的形式来进行执行,在这样的条件下能够使得对前台命令的调用变得更加的方便。

Java是一种跨平台的语言,因此可以使用这种语言作为编程的基本语言来解决这个系统中对于未来的跨平台的一种管理的设想。然而,如果采用这种方式则会涉及到一个Java 与 Shell 脚本的调用接口问题,但是Java 中的进程管理已经提供了能够对 Shell 脚本进行调用的能力,因此则不存在相关的问题。其中,还会涉及到Java 提供的两个类:即 Runtime 和Process。

3 结论

目前,随着高性能的计算机的逐渐增多,对于高性能计算机的管理软件的研究也逐渐的引起了人们的重视。对于高性能的计算机的管理软件的研究方案,大多数都是在Java程序的基础上进行设计的一种管理软件,本文主要对其基本的原理进行了研究,主要包括涉及到的基本知识、以及其内部的软件构成、软件的结构等进行了介绍。该管理软件的工作原理比较简单,并且解决了对高性能计算机进行远程的管理存在的难点。希望通过本文的介绍,能够起到一定的参考作用。

参考文献

[1] 赖万东,钟理.浅析应用计算机软件辅助化工原理课程设计教学[J].化工高等教育,2012(01):63-65+70.

[2] 陈奇,朱家诚,公彦军.将计算机软件引入机械原理教学的探索与研究[J].合肥工业大学学报(社会科学版),2011(01):145-148.

[3] 向健极.计算机软件开发的基础架构原理分析[J].武汉冶金管理干部学院学报,2014(02):70-72.

[4] 潘斌.计算机软件开发的基础架构原理分析[J].电子制作,2014(19):223-224.

上一篇:新技术产品范文 下一篇:审计局内部审计范文