基于集群系统硬件监控技术的机房管理解决方案

时间:2022-08-13 08:50:05

基于集群系统硬件监控技术的机房管理解决方案

摘要:计算机集群系统的硬件监控问题一直是大型集群系统管理中普遍存在且急需解决的问题。我院学生机房也不堪其扰。首先,开发满足需求的监控软件的代价太大且缺乏OS底层技术的支撑,其次依靠人工巡查费力、耗时、不安全。本文基于WEB服务器技术以及IPMI协议提出并讨论了解决计算机集群系统监控问题的二种解决方案,最后确定了第二种基于依次轮询的解决方案解决我院学生机房硬、软件监控问题。

关键词:集群系统;硬件监控;机房管理;方案

中图分类号:G647 文献标志码:A 文章编号:1674-9324(2013)36-0009-03

随着计算机和网络技术的飞速发展,应用领域中计算机系统的规模和数量已经不可以与网络发展初期的小型网络同日而语。由此产生的管理问题也越来越受到人们的关注——这些计算机系统需要一个分离于计算机本身内部系统的监控系统来对计算机集群系统进行监控以保证集群系统的正常运行。

一、基于集群系统硬件监控技术的发展现状

20世纪80年代以来,随着计算机技术的不断发展和工业自动控制的需求,计算机监控技术取得了长足的发展。从原有的计算机直接控制,到大量涌现的Microsoft的DCOM、Sun的RMI、OMG(对象管理组织)的CORBA,DCOM、RMI、CORBA等为代表的远程计算机程序监控技术,再到后期发展到基于web服务器的远程页面式监控系统,计算机监控在向着无缝链接和跨平台化发展,为用户提供更能适应各种不同计算机环境,各种不同监控距离以及简洁使用的监控系统[1]。现阶段web服务器以其标准性和开放性即将已经成为大规模计算机远程监控的主流。这对计算机远程监控也提供了更有利的发展环境。任何支持http和html等标准的计算机设备都可以通过web服务器对大规模计算机硬件甚至于对各种工业设备的监控,这样不但可以实时地监测到设备的最新信息,还能及时地对设备进行有效的控制。基于web服务器的硬件监控技术,在工业以及国防领域已经得到了比较广泛的应用和发展。

二、学生实验机房管理的现状以及应对策略

随着我院学科建设的健全和发展,我院机房已成为我系的信息枢纽、控制枢纽和资料库。我院实验室机房现有6个实验室,总计近千台计算机,年接待学生310000人时数。在管理上有如硬件安全管理,计时管理,技术人员管理,学生实验课课堂纪律管理等多处监控难点。如何管理、监控这些大规模集群系统,保证系统的正常有序运行成为目前我系计算机机房管理的重点研究问题。目前我院机房的管理人员不得不采用24小时专人值班,定时巡查机房环境设备,这样不仅加重了管理人员的负担,而且更多的时候,不能及时排除故障,对事故发生的时间及责任也无科学的管理和认定。

综上,我院机房需要有效的方法来实时监控硬件运转信息,包括对计算机的启动、停止与复位,显示各个设备工作的环境温度、电压、电流等信息。现阶段硬件监控系统由最初的单个设备配备监控系统发展到成组的客户/服务端机制以及到后来的大规模信息收集处理,硬件监控系统已经实现了很高的控制效率并在很多应用领域得到推广、运用。

本文针对我院机房实际提出并讨论二套基于web的硬件监控系统的可行性解决方案。

三、两种基于web服务器的硬件监控系统的两种解决方案

1.基于分布汇总的解决方案。基于分布汇总的解决方案如图一所示,采用的是基于C/S软件系统架构方式,在集群系统的每一台主机上安装客户端程序,由客户端程序收集主机的硬件运转信息,发送到服务器端程序负责决策是否发出报警,从而达到硬件监控的目的。这种方式降低了web服务器方的负载,使得服务器端程序只需要对异常信息进行处理,提高了web服务器的处理速度。在这种模式下,客户端程序也可以部署分布式数据库,定期收集、监控集群的硬软件运转信息,定期通过网络汇总到web服务器方的数据库,使得即使在短暂的网络不通畅的状态下,客户端仍可以对单个硬件进行监控。

2.基于依次轮询的解决方案以及IPMI协议。(1)基于依次轮询的解决方案。另外一种基于依次轮询的解决方案如图二所示,采用B/S软件系统架构,在web服务器端开发API多线程程序,当程序运行时建立相应线程依次定期询问集群系统中各个主机系统的OS内核API程序接口,或访问由IPMI协议支持的串口获得各个主机系统软硬件资源的运转情况,统一将监控数据汇总到位于web服务器端的数据库中,由服务器端程序到数据库中读取整个集群系统内每台主机的运转情况。在这种解决方案中,在集群系统的各个主机上均可登陆到web服务器端对整个计算机集群系统进行实时监控。由于这种方案不需要在集群中每台机器上安装客户端软件,在网络通畅的前提下可以自由灵活地登陆web服务器端查看集群系统运转情况,实时管理,十分方便快捷,从而被广泛应用。(2)IPMI协议。IPMI协议是实现基于依次轮询的解决方案的关键技术,下面详细介绍其发展历史及工作原理。(3)1IPMI发展历史。IPMI是智能型平台管理接口的缩写。由Intel、HP、Dell和NEC公司于1998年共同提出,目前最新版本为2.0。利用此接口标准设计有助于在不同类服务器系统硬件上实施系统管理,使不同平台的集中管理成为可能[2]。(4)IPMI工作原理。IPMI的核心是服务器处理器或基板管理控制器(BMC),它并不依赖于服务器的处理器、BIOS或操作系统工作,是一个独立于系统内运行的无管理子系统。在工作时,所有的IPMI功能都是向BMC发送命令来完成的,命令使用IPMI规范中规定的指令,BMC接收并在系统事件日志中记录事件消息,维护描述系统中传感器情况的传感器数据记录。在需要远程访问系统时,IPMI中新的LAN上串行(SOL)特性改变IPMI会话过程中本地串口传送方向,从而提供对紧急管理服务、Windows专用管理控制台或Linux串行控制台的远程访问。BMC通过在LAN上改变传送给串行端口的信息的方向来做到这点,提供了一种与厂商无关的远程查看启动、操作系统加载器或紧急管理控制台来诊断和维修故障的标准方式。[3](5)一个IPMI工作的实例。传统的系统监控管理方法一般是系统管理员定期到机房巡视或者采用PCAnywhere类软件监控,上述方法存在时效性差、服务器宕机后无法追查原因、占用系统资源较多的缺点。而利用IPMI可实现的功能有:(1)、对服务器系统的实时监控,能够监控网络状态;(2)、监控服务器系统静态信息(各个硬件设备的基本信息);(3)、动态信息(主板上硬件的运转状态)。当上述被监控内容发生工作异常时,监控软件会报警,同时将报警事件记录入日志,管理员可根据报警日志分析诊断。对大量分散服务器集中管理的环境应用优势尤为明显。传统的故障诊断一般是管理员到故障现场根据经验诊断故障原因,而利用IPMI,管理员可以通过网络或者串口访问远端服务器,通过获取事件日志和传感器数据记录来分析、确认故障原因,并通过远程操作来实现服务器恢复。综上,IPMI提供了一种实现对计算机硬件无人监控的可能。

四、基于集群系统硬件监控技术的机房管理解决方案

根据我院机房的计算机群现阶段管理情况以及基本硬软件架构,特别适合第二种基于依次轮询的解决方案。整个方案的工作重心在于服务器端的CGI程序开发以及监控系统数据库的建立和维护,而不必在整个计算机集群中的每台机器上都安装一个客户端程序,可行性高、见效快、部署简单。故我院机房将选择第二种解决方案,解决我院机房硬、软件管理的问题。

五、小结

计算机集群系统的硬件监控问题一直是大型集群系统管理中普遍存在且急需解决的问题。我院学生机房也不堪其扰。首先,开发满足需求的监控软件的代价太大且缺乏OS底层技术的支撑,其次依靠人工巡查费力、耗时、不安全。本文基于WEB服务器技术以及IPMI协议提出并讨论了解决计算机集群系统监控问题的二种解决方案,最后选定了第二种基于依次轮询的解决方案解决我院学生机房硬、软件监控问题。

参考文献:

[1]许柯,郑明雪.基于WEB的大规模集群监控系统设计[J].网络安全技术与应用,2008,(9):78-79.

[2]李娜.基于IPMI技术的服务器管理系统设计与实现[D].北京:北京邮电大学2009,(2):7-15.

[3]马海东.基于互联网的远程监控系统的研究[D].大庆石油大学,2007.

上一篇:对新时期高校二级学院教务秘书工作的几点思考 下一篇:让青春之树常绿