综合运维管理平台设计探讨

时间:2022-09-01 04:57:56

综合运维管理平台设计探讨

摘要立足运维部门的现状,从运维需求出发,对综合运维管理平台的设计进行分析与思考,提出了平台建设目标、设计思路、系统架构和平台所具有的特色,为运维部门建设智能的统一的综合运维管理平台提供参考。

【关键词】综合运维管理 监控管理平台 集成接口

1 引言

随着信息化建设的不断深入,我校的IT架构日趋复杂,用于支撑整个数字化校园系统运行的IT设备和基础平台也越来越大,故障处理不及时和变更上线导致的宕机增多等问题开始显现,单纯的基础建设已不能有效增强运维部门的保障能力。与此同时,人们的工作对信息系统的依赖越来越大,因此整个信息设备的稳定运行以及日常的维护工作就显得尤为重要。

目前的管理方法是:使用一些简单的监控产品,结合定期的人工巡检,来发现IT环境中已经发生的故障,管理人员常处于被动的角色,无法预知或及时获知IT环境的运行状况,在进行故障排除时,往往是通过经验来判断故障点,然后通过排除法逐级检查,最终找到故障设备,故障响应、处理时间长,工作效率低,管理困难,我们急需一套智能的统一的综合运维管理平台,将被动的管理化为主动的监控管理。

2 运维管理存在的问题

运维管理存在的问题主要包括:系统架构越来越复杂,设备运行维护管理混乱;工作标准化、规范化欠缺,随意性较大;人员解决问题时缺乏协作,责任不清晰;无法和用户进行及时的沟通并解决问题,用户满意度不高;没有形成有效的知识库,遇到相同的问题,不能从知识库获取解决办法,依赖个别维护人员;缺乏 IT 运维工作量的量化考核工具,没有计算 IT 运维人员的工作绩效,也没有监督IT 运维人员解决故障的处理效率和处理质量。

3 综合运维管理平台建设目标

综合运维管理平台建设的总目标:(1)全面监控IT资源状态;(2)提高IT部门运维效率和服务质量;(3)体现IT部门运维价值。

具体目标:(1)实现管理范围内所有设备的监控管理;(2)实现故障告警信息的定制、获取、处理和统计功能;(3)实现底层支撑架构、网络设备、主机、中间件、数据库及通用的性能数据的采集和统计功能;(4)根据监测到的性能原始数据,对信息系统运行状况,运行趋势等进行分析,提供分析报表;(5)提供对业务可用性的实时监测;(6)提供灵活的、可自主设计的服务管理平台;(7)设计符合高校的计划与排班管理功能;(8)可对运维服务进行考核分析。

4 综合运维管理平台系统设计

4.1 设计思路

综合运维管理平台应是一个平台级的系统,应在统一平台上综合提供底层支撑架构管理、网络设备管理、各类主机/数据库/中间件等服务管理、业务运行监控管理、资产管理、IP地址管理、机房管理、存储虚拟化平台管理、服务管理等,应允许第三方软件通过标准接口插入本系统,共享数据采集、共享数据记录、共享故障处理的统一平台。

综合运维管理平台应能够采集管理范围内所有网络设备、主机、软件及应用的配置、运行、性能及事件等数据,通过对采集数据的分析处理,为我们提供网络、系统及标准应用系统的状态监控管理。

综合运维管理平台应对事件故障的发生以及相应流程标准处理机制全面考虑,使系统能够根据我们的需求功能进行高效的管理与预处理工作。当平台自动发现机制中,一旦出现故障信息,能够迅速地以IT系统维护的关系作为依据对整个IT信息进行自动筛选,并发送给相关的运维管理人员,系统将收集到的信息进一步向工作台进行转发,以提醒相关人员对故障进行进一步的处理工作。

4.2 系统设计

综合上述观点,根据我们现有设备的管理、使用情况,参考目前主流技术,综合运维管理平台应由监控工具层、数据汇聚层、运维管理层、集成接口组成。系统的架构通过分层、分模块进行设计,遵循注重开放、规范接口、松散耦合的设计原则,降低各管理软件的整合工作量,实现管理的集中化。

4.2.1 监控工具层

监控工具层是各类专项监控系统的集合,通过远程监控手段和监控实现对各类被管对象的监控管理。主要实现对网络、主机/虚拟机、数据库、中间件、业务服务、存储、机房环境、安全等各类资源的监控管理。

4.2.2 数据汇聚层

数据汇聚层由数据汇聚接口、数据分析引擎、资产配置库、性能指标库、运维数据仓库等子系统组成,是整个平台的数据核心体系,是实现系统集成性和可扩展性的关键。系统通过资产配置库为全网设备建立资源台,通过性能指标库来保存资源的各项监控指标,数据分析引擎实现对资产配置、性能数据、告警事件的分析处理。

4.2.3运维管理层

运维管理层是系统的业务功能实现层,由综合监控展现、服务流程管理、报表管理、运维门户等四个子系统组成。其中综合监控展现主要包括告警监控视图、业务全景监控视图和实时性能监控视图,通过系统自动生成或可视化工具来设计和展现各类运行展现视图;服务流程管理子系统实现日常运行维护管理的规范化和流程化;报表管理子系统实现资产、性能、容量、告警、工单等各维度的统计分析;运维门户实现各项业务功能的组织与呈现。

4.2.4集成接口

集成接口是规范化系统数据流、实现系统内部模块、上下层系统之间、第三方应用集成的统一适配接口,采用标准接口协议,实现身份认证、OA等应用的集成,同时实现与上下级管理平台直接的级联和数据上报管理。

4.3 系统特色

4.3.1 统一的访问门户

运维门户提供面向运维人员的门户基础框架和单点登录服务,以便各个业务模块的界面整合和统一呈现。门户视图可以根据需要灵活调整,基于不同角色、不同使用人员呈现不同的个性视图。同时提供系统自身和第三方的页面整合,并通过统一授权管理,形成面向用户业务的视图展现集成。

4.3.2 统一的资产配置库

构建统一的资产与配置管理库,实现资源、资产、资料的全面管理,解决各类资源配置管理分散、无序的现状,集中管理和保存所有的资产和配置信息,保证数据的准确性和查询的便捷性,并有效解决对个人依赖的风险。

4.3.3 统一的事件平台

统一事件平台实现各类告警的接入、识别、处理规则制定,实现整个IT运行环境各类告警的集中监控与处理,提供开放式的数据集成接口,可以接收来自不同设备、不同软件系统发出来的告警事件,从而保证所有被管对象的集成整合,真正实现统一管理平台。

4.3.4 统一的性能管理

监控指标抽取引擎提供对各类监控指标的集中分析和处理,系统通过标准的接口体系收集,根据管理需要将各类原始性能数据进行规整后,并根据分析判断出阈值事件,写入监控指标库中,同时将超过阈值的数据报送给统一事件平台,形成告警联动。

4.3.5 灵动的视图开发平台

灵动视图开发平台以配置管理库和集中监控数据为支撑,面向对象技术,实现各类视图的可视化设计。用户能够根据管理需要设计各类视图,实现各类监控对象的资产、监控、操作、管理四个维护数据的综合展现。

可以方便灵活地定义流程和子流程,设定相关服务、角色、规则和流转条件,使得运维业务按预定的流程在系统中流转,实现根据人员、优先级自动选择流向。

4.3.7 呼叫中心

部署的呼叫中心与门户系统、网络计费系统集成,提供标准的二次开发接口。呼叫中心应支持智能化座席、自动语音导航、智能来电弹出、来电智能分配和录音等功能。

5 结束语

国内现有相关软件多是监控系统和运维系统各自独立,或通过简单接口连接,但信息、资源不共享,已不能满足运维部门的管理需求,因此,研究开发一套智能的统一的综合运维管理平台具有现实意义。

参考文献

[1]李渤,陈莹.IT的运维管理与实现[J].计算机光盘软件与应用,2013(18).

[2]孙建庆.信息系统运维综合监管平台设计[J].电力信息化,2009(03).

[3]方国洪,孙光宇,何帆,王斌华.浅谈IT 运维管理之系统集中监控[J].浙江冶金,2013(01).

作者单位

广东外语外贸大学教育技术中心广东省广州市510420

上一篇:让武大精神伴你成长 下一篇:使用Maven构建java项目