传输网络告警预处理分析及应用

时间:2022-03-28 09:41:36

传输网络告警预处理分析及应用

【摘要】传输网络规模大,结构复杂,维护工作繁重,为提高故障处理响应速度,本文对传输网络告警进行预处理,制定告警过滤规则,将滑动窗口的理念引入综合网管告警呈现窗口,讨论分析故障诊断的规则和自学习能力,提高故障的处理效率与准确率。

【关键词】故障;预处理;告警采集;告警过滤;告警分析;故障诊断

1.引言

传输网络作为基础网络,规模庞大,结构复杂,一个网络故障的发生常伴随大量告警产生,告警分析是故障预处理的重要手段。如何在复杂庞大的网络中迅速对告警进行分析,进行故障定位,提高故障的处理效率与准确率,是当今传输网络维护的一个日益迫切而重要的课题。

2.基本概念

故障是指系统由于其组成部件出现硬件或软件上的紊乱,从而导致使系统不能正常工作并且提供服务,故障可能会导致系统产生告警。传输网络中故障主要分为硬件故障和软件故障,硬件故障有单板故障、线路中断、尾纤故障等,软件故障一般是指主控板、业务版的软件故障。

告警则是指在系统中发生某些特定的异常事件时,由系统发出的通报组成的事件报告,主要用来进行告警信息的传递。告警表示有故障发生。告警信息分析是故障进行分析和预处理的重要手段。

3.告警预处理

告警信息分为特征告警和非特征告警,非特征告警的分析价值低,且常常存在信息冗余、数据不完整、时间同步、告警中包含一些与关联规则无关的噪声,告警信息的属性不同等等等问题,故需要根据告警进行相关性分析。告警相关性分析是指对告警进行合并和转化,将多个告警合并成少数几条或一条具有更准确信息的告警,减少传输综合网管上报告警数量,协助网络运维人员及时发现故障,减少业务中断时间,提高故障诊断和业务恢复的效率,最终提高运营商的效益。

目前,中国移动的传输网络由多个厂家提供,各厂家自带网管系统,分散监控、分散管理多厂家设备,操作复杂性高,缺乏统一、整体的全网网络级管理系统;缺乏对全网资源、网络拓扑的宏观把握和数据分析;为了解决这一问题,集团组织开发了传输综合网管系统来实现跨平台跨厂商的传输网络的维护和管理,其最重要的目标在于对全网故障的宏观把握,尤其在重大故障的处理上,第一时间呈现重大故障的告警信息,帮助网络线维护人员通过监控手段第一时间发现故障,并进行预处理。因此,传输综合网管系统是告警分析和故障预处理的重要工具。

在传输综合网管中,为了帮助监控人员尽快地发现故障,需要对告警进行预处理,这些预处理的具体内容包括:

(1)告警采集,从各厂家的子网网管服务器上尽可能采集更多的告警;

(2)告警压缩:将多个同时发生的相同告警缩减成一个告警。

(3)告警过滤:根据告警过滤规则,删减冗余告警,呈现本征告警。

(4)告警计数:用一个新的告警替代特定数目的同时发生的相同告警。

(5)告警呈现:通过滑动窗口将经上述处理后的告警呈现出来。

3.1 告警采集

采集的主要任务是与所接系统进行双向交互,一方面将从通过设备厂家网管接口采集到的数据转换成数据管理层和应用管理层的所需数据,另一方面将数据管理层和功能应用层下发的命令转换成厂商网管系统所能识别的命令,从而对厂商网管系统进行管理操作。

3.2 告警过滤

批量采集上来的大量告警中,有些只持续短短几秒钟,有些关键字段缺失,有些重复出现,有些属性冗余,影响数据挖掘的准确度和效率,为将原始数据转换成便于挖掘的形式,需去除闪断告警、处理缺值数据、合并重复告警、完成数据类型转换。

从广西移动区公司传输综合网管系统随机抽取2012年8.6-8.20共15天告警数据,共1461822条告警,将这些告警作为原始告警数据,处理结果下表所示。

表1 告警过滤效果统计表

3.3 告警呈现

在告警相关性分析系统开始运行之前,预先设定一个较大的初始时间窗口,尽可能多的采集告警序列,以确保采集的告警序列中包含完整的特征告警组。然后对采集到的特征告警组进行分析,包括告警压缩、告警过滤、告警计数等处理,确定特征告警组上报时间T(30分钟)。在系统运行过程中,引入滑动窗口的概念,确保在尽可能短的时间窗口内,采集到完整的特征告警组。

3.4 故障诊断规则

告警进行预处理后,需根据告警进行故障诊断。故障诊断常见的方法是基于规则的故障诊断。建立基于规则的故障诊断有助于实现告警的自动派单,减轻监控人员的工作,使得监控人员能把主要精力集中在告警的及时发现、告警的预判断和告警的跟进处理上。基于规则的方法不需要深刻理解网络结构和运行原理,符合人的思维,便于理解,易于维护和开发实现和升级。

在告警相关性分析中,故障诊断规则的获取方法大致分为两种:人工方式和数据挖掘方式。人工方式建立故障诊断规则是指监控人员和维护专家通过分析历史故障和告警的典型案例,或者通过相关的通信文档等多种途径,确定产生故障的根本原因,从而手工建立故障诊断规则。

为了使故障诊断具备自学习能力,本文引入数据挖掘方式,结合人工方式提高诊断自学能力。数据挖掘方式是在海量数据中发现新模式的一种分析技术,通过分析历史故障所引起的典型告警的上报规律,建立故障诊断规则。当网络稳定运行的一段时间以后,在数据库中累积了大量的历史告警和故障的信息,特别适合数据挖掘的应用。

3.5 应用举例

本节将以二干三期柳州文惠至永福光缆中断故障为例,说明本文的告警预处理方法及告警诊断规则在现网运维中的应用。

柳州文惠往永福方向为OTM网元,华为1600G设备,在本地有业务上下;永福往柳州文惠方向为OLA网元,充当中继站的角色。从故障发生0:46至故障结束2:36,柳州文惠上报相关告警工共134条;中继站永福上报告警12条。

经告警预处理,及告警采集、告警压缩、告警抑制、告警过滤、告警计数后,呈现在综合网管的与本故障相关的告警为柳州文惠10条、永福3条,告警压缩率为90%.

根据历史故障案例规则库中,典型的光缆中断故障告警现象表现为主光路信号失效,OTM网元监控信号板、光放板、D40单板及单波波长转换板上报告警,OLA网元监控信号板及光放板上报告警,经故障诊断规则判断,这是典型的主光路信号丢失,在OTDR系统上测试结果表明确实为光缆中断引起,证明告警预判断结果正确,监控人员当即通知线路维护人员处理。从故障发生至告警预处理、综合网管系统上报告警、告警诊断预判断、监控人员发现告警及通知维护人员处理仅需要10分钟不到的时间,大大缩短了告警的预处理时间,提高抢修维护工作效率。

4.结论

本文在日益扩大复杂的传输网络维护工作量日益加重的背景下,以现网维护中柳州文惠至永福光缆中断故障为例,讨论了如何分析网络的故障外在形式――告警信息,结合传输综合网管平台,进行告警信息、告警压缩、告警过滤、告警计数、告警呈现等告警预处理措施,引入告警诊断规则进行过故障的初步判断,有效地提高故障的预判断处理能力,提高网络的维护效率,缩短故障处理时间,从而达到节约人力成本,提高运营效益的目的。

参考文献

[1]邓歆,孟洛明.告警相关性分析模型在通信网故障诊断中的应用[J].北京邮电大学学报,2006,29(3):66-70.

[2]逞晓鹏.数据挖掘在综合网管告警相关性分析中的研究和应用[D].北京交通大学,2009.

[3]王玮.对通信综合网管系统故障管理的设计[J].山东电力技术,2003.06.

[4]郑秋华.网络故障智能诊断关键技术研究[J].光通信研究,2007,08.

上一篇:红外测温技术在变电运行中的应用探究 下一篇:基于集成改进ELM的模拟电路故障诊断