民航气象数据库系统故障案例分析

时间:2022-09-13 12:43:38

民航气象数据库系统故障案例分析

【摘要】 民航气象数据库系统是民航气象传真广播一期系统的延续,工程的主要目的是改进现有系统的运行模式,提高现有系统的运行效率,使之能更有效的适应当今民航气象业务发展的需要,为民航系统的运行提高更全面的服务。

【关键词】 民航气象 数据库

一、引言

呼伦贝尔机场民航气象数据库系统,主要由数据库服务器、WEB应用服务器、通信服务器、预报平台工作站,监控终端等组成,软件主要有AIX操作系统、LINUX操作系统、ORACLE数据库、MQ通信中间件等。该系统自2008年5月运行,设备运行稳定可靠,系统故障较少。但在实际使用过程中,也出现过无法进行数据交换的故障,下面笔者对以下两例故障进行分析。

二、常见故障及维修

2.1网络传输设备故障

故障现象:2013年11月7日,值班人员发现数据库中资料不能及时更新,中心交换服务器有大量消息积压且通道章台显示为Running,MQ消息传输延时较长。

故障分析及处理过程:值班机务员仔细查看交换机、路由器、基带猫工作指示灯显示正常,使用ping命令测试到民航华北气象中心的传输链路通信质量,发现ICMP丢失现象比较频繁。检查DB00、DB01服务器传输正常。联系气象中心确认对方交换服务器运行正常,可以排除对方数据库故障的情况。联系本单位技术保障部们=门检查更换传输线路,确认本地线路正常。联系网络公司确认北京至本地的数据传输正常,这样可以排除北京至本地网络线路故障的可能性。联系北京网控中心临时更换ATM传输端口,确认ATM网络数据传输正常。这样故障点初步判断在路由器、交换机、基带猫三个方面,通过监控终端ping通信机、及服务器不存在丢包现象,所以交换机可以排除。更换备用路由器,故障依旧。所以初步判断故障点应该在基带猫,由于基带猫没有备件,拆开基带猫后,检查Modem电源模块输出电压不稳,经过抢修以后更换电源模块,数据链路恢复正常,丢包现象消失,MQ消息传输正常。

2.2通信机故障

故障现象:2015年7月12日,14:50分左右,值班机务员发现通过CMTS客户端发现无法清除AB报,ping北京服务器及本地服务器均正常;使用telnet命令无法登陆通信机。在19:30左右,再次出现以上情况,重启恢复;在24:00左右再次出现以上情况。

故障分析及处理过程:根据以往处理经验,由于硬盘满,无法提供存储空间及程序运行空间,易出现类似情况, 重启通信机后,设备恢复,通过查看硬盘空间,硬盘空间充足。

通过查看通信机目录,在comm/receive/caac 目录下面一个未处理的气象预报文件; 删除该未处理的文件,未发生通信机死机情况,判断通信机死机与该未处理的文件有关;太极公司技术人员联系,得到证实,由于文件处理后,程序未删除掉,会再次调用程序处理,这样重复处理,后逐渐占用更大的内存空间,直至内存沾满,每次死机间隔时间在4小时左右,也大概消耗与机器的内存量相符 。

2.3报文的转发

故障现象:2015年8月10日,本场数据库无法收到其他机场的气象情报。08:05 (北京时)预报员通过在蓝波终端发请求报的方式请求所需的实况及预报报文 。值班机务员在设备巡视中,发现民航气象数据库系统MQ线路转发了某地机场的气象情报,值班机务员立即进行排查。

故障分析及处理过程:机务员通过对通信系统$HOME/ COMM/history/的留底文件进行检查,确认了请求报所请求的报文被通过MQ线路所转发。为了进一步分析转发的原因,仔细对通信系统BSB控制数据进行检查,检查结果正常,控制数据无误,在存储转发参数设置为N。对数据库系统各个进程进行检查,检查结果正常,对转报机蓝波终端软件进行检查,发现发送的RQM请求报的请求地址包含本地地址。

蓝波终端发送RQM请求报:报文内容如下:

GG ZBBBYPYX,ZBBBYZYX,ZNNNYMYX,

RQM/SAZXXX,ZMMM FC=

请求地址为:ZBBBYPYX,ZBBBYZYX,ZNNNYMYX,发送请求报时,错误增加本地数据库请求地址,红色字体部分 。故障原因分析为本地数据库收到请求报后,将本地数据库ZXXX、ZMMM最新时次报文收集,以公报形式附加本地报头发送到转报机,转报机收到报文后,再次将报文发送至ZNNNYMYX(本地数据库),数据库系统收到的这份报,由于报头是本地的报头,并且时次是最新的,于是数据库系统做存储转发处理,通过MQ线路,转发至华北地区气象中心民航气象数据库。

三、小结

对于维修人员来说,设备出现故障之后要沉着冷静分析,平时多看业务维修手册,对系统有整体的把握,熟悉数据的处理流程,有利于快速判断故障点,分析故障原因,必要时向厂家寻求技术支持,可达到事半功倍的效果,要善于对故障进行记录、归纳、总结。通过实践的学习,经验的积累,这样就可以快速的解决设备故障,为维修带来方便。从而保证设备的正常运转,充分发挥设备的作用。

参 考 文 献

[1]太极计算机股份有限公司,民航气象卫星传真广播系统用户手册,1-60

上一篇:新型社交媒体对大学生的行为影响及引导策略研... 下一篇:新一代存储崛起