BOSS 系统日志分析研究与应用

时间:2022-06-27 04:44:47

BOSS 系统日志分析研究与应用

摘要:当前营业员和用户在BOSS系统办理业务出现问题和故障的时候,通常由用户打10086投诉或者营业员报障给后台维护人员进行故障处理,这个处理流程很耗时间,影响问题的解决效率。BOSS系统日志文件中有大量的信息,从中可以获取到系统详细出错信息。通过建立日志分析管理平台,实时采集BOSS系统各台主机上的日志文件,对达到一定阀值的错误进行告警,并对日志信息进行分析,提供给维护人员进行问题的分析、定位和解决,大大提高问题发现和解决的效率,提升前台业务人员和客户对业务支撑系统的满意度。

关键词:日志规整;实时采集;日志分析

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)28-6433-04

1 背景

当前营业员和用户在业务支撑系统(简称:BOSS系统)办理业务出现问题和故障的时候,通常由用户打10086投诉或者营业员报障给后台维护人员进行故障分析和处理。这个处理流程很耗时间,影响问题的解决效率。

在BOSS系统的各个渠道查询或受理业务的过程中,都有可能会因网络、数据库、应用系统等各方面原因抛出异常错误信息,这类错误信息记录在BOSS系统各主机的日志文件中,由于BOSS系统每天产生大量的日志文件,从日志文件中定位查找错误信息需要花费大量的时间,对维护人员处理问题和故障带来不便,影响问题的及时发现和处理实效性。

2 研究思路

考虑从主机的日志文件中及时地收集到这种系统异常错误信息,并自动入库进行分析,维护人员就能及时的了解BOSS系统当前的运行情况,发现系统问题,查询错误信息,能够在营业员或客户投诉之前就可以去核查解决,提升问题处理的及时性和效率,保障系统健康稳定的运行,从而提高系统业务支撑水平,提升营业员和客户的内外部满意度。

3 实现方案

建立BOSS系统日志分析管理平台,对BOSS系统主机产生的各种日志进行日志异常分析和日志管理,针对主机系统产生的大量日志文件进行处理:日志采集,日志管理,日志分析,日志综合告警执行以及执行前流程审批权限设立、分析结果处理执行中的流程跟踪、分析结果处理执行后的日志留痕。通过日志分析管理平台,维护人员能够方便的查看日志的分析结果、以及日志异常产生的次数和时间段,如系统错误产生的次数、产生的时间段、业务执行人员信息记录、业务执行影响等信息,从另一个角度去分析主机的稳定情况以及运行效率,以往一些不容易察觉的异常信息,通过对日志分析规则的配置和数据采集,也会在系统中体现出来,从而提高系统维护管理的水平。

3.1 日志分析平台系统架构

系统架构说明:

1)采集客户端:运行在生产主机上的采集客户端程序,负责收集相关日志,预处理并通过socket方式发送给采集服务端。

2)采集服务:采集服务端对消息进行缓存,由消息处理器进行异步处理,生成消息首先放入内存,同时发给实时告警,当内存中的记录数达到配置的阀值时写入文件数据库。

3)告警处理:实时告警收到消息后根据告警规则配置进行处理,并将结果入库。

4)查询服务:查询服务接收web端和统计进程的查询请求,从文件数据库和采集服务端的内存中查询符合条件的记录返回给调用端。

3.2 日志分析平台系统功能

系统功能说明:

1)日志监控采集:从各渠道的业务主机上实时读取新生成日志信息。由于BOSS系统各台主机上每天生成的日志信息量很庞大(达到830G),因此部署的客户端程序要能够实时采集日志,并且对主机性能不会造成大的影响。设计上采用客户端部署日志爬虫程序,实时采集日志并传送给服务端,采集传送时间

2)日志规整处理:对采集完成的的日志文本信息,按照既定格式统一进行规整处理,便于后续的存放和分析。

3)消息缓冲处理:将规整好的日志信息,送入待发往消息中心的缓冲区中。

4)消息发送处理:将缓冲区中存在的日志信息,取出发往消息中心;对发送出错的消息,记录关联信息到错误重发文件中。

5)错误重发处理:根据错误记录文件检索需要重新发送的日志信息,将消息再次发送。

6)日志分析处理:对日志进行分析,从有利于维护人员定位分析问题的角度出发,全方位提取错误的信息并进行归类分析,如业务调用路径分析、业务调用关系分析、调用函数分析、异常效率分析等,对分析出来的信息在WEB界面进行关联展现,便于对信息全方位的查看和分析。

7)统计告警查询:根据错误信息进行归类,达到一定阀值的进行告警(阀值可以进行手工调整),对告警的详细信息在WEB界面进行统一展现,并对错误信息进行统计,对外提供查询。

3.3 系统处理流程

从总体流程来看,整个日志处理过程分为三大部分:

1)采集流程:通过采集配置-日志采集引擎根据配置信息从指定主机日志文件中采集关键信息-持久化采集信息-数据入库。

日志采集要求对多个大容量的日志文件进行实时的采集,采集的方式主要以全量采集和增量采集为主,可开启多个采集进程进行同时采集,采集引擎根据配置信息里的采集关键词,以及需要采集的日志文件名称,在对应的主机日志文件中查找存在关键词的行。

2)告警流程:当采集的信息数量达到事先设定的阀值时,会产生告警信息(包括发送短信到维护人员手机和页面告警两种方式)。

3)分析流程:业务日志分析查询-日志分析程序分析采集信息-得出分析结果-返回查询操作-用户查看分析结果视图。

以上日志采集、告警和日志分析组成了整套日志采集分析流程。在采集时只需要添加采集配置信息以及采集关键词,后台采集程序即会自动根据配置信息,到相应的主机日志文件中采集,无需人工干预。当采集的信息数量达到事先设定的阀值时,会进行告警(见图4),同时将采集信息入库。采集信息入库后,要查询日志关键信息,只需要登录日志分析管理平台进行查询(见图5),查询方式可以按天,按日志文件名,产生日志的日期等。平台会自动根据日志采集信息生成统计图型,方便维护人员对一段时间内的采集信息进行评估,并提供日志信息导出功能。

4 应用效果

BOSS系统日志分析管理平台2011年12月上线后,通过部署在CRM系统一台中间件主机上的日志采集客户端程序对日志文件进行统一采集,发送到日志分析服务器上进行统一管理和展现,取得较好的应用效果:

1)采集处理对中间件主机的CPU使用率的影响很小(

2)提升工作效率:维护人员通过日志分析平台的前台界面查看日志信息,节省了维护人员频繁登录各台主机搜索日志的大部分繁琐的工作。平台上线前,维护人员面对庞大的日志记录,定位目标信息至少需要15分钟;平台上线后,维护人员在系统上选择对应主机IP和关键词信息即可查看日志信息,1-2分钟内即可定位,日志信息定位效率提升10倍以上。

3)加强系统监控:平台上线前维护人员需要手工登录各个系统,并查看刷新的日志记录是否存在异常,大量异常信息无法实时捕捉到,无法进行系统的实时监控;平台上线后,日志采集程序在各个主机平台实时采集分析日志信息,实时定位异常信息点,并告警通知相关维护人员,保证了各系统7*24小时的实时监控,提升了系统的稳定性。

4)缩短故障处理时间:平台上线前,故障处理人员需要登录对应主机,查看系统日志进行故障分析,过程需要20分钟甚至更久;平台上线后,故障处理人员只需登录平台系统在监控和告警管理界面能查看故障信息,就能进行故障定位,只需要5分钟甚至更少时间,故障定位处理时间缩短15分钟以上。

5 小结和展望

日志分析管理平台对BOSS系统的日志信息实现了统一配置采集,统一日志信息展现,去除人工搜索日志信息带来的时间浪费,维护人员不用再登陆到各个主机上搜索日志,只需登陆到日志平台查询各种日志信息,减少重复的人工操作和对主机资源的浪费;平台对采集到的日志进行错误信息实时告警,方便了维护人员对故障问题的发现、定位和解决,提高问题解决的实效性,对提升前台和客户满意度起到较好的效果。

2012年6月,日志采集客户端部署在CRM三台中间件主机上运行。后续将根据实际使用情况部署到其他主机上运行。

参考文献:

[1] 《广西移动BOSS应用服务评估分析项目技术建议书》神州数码思特奇信息技术股份有限公司[Z].2011.

[2] 《广西移动BOSS应用服务评估分析—BOSS系统改造项目技术建议书》 亚信联创科技(中国)有限公司[Z].2011.

[3] 《NGBOSS2-CRM(V3.5)业务规范》中国移动业务支撑系统部[Z].2011.

上一篇:用Premiere Pro 制作影片的滚动字幕 下一篇:基于EDA软件的单—四踪示波器转换系统研究