告别“无知”BOSS

时间：2022-10-15 02:23:23

运营商当前的业务运营支撑系统(BOSS)存在先天不足,既没有能力感知BOSS系统的运营状态,也没有能力预知故障的发生。3G时代,BOSS系统如何才能告别“无知”,先于用户发现问题,变被动为主动,提高运营商业务质量?

3G的正式运营,带来了国内三大运营商(中国移动、中国联通、中国电信)之间白热化的竞争。用户的持有量是各运营商实力的一个重要衡量指标,而网络质量和业务能力则决定着运营商能否持有较多用户。对网络质量和业务能力的保障涉及到运营商内部多个部门以及工作环节,其中业务支撑是十分重要的一环:业务运营支撑系统(BOSS)故障会导致营业厅关门、客户投诉升级等重大问题的发生,严重影响公司业务的正常运营。BOSS系统如何实现对业务能力的保障?如何使运营商业务支撑运营工作全面提升?

BOSS系统的先天不足

当前运营商的BOSS系统普遍存在着先天不足:既没有能力感知BOSS系统的运营状态,也没有能力预知故障的发生。很多地方运营商的BOSS系统不同于传统的电信设备系统,并不具备电信级的能力标准,而是附加了很多具有中国特色、甚至各省特色的IT系统,在可靠性与可维护性上都与电信级产品相差甚远。这种先天不足主要体现在“可监控性差”上。各个运营商都经历过或正在经历着被动的BOSS维护模式三部曲:“客户投诉―发现故障―故障修复”。

如何让BOSS运维人员能够快速发现、有效解决业务问题,全面了解业务运营系统的各种运营信息以及用户的感知呢?

几大运营商都在千方百计寻求自身BOSS业务支撑运营能力的提升。以中国移动为例,中国移动集团公司曾经下发过相关业务技术规范,多家省移动公司都做过相关的尝试。其中,上海移动曾在BOSS系统改进和提升方面取得了一定的突破,其具体方式是:直接在BOSS系统中增加维护代码模式。这种做法的优点是时效性强,缺点是维护代码与BOSS系统捆绑过于密切,难以实现大范围普及。

BOSS也能实现监控

中国移动浙江公司在借鉴了上海移动BOSS改进模式的经验之后,经过为期二年的探索及验证,构建了探针式BOSS业务监控系统。探针式BOSS业务监控系统提出了“以BOSS业务监控为核心”的理念,采用“探针式提取、指标引导、建模驱动”的方式,打造一站式BOSS业务监控系统,既实现了对现有实际业务系统的有效监控,也满足了BOSS运营管理的需要。

探针式BOSS业务监控系统由五层组成:数据采集层、业务建模层、数据聚集层、告警管控层、分析展示层。这五个不同的层次在运营商业务能力的提升和运营管理水平的提高上都起到了什么作用呢?

一、数据采集层: 是整个监控系统的基础,用来提供核心的业务健康度建模和可用性建模所需要的平台、应用、业务等数据。

系统数据采集共采用了三类探针:A式探针直接模拟BOSS前台业务操作,采集BOSS门户各种业务应用的可用状态; B式探针负责采集A式探针发起的前台业务所触发的BOSS后台数据操作日志统计值,以及BOSS后台系统运营状态,并将其发送业务监控系统; C式探针从BOSS接入交换机中全量采集BOSS交易记录,即第一时间采集到实际BOSS运营的状态。

综上所述,这三类探针能够获取到从业务发起、业务处理、业务交易到业务完成全过程的用户能够感知到的所有业务数据,为从用户感知角度进行业务监控提供了坚实的基础。

二、业务建模层: 是整个监控系统的核心,是将业务进行有形化管理、量化衡量的高效手段。该业务建模层中涵盖了几乎所有的BOSS管理资源要素,包括业务、应用、服务及其他平台类资源,这些信息都建立并实时更新于企业集中建设的符合ITIL标准的CMDB(配置资源数据库,其中每一子项便是一个CI配置资源项)中。基于CMDB中动态调整的实时CI项和相互关系,关联上能够反映业务当前状况的KPI指标,以结构化的模型框架为指导,建立完整的业务CI/KPI指标体系,绘制出以业务为中心的BOSS系统视图,全面展现其健康度和可用性。

CI/KPI指标体系的建立是以业务为主线,按照“CI业务-应用-平台”的分层结构,针对每一层设定支撑域、运营域和服务域的指标分类标准,并在这些指标的基础上通过关系推导和加权计算创建业务健康度和可用性量化模型,将业务的层层嵌套、互相关联与后台软硬件平台之间的关系都量化出来,并综合为直观有效的业务运营状况指标; 作为监控系统的核心,业务建模层为告警管控层的预警和故障定位提供了衡量基础和分析逻辑,如果健康指标超出经验化阈值,业务预警可帮助维护人员将业务隐患消除于萌芽之中。

CI/KPI模型的建立,成功地将传统监控系统的监控难点转变为亮点,通过对模型中父子业务间关系、业务与后台资源间关系的结构化梳理,多维度数据的采集计算,有效量化了业务健康度指标。同时,模型中所综合的业务可用性、业务办理量、后台资源使用情况等全方位信息,尤为适合公司管理人员了解业务通体运营情况。

三、数据聚集层: 在这一层,系统将经过CI/KPI模型、按不同业务规则结构化之后的三类用户体验数据进行汇聚:业务监控数据(业务可用性、业务量、业务办理时长、业务的后台服务器负载情况等)、配置数据(从CMDB中定时同步配置项信息和配置关联信息),业务感性数据(业务量、积压量和投诉等信息),使得运维人员不仅能够从IT支撑视角掌握业务运行状况,还能直观了解到在当前业务运行情况之下客户层面的使用感知。

采集层探针

四、告警管控层: 本层提供基于预警模型的预警管理和追根溯源的告警定位处理。

预警模型是基于对系统中超过二年的业务全方位数据基于运维经验的深入挖掘分析所得。当预警模型条件都满足的情况下,通过工单系统发出相关的预警工单,使运维人员及时处理,避免实际的业务中断。

告警定位处理提供了基于逻辑拓扑的全路径故障资源定位和基于业务操作耗时细分的故障环节定位功能。通过对逻辑拓扑中Web、中间件和数据库层的全路径业务模拟,能将故障具体到集群中的某个服务器和某个应用端口; 通过包括网络耗时和后台耗时等的业务操作耗时细分,究竟是网络问题还是后台问题也就能清晰地展现在运维人员面前。

探针式业务监控管理系统颠覆了传统监控系统的的监控视角,将原来自下而上评估业务状态和影响,变成了以结构化模型框架为指导,以对体系化的CI/KPI指标进行监控来了解业务状态、分析预警业务风险、定位业务故障。

五、分析展示层: 以三维立体业务全景视图的方式,向运维人员直观方便地展现当前业务运营状况,可一站视查看业务、逻辑、物理三个层面的运营特征。

在每一层的具体业务、设备的展示上,又把性能数据、告警数据和配置信息同时展现,实现了真正的业务三维立体展现。丰富的三维立体业务监控视图能够更为有机地监控管理业务及系统平台数据,大幅度提升运维管控效率的同时,极大地方便各类人员查看操作。探入式BOSS运营监控实现了一站式的BOSS系统监、管、控。

丰富的业务三维立体展现和钻取方式的层层深入分析,降低了运维人员分析业务与支撑之间的关系难度,从而不断改进系统支撑短板,提高公司总体的业务支撑服务水平。

探针式BOSS

实际应用效果

经过一段时间的系统运行及不断改善,探针式BOSS监控系统对中国移动浙江公司业务质量的提高和运营能力的改善起到了相当大的作用:

1. 提供有效的业务问题预警

探针式BOSS业务监控系统平台正式运行后,平均每月针对业务效率的有效预警达29次,预警有效率和覆盖率均达到96%以上,相关人员据此进行主动式运维服务,使得月均故障数下降了34%。而且,在处理效率上,根据分析系统正式运行以来的告警数据,发现趋势预警时间点比原有的平台级告警和客服报障平均提前42分钟。

2. 故障处理时长明显缩短

CI/KPI模型

系统试商用以来,依靠业务耗时细分、前后台资源模型等系统工具,实现了业务故障的快速定位,明显缩短了故障处理时长,与系统启用前相比,业务故障处理时长平均缩短了42%。

3. 运营分析效率明显提升

探针式BOSS业务监控系统为业务应用维护和系统平台维护人员提供了大量业务运营分析数据,运维人员原来需要分别从BOSS系统、平台监控系统和工作流平台界面查看对应的数据,而今只需要IT运营管理系统一个界面就可以完成所有运维所需数据的查看。同时,通过运营平台的7大类25张运维报表的自动生成功能,大大节约了定期业务维护的时间,有效提升了运营分析效率。

4. 客户满意度明显改善

依托探针式BOSS业务监控系统,业务维护支撑人员的工作模式逐步转为业务问题主动发现、业务故障主动解决。同时,由于能直观地以前台人员视角审视业务故障和问题,维护人员更能了解内部客户感知,解决问题做到有的放矢,明显改善了客户满意度。

由于以业务为中心、以客户为导向,探针式BOSS业务监控系统使运营商业务支撑部门的运维目标与业务部门的目标更加一致,从而共同为客户提供优质的服务,同时在客户中也进一步树立了运营商优质服务的形象:

对内,它转变了业务支撑部门运维员工的思路,从基础平台架构的监控向业务运营管理转变,加强了员工对于业务的了解程度,拓展了业务支撑部门员工的发展规划道路,并且该平台通过自动化监控、准确故障定位诊断功能,能够有效减轻员工工作量,避免了监控运维人员陷入疲于奔命,忙于救火,增加了员工的满意度。

对外,它能够及时有效、甚至提前发现业务的使用问题,提升业务的可用性,从而使客户能够更顺畅地使用运营商提供的各项业务,减少了实际发生业务中断时的客户投诉数量,提升了客户满意度和忠诚度,在保持运营商市场占有率、提升服务竞争力方面发挥了重要作用。

链接

当前运营商BOSS系统面临的主要问题

以三大运营商中运营管理能力比较领先的中国移动为例,目前中国移动各省公司的BOSS运营维护管理面临的主要问题包括:

(1) 现有监控手段比较初级

传统的BOSS监控仅能简单地收集主机、数据库的参数状态,不能从业务应用的整体有机地进行监控和管理。

(2) 业务应用监控困难

缺乏对业务“软故障”的监控手段,对渐进式的业务故障很难做到及时发现,缺乏有效的指标表征业务应用的运营状态,往往在不知不觉中故障已经发生。

(3) 无法快速定位故障

缺乏业务与后台资源关联模型,发生系统故障后不能准确定位业务影响; 系统后台处理仍处于“黑盒子”状态,得知业务故障后也无法快速定位故障原因,客观上延长了故障处理时间。

(4) 运营信息分散,分析不到位

业务实时效率、办理量、成功率和服务投诉等数据分散存放在各自的生产系统中,维护人员为获得这些信息,需不断到生产系统的后台上去提取数据,严重影响了生产系统的安全性。

告别“无知”BOSS

文档上传者

热门标签更多>

热门推荐更多>

精品范文更多>

告别“无知”BOSS

文档上传者

热门标签 更多>

热门推荐 更多>

精品范文更多>

热门标签更多>

热门推荐更多>