浅析计费系统性能的影响因素及优化措施

时间:2022-08-26 01:34:28

浅析计费系统性能的影响因素及优化措施

摘要:BOSS计费系统性能长期以来为人们所关注。本文在介绍影响计费系统性能因素的基础上,进行了具体的原因定位和分析,提出了优化计费系统性能的优化思路和具体措施,并说明了优化效果,还进行了优化总结。通过优化,计费话单入库平均处理时长明显缩短,计费系统最大处理能力较大幅度提升,有效降低了客户欠费的风险。

关键词:计费系统;性能;影响因素;优化

中图分类号:TM933.4 文献标识码:A 文章编号:1007-9599 (2012) 16-0000-03

1 背景

BOSS计费系统性能尤其是话均入库处理时长、计费系统最大处理能力等关系着计费话单积压及客户欠费风险、节假日业务高峰期话单处理能力和及时性等,长期以来一直为人们所关注和重视。随着近年来客户规模的日益增长和多样化资费产品的不断支撑上线及NGBOSS计费系统割接后计费系统变得益加庞大复杂,在这些影响计费系统性能的不利因素的叠加下,福建移动在日常的计费系统性能跟踪中发现计费系统性能自从2011年6月NGBOSS计费系统割接后下降较明显。为提升计费系统的性能,福建移动成立专项推进计费系统性能提升的研究和实施工作,对计费系统的运行情况及影响计费系统性能的因素进行分析,在2011年6月NGBOSS计费系统割接前后进行了压力测试,结果发现NGBOSS割接后各计费环节的性能均有所下降,其中批价环节性能下降最明显,成为计费系统处理能力的瓶颈。具体情况如图所示:

2 影响计费系统性能的因素及原因定位

在计费系统中,使用两个指标来衡量计费性能,一是耗时指标(单位:秒/文件,指计费系统处理平均时长秒/文件的耗时),在这里使用计费话单入库平均处理时长指标(单位:秒,指计费系统话单记录从采集到入库的平均处理时长),二是峰值指标(单位:万条/分钟,指计费系统处理记录万条/分钟的峰值能力)。

2.1 影响计费系统性能的因素

影响计费系统性能的因素很多,包括计费系统的规模、架构和程序复杂性,系统的硬件设备和系统软件、数据库系统等,还包括进程并发和调度策略等。具体如下:(1)系统硬件设备配置:包括处理器的速度和数目、内存及底层存储的容量、网络的快慢等。处理器的速度越快,数目越多,内存及底层存储容量越大,网络速度越快,计费系统性能越高。(2)系统软件版本及数据库性能:包括操作系统、数据库系统、中间件等。操作系统和数据库系统版本与硬件系统配合得越好,支持的功能越强,数据库性能越好,计费系统性能也越好。(3)计费系统程序架构及应用处理逻辑:包括计费系统的规模、架构和程序计算复杂性等。计费系统的规模越大,架构越复杂及不合理,计费系统程序计算复杂度越高,计费系统性能也越差。(4)计费系统进程并发和调度策略:包括计费系统进程数目和负载均衡等。一般来说,计费系统进程数目越多、进程并发程度越高、各进程负载越均衡,系统资源使用率越高,计费系统最大处理能力也越高。当然并不是计费系统进程数目越多越好,进程数目过多会加重系统负荷,引起系统资源紧张,一般只要能满足节假日业务高峰期计费话单峰值处理能力即可。

2.2 原因定位

通过分析影响计费系统性能的因素,经过反复测试和验证,找出了性能下降问题的具体原因,具体说明如下:

现象一:综合批价程序处理慢。通过压力测试发现NGBOSS计费系统割接后批价环节处理能力仅为80万条/分钟,远低于计费系统其他环节。原因分析:经判断与NG计费割接批价程序代码重构有关。主要原因是一次批价还未迁移到新架构,造成一次批价和二次批价两种不同架构处理速度较慢。NG整个话单文件批价流程较慢主要是在加载用户订购信息上消耗的时间较多。优化措施:进行批量测试定位分析原因,找出批价处理慢的瓶颈环节,并有针对性地进行程序优化。

现象二:综合批价程序启动慢。原因分析:经判断也与NG割接批价程序代码重构相关。经查,累计信息表初始化装载、批价配置表初始化装载、剩余正常启动时间耗时分别约占初始化时间50%、30%、20%。因部分BBOSS业务未迁移到新架构,新程序初始化时需读取新旧两套配置,造成初始化配置读取慢。优化措施:改进综合批价程序启动时初始化配置读取方式。

现象三:计费系统话单处理时有出现积压,尤其是内容计费话单处理。计费系统主机及数据库负荷较重。原因分析:目前福建移动内容计费话单量平均每年以30%的速度递增,计费系统总体处理话单量尤其是内容计费话单量的快速增长,造成系统软硬件处理能力相对不足。计费系统主机及数据库配置不足,需要进行升级和优化。优化措施:升级计费系统相关的软硬件系统,进行数据库优化,增加内容计费相关环节处理进程。

现象四:节假日高峰期话单积压情况下计费系统处理能力下降较明显。原因分析:通过压力测试发现根据估算的春节期间业务高峰期话单量,目前计费系统最大处理能力还略显不足,按近年计费话单增长量估算,春节期间计费系统峰值处理能力需达到200万条/分钟,而原先的计费系统峰值处理能力即使在进行第一次优化后也只有160条/分钟,尤其是预处理和分拣两个环节,需要重点提升。优化措施:调整计费系统进程数目,增加分发控制,进行负载均衡处理。

3 优化措施及优化效果

3.1 优化思路

通过计费系统性能的影响因素分析和原因定位,采用软硬件结合的优化方式,系统升级与程序优化、进程调优相结合的方式,提升计费系统性能,相关措施主要包括:1、增加计费系统硬件底层存储配置,升级数据库软件版本并进行数据库优化:增加可用的计费系统资源,包括使用更快的处理器,增加处理器数目,增加内存数目,升级底层存储等,可根据计算公式来计算需增加的CPU数,需配置的CPU数=目前CPU数*当前CPU利用率*(1+业务量增幅)/理想CPU利用率;使用功能更强的数据库系统软件版本,并针对性地进行计费数据库优化。2、改进计费程序处理逻辑,优化计费系统架构:改善计费系统资源需求,包括简化计费程序处理逻辑,减少计费系统程序计算复杂度,调整和优化计费系统架构,优化各个计费进程的内存和CPU占用率等,以减少计费程序对系统资源的占用率。3、优化计费应用部署,加强计费系统各环节进程管理与调度:增加计费系统各环节进程数量,增强并发性。进行计费系统进程调度,使计费系统各进程负载均衡。负载均衡调优使话单处理任务可在计费系统中尽可能平均地分摊处理,避免因话单处理任务较多时各进程上的负载产生不均衡现象,以提高整个系统的利用率。

3.2 具体优化措施说明

通过日常的计费系统性能统计和压力测试,及影响计费系统性能因素的原因定位,采用了多管齐下、软硬兼施的方法,于2011年底先后两次进行计费系统优化,具体优化措施说明如下:(1)计费系统硬件底层存储升级:2011年9月、12月先后两次实施了计费系统底层存储硬件升级,增加了CPU数目,扩充了内存容量,升级了底层存储。2011年9月完成计费数据库主机、存储升级,数据库主机从HP PA SuperDome升级到HP IA SuperDome,数据库存储从EMC DMX3升级到EMC DMX4。2011年12月对存在瓶颈的计费数据库和预处理计费应用服务器进行扩容,计费数据库 CPU从36个扩容到52个;核心数据库备机 CPU 从36个扩容46个;预处理计费应用CPU从 52个扩容到64。(2)计费数据库版本升级及数据库优化:由于之前计费数据库性能不足,数据库字符集不满足目前业务要求,2011年9月对计费数据库进行10G版本升级工作(ORACLE9I升级到ORACLE10G),数据库字符集升级(ZHS231280升级到ZGK)。并针对计费数据库进行数据库优化,包括OCS监控用户工单表新增索引、错单控制表ERROR_CONTROL表新增索引、多接口工单表数据清理等。(3)批价程序处理和批价程序启动优化:2011年10月完成批价程序优化上线:1)针对综合批价程序处理计费话单较慢,经批量测试定位出主要慢在VPN批价慢上,在VPN的判断函数中,原来使用共享内存中的GROUP_ID索引查询数据,再根据号码匹配,优化后改为直接用号码为索引查询,减少匹配的量;2)针对综合批价程序启动慢,改进了综合批价程序启动时初始化配置读取方式,由单条读取改为批量读取。(4)调整计费系统进程数目,进行负载均衡调优:2011年12月完成计费系统优化上线:1)部分地市增加相应的内容计费进程数(福州、厦门各增加2个,泉州增加4个),增加短信直采进程数(由4个进程增加到8个),增加分拣进程数(语音分拣新增6个进程);2)在预处理与分拣增加文件分发控制,通过控制表为每个分拣进程分配文件,让所有分拣进程负载均衡;3)修改短信采集和直采文件采集配置,将采集的文件调整均衡地分配给各个短信预处理进程及内容计费预处理进程处理。

以上具体优化措施如下图所示:

3.3 优化效果

通过先后两次优化,福建移动BOSS系统计费话单入库平均处理时长明显缩短,计费系统最大处理能力有较大幅度提升,计费系统主机及数据库负荷降低较多,保障了春节业务高峰期的计费系统处理能力,降低了计费积压和客户欠费的风险。(1)各计费环节耗时指标处理能力提升明显,各环节间等待时间明显缩短:批价环节处理时间由优化前平均40.37秒减少到14.17秒,缩短64.9%;环节后等待时间由优化前平均174.8秒减少到58.09秒,缩短78.9%。批价程序启动时间由优化前的13分19秒减少到2分41秒,缩短79.8%。(2)计费系统最大处理能力大幅提升,各计费环节峰值指标处理能力提升明显:批价环节的峰值处理能力由80万条/分钟提升到200万条/分钟,提升了150%,有效地解决了计费系统的处理能力瓶颈。如下图所示:

(3)计费系统主机及数据库负荷降低较多,降低了计费系统主机CPU忙时利用率,减少了计费数据库主机忙时IO吞吐量:第一次升级后计费数据库主机忙时利用率从原来均值69%下降到41%,约提升40% ;数据库主机忙时IO吞吐量从原来279M/s下降到129M/s,约提升53%。第二次升级优化后减少了约原CPU总值50%的利用率,最终CPU利用率从48%下降到26%,为春节业务高峰提供了足够的系统余量。(4)保障了春节业务高峰期计费系统话单的及时无积压处理,满足了逐年增长的计费话单量的处理能力:从2012年1月22日12时至1月23日12时,福建移动计费系统处理总话单量12.9亿条,比2011年春节同期话单量上涨14.77%。总话单量是日常话单量的2.2倍,其中语音话单量1.51亿条,GPRS话单量1.98亿条,与平时基本持平,短信话单量8.59亿条,是日常的6.13倍。(5)计费话单入库平均处理时长明显缩短,大幅降低了计费积压和欠费的风险:计费话均入库时长由优化前的125秒缩短到优化后的65秒,缩短48%,使离线计费用户计费话单从采集到合账信用控制的时间仅为一分钟左右,大大降低了计费积压及客户产生高额欠费的风险。

4 结束语

后续将进行计费应用双中心部署改造,进一步调整和优化计费系统架构,提高系统整体处理能力上限。还将建立计费系统性能监控体系,通过量化统计分析查找性能等的瓶颈环节并加以优化改进。

从本次优化过程来看,单一的硬件或软件优化措施都未能达到立竿见影的效果,需要多次软硬件优化措施叠加实施后才能产生较好的优化效果。要定位准影响计费系统性能的原因,抓住性能优化的关键环节和关键处,在本次优化过程中尤其表现在批价程序优化上。在批价程序优化前,虽然已进行了计费系统底层存储及数据库系统版本升级,但优先效果并不明显,批价程序优化上线后,各项计费系统性能指标提升显著。

参考文献:

[1]张友生.系统分析师教程[M].北京:清华大学出版社,2010

[作者简介]

张健(1975.1-),男,福建福州人,学历:硕士研究生,职称:工程师,工作单位:中国移动通信集团福建有限公司,目前主要从事福建移动BOSS系统计费支撑开发工作。阮前(1976.3-),男,福建连江人,学历:硕士研究生,职称:高级工程师,工作单位:中国移动通信集团福建有限公司,职务:福建移动业务支撑系统部业务研发室经理。

上一篇:汇剧院 第12期 下一篇:浅析动态规划的技巧和窍门