宽带用户行为分析系统的设计

时间:2022-09-07 05:36:39

宽带用户行为分析系统的设计

摘要:随着我国互联网基础资源的发展和网民的增长,各大运营商在向广大用户,提供了高质量高带宽接入方式和丰富互联网应用。在宽带业务高速发展的同时也随之而来出现了很多问题,基于此本文提出了通过建立宽带用户行为分析系统解决上述问题。

关键词:宽带;用户行为;行为分析;数据挖掘;OLAP

中图分类号:TP文献标识码:A文章编号:1003-2851(2010)08-0251-02

随着我国互联网基础资源的发展和网民的增长,各大通信运营向广大用户提供了高质量高带宽接入方式和丰富互联网应用。重庆电信在其宽带业务高速发展的同时也随之而来出现了很多问题,主要体现在以下几个方面。

经营管理问题;

客户管理问题;

VoIP问题;

P2P问题;

用户流失问题。

基于这个现状,建立一套及非法接入监控、VoIP监控、P2P监控、互联网多业务分析和Web信息推送功能于一体的宽带用户行为分析系统。对重庆电信而言是及其具有意义的。

一、系统部署

(一)网络现状

重庆电信现有宽带用户超过148.4万,2010年的预测将发展到196.3万宽带用户。网络结构分两级:骨干网+宽带城域网。

全网主要采用Cisco公司的GSR 12000系列和Cisco7609路由器作为POP点业务汇聚路由器,Juniper公司的ERX1440/1410/705和华为公司的MA5200G/ISN8850作为Bras。

该IP城域网为了实现全网的统一组织和规划,在逻辑上划分为核心层和汇聚层两层网络体系结构,其网络功能如下:

①核心层:负责数据的快速路由和高速转发;负责与ChinaNet骨干网和CN2骨干网互联;

②汇聚层:负责实现核心设备端口数量、端口类型和业务覆盖范围的扩展;负责业务流量的汇聚和数据交换;提供业务管理和QoS管理等功能。

该IP城域网网络拓扑结构如下:

①A、B、C、D、E、F6个节点配置的Cisco 12816/12416核心路由器之间采用光纤直联或DWDM的2.5G POS链路形成不完全网状网拓扑结构;

②A和B节点配置的4台Cisco 12816路由器分别通过4×10G POS链路与ChinaNet骨干网成都和广州核心节点对应的核心路由器互联;

③A和B节点配置的4台Cisco 12816路由器分别通过4×10G POS链路与CN2骨干网本地节点的Juniper M320汇聚路由器互联。

④该IP城域网汇聚层汇聚节点配置的Cisco 12012/12016路由器和Cisco 7609路由器将根据其所属的汇聚区,上联到对应的核心节点,中继链路带宽从2×2.5G POS和2/3/4×GE不等。

(二)部署方案

宽带用户行为分析系统具有极高的伸缩性,系统分为前端系统和后台系统两个部分,前端系统包括流量采集模块、转发处理模块、核心业务处理模块等,作为系统的前置机,可分布在网络的核心节点或汇聚层节点,实现对用户访问流量的实时采集、分析和处理,实施相应的策略控制,而后台系统包括策略/同步服务器、统计分析服务器及数据库服务器、WEB服务器,提供专门的业务管理、系统管理功能模块,安装在高性能的服务器中,一般放置在网络的NIC/NOC机房。

系统示意图如图5.3所示:

图1.1 宽带用户行为分析系统组网示意图

按照客户技术规范书要求在市IP网出口集中布放采集设备,即:

①对骨干网出口路由器上联到国家骨干网结点的链路进行分光;

②前置机通过分光的方式,采集市骨干路由器出口流量,从而采集所有用户的业务流量;

③前置机集中布置在A地和B地。

④后台管理服务器集中B地设置,进行业务管理。

(三)前置机部署方案

为了实现个性化的用户流量检测、信息过滤、访问控制等业务功能,需要采集到用户的上网数据,对用户访问请求进行分析后才能决定是否进行相应的业务处理。

前置机采用高性能的机架式PC服务器,电源、CPU、风扇等关键组件冗余配置,可靠性高,满足重庆电信级业务要求。

(四)后台服务器部署方案

统计分析服务器/数据库服务器、策略/同步服务器、WEB服务器等后台服务器则根据网络情况、业务及流量情况设置1套,集中部署。

根据拟开展的业务,宽带用户行为分析系统后台服务器包括数据库服务器、用户自服务WEB服务器等。后台服务器后续可根据业务需要随时进行设备增加。 后台管理系统放置在B地网管中心,集中进行管理。具体的设备配置清单如表1.1所示。

表1.1 设备清单

(五)系统设备配置

1.前置机配置:前置机主要事务处理为流量采集、拆包头后初步分析、控制处理。对每个IP数据包,需要进行这三个环节处理,完成一个事务。根据傲天测试,前置机一个事务相当于标准TPC的0.001个标准事务。

2. WEB服务器配置:Web服务器主要为运营商管理员服务,配置2台主要是为了冗余。2台Web服务器可以分别为不同地市服务(将全市十几个地市分为两个流量基本一致的区域,各地市管理员可分别访问不同的Web服务器)

在2CPU(3.2GHz),4G内存,2M L2缓存的配置下,每台SPECweb99值为6800。

3.数据库服务器:配置依据是TPMC值。

由于需要处理6条10G和一条2.5G 共62.5G链路的IP包(每个IP包400个字节),我们做如下假设:

①设6*10G+2.5G POS链路数据流量,最多达到链路的80%占用率。所包含的IP数据包为:62.5/8*1024*1024*1024/400*80%=16911434 PPS。

②设前置机预处理的IP数据包处理日志记录,每20个日志记录组成一个IP数据包,被送往后台服务器进行深度分析,每分析一个IP包,消耗相当于标准TPC的0.001个标准事务,则后台服务器(主要是数据库服务器承担压力)需要16911434*1/20*0.002*60=112743tpmC。

③由于后台数据处理可以是准实时分析和处理,即每15分钟采集的数据包日志记录,20-25分钟处理完毕就达到要求,我们设采用25分钟处理完毕,则需要的tpmC值为112743*15/25=67646;考虑到系统其他操作和冗余,另外还有出报表、处理web请求等压力,这些需要占用20%的容量,则总的TPMC值需要:

67646/(1-20%)=84558。

在4CPU(3.16GHz),4G内存配置下,每台tpmC值约为90000,所以数据库配置1台4CPU(3.16G),4G内存。

4.统计分析服务器:配置依据tpmC值,由于统计分析服务器是和数据库服务器配合使用,HA方式,冗余配置,两者所需要总的tpmC 值应该是基本一致的。但我们配置1台统计分析服务器,分别对全省所有前置机的初步分析数据进行收集处理。每台机器的tpmC值应该不小于84558。

配置1台4CPU(3.16GHz),4G内存PCserver,并与数据库服务器组成HA方式,增强安全性。

5.磁盘阵列:由于用户上网流量的数据量是很大的,如果直接在详细数据上进行统计、分析,其效率可想而知。为了提高统计、分析的效率,可以根据分析的具体需求创建各类汇总表,数据分析的操作都是在汇总表的基础上进行,这样可以很大地提高效率。汇总表的数据可以采取实时累加、定时累加、一次性插入等方式进行加载。

6.网络推送带宽:由于前置采集服务器有一个端口负责进行信息推送,所推送的信息IP包内容仅仅包含页面URL地址,因此此类IP包的大小一般在10K左右,因此按照现有一个100MBPS带宽网卡,按照80%有效带宽,(前置机推送所消耗的TPMC较小,仅仅考虑网络带宽的限制)前置服务器每天能够推送的页面能力为:100×1024/10*8=1100页面/秒。

二、结语

互联网的快速发展带动了重庆电信宽带上网业务的发展,但随之而来也出现了很多问题,重庆电信运营商需要通过对主流应用的统计分析,找到价值客户,并通过对各种客户的应用统计分析,制定出最适宜的资费政策,开发出最有吸引力的业务产品,完善服务工作,提高工作效率。随着宽带业务的发展及上网用户的增多,必然会出现更多新的问题,宽带用户行为分析系统还将进一步升级与扩展,成为一个完善的信息管理和服务系统。本文仅是对宽带用户行为分析系统的一个初步探讨和研究,今后还需要进一步的完善和充实。

本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

上一篇:思想政治课中如何贯彻理论联系实际的原则 下一篇:基于价值链的物流成本管理探析