中国移动小试Hadoop

时间:2022-05-03 06:53:00

中国移动小试Hadoop

以前“财大气粗”的电信运营商现在也开始变得“斤斤计较”了。

开源节流

在互联网的巨大冲击下,电信运营商的收入和流量已经失去了正比的关系,尤其是近几年大量OTT业务涌现,更是进一步削弱了运营商的管道价值。收入增速放缓,而网络建设和手机补贴的投入在不断加大,此消彼长的局面让电信运营商不得不捂紧自己的口袋,“开源节流”也因此成为一种普遍的生存共识。

随着业务规模的不断扩大,中国移动的数据量在急剧增加。以计费系统中的用户查询子系统为例,为了提高服务水平,中国移动需要为用户实时提供30日以内的账单记录查询,这样的记录每秒钟会产生30万条,这也意味着仅账单查询这一项,中国移动每月需要处理的数据量在90TB左右。这样庞大的数据量给数据的存储和处理带来巨大的压力,而传统数据仓库又无法线性扩容,管理难度加大,效率下降,成本却直线上升。与此同时,中国移动公司也想在移动互联网和物联网方面有所突破,以达到“开源”目的,这意味着将会面对大量的非结构化数据,而传统数据库架构也无法满足这一需求。在这种情况下,中国移动考虑传统数据处理技术的升级换代,大数据是首选。

广东移动是中国移动集团中规模最大的省级公司,也是广东省最大的电信运营商,网络覆盖了广东所有的行政区,网络人口覆盖率99.24%,城区达到99.71%。更为重要的是,广东移动还是中国移动集团的创新试验田,无论是全球通、神州行和动感地带三大品牌,还是移动梦网的商业模式都是先在广东试点,然而推向全国的,在大数据应用领域,广东移动也是先行一步。

广东移动项目经理唐辉表示,现有计费系统的维护成本非常高,已经开始侵蚀计费业务部门的盈利能力。更为关键的是,现有关系型数据架构已经无法满足大规模信息和数据的存储和实时查询,因此也无法为用户提供满意的服务。为了解决这个问题,广东移动把工作重点放在计费系统的存储和处理能力上来,而账单查询系统首当其冲。

技术选择

在数据库技术的选择上,广东移动曾考虑过在传统关系型数据库上引入大规模并行数据库处理技术——MPP,但后来被否定了。原因有三:向上扩展到成本太高、需要实施分析和决策支持、灾难恢复和故障转移不可靠。唐辉介绍说:“在账单查询系统中存储大量数据时,如果发生故障,可能需要几天的修复时间;如果数据丢失,公司的品牌声誉和顾客忠诚度将会受到严重影响,因此对于一个优秀的计费系统来说,灾难恢复和故障转移功能非常重要。”

而在大数据平台技术中,Hadoop几乎成为事实上的标准。其价值简单说有如下几点:支持4000个节点,10P以上数据,可扩展性高;数据具有多个副本,保证数据可靠性;通过多个元数据服务器实时同步,实现系统高可用性;支持MapReduce并行计算框架,计算任务调度到数据所在节点,减少网络开销,提高性能;节点可以灵活加入和退出,管理灵活。此外还有一点就是,Hadoop的经济性。新型的MPP数据库每处理1TB的的费用大概是5万多美元,而Hadoop仅需要1000美元。这些都是广东移动最终选题Hadoop平台的重要考虑因素。

作为一个开源的解决方案,Hadoop可以被构建在开放架构的服务器上,这意味着广东移动摆脱成本高昂的RISC小型机在X86服务器构建相应的系统。广东移动利用Hadoop将详细的计费信息保存在一个大型的数据库表中,而Hadoop数据集群提供了详细的数据写入和查询服务。当整个系统需要扩容时,广州移动可按需增加服务节点,系统会自动实时地将新的服务器匹配到整个阵列。因此,新的账单查询系统能够实现低成本的扩容。

三大提升

而在性能方面,广东移动的Hadoop数据库引擎能够对不同的服务器节点进行分布式数据访问,大大提高海量数据的处理能力。此外,Hadoop数据库的无共享框架消除了数据库文件访问带宽和联锁的瓶颈。数据库访问吞吐量增加了几倍甚至几百倍,从而带来非常高的数据吞吐量。中国移动广东公司的账单明细检索查询速度是30万份账单/秒,插入速度是80万份账单/秒;系统目前每月能够无缝处理30TB的用户计费数据,每个表支持数十亿份账单。查询性能提高了30倍,完全能够满足广东移动的用户查询需求,哪怕有数百万用户同时查询,也能够胜任。

可靠性方面,通过Hadoop,广东移动的账单查询系统不需要保存在一台中央计算机或单一 MPP 数据仓库中,从而改进了跨集群(平均每个集群80个节点)的灾难恢复能力。Hadoop 分布式文件系统不仅通过分布式存储/检索提供总带宽高的文件访问,而且可将文件的信息复制三次,以确保当硬件和网络不能运转时,它仍然可以提供数据和文件读写能力。Hadoop 分布式文件系统的自恢复功能可以使数据的信息在集群永远保留三份副本,这样数据就不会丢失。同时,当服务器不运转时,每个Hadoop数据库域服务器的数据库服务可以实时转移到其他服务。

还有比较关键的一点,在部署了Hadoop平台后,中国移动能够利用存储在Hadoop数据库中的大量电话详单进行情报分析。由此产生的商业情报来源于15个初步分析数据查询,覆盖网络规划/运营、服务保证、计费、营销、收入保障和客户管理。他们结合实时和非实时数据汇合、提取、分析挖掘和报告,从了解客户行为得出非常有用的结论。例如,可以分析用户使用情况数据,结合人口分布情况细分客户,以提供个性化的服务建议并为更高端客户提供新产品。同样,可以主动监测网络使用情况,发现性能瓶颈,确定哪些网站与用户产生的数据收费最高。唐辉表示,新帐单查询系统为广东移动在高业务量的背景下不断改进客户服务奠定了非常坚实的基础,“这一新系统的成功实施无疑将把我们的服务质量带上新台阶”。

需要指出的是,由于账单查询系统的数据还是以结构化数据为主,而且整个系统没有针对Hadoop进行优化,再加上Hadoop在高效索引这块支持也不够,因此广东移动在账单查询系统中部署Hadoop是一种探索行为。而从技术路线来说,广东移动还是选择了传统关系型数据库跟Hadoop共存的形式,这样既能发挥关系型数据仓库在传统应用支持方面以及在复杂的查询和分析方面的快速响应能力,同时也借鉴了Hadoop的非结构化数据处理能力以及存储的低成本。

上一篇:G客盛典 大咖眼中的最佳是什么样子的? 下一篇:对味搞加工 遵义辣椒俏