基于国产软硬件的行业大数据体系架构研究

时间:2022-10-02 07:50:26

基于国产软硬件的行业大数据体系架构研究

【摘 要】面对当前云计算和大数据的浪潮,面向行业应用的大数据系统技术发展日趋明显,浪潮作为国产软硬件核心信息装备和整体解决方案提供商,在为行业客户的云计算和大数据系统应用方面形成了丰富的技术积累。本文从行业大数据的应用需求出发,基于行业大数据对安全和技术自主可控的要求,设计了行业大数据的硬件基础架构、软件基础架构和安全体系。相关的技术成果已经在多个行业得到应用,并能满足行业对大数据管理和分析的需求,项目成果具有应用推广价值。

【关键词】大数据 体系架构 国产化 自主可控

1 前言

在全球已经全面进入信息时代的今天,数据已经成为与水、石油、天然气同等重要的国家战略资源。IDC报告指出,截止2011年底,全球的数据量已达到了1.8万亿GB,未来十年还将增长50倍,迅速积累的海量数据蕴含着重大的商业价值和社会价值。作为云计算领域的重要延伸,大数据在行业内的热度在不断升温。2012年我国大数据市场规模为4.5亿元,同比增长40.6%。IDC预计,全球大数据2016年将达238亿美元,中国市场规模未来5年将增长近7倍。

大数据技术最近几年在迅速发展,国内外的厂商和组织已经推出了多种大数据解决方案。在金融领域,已经利用大数据技术解决诈骗检验、IT风险管理和自助服务等问题,未来大数据技术将会起到越来越重要的作用。目前国内外很多金融机构如摩根大通、花旗银行,以及风电、太阳能发电、石化企业等制造业企业也开始采用大数据的解决方案进行设备监控、优化和故障预防[1]。

由于国内外针对商业机构系统频频发生的安全事件,国内各行业的信息化目前正在向基于国产软硬件和自主可控方向发展,大数据也是目前国内各行业重点关注的技术。很多厂商和企业纷纷进行技术研究、方案准备和内部测试,并逐步开始在历史数据查询、分析,非结构化数据检索等方向上开始使用[2]。从最近几年的趋势来看,安全、自主可控的大数据解决方案在大数据的行业领域有非常大的市场需求。

国内的很多关键行业应用,如金融信息系统的许多关键设备都没有采用国产产品,导致无法准确判断其安全隐患,这使得我国信息化建设的安全底数不清。迫切需要国内IT企业和行业共同研发自主可控、自主知识产权的信息系统、信息环境和信息安全产品。针对这种状况国家银监会提出了“自主可控,持续发展,科技创新”的三大战略[3],国产的信息化产品,在金融领域的应用已经开始了破冰之旅,事实也已经开始证明,自主可控的软硬件产品,在关键行业领域的应用是可行的,但是缺乏完整的经过验证的整体解决方案和实际案例,无法复制和推广。

本文基于国产软硬件产品进行自主可控的大数据体系架构研究要打破国外技术依赖,掌握技术命脉。针对现有行业关键系统多数是直接引用国外成熟技术,关键、复杂、核心的应用系统大多是建立在非自主产品上,形成了对国外的技术严重依赖的现状,本文的研究将可以在大数据领域打破国外技术的垄断,形成有竞争力的国产解决方案。

2 主要研究内容

本文主要研究面向行业应用、基于自主可控基础软硬件产品的大数据体系架构,研究内容主要包括:

2.1 行业大数据应用的需求分析

2.1.1 面向多源异构业务数据的采集和管理需求

在客户信息为例,行业内的集团企业经常会面临急需解决的数据集成问题,企业存在大分散的客户信息资源,并由各系统自主采集和维护,没有良好的共享体系,客户信息、订单信息等异构的存在不同数据源中,没有横跨多个业务领域的客户信息的统一管理和分发体系。因此,要求统一建设行业信息大数据管理系统,是一套为所有在线业务服务的、整合的行业信息大数据管理与分析系统,并具有行业先进水平的大数据管理和分析能力,以满足企业形成市场竞争优势的要求。

2.1.2 针对海量异构大数据的高性能存储需求

通过调研发现很多大型企业的信息系统已经积累了大量的业务数据,而且随着业务拓展的需求,大数据分析的数据源已经不仅局限于企业内部,如对客户流失分析或者产品销售趋势预测,就还需要互联网社交网络或者电商消费信息等。这些多源、异构、海量的数据对于大数据平台的存储提出了极高的要求。以某大型企业集团的客户和生产经营信息为例,数据规模已经达到上百TB容量,且相关数据量,特别是生产线的传感器数据和用户行为等数据还在持续大幅增长。

2.1.3 多样性大数据分析和处理需求

大数据分析系统不但集成了多个系统的数据源,未来大数据分析应用系统也会被多个部门,多个业务中使用,而且不同的部门和不同业务对大数据分析处理 的响应时间、数据量、结果准确程度以及具体的分析算法都会有很大差异。因此需要完整的对这些分析和处理需求进行分析,以便于设计满足当前和潜在需求的大数据分析处理架构。

2.1.4 行业大数据的安全监控和隐私保护需求

面向行业和企业的大数据平台都将集成来自于不同数据源的数据,其中有很多数据会涉及商业秘密和个人隐私等安全问题,所以这些数据在大数据平台中应该被合理的授权使用,并有完善的安全监控和隐私保护措施,以避免引起数据泄密或者隐私纠纷。

2.1.5 行业大数据平台的业务应用和可视化展现的需求

大数据分析的结果是更好的支持业务推广和运营决策,所以企业大数据分析还是要和现有的业务应用紧密结合,并且以简单友好的操作,以及可视化的方式直观的展现分析结果,这样才能被各部门和各级别的人员使用好大数据系统。

2.2 基于自主可控服务器的大数据基础架构研究

通过行业大数据需求和数据现状的调研和测算,大数据基础平台如采用传统的集中数据库ORACLE+小型机+集中式存储环境,将无法满足大数据在存储和分析处理方面的需求,而且采用国外进口设备为主的方式也无法保证系统数据的安全和自主可控,国外小型机和存储的硬件成本过高,投入产出比低。因此本文研究对比了主流的大数据硬件方案,提出基于国产主机的行业大数据基础平台,包括分布式Hadoop大数据存储和处理集群、分布式海量数据采集集群和应用与可视化展现服务器集群架构研究,形成满足行业大数据应用的基础硬件平台技术方案。

上一篇:初中数学教学中“顿悟”的策略与实践研究 下一篇:大学生感知到的自主支持、自我决定与其择业效...