民航信息的数据整合分析

时间:2022-06-09 01:26:56

民航信息的数据整合分析

摘 要 论文设计并实现了基于民航业大数据的信息整合及分析。该系统针对民航业信息数据量大、松散分布等特点,利用分布式技术和虚拟化技术的优势,获取海量的航班及旅客数据进行存储,之后进一步分析整合,得出行业数据规律并建立回馈模型,完善行业数据整合能力。

【关键词】民航 数据挖掘 分布式

1 引言

民航业数据主要分为航班数据及旅客数据,民航业主要有航空公司、机场、人等机构。

民航信息化普及程度比较高,大量的民航机构、从业人员产生了海量的行业相关数据,这些数据分布在民航业不同的机构,数据异构严重。因为行业数据量较大,分布比较分散,导致数据整合能力较低,大量的行业信息被淹没在海量数据当中,没有得到充分的利用。论文中提到的民航大数据整合及分析方法有效的解决了数据分散、准确度不高、互相矛盾的现状,提高了行业数据质量,提升了行业服务质量。

2 国内外研究现状

国内民航业数据主要是分散到各航空公司及机场等信息系统,一般只存储各公司相关数据,各信息系统相对独立,信息流通及时性差。因此虽然有全面海量的行业数据存在,但是缺乏对这些数据有效的分析整合方法,造成行业数据质量和服务质量的不理想。因此研究如何高效的分析整合民航大数据是提高行业竞争力的必要条件。

本文针对上述现状,提出了领先的、全新的分析整合民航业大数据的有效方法,有效的解决了上述问题。

3 基于分布式处理的系统设计

系统包括5个功能模块:数据获取、数据存储、消息路由、数据整合、数据分析。本节将讨论各个模块实现的功能及技术路线。

3.1 数据获取

建立了多种方式的数据收集接口,包括WebService、Java等技术实现方式,用XSD来作为数据类型系统,利用SOAP实现各种数据来源的无缝集成,对结构及非结构化数据进行采集和爬取,汇总了海量的行业数据。

3.2 数据存储

针对数据的不同特点,数据存储采用了TFS、Redis、MySql等多种形式数据存储方式。

对于海量非结构化数据存储,系统采用构筑在普通的Linux机器集群上的TFS,可为外部提供高可靠和高并发的存储服务。一个TFS集群由两个NameServer节点(一主一备)和多个DataServer节点组成,具备高可扩展、高可用、高性能等特点。主要用来存储50K到2M大小的非结构化或半结构化行业数据。

对于大并发的热数据,系统实现数据的内存话,采用Redis存储系统,它支持存储多种数据类型,支持交集、并集和差集及更丰富的操作,为了保证效率,数据都是缓存在内存中。Redis主要是用来存储需频繁访问及需作一定集合操作的数据。

对于结构化数据,通过建立MySql集群,有效的支持了关系型数据的应用场景。

3.3 消息路由

系统的消息路由及报文交换,采用pub/sub的模式进行消息订阅及。使用ActiveMQ+Apache Came技术搭建。

系统在基于Apache Camel引擎基础上提供了一个基于POJO的企业应用模式(Enterprise Integration Patterns)的实现,可以采用其异常强大且十分易用的API (可以说是一种Java的领域定义语言 Domain Specific Language)来配置其路由或者中介的规则。

通过集成ActiveMQ解决异构分布式系统中通信和排队问题的中间件技术,支持可靠连接并且具有可配置的自动重连接,支持跨网络的分布式目的地,并且访问响应速度非常快。

系统提供的消息路由方式有效的保证了异构系统之间数据通信及数据的及时性。

3.4 数据整合

数据整合通过数据清洗、数据决策、数据集成、数据变化等处理过程,使大量的异构数据规整成标准统一的数据,再通过数据决策模型完成数据去重筛选工作。数据集成和数据变化通过数据的重新排列组合,产生了不同维度和不同表现形式的二次数据。数据决策模型通过大量数据的训练和修正,不断的自我完善。

3.5 数据分析

数据分析包括离线数据统计和在线分析功能。

离线分析使用Hadoop等分布式计算方式,可以分析大量的行业终态及过程数据,挖掘出以前为行业所忽略的数据特征及行业规律。

在线分析功能借助Redis高速的读取能力及集合运算能力,可以实时总结出数据表现出的规律,修正和丰富数据整合的决策模型。

4 结果及分析

系统通过对民航20年行业数据,每天上亿条数据的处理、整合及分析,发现了全新的数据规律,建立了准确高效的回馈模型,提高了民航信息流转及数据准确度,为民航相关机构及从业人员提供了更加丰富的行业数据。

5 结束语

系统通过多维度数据整合分析,总结出新的行业数据规律,应用于行业辅助决策,增加了行业满意度。海量数据清洗和整合是一样复杂的工作,它既要建立合理有效数据模型,同时又要有效的清理无效数据,需要不停的完善的完善。

参考文献

[1] 张靖等.多源异构数据整合应用研究 [j].成都信息工程学院学报,2009 (3).

[2]唐钰等.基于逆向清理的实时异构数据整合模型研究 2012(23).

作者简介

唐红武(1977-),男,工程师。研究方向:民航信息化,移动互联。

作者单位

中国民航信息网络股份有限公司 北京 100027

上一篇:单片机接口技术的特点与应用设计分析 下一篇:电气自动化控制在智能建筑中的应用研究