河南油田数据仓库解决方案的技术实践

时间:2022-08-10 06:32:58

河南油田数据仓库解决方案的技术实践

摘要:本论文通过对数据仓库解决方案中的几项关键技术进行的程序设计开发等技术实践,论述了其技术关键和应用特点,并结合企业网开发应用环境以及油田数据库技术应用现状,提出了构建具有石油专业领域特色的数据仓库应用的设想。

关键词:油田;数据仓库;数据整合;联机分析;数据挖掘;综合应用

中图分类号:TP393 文献标识码:A文章编号:1007-9599 (2011) 11-0000-01

Henan Oilfield Data Warehouse Solutions Technology Practice

Li Heng

(Henan Oilfield Information Center,Nanyang473132,China)

Abstract:Paper by which data storage solutions of several key technology for development of programming practice for data management,technology and application of the key features and integrated enterprise development environment,and the web application database technology application,made to build an oil field of data that the application.

Keywords:Oil;Data warehouse;Data integration;Online analysis;Data mining;Comprehensive application

一、油田开发数据仓库解决方案技术实践的目的

数据仓库是近几年来出现的一项新技术,目前,数据仓库技术在理论研究上有了较大的进展,围绕数据仓库解决方案的软件产品也如雨后春笋般出现。但油田开发有其很强的专业领域特征,并不是照搬照抄能做到的。因为数据仓库不是一个产品,虽然需要一定的软件产品作支持,但数据仓库本身必须根据企业自身的应用特点来构建。

经过多次调研分析和对比多家油田数据中心建设解决方案,我们认为河南油田数据中心建设的总体指导思想是要建设以数据整合和数据挖掘为核心的综合性数据仓库,在股份公司勘探与生产分公司和油田分公司建设现代化的数据管理与服务体系,形成集成的数据管理平台,使得所有专业数据得到科学的管理。

二、油田开发数据仓库解决方案技术实践的总体设计

该平台主要内容包括:

1.数据需求者根据需求,通过虚拟数据仓库抽取出所需要的数据建立数据集市。

2.根据以建立的数据集市提供用户数据挖掘、高级检索、OLAP所需的相关工具支持。

3.数据集市还包含地震、测井等大体数据。

三、技术关键

(一)关联模型

油田业务数据分别存放在不同数据库的各类业务表或文档中,这些业务表目前在各类应用系统中往往只能做到简单列举,无法揭示各类数据之间的联系,也难于得到综合的数据报表。虚拟数据仓库的关联模型就是要在各类业务表之间通过关键字段建立某种形式的关联,从而为用户综合的数据查询结果。

(二)元数据管理

元数据的定义一般泛称为:Data about data(管理数据的数据)。元数据的具体定义和应用随学科不同和应用领域不同而异。在石油领域,元数据是描述一个具体的油田数据库数据资源对象(数据集或数据),并能对这个对象进行定位管理,且有助于它的发现与获取的数据。

在具体实施中却存在着一系列难点问题需要解决,例如:

1.在石油领域里需要定义怎样的数据格式?

2.元数据的规模有多大?

3.如何将元数据的定义与数据源进行抽取、过滤、转换、映射关联在一起,从而实现元数据定义的自动化?

4.如何为元数据管理提供完整易用的操作界面(甚至是图形化的界面)?

考虑元数据在数据仓库中的作用,我们着重对元数据进行了内容设计、结构设计与编码设计。我们设计新的、科学的“源数据库―元数据库―实施项目库―结果数据视图”多层数据库架构,并采用界面定制、模板定制、计算公式定制等多项技术,提高系统的适应性和生命力。

(三)数据集市模型

采用雪花型的模式,实体表中存放着与石油相关指标数据,维度表主要有地区、时间和指标等维度等,另外地区维又和行业、隶属关系等动态维度进行关联。在这种数据集市模型下,可进行地区、时间和指标三个方向的任意组合查询。可实现跨年度、跨专业的查询和分析。

(四)数据存储架构

服务器平台的数据存储采用NAS模式,专业数据库应用平台采用SAN模式,分阶段改善现有网络的数据服务水平,提高网络系统运行的稳定性。

(五)联机分析

我们在技术实践中借用了sqlserver olap services联机分析服务器,利用控件技术开发了浏览器上应用的客户端工具,以摆脱服务器运行环境的限制。

联机分析工具仅是一种工具软件,而真正给提供给用户使用时必须建立起应用模型,即多维数据集,这是需要进行一定的需求分析工作的,而且是在数据仓库(集市)建立成型的基础上进行的。

(六)数据挖掘

OLAP局限在对数据的统计分析处理,而数据挖掘是通过某种算法,对数据仓库中的数据进行学习,获得隐藏在数据内部的内在关系和相关知识,用于分析、预测和描述。目前已经比较成熟的数据挖掘算法有粗集方法、遗传算法、决策树方法、神经网络方法、公式发现、模糊论方法等。我们在技术实践中开发应用了聚集、决策树、神经网络的挖掘算法。主要是应用Matlab、SQLServer等提供的功能或开发接口进行的软件开发实践。

三、结论与建议

石油企业成功的一个关键要素是它们所拥有的知识资源。如何管理好这些知识是竞争的一个关键。数据仓库解决方案的应用在油田开发领域有着广阔的扩展空间。通过我们的技术实践过程,我认为,作为油田这样一个大型企业,完全可以结合油田开发生产实际情况,开发出具有石油专业领域特色的数据仓库应用。最终构建一个统一的、标准的、集成的、能够包容各业务流程的数据中心体系架构和数据交换和共享平台。

参考文献:

[1]蔡自兴,徐光v.人工智能及其应用[J].清华大学出版社

[2]胜利油田编制.胜利油田信息化框架构建研究.2003,9

[3]河南油田分公司信息中心编制.河南油田信息应用集成(整合)方案.2006,4

[4]河南油田分公司信息中心编制.河南油田"十一五"规划.2006,6

上一篇:浅析当代校园网的网络建设和安全 下一篇:中子水分仪标定方程的数据处理