数据挖掘可视化技术应用与研究

时间:2022-08-26 02:47:10

数据挖掘可视化技术应用与研究

摘 要:本文讨论了数据挖掘和可视化的关键技术,提出了运用在油田数据库中的一种可视化模型的设计方法。取出油田数据库的一个数据截面进行可视化,可以直观清晰的看到数据库中的频繁与例外异常模式,对提高决策的效率具有重大现实意义。

关键词:数据挖掘;可视化;数据挖掘可视化

中图分类号:TP311

胜利油田“九五”以来就着手建立了较为完善的专业管理信息系统,全面覆盖了油田经营管理各项业务,促使信息把握更加及时,管理效率显著提高。近几年油田主要致力于系统间的联动,作为国内应用ERP(Enterprise Resource Planning)系统规模最大的一家企业,2005年胜利油田ERP系统(企业资源计划)正式上线运行,信息系统由过去的“单线应用”转变为“集成应用”,原有的管理模式发生了重大变革,建立了新的管理程序,用标准、优化的流程解决了制度落实过程中存在的不足。由于随着计算机技术在胜利油田的广泛应用,积累了大量的生产信息数据,并且油田开发和生产科研土作中的大量信息已经实现网上传输。在传输数据的过程中,由于各种原因,不可避免地会出现一些错误数据,从而影响到最终的结果而掩盖了正确的生产信息。

根据对油田生产情况的具体分析,可以将生产数据的错误类型分为以下三类:

(1)不符合原始界限(该界限用户己给出)时,有以下几种可能的原因:

1)数据在输入和存储过程中计算机产生的错误;

2)人工输入数据时,以欺诈为目的对数据的恶意修改。

上述情况,不符合用户所给出的最大范围,表明该数据是完全错误的,需要监控人员直接对其进行处理。

(2)数据变化过大,原因如下:

1)数据在输入和存储过程中计算机的错误;

2)人工输入数据时,以欺诈为目的对数据的恶意修改;

3)在生产过程中,人为的影响(例如油井作业、维修时,己停产)。

(3)不符合数据的大体趋势时,原因同(2)。

所以迫切需要一种能及时检测例外数据的方法来提高数据质量,在数据挖掘领域此问题归结为例外数据挖掘问题。针对胜利油田数据库所积累的大量数据,更加需要一种能高效进行例外数据挖掘的方法,并且该方法应具有透明性和可信度高的特点。

可视化的基本思想就是使用图形和图像来表征数据,将隐藏在大量数据中的信息以相对直观、易于领会的图像方式表达出来,从而加快获取信息的速度。数据可视化是对大型数据库或数据仓库中的数据的可视化,是数据分析过程中必不可少的一个阶段。在数据可视化方面,目前的研究方向主要是将关系数据库或数据仓库中的数据,从不同的抽象层次将属性、维度进行联合之后,以不同的呈现形式展现给用户。国内相继开展了数据可视化技术方面的研究,并取得了一些成绩。将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。

可视化绘制方法就是把隐藏于大容量计算数据集中的物理信息转化为有组织结构表示的视觉信号集合,如空间几何形状、颜色、亮度等。目前常用的可视化绘制方法有:几何法、彩色法、多媒体法和光学法。

本文基于色彩法提出了一种新颖的方法将油田生产数据进行数据挖掘可视化,使其能直观清晰的看到数据库中的频繁与例外异常模式,对提高决策的效率具有重大现实的意义。

1 问题提出

在庞大的数据库中,经常有例外异常数据夹杂在数据记录中,一眼分辨实为困难。我们提出了一种新的识别例外数据的方法,就是利用可视化来进行识别。

定理1 数据库中有m条H(H>W>N)维的记录,可以把每一条记录映射成空间中的点,若某点在低维空间中是Outlier(例外异常点),那么这一点在高维空间中必定是Outlier。

证明:假设oi是数据库中的第 条记录(oi1,oi2,…,oim),则映射到N维空间中的一个点o(xi,yi,zi,…Ni)。

设空间中一个点与任意各点的距离大于一个阈值则定义为Outlier,空间中点oi与任意点oj(j≠i)之间的距离定义为:

(1)

N维空间中点oi与任意点oj(i≠j)之间的距离大于一个给定的阈值δ则定义为Outlier:

(2)

如果将数据库中的纪录映射到比N维高的W维(W>N)空间中,则在低维空间的例外点在高维空间中与其它点的距离:

(3)

由公式(2)和 可知:dW(ois,ojs)>dN(ois,ojs)>δ。

所以定理得证。

因此,可视化出的数据库截面把数据库中的数据映射到4维的空间,在图中得出颜色较浅的例外数据在高维数据库中必定就是一条例外异常的记录。

2 试验

由于可视化能清楚直观地看到数据库中的频繁模式与异常模式,本文采用可视化的方法来对油田数据库中的数据做试验。

首先将油田数据库中的数据表中所有的数值型字段按照等距离方法转化成字符形式。这里我们先设定字符表的大小,为4个即{a,b,c,N},N代表该字段的值为空。算法为:求出字段中的最大最小除以3,即将该字段划分为3个区域,每个区域分别代表a,b,c。然后将数据库中的值映射到各区域中,落在哪个区域就用该区域的字符代替该数值。最后将转化好的字符存储成表。

字符转化的方法是,首先在一个字段中找到最大值max和最小值min,定义一个区间段长度为foot:

(4)

字段中任意一个值为y,按照如下公式将其转化为字符形式:

(5)

将转化的字符用可视化的方法显示出来。a,b,c,N分别用不同的颜色表示:a用红色,b用蓝色,c用绿色,N用无色表示;其颜色变化要有范围,即有一个基准色,若有叠加则加一,最后达到颜色变化上限,即使再有叠加,颜色也不再变化。颜色越深,表示该颜色所对应的字符越多,颜色越淡,表示该颜色对应的字符越少。

对于油田数据库某生产表做试验(从第一个字段开始)可以得到如图1结果。在图2圆中可以选择感兴趣的前三个圆环中的任意一个色块,既可再出现关于此色块的第二个圆。例如:根据上图,选择第二圆环蓝色最深的色块,则出现关于这个色块的第二个圆。由图1得知,油田数据库中可视化的表从第一字段到第四字段中,aaaa,bbbb,cccc这三种模式的记录相对多,从图2可以看出数据库表中第一字段到第五字段中aaaaa这种模式较多,所以颜色浅淡的色块对应的记录由定理可知为例外异常记录。

图1 油田数据库可视化图

图2 关于图1第二圆环蓝色最深的第二圆

3 结束语

本文提出了运用在油田数据库中的一种可视化模型的设计方法,取出油田数据库的一个数据截面进行可视化,可以直观清晰的看到数据库中的频繁与例外异常模式,对提高决策的效率具有重大现实意义。

参考文献:

[1]Jiawei Han,Micheline Kamber.范明,孟小峰,译.数据挖掘:概念与技术[M].北京:机械工业出版社,2001:3-4.

[2]于吉红,董久敏.数据挖掘可视化应用与研究[J].海军航空工程学院学报,2006:10-12.

作者简介:赵彩(1982-),女,甘肃人,计算机系讲师,硕士,研究方向:数据挖掘;丁凰(1978-),女,湖南人,硕士,计算机系讲师,研究方向:自动推理与符号计算;王梅(1986-),女,陕西人,硕士,计算机系讲师,研究方向:嵌入式。

作者单位:西安交通大学城市学院计算机系,西安 710018

上一篇:医院HIS网络安全隐患及其防范 下一篇:浅谈计算机信息管理技术在网络安全应用中的研...