数据挖掘技术在传统煤矿产业中的应用

时间:2022-10-08 10:49:03

数据挖掘技术在传统煤矿产业中的应用

摘要:随着数据挖掘的兴起和蓬勃发展,该技术对于大数据的分析和处理能力吸引了众多研究者的关注。除了互联网、移动互联网等新技术领域,很多传统产业同样需要数据挖掘方法解决实际生产问题。本文首先介绍了数据挖掘常见的基本算法,然后以电子商务和用户节点特征挖掘为例,介绍了数据挖掘技术在煤矿产业中的应用场景和具体方法,旨在启发更多的传统产业通过数据挖掘手段加快信息处理过程,提高信息整合效率。

关键词:数据挖掘;煤矿产业;电子商务;节点特征挖掘

一、引言

数据挖掘是一个年青的、动态变化的、生机勃勃且快速成长的领域,该技术是在当前大量数据日积月累的时代背景下应运而生的[1]。“数据挖掘”一词有广义和狭义两种理解:广义的数据挖掘等同于知识发现过程,共包括数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示七个步骤;狭义的数据挖掘是知识发现过程中的一个基本步骤。本文的“数据挖掘”更像以上步骤中的第五步,但在此之前通常需要对获取的数据进行清理、选择或变换等预处理操作,为挖掘阶段做准备。

随着数据挖掘技术的兴起、发展与成熟,很多研究者已将其运用到互联网、移动互联网、社交网络等各个领域,用于发现海量数据中隐藏的信息。事实上,数据挖掘对于大数据的分析和处理能力同样可以运用在传统产业中[2],本文将从煤矿产业角度出发,介绍数据挖掘技术在传统产业中的应用。首先,本文着重介绍数据挖掘常用的技术;其次,我们以电子商务和用户节点特征挖掘为例,介绍数据挖掘技术在煤矿产业中的应用场景,并总结在具体应用中常见的思路和具体方法。

二、数据挖掘技术综述

现实世界中的数据极易受到许多干扰,如噪声、缺失值、不一致数据等,低质量的数据将直接影响挖掘的结果,因此本章将首先介绍数据挖掘中常用的预处理方法。对数据中隐藏模式的挖掘主要通过监督模型和无监督模型实现。监督模型基于对数据的先验知识,分为分类和回归方法;而无监督模型用于对要挖掘的模式毫无先验知识的情况,分为聚类和关联分析方法。本章将以分类和聚类算法为例,具体介绍数据挖掘的基本思想[3]。

1. 数据预处理

数据预处理方法很多,一般分为四个步骤:

数据清理:包括补全缺失值、光滑噪声、识别离群点、纠正数据不一致性。

数据集成:把多种数据源的数据组合从而形成一个完整的数据集,这里的数据源可能包括多个数据库、数据立方体及一般文件。

数据规约:通过聚集、删除冗余特征或聚类来降低数据规模,得到数据集的规约表示,而使得信息内容的损失最小化。

数据变换:用汇总、聚集等方式,将数据变换为可挖掘的统一形式。

2. 监督模型

分类算法是监督模型中常用的算法,适用于数据集或数据集中的部分数据有标签的情况,它从每个数据元素都包含分类标签的训练数据开始,通过对训练数据的学习建立一个分类模型,用于将新的数据元素自动分类到训练数据提供的类别中。也就是说,数据分类是一个两阶段过程,包括学习阶段(构建分类模型)和分类阶段(使用模型预测给定数据的类别)。常用的算法有决策树、贝叶斯分类和基于规则的分类等[1]。

决策树分类器:是从有分类结果标号的训练数据中学习,从而形成一种类似流程图的树结构,每个内部结点表示在某一个属性上的测试,每个分枝代表该测试的一个输出,而每个树叶结点代表一个分类标号。决策树构造的主要方法是自顶向下递归的分治方式。

叶斯分类器:属于一种统计学分类方法,用于预测类隶属关系的概率。对分类算法的比较研究发现,朴素贝叶斯的分类结果可以与决策树和神经网络相媲美。

基于规则的分类器:规则是表示信息或少量知识的好方法,基于规则的分类器是通过一组IF-THEN规则指导分类结果。IF部分表示规则的前提,THEN部分表示规则的结论。

3. 无监督模型

聚类算法是无监督模型中的常见算法,适用于数据集合不包含任何标签的情况,即每个数据元素的类标号是未知的。聚类是把数据对象集划分成多个组或簇的过程,使簇内对象相似性很高,但与其他簇中对象相似性很低。相异性和相似性是对结果的评估,主要用距离度量。如果数据源包含大量文本内容,对其进行聚类操作时,通常将文本关键词表示为矩阵形式,进而用余弦距离度量文本相似性。聚类算法可从多方面分类,如根据划分标准、簇的分离性、所使用的相似性度量和聚类空间等。下面介绍几种主要的基本聚类方法。

划分方法:聚类分析最简单、最基本的方法是划分,它是把数据对象划分成多个互斥的组或簇的过程。具体来说,划分方法是将目标集合中的n个对象划分成k个分区,每个分区即代表聚类结果中的一个簇(kn)。

层次方法:通过对数据集的层次分解完成聚类,分为凝聚聚类和分裂聚类两种。凝聚聚类是自底向上的,首先认为每个对象各自为一个簇,然后通过迭代逐渐把初始的小簇合并成越来越大的簇,直到所有对象成为一个簇,或满足某种终止条件。分裂聚类是自顶向下的,首先它把所有对象置于一个簇中,然后从根开始递归地把这些簇划分成多个较小的子簇。

基于密度的方法:基于密度的方法在于弥补基于对象间距离的方法只能发现球状簇的缺陷,该方法可用于发现任意形状的簇。基于密度的方法把簇看做数据空间中被稀疏区域分开的稠密区域,当“邻域”中的密度超过某个阈值时,该方法继续增长给定的簇。

基于网格的方法:上述方法都是数据驱动的,它们划分对象集并自动适应嵌入空间中的数据分布。而基于网格的方法采用空间驱动的方法,把嵌入空间划分成独立于输入对象分布的单元。该方法中的网格指多分辨率的网格数据结构,它将对象空间量化成有限数目的单元而形成网格结构,在该结构上进行所有的聚类操作。

三、数据挖掘技术在传统煤矿产业中的应用

传统煤矿产业每天也产生着大量的数据,这些数据中同样隐藏着各类有价值的信息,通过数据挖掘技术可以帮助分析数据中暗含的隐藏价值。本章将以电子商务和用户特征挖掘为例,介绍数据挖掘方法在煤矿产业中的应用场景,并介绍具体求解思路和方法。

1. 煤矿电子商务的数据挖掘场景

当全球资源化越发畅通和普及,网络技术和信息的传播作为数据大幅增长的重要传载体,企业中产生了以电子商务领域为主的大量业务数据。如何满足企业运作的高效要求,是目前电子商务急需解决的问题,将数据挖掘技术完善地应用到企业电子商务中,也显得更为必要[4]。文献[5]从现在电子商务的的概念与特性讲起,介绍了煤炭交易的电子商务活动中的数据分析和运用特点,并针对这些特点引入数据挖掘技术概念,详细分析了煤炭交易中电子商务数据挖掘的类型及相关方法。这里我们将概括该论文的具体思路,论述数据挖掘技术在煤炭交易电子商务场景下的应用。

煤炭交易电子是利用计算机技术、计算机互联网技术和通信技术,实现在煤炭交易的活动过程中的电子化、数字化和网络化。煤炭交易电子商务中产生的是基于计算机和Internet的Web数据,其具有鲜明的数据新特性:动态性、海量性和直接性。在电子商务的实际运用过程中,根据用户访问和顾客或企业访问产生的信息进行数据提取,大致可以分为3种数据挖掘的数据类型,即使用记录数据、内容数据和结构数据类型。相应地,基于Web的数据挖掘技术分为:使用日志或访问记录的数据挖掘模式、内容数据挖掘模式、结构数据挖掘模式。数据挖掘在电子商务的应用实现过程大致分为4个步骤:数据收集、数据预处理、模型评估、解释模型得出结论。

2. 煤矿产业中的用户节点特征挖掘场景

社交网络中有很多关于用户节点特征挖掘的研究,如对用户基本信息的挖掘、对用户行为和人格特征的挖掘、对用户兴趣喜好的挖掘等。这类方法同样可以借鉴到煤矿产业中,具体可以有两类应用:一是将员工看作用户节点,根据已记录的员工基本信息和工作信息,推断员工的工作习惯、兴趣爱好等隐藏信息,从而对员工有更深入的了解,有助于企业人文关怀的开展;二是将煤矿资源看作用户节点,根据已知的煤矿资源位置、属性及特点预测其他煤矿资源的信息,并帮助预测未发掘的煤矿资源位置。

该场景最常用到的方法是统计分析、分类、聚类和推断学习。其中,统计分析是各类方法的基础,几乎所有的研究都需要首先通过一定的统计分析过程发现数据规律,进而根据这一规律建模求解。分类是已知要挖掘的用户节点标签类别时常用的一种方法,除了本文第二章介绍的基本分类方法外,神经网络、SVM支持向量机、遗传算法、瀑布分类器等也都是常用的分类方法。聚类是在要挖掘的用户标签类别未知时常用的一种方法,除本文第二章介绍的基本聚类方法外,实际中常用的还有模糊聚类、基于概率模型的聚类等方法。推断和学习算法是根据其他信息学习目标信息,常用的是基于概率或网络图谱的方法。

四、结语

在当今数据r代下,每天来自商业、社会、科学和工程、医疗以及我们日常生活的方方面面的数兆兆字节或数千兆字节的数据注入我们的计算机网络、万维网和各种数据存储设备。可用数据的爆炸式增长、广泛可用和巨大数量使得我们的时代成为真正的数据时代。急需功能强大和通用的工具,以便从这些海量数据中发现有价值的信息,把这些数据转化成有组织的知识。这种需求导致了数据挖掘的诞生,这一技术已经并将就在我们从数据时代大步跨入信息时代的历程中做出贡献。

很多传统产业也开始利用数据挖掘技术解决生产过程中的实际问题。本文首先介绍了数据挖掘的常用基本算法,然后举例提出了在煤矿产业中可能的应用场景:一是将基于Web的数据挖掘方法应用到企业电子商务中;二是通过统计分析、分类、聚类和推断学习方法挖掘用户员工或煤矿资源的特征。事实上,数据挖掘理论在煤矿产业中的应用远不止这些,对生产资料的调控与分配、安全事故的分析和预警等同样可以通过数据挖掘技术解决。数据挖掘在传统煤矿产业的应用在为传统产业带来新机遇的同时,也为理论算法的进一步完善提出了新的挑战。

参考文献:

[1]韩家炜,坎伯.数据挖掘:概念与技术[J].北京:机械工业出版社, 2001: 232-233.

[2] 董建新.计算机数据挖掘技术在煤矿行业的应用[J].煤炭技术,2012,31(004):87-89.

[3] Barbier G,Liu H.Data mining in social media[M]//Social Network Data Analytics.Springer US, 2011: 327-352.

[4] 刘振东.企业电子商务中数据挖掘分析及方法论[J].煤炭技术,2012,31(3):272-274.

[5] 宋浩杰,赵浩婕.煤炭电子商务的数据挖掘技术应用[J].煤炭技术,2012,31(008):273-275.

上一篇:激励性评价在数学课堂上的应用 下一篇:新形势下中职幼师职业认同及提升策略