数据挖掘技术与关联规则挖掘算法及其应用

时间:2022-07-19 12:00:25

数据挖掘技术与关联规则挖掘算法及其应用

摘 要:随着计算机技术和网络通信技术的不断发展,数据信息逐渐成为当前社会各行各业发展的关键。如何在海量数据中挖掘出对企业发展有利的信息是当前各行各业研究热点,也是未来计算机领域发展的主要方向。本文从数据挖掘技术的相关概念出发,对时态约束关联规则挖掘问题及算法,数据分割下的挖掘问题及算法进行了简单分析,结合相关内容简单介绍了交互式的可视化方法。

关键词:数据挖掘;关联规则

中图分类号:TP311.13

1 数据挖掘技术

1.1 数据挖掘概念

所谓数据挖掘,简单理解就是从海量数据中挖掘出对用户有利用价值的信息,并根据分析结果判断数据与数据之间的关系。人们利用数据技术的主要目的就在于从混乱的数据信息中分析出能够对未来经营策略有用的信息,进而能够更好更高效的经营企业,获得更多经营利润。

1.2 数据挖掘技术分类

关于数据挖掘针对其挖掘的对象,大致的可以做出以下分类,具体分为时态数据库、异质数据库、文本数据源、关系数据库面向对象数据库(Object-Oriented Database)、空间数据库、遗产数据库、多媒体数据库以及web等比较具有针对性的挖掘对象。针对数据挖掘的方法大致的可以归纳为:计算机学习法、数理统计法、信息聚类分析法、遗传算法Genetic Algorithm、神经网络 Neural Network探索性分析法、不确定性推理和近似推理法、数据分析法、证据理论和元模式法、数据集成方法、当代数学分析法等。

1.3 数据挖掘应用分析

随着当前计算机技术和信息技术的飞速发展,数据分析已经成为当前各行各业的重要研究内容,数据挖掘技术可以说是时展的产物。传统意义上的数据收集已经很难以应付当前数据信息瞬息万变的局面,企业需要发展就需要高价值率的数据库作保证。企业在市场竞争中,只有掌握了最为准确的市场分析数据,才能够更好的去确定未来的发展方向,才能够更好的提高资金利用率。高层次数据分析是很多企业所面临的重点问题,不管是行政决策还是市场预判,均需要这类数据来提供可靠参考。所以,研究数据挖掘技术与关联规则挖掘算法具有非常重要的现实意义。

2 时态约束关联规则挖掘问题及算法

2.1 聚焦挖掘任务,提高挖掘效率

早期的数据挖掘理论主要研究方向是模型建立及挖掘算法设计,不同企业所收集数据类型不同,所以在实际使用过程中模型及算法的确定也不同。传统数据挖掘过程,首先需要做的是对提供的数据库进行全面分析,然后再结合用户需求进行更为深入细致的研究,制定出最佳数据挖掘模型,如果最终所得到的分析结果并未达到用户满意,则重新分析研究制定模型进行二次数据挖掘。算法也是影响数据挖掘结果的关键,不同算法在不同模型下所得到的结果也不同,因此制定数据挖掘模型及算法是用户是否能够得到预期结果的重要参数。

2.2 保证挖掘的精确性

虽然数据挖掘的目的是为了能够帮助用户获得更多有价值的参考结论,但其结果具有不可预测性的特点。数据挖掘过程中算法的运用还会设计很多问题,这些问题的出现肯定会对最终的结果可靠性造成一定影响,因此必须要在算法中加入反馈机制,以便于在计算过程中对结果进行测试和修正。

3 数据分割下的挖掘问题及算法

对于理论基础比较成熟的算法――Apriori算法,研究的侧重点已经变为效率问题,人们也提出了各种的改进算法,本文选区几种比较有代表性的加以介绍。

3.1 减少事务的个数

如果在事务处理过程中去除长度小于k的项目集,那么在后期计算过程中肯定不会再出现长度为k+1的项目集。因此,在数据挖掘过程中我们可以通过算法直接将无用事务滤除,以便于在下轮扫描过程中简化操作过程,提高数据挖掘效率。

3.2 基于划分的方法

这类算法的比较典型的是频繁项目生成算法,该算法原理在于:把数据库分解成逻辑上互不交叉的部分,而每次只需要单独考虑一个分块,在这样的分块中,研究怎样能够发掘频繁项目集;而对于怎样将数据进入存储中,可以把需要处理的分块放入计算机内存中,这样有利于算法的并行处理,数据量相对于不分块前减少,提高了数据挖掘的速度。

3.3 基于采样的方法

数据库抽样计算的目的是获得更直接的规则,进而能够方便于后期的数据挖掘过程,通过抽样检验我们可以更为直观的判断关联规则是否有效,是否能够更加简便的获得用户所需目标。基于采样的数据挖掘算法在实现方法上要容易一些,而且还可以最大限度的降低数据挖掘过程所需要提供的I/O成本。但同时这种算法也会使得抽样数据随机性大大增加,进而使得数据挖掘过程中出现的问题增多,给数据挖掘带来额外负担。基于统计学理论的抽样算法,虽然在计算精度上无法与其他算法相媲美,但如果我们结合相关数据挖掘理论进行更为深入的分析研究,还是能够在精度上进行一定的弥补。

4 交互式的可视化方法

关联规则可视化研究是当前关联规则挖掘在数据挖掘技术走向实用化的重要内容之一,通过直观的、易懂的方式展现给用户是关联规则挖掘是否能够高效应用的关键。当前社会上可视化方法中使用最为广泛的是有向图、2D矩阵、3D显示等几种,这些方法中已经在实际生活中得到了广泛认可。但它们均有一个共同的特点就是将数据挖掘所得到的所有结果一次性通过不同颜色或者不同形状展现在表或者图中,这种页面显示必然会存在一定的混乱性,以致于其显示效果大打折扣。正是在这种前提下,交互式可视化方法受到了研究人员的关注。交互式可视化方法显示方式为:

第一,从宏观上来把握项与项之间存在的关系,通过不同图形或者颜色来达到视觉突出的效果,进而能够让用户更加直观的看到数据挖掘结果。关联规则挖掘所得到的结果中不同项与项之间是使用线条连接起来的,在这种情况下,用户可以通过了解某一个项其内部的关联信息,进而解决由于线条过多而造成的页面混乱情况。

第二,从微观上更加精确的把握每一个关联规则的支持度和信任度,通过数字化的形式来给出挖掘结果的表示比,进而帮助用户更直观更准确的获得数据挖掘结果。

第三,从分类显示的角度出发,将数据挖掘所得出的没有使用价值的规则剔除,通过不同图形或者颜色来增加视觉效果,这样从根本上提高了数据挖掘可视化目的。

5 结束语

数据挖掘技术与关联规则挖掘算法所包含的内容有很多,本文只是简单介绍了其中较为重要的一部分。在今后的工作中,笔者将继续致力于该领域的研究工作,以期能够获得更多有价值的研究成果。

参考文献:

[1]孟海东,李丹丹,吴鹏飞.基于数据场的量化关联规则挖掘方法设计[J].计算机与现代化,2013(01):8-11.

[2]陆新慧,吴陈,杨习贝.空间关联规则挖掘技术的研究及应用[J].计算机技术与发展,2013(05):26-29+33.

[3]刘爱宏,史春燕.基于数据挖掘的现代物流信息系统管理问题研究[J].物流技术,2013(09):381-383.

作者简介:王权(1982.01-),男,甘肃人,讲师,本科,研究方向:计算机科学与技术;王军(1978.01-),男,甘肃平凉人,讲师,硕士,研究方向:软件算法;史子新(1980.02-),男,甘肃武威人,讲师,硕士,研究方向:计算机网络管理。

作者单位:武威职业学院,甘肃武威 733000

上一篇:高校校园网常见故障的诊断及排除 下一篇:云中的大数据