数据挖掘关键技术探究

时间:2022-08-15 06:35:09

数据挖掘关键技术探究

【摘 要】近年来,数据库技术与数据挖掘技术的飞速发展,引起了各个学科领域的研究人员的极大关注和重视,使得数据挖掘技术变得越来越重要,随即扩展到各个领域。当前,数据的挖掘已成为一个研究热点。本文就从数据挖掘技术入手,围绕数据挖掘的几个关键技术展开全面的分析和研究,最后还简述了当前数据挖掘技术的实际应用,以突出数据挖掘技术的应用价值和前景,以供借鉴参考。

【关键词】数据挖掘;关键技术;实际应用

前 言

数据挖掘从一开始的简单查询已提升到从数据中挖掘知识,提供决策支持,它属于一门交叉学科。近年来,国内外许多研究机构都进行了数据挖掘技术的研究和探索。可以说,从大量数据中提取潜在的有用的知识和信息的数据挖掘技术,将在更多的领域得到研究和广泛应用。

一、数据挖掘的关键技术

数据挖掘可以说是一种决策支持过程,分析各组织原有的数据,做出归纳和推理,从中挖掘出潜在有用的、有效的模式,为管理人员决策提供支持。为了有效地挖掘出数据中潜在的信息,需要对数据挖掘技术进行深入研究。由此,下面就对数据挖掘的可视化技术、决策树、遗传算法、模糊技术、最近邻技术这五个关键技术进行详实的论述和分析。

1.可视化技术

数据可视化技术(也称为图形显示技术),就是使用可视化的图形描绘信息模型,然后将显示出的数据趋势很直观的呈现给决策者。和其他的数据挖掘技术,使用这种技术时通常是一个组合,它可以交互地分析数据,我们应该说,这种技术的实用性不容低估。例如,在数据库中的多维数据成各种图形显示数据固有的性质和分布数据的特点发挥了重要作用。总之,将数据挖掘过程可视化,更容易找到数据之间可能存在的模式、关系和异常情况等。

2.决策树

决策树可以说是按照一系列规则导出类值的一种挖掘方法,它可以依靠计算条件概率来构造。具体而言,决策树的基本思想是通过一个树状结构的数据进行分类记录,树的叶节点表示了在一定条件下的一组记录,根据记录建立树枝分支;在每个较低的节点和分支子集中,成立重复的分支子集,从而生成一个决策树。每个决策树都表述了一种树型结构,可以依靠对源数据库的分割进行数据测试。总之,这种挖掘方法可以有效地处理非数值数据,并允许独立的变量,在固有的神经网络以尽量减少组合爆炸,可取得理想的效果。

3.遗传算法

这是一种基于生物进化理论的优化方法,其基本思想是“适者生存”:随着时间的更替,只有最适合的物种才得以进化。它借用了生物遗传学的角度点,通过模仿自然选择、基因突变,改善个体适应的机制。遗传信息通常被称为基因,该基因包含正确的权值,其中包含了该模型的参数。当该基因包含一个隐藏层时,包含每一层的节点数量。例如,创建一个神经网络,遗传算法可以恰当的调整权值,在一定条件下更可以代替反向传播方法。同时,遗传算法还可以用来找到最佳的结构。总之,遗传算法可以处理多种数据类型、并行处理各种数据,能够解决许多其它技术难以解决的问题;但需要的参数较多,算法较复杂,计算量较大。

4.模糊技术

模糊技术一般包含模糊评判、模糊模式识别、模糊决策和模糊聚类分析这几个步骤,多是利用模糊集理论对实际问题进行系统的研究,往往能够取得很好的效果。这种模糊性属于客观现实,与数据挖掘系统存在一种关系,即系统越复杂,模糊性就越强。关于传统的模糊理论和概率统计,在定性定量转换模型不确定性的基础上,李德毅教授提出了云模型,并依据此形成了云理论。而事实上,模糊集理论通常都是用来描述模糊事物的随机性、复杂性。为了表达定性概念,将概念的模糊性和复杂性很好地结合,云模型要充分利用期望值、熵和超熵,在概率模型中寻找参数。可以说,模糊技术是为数据挖掘提供一个概念的形成和知识表达、概念综合和概念层次划分、定性概念和定量表示转换的一个新方法。

5.最近邻技术

数据最近邻技术(也称为K-最近邻方法),就是先利用K个最与之相近的历史记录,然后将这些历史记录组合起来,以确定新的记录的一种数据挖掘方法,它是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。一般情况下,这种技术可用于多种数据挖掘任务,例如,数据聚类、数据偏差分析等。

除上述之外,数据挖掘的关键技术还包括人工神经网络、规则归纳等。经过不断的实践和应用,数据挖掘过程越来越标准化、规范化。可以说,随着新的数据挖掘技术的不断增多,数据挖掘工具的不断推陈出新,数据挖掘技术也越来越显示出其广阔的应用前景。

二、数据挖掘的实际应用

与传统分析方法相比,数据挖掘技术可以发现更有用的信息,这是应用传统分析方法时所不能发现的,因此数据挖掘具有重要的理论意义和实用价值。当前,数据挖掘在人们的实际生活中十分常见,主要是应用于一些需要处理海量数据的重要部门。比如:用于大型零售组织的数据挖掘系统,可以在决策支持过程为制定市场策略、提供决策支持给予有力的技术和工具保证;用于银行金融方面的数据挖掘系统,可以预测存款趋势,帮助相关执行人员更好地进行有促进作用的活动,帮助他们设计新的市场运行方案;用于远程通讯部门的数据挖掘系统,可以了解客户服务使用的结构和模式,便于工作人员作出最佳的投资决策;用于质量监督保证方面的数据挖掘系统,可以自动找出一些不正常的数据分布,并分析出各种影响因素,以帮助质量工程师在最短时间内找出问题的范围,从而能够及时采取相应的解决措施等等。总之,数据挖掘技术已经广泛应用于零售与批发、运输、银行金融、制造、软件开发等多个企事业单位及国防科研上。随着信息技术的不断发展和数据挖掘工具的不断完善,数据挖掘技术将在更多的领域得到应用。

结束语

总的来讲,数据挖掘技术在现实中的应用越来越广泛,能够为用户提供更好的服务。可以说,数据挖掘的研究和应用是一个长期而艰苦的工作。随着数据挖掘技术的不断发展,其必将在更多的领域得到更为广泛的应用,而利用数据挖掘所得的知识帮助人们作出决策,将是一项非常有实际应用前景的工作。参考文献

[1]杨雪.浅析数据挖掘技术[J].金融科技时代,2005,(08).

[2]李玉华.面向服务的数据挖掘关键技术研究[D].华中科技大学,2006,(11).

[3]王欢.浅谈数据挖掘技术及其应用[J].科技信息,2009,(21).

上一篇:马铃薯常见病害防治技术浅议 下一篇:多介质过滤器的运行对反渗透影响的分析