浅谈数据挖掘

时间:2022-10-21 10:31:58

浅谈数据挖掘

摘 要:数据挖掘是从海量数据中分析发现具有特定的模式、关联规则关系以及异常信息所表达出来的特点功能等在统计学有意义的结构和事件。该文简要分析介绍了数据挖掘的含功能、技术及其应用等。

关键词:数据挖掘 技术 应用

中图分类号:TP311 文献标识码:A 文章编号:1674-098X(2013)04(c)-0054-01

数据挖掘是在信息的海洋中从统计学的角度分析发现有用的知识,并且能够充分利用这些信息,发挥其巨大的作用,从而创造价值,为社会生产服务。数据挖掘工具能够扫描整个数据库,并且识别潜在的以往未知的模式。

1 数据挖掘

数据挖掘是与计算机科学相关,包括人工智能、数据库知识、机器学习、神经计算和统计分析等多学科领域和方法的交叉学科,是从大量信息中提取人们还不清楚的但具有对于潜在决策过程有用的信息和知识的过程[1]。数据挖掘能够自动对数据进行分析,并归纳总结,推理,分析数据,从而帮助决策者对信息预测和决策其作用[2]。

对比数据挖掘及传统数据分析(例如查询、报表),其本质区别在于:前者在没有明确假设的前提下通过挖掘信息,提取有用的资料,并提升到知识层面,从而帮助提供决策支持。所以数据挖掘又称为知识挖掘或者知识发现。数据挖掘通过统计学、数据库、可视化技术、机器学习和模式识别等诸多方法来实现丛大量数据中自动搜索隐藏在其中的有着特殊关联性的信息[3]。

2 数据挖掘技术

数据挖掘有许多挖掘分析工具,可以在大量数据中发现模型和数据间关系,常用数据挖掘技术包括:聚类分析和分类分析,偏差分析等。

分类分析和聚类分析的主要区别在于前者是已知要处理的数据对象的类,后者不清楚处理的数据对象的类。聚类是对记录分组,把相似的记录在一个聚集里,聚集不依赖于预先定义好的类,不需要训练集。分类分析是预先假定有给定的类,并假定数据库中的每个对象归属于这个类,并把数据分配到这个给定类中。通过分析训练集中的数据,准确描述每个类别,并进行建模、挖掘分类规则,并依据该分类规则,划分其他数据库中的数据类别。聚类分析是非监督学习,不依靠预先定义的类和带类标号的训练数据集,实体对象集合依照某种相似性度量原则,归纳为若干个类似实体对象组成的多个类或簇的过程,不同类中的数据尽可能存在差异,同类中的数据之间各个数据尽可能相似。

存在大量数据的数据库中,数据中存在着偏差,而在偏差中也包括了大量的知识。偏差分析是当数据库中存在异常行为,就显示出要采取预防措施;否则,正常的变化,则需要更新数据库中的记录[4]。

3 数据挖掘方法

要的数据挖掘方法包括决策树、遗传算法、人工神经网络、近邻算法和规则推导等。通过描述和可视化来对数据挖掘结果进行表示。

决策树是以实例为基础的归纳学习算法。着决策集的树形结构代表决策树,树型结构表示分类或决策集合。决策树是采用自顶向下的递归方式,树的非终端节点表示属性,叶节点表示所属的不同类别。

遗传算法是基于种群“多样性”和“优胜劣汰”原则等进化理论,模拟生物进化过程的全局优化方法,将群体中将较劣的初始解通过复制、交叉和变异3个基本算子优化求解的技术,在求解空间随机和定向搜索特征的多次迭代过程,直到求得问题的最优解[5]。

人工神经网络对人脑神经元进行模拟,依据其非线形预测模型,通过模式识别的方式展开,获取的知识需要存储在网络各单元之间的连接权中。人工神经网络能够完成分类和聚类等挖掘[5]。

关联规则是进行数据挖掘的重要的可悲发现的知识,对于两个或多个变量的取值之间存在某种规律性,并对其进行可信度的分析,挖掘其中的关联关系。这对于发现数据中存在的各种有用的信息,发现其数据模式和特征,然后发现目标行为具有重要意义。

4 数据挖掘的应用

在医学领域,科学家从异构和分布式基因数据发现的基因序列的识别、发现基因表达谱数据中的差异表达基因,疾病不同阶段的致病基因等,运用各种数据挖掘技术了解各种疾病之间的相互关系、发展规律,总结治疗效果这对疾病的诊断、治疗和医学研究都是很有价值的。在零售业/市场营销,通过对顾客购物篮的分析,把顾客经常同时买的商品放在一起,帮助如何摆放货架上的商品,挖掘购买商品的关联关系,规划如何相互搭配进货,促销产品组合等商业活动[6]。

数据挖掘在生物信息学中有着广泛的应用。生物信息学就是通过对生物学实验产生的海量数据,进行分类、处理、分析和存储,达到深入理解生命科学中基于分子水平的生物信息的生物学意义。如差异基因表达检测的基因芯片,就是具有高通量的特点,并同时能够产生许多生物学数据,在其中蕴含着丰富的生物学意义。分析和挖掘基因芯片数据,检测差异表达基因在不同环境条件的异常表达值,能够生层次的了解生物学知识,提高对生命科学研究的科学性和效率。对癌症差异基因的分析结果分析,能够更好的检测有关疾病,并根据相关疾病的基因特性,就能有针对性的进行个体化治疗,开发个体化的新药。

进入2013年,有许多媒体都在称之为“大数据元年”。大数据也就是拥有庞大的数据信息,事务数据量大规模增长,而且大数据是要处理大量的非规范化数据,数据挖掘和分析是必不可少的。爆炸性的大数据的产生,可能会改变人们的思考方式,也重塑了人类交流的方式[7]。

5 结语

数据挖掘技术能自动分析数据,广泛应用于各个企事业单位,分析调查大量数据,分析企业经营对社会,经济和环境的综合影响,并预测企业未来的发展趋势,从数据仓库中揭示出数据之间的潜在价值的规律性,形成知识发现,为决策管理提供依据。

参考文献

[1] 孟晓明.浅谈数据挖掘技术[J].计算机应用与软件,2004(8).

[2] 丁样武,杨莹.数据挖掘在医学上的应川[J].郧阳医学院学报,1999(3):130-132.

[3] 黄晓霞,萧蕴诗.数据挖掘集成技术研究[J].计算机应用研究,2003(4):37.39.

[4] 王阳,张春华.数据挖掘技术、应用及发展趋势[J].信息化与网络建设,2003(4).

[5] 任承业.校园信息系统中数据挖掘的研究与应用[D].广州:暨南大学,2005.

[6] 唐晓萍.数据挖掘与知识发现综述[J].电脑开发与应用,2002(2).

[7] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究月发展,2013(1).

上一篇:线程控制方法 下一篇:基于遥感技术的城市建设变迁动态监测