大数据时代的数据挖掘及应用

时间:2022-10-27 12:52:49

大数据时代的数据挖掘及应用

摘 要当今时代,信息技术为人类步入智能社会开启了大门,同时也带动了互联网、物联网、电子商务、现代物流和网络金融等现代服务业的发展。由于网络信息的广泛使用,使得各种业务数据正以几何级数的形式爆发,其格式、收集、存储、分析和应用等诸多问题有待解决。大数据具有了volume、velocity、variety和variety四个特征。2011年5月,麦肯锡全球研究院题为《大数据:创新、竞争和生产力的下一个前沿领域》的报告,正式提出了“大数据”的概念。在大数据时代背景下,应该如何在原有的数据挖掘技术下实现更好的数据处理和应用也称为一个迫切解决的问题。大数据的体量和流量注定传统的数据挖掘算法,尤其是基于单机迭代的实现模式是无法满足大数据所要求的高扩展性和高时效性的。同时大数据的多元异构也需要在数据的抽取、清洗、转换、存储、关联和展现等各个关键环节进行调整。

【关键词】大数据 生物信息 知识提取 数据挖掘

1 数据挖掘的功能

数据挖掘是从大量的数据中四栋搜索隐藏于其中的具有特殊关系性的信息过程。它是数据库知识发现KDD中的一个步骤。知识发现KDD过程由以下3个阶段组成:数据准备、数据挖掘、结果表示和解释。数据挖掘跟许多学科都交叉关联,包括数据库技术、统计学、机器学习、人工智能、云计算和可视化等。

数据挖掘的实际应用功能可分为三大类和六分项:分类和聚类属于分类去隔类;回归和时间序列属于推算预测类;关联和序列则属于序列规则类。分类常被用来根据历史经验已经分好的数据来研究它们的特征,然后再根据这些特征对其他未经分类或是新的数据做预测。聚类是将数据分群,其目的是找出群间的差异来,同时找出群内成员间相似性。回归是利用一系列的现有数值来预测一个数值的可能值。基于时间序列的预测与回归功能类似,只是它是用现有的数值来预测未来的数值。关联是要找出在某一事件与数据中会同时出现的东西。

2 降维

从降维的角度讲,整个数据挖掘的过程就是一个降维的过程。在这个过程中,需要对数据删除线性关系比较强的特征数据,再用一些算法,如信号分析算法、傅里叶转换、离散小波转换等算法,从数据中提取特征,再对数据做主成分析处理,得到最后的特征,再用数据挖掘算法来将这些特征转化为人类可读取的数据或信息。

3 分布式数据挖掘解决方案

随着分布式计算技术、云计算技术、hadoop生态圈和非结构化数据库等技术的发展,以及对大数据挖掘的需求,出现了一批分布式数据挖掘,比较典型的有Apache推出的基于Hadoop的Mahout和加利福尼亚大学伯克利分校AMP实验室推出的基于Spark的MLBase。在Mahout中主要实现3种类型的数据挖掘算法:分类、聚类(集群)和协同过滤。相比Mahout而言,MLbase更好的支持迭代计算,它把数据拆分成若干份,对每一份使用不同的算法和参数运算出结果,看哪一种搭配方式得到的结果最优。

4 大数据下的具体应用实例――生物信息学的应用

生物信息学(Bioinformatics)是生命科学、计算机科学、信息科学和数学等学科交汇融合形成的一门交叉学科。近年来随着先进仪器装备与信息技术等越来越广泛和深入的整合到生物技术中来,生物医学研究中越来越频繁的涉及到大数据存储和分析等信息技术。在使用计算机协助生物信息时,处理仅有计算机辅助的方式存储数据很显然是不够的,生物信息学研究的目的是运用计算机强大的计算能力来加速生物数据的分析,理解数据中所包含的生物学意义。当前生物信息学研究的热点有:

(1)由以序列分析为代表的组成分析转向功能分析。

(2)由对单个生物分子的研究转向基因调控忘了等动态信息的研究。

(3)完整基因组数据分析。

(4)综合分析。

生物信息数据具有如下特点:高通量与大数据量;种类繁多,形式多样;异构性;网络性与动态性;高维;序列数据等特点[5]。针对这样的生物数据信息,要结合当前的大数据分析方法进行分析和理解。当前数据挖掘实现对生物信息分析的支持主要有:生物数据的语义综合,数据集成;开发生物信息数据挖掘工具;序列的相似性查找和比较;聚类分析;关联分析,生物文献挖掘等方面。

参考文献

[1]许凡.大数据时代的数据挖掘技术探讨[J].电子技术与软件工程,2015(08).

[2]洪松林.数据挖掘技术与工程实践[M].北京:机械工业出版社,2014(11).

[3]李荣.生物信息数据挖掘若干关键问题研究与应用[D].复旦大学(博士论文),2004(11).

[4]宋杰.生物信息数据挖掘中的若干方法及其应用研究[D].大连理工大学(博士论文),2005(04).

[5]孙勤红.基于梯度采样局部收敛的生物信息大数据挖掘[J].科技通报,2015(10).

作者简介

孙勤红(1979-),女,山东省人。现为三江学院计算机科学与工程学院讲师。研究方向为人工智能、数据挖掘。

沈凤仙(1984-),女,江苏省人。现供职于三江学院计算机科学与工程学院。研究方向为数据挖掘。

作者单位

三江学院计算机科学与工程学院 江苏省南京市 210000

上一篇:基于松下PLC与康沃变频器通信方式的电机调速控... 下一篇:PLC技术在电气控制中的应用分析