基于云计算的数据挖掘研究

时间:2022-10-04 06:19:15

基于云计算的数据挖掘研究

摘 要:云计算的快速发展带来了基于海量数据的数据挖掘技术的研究与发展,基于云计算的数据挖掘是采用MapReduce模型对数据实现并行处理,比传统数据挖掘更高效、准确和可行,是对云计算时代海量数据进行数据挖掘的必然趋势。

关键词:云计算;海量数据;数据挖掘

随着云计算、物联网和信息技术的发展,海量形式多样复杂的数据爆炸式的迅速增长,对这些海量数据进行挖掘,分析出其潜在隐藏的巨大价值对经济社会的发展具有重要的指导作用。云计算具有的海量数据存储能力和弹性的计算能力为海量数据挖掘提供了一种有效的方式。文章首先介绍数据挖掘的定义、起源和方法,然后论述了数据挖掘的优势和存在问题,最后分析了数据挖掘实现的步骤、功能和关键技术。

1 数据挖掘概述

数据挖掘是数据库中知识发现的过程,是指从数据库中包含的海量数据中提取出隐含的、未知的、有潜在利用价值的信息的过程,这个过程主要由数据准备、数据挖掘和结果表达与解释这三个阶段构成[1]。数据挖掘具有决策支持功能,能够高效自动地对企事业的海量数据进行分析,挖掘出潜在的有利用价值的信息,从而帮助决策者做出正确合理的决策。

数据挖掘因其可对海量数据进行挖掘提取出有潜在价值的信息而被广泛关注,其主要经历了电子邮件、信息、电子商务和全程电子商务这四个阶段,软件即服务模式的出现形成了如今全程电子商务模式[1]。

对数据进行挖掘所采用的方法论主要有5种,分别是数据取样,数据特征探索分析和预处理,问题明确化、数据调整和技术选择,模型的研发和知识的发现,模型和知识的综合解释与评价。只要采用合理有效的数据挖掘方法才能高效的实现数据挖掘任务,提取出有价值的信息。数据挖掘可以从不同角度进行,具体来说,数据挖掘方法有分类、回归分析、聚类分析、关联规则、特征分析、变化和偏差分析、Web页挖掘等[1,2]。但是,并没有一种方法可以适用于所有数据类型的挖掘,实际应用中需要依据所挖掘数据的类型找到合适的方法对数据进行挖掘。数据挖掘具有较高的商业价值,在通信、医疗、制造和财务金融等行业应用较多。

2 基于云计算的数据挖掘优势和存在问题

采用基于云计算方式的海量数据挖掘具有其独特的优势,主要表现在以下几方面:云计算有较好的开发环境和应用环境来处理海量数据,从中挖掘出有价值的信息;云计算模式可进行分布式的并行数据挖掘,实现实时、高效的数据挖掘;基于云计算的数据挖掘开发更方便,利用现有设备对海量数据的处理能力和速度得到提高,可自由增加结点,容错性也有提高;基于云计算的数据挖掘对数据挖掘的门槛较低,满足了海量数据挖掘需求,同时确保了数据挖掘的共享性[3,4]。

云计算技术的应用虽然已经很广泛了,但其技术并不是很成熟,因此,基于云计算的数据挖掘也存在如下一些问题:数据挖掘任务、采集以及预处理具有不确定性;采用合适的算法和并行策略来处理目前海量的数据挖掘,以提高数据挖掘的并行效率;数据挖掘的方法与结果具有不确定性;对数据挖掘的结果所做出的评价具有不确定性;要确保软件和服务的正确性、安全性和高质量[3]。对于上述存在的这些问题,已经有一些策略可以去解决。

3 数据挖掘的步骤、功能和技术

3.1 数据挖掘实现的步骤

不同应用领域的数据挖掘有着不同的步骤,且任何一种数据挖掘技术都有自己特有的特性和步骤,数据挖掘的过程也会因问题和需求的不同而不同。但是数据挖掘实现的步骤大致可分以下几步:对数据的来源和数据深入理解,获取相关的知识和技术,对数据进行整合和检查,将错误和不一致的数据踢出去,对模型和假设进行建立,数据挖掘工作的实施,对数据挖掘结果进行测试和验证,对获取的信息进行解释和应用[1]。从这个处理过程可以看出,大部分工作是数据的预处理,只有完成了预处理阶段的工作才能更有效地对数据进行挖掘和分析。

3.2 数据挖掘功能

数据挖掘通过对获取的潜在的有价值信息进行分析来预测未来的发展趋势,帮助决策者做出合理正确的决策。数据挖掘的功能可以概括为以下五个方面[1]:对未来的发展趋势和行为做出自动预测,通过对数据库中数据关联进行分析生成的规则有较高的可性度,通过聚类增强对客观现实的认识和有利于描述概念与分析偏差,数据挖掘有利于对对象的内涵和相关特征进行描述,从数据库中对存在偏差的数据进行检测。

3.3 数据挖掘关键技术

数据挖掘的关键技术主要有人工神经网络、决策树、遗传算法、K近邻算法和关联式规则[1]。人工神经网络是通过采用类似于大脑神经突触连接结构对信息进行处理的一种数学模型,具有自学习、联想存储和高速寻找最优解的功能。决策树是预测模型,通过决策图和可能的结果来对目标进行规划,是特殊的树结构,包含决策节点、机会节点和终节点三种节点,一个决策树的产生有分类树、回归树和CART三种方法,决策树容易理解和实现、前期准备工作量小、能同时处理不同的数据类型、是一个白盒模型、能通过静态测试做出预测、得到可行高效的结果[1]。遗传算法通过类似于生物进化过程的随机化搜索方法来寻求最优解,需要经历初始化、选择、交叉、变异、全局最优收敛这几个过程,具有随机性、并行性、容错能力强等优点。K近邻算法一种机器学习算法,只能计算最近的样本、且计算量很大。关联式规则是从海量的数据中挖掘出有利用价值的数据项之间的关联性,可以根据关联规则处理的数据类型、涉及的数据的维数和抽象层次分为不同类型,采用关联规则进行数据挖掘的一些相关算法主要有Apriori算法、基于划分的算法和FP-树频集算法。数据挖掘还需要用到哈希函数、二维存储器和幂定律等一些相关知识。

4 结束语

文章研究了基于云计算的数据挖掘技术,相比于传统数据挖掘,基于云计算模式的数据挖掘在成本、计算速度、容错性、和程序的开发等方面都表现出明显的优势。随着云计算技术的发展,数据挖掘研究将会有新的突破和更有利的技术支撑,能够更高效地从海量的数据中挖掘出隐藏的具有潜在利用价值的信息来服务于各行各业的决策者,帮助其更快速合理地做出正确的决策。

参考文献

[1]周品.云时代的大数据[M].北京:电子工业出版社,2013,10.

[2]李晓辉.基于云计算的数据挖掘应用探析[J].长春大学学报,

2012,22(12):1472-1475.

[3]周晏,桑书娟.浅谈基于云计算的数据挖掘技术[J].电脑知识与技术,2010,6(34):9681-9683.

[4]贺瑶,王文庆,薛飞.基于云计算的海量数据挖掘研究[J].计算机技术与发展,2013,23(2):69-72.

作者简介:何婧媛(1987-),女,陕西省延安市人,助教,硕士,研究方向:云计算、大数据。

上一篇:综采工作面设备上窜下滑原因分析及预防措施 下一篇:液体化妆品包装专利技术发展