基于云计算的数据挖掘之综述研究

时间:2022-07-21 03:36:55

基于云计算的数据挖掘之综述研究

【摘 要】本文针对现下一种新兴的云计算技术,分析当前数据挖掘遇到的问题以及云计算的优势,基于云计算进行海量数据挖掘成为一种解决传统集中式数据挖掘不适应海量数据不断增长的高效、可信方法。本文先对云计算进行简单介绍,然后对基于云计算的数据挖掘应用进行详细阐述与分析,最后介绍基于云计算的数据挖掘应用平台的构建。

【关键词】云计算;数据挖掘;研究

The Summry of Data Mining Research Based Cloud Computing

GUAN Wen-bo1 LI Lei2

(1.School of Software Engineering,Tongji University,Shanghai, 200092, China;

2.School of Software Nanyang Institute of Technology,Nanyang Henan, 473000, China)

【Abstract】In this paper, holds many lessons for an emerging cloud computing technology to analyze the current data mining problems encountered and the advantages of cloud computing, cloud-based computing for massive data mining to become a solution to the traditional centralized data mining suited to the growing amounts of data efficiently, credible way. This article first briefly introduces the cloud, and the cloud-based data mining applications described and analyzed in detail, and finally introduces cloud-based data mining applications Platform.

【Key words】Cloud computing; Data mining;Research

0 前言

云计算的概念可以追溯到上个世纪Sun和Oracle提出的“网络就是计算机”。Google公司第一个把云计算作为一个概念正式提出――云计算就是把软件放在远程的服务器上,就像天边的云,在上网时才把它拿来用,平常就放在云上,有专人帮你管理[1]。

要对云计算做出一个确切的定义还很困难,目前只是达成了关于云计算基本特征的共识:第一,云计算是基于互联网的,是以浏览器为基础的;第二,数据存储和应用在都在云端,对用户透明,通常由第三方提供;第三,云计算强调服务,用户按需使用服务,根据使用多少付费[2-3]。

数据挖掘,也称知识发现,是指通过对大量数据进行处理分析,从中发现有用规律和知识,从而加深对数据的理解,最终为决策提供服务的过程。对数据挖掘系统架构的研究,国内外主要基于数据库系统展开,提出了一系列基于数据库系统的数据挖掘系统结构框架。主要有以下几个部分:控制器、数据库接口、知识库、模式提取、知识评价。这些理论丰富了对数据文件系统架构的研究,推动了数据挖掘工作的开展。但在实际操作中普遍存在数据共享性差、扩展性低等问题[4]。

本文在对云计算及数据挖掘系统原理分析的基础上,提出了一种适应云计算的数据挖掘系统架构。一方面顺应了当前云计算发展的趋势,另一方面也能够在一定程度上解决数据挖掘在实际操作中遇到的问题。

1 研究背景

随着计算机技术、计算机网络特别是网格计算与云计算的发展,越来越多的数据分布式的存储在网络中,这些数据往往是大量的、复杂的、异构的、有噪声的,不容易被直接理解,其中蕴含的知识也是很难被发现的[5]。这就给数据挖掘系统的实现带来了三大难题:第一,这些数据的复杂程度很高,传统系统的技术能力难以达到要求;第二,传统的单机服务器所能提供的资源有限,很难满足要求,要借助分布式计算技术来实现计算;第三,常用算法不足,需要研究各种数据挖掘算法的并行化策略。

虚拟化是一个广义的术语,在计算机方面通常是指计算元件在虚拟的基础上而不是真实的基础上运行。虚拟化技术可以扩大硬件的容量,把一个物理单元虚拟成多个逻辑单元,允许一个平台同时运行多个操作系统,一个物理单元可以运行多个应用。这样,有利于资源使用效率的提高,同时也使各种资源的管理更加方便。在NIST(National Institute of Standards and Technology,美国国家标准技术研究院)的一篇关于云计算概念的著名文档中,共定义了云的4种模式,它们分别是:公有云、私有云、混合云和行业云。云计算的目标是整合资源为客户服务,系统资源具备高性能的处理能力成为了必然要求[6-7]。

云计算能够提供动态资源池、虚拟化和高可用性的计算平台,可被用来开发高性能应用程序。对数据挖掘来说一方面大大降低了中小企业的数据处理成本,大企业某些数据的处理也不再依赖于大型高性能机。另一方面开发方便,屏蔽掉了底层,使得大规模处理数据能力提高,提高了数据处理效率[8]。为了解决上述问题,人们提出了知识网格的概念,设计了一种分布式并行知识发现平台框架,框架充分利用了网格的计算能力,解决了传统数据挖掘框架计算能力不足的问题[9]。

2 基于云计算平台的数据挖掘实例

目前,基于云计算平台的数据挖掘研究已经取得了一些成果。以下是目前基于云计算数据挖掘的一些研究成果[9]。

1)作为中国最早的基于云计算平台的并行数据挖掘系统之一 PDMiner(Parallel Distributed Miner)是由中国科学院计算技术研究所开发,基于开源云计算平台Hadoop 的并行分布式数据挖掘平台。

2)中国移动研究院研发了基于云计算平台Hadoop的并行数据挖掘工具,由于采用云计算技术,因此实现了海量数据的存储、分析、处理、挖掘,并且可以向经分系统及网管系统提供高可靠性、高性能的数据挖掘分析支撑工具。

3)ASF开发的一个全新的开源项目数据挖掘平台Apache Mahout,实现了开发人员在Apache在许可下免费使用的目标,并且创建一些可伸缩的机器学习算法。Mahout包含许多实现,包括集群、分类、CP和进化程序。Mahout通过使用Apache Hadoop库可以有效地扩展到云中。

3 基于云计算数据挖掘面临的问题和挑战

云计算技术虽然已经有了很多成功的应用,但是其技术还不成熟。云计算还处于初级阶段。所以,用云计算的方式来处理数据挖掘必然还存在很多的问题与挑战。这些问题和挑战主要有:

1)基于云计算数据挖掘算法的并行性存在一些挑战。

2)不确定性。数据挖掘当中有很多不确定性,之所以说数据挖掘,实际上就是要克服不确定性带来的影响。

3)数据挖掘的方法和结果具有不确定性。

4)挖掘结果的评价也是不确定的。因为每一个用户所关注的最终的挖掘目标不一样,这就导致了对挖掘结果的评价,它也有不确定性。

5)软件、服务可信方面的问题与挑战。在云计算环境下实现数据挖掘,就导致了数据挖掘云服务软件的可信性问题变得比较突出。首先,是服务的正确性;其次,是服务的安全性;再次,是服务的质量。

对于上面的问题和挑战,有以下一些对策:

1)基础建设方面,要建设数据挖掘云服务的平台。要根据个性化和多样化而谈,在云服务平台上,专业人士可以提供服务,大众和各种组织成为服务的受益方,而且这个平台要按领域、行业来构建。

2)数据挖掘云服务要依赖于虚拟化技术,需要计算资源,需要自主分配和调度,虚拟化技术是数据挖掘云服务技术的支撑。

3)需求方面,对个性化、多样化需求,需要大众参与,有了大众的参与个性化和多样化的需求就能够更好的得到满足。

4)可信性方面,算法要通用,要可查、可调、可视。

5)安全方面,隐私数据可以加密来保护,可以有一些安全措施。

4 结束语

本文介绍了云计算的含义、特点以及发展现状,分析了运用云计算技术实现数据挖掘的优势,调查了目前基于云计算数据挖掘技术的研究状况,并总结了基于云计算数据挖掘所面临的问题和挑战,并提出一些解决方法和措施。随着云计算技术的进一步发展,必然会给数据挖掘带来新的突破和更好的技术支撑。

【参考文献】

[1]SUN.云计算框架介绍白皮书[EB/OL].[2010-10-05].

[2]中国云计算网.什么是云计算?[EB/OL].[2009-02-27].

[3]雷万云.云计算:企业信息化建设策略于实践[M].北京:清华大学出版社,2010.12

[4]中国云计算网.什么是云计算[EB/OL].(2008-05-14)[2010-04-23].

[5]朱珠.基于Hadoop的海量数据处理模型研究和应用[D].北京:北京邮电大学,2008.

[6]虚拟化于云计算小组.云计算实践之道:战略蓝图与技术架构[M].北京:电子工业出版,2011,1.

[7]范明,孟小峰.数据挖掘概念于技术[M].2版.北京:机械工业出版社,2007,3.

[8]陈全,邓倩妮.云计算及其关键技术[J].计算机应用,2009(09).

[9]智能科学.基于 Hadoop 的并行分布式数据挖掘平台 PDMiner [EB/OL].[2010-06-23].

作者简介:关文波(1981―),男,河南新乡人,讲师,研究方向为计算机应用技术。

雷蕾(1986―),女,河南南阳人,助教,研究方向为计算机应用技术。

上一篇:从三种社会视角思考新课程的实施 下一篇:浅谈待产过程中有效沟通技巧的应用