基于云计算的web数据挖掘

时间:2022-06-14 04:41:13

基于云计算的web数据挖掘

摘 要 计算机技术的快速发展对经济的发展具有重要的作用,而如何优化web数据挖掘技术具有重要的意义,云计算的出现为web数据挖掘提供了发展方向。本文介绍了云计算的概念和关键技术,讨论了web数据挖掘,探讨了在云计算基础上的web数据挖掘。

【关键词】云计算 web数据挖掘

在信息时代,计算机技术的快速发展对整个经济的发展具有重要的作用。如今的计算机互联网是人们交流的一个重要平台,人们可以在这里找到自己需要的信息,也可以在这里跟其他人进行交流沟通。但是随着信息的不断集中,如何迅速的在互联网上挖掘到有用的信息,成为人们关注的一个重要焦点。Web数据挖掘就是在互联网上,根据各种数据挖掘算法来收集有用的信息,并实现信息的自动化处理。但是传统的集中式挖掘方法已经不能够满足人们的需求,需要寻求新的数据挖掘方法。现在兴起的云计算技术给web数据挖掘提供了一个重要的方法。本文将先对云计算的概念和关键技术进行介绍,再讨论web数据挖掘,最后在云计算的基础上探讨web数据挖掘。

1 云计算概念及关键技术

云计算与普通的计算不同,它是一种超级计算,它的核心就是密集的信息数据。传统的计算速度不够快,计算机的功能也没有得到最大化的利用。这就好比电力的利用,最初的电力使用都是单独发电使用,这就类似于传统计算。后来进行集中发电,各个用户独立使用,用户想用时就可以快速获得电力,这就类似于云计算。云计算是新的网络技术和传统计算机的结合,是借助网络来提供可伸缩的更快捷高效的分布式计算能力。其中的关键技术主要有数据存储技术、虚拟化技术、数据管理技术以及并行编程模式等。

1.1 大量分布式存储技术

在云计算技术中,需要存储非常多的信息数据,能够有效解决这个的就是大量分布式存储技术。大量分布式存储技术具有很多的优点,它不仅提高了数据信息存储和处理的高效性、精确性和实用性,而且能够在一定程度上改善因为计算机硬件缺点造成的存储问题。大量分布式存储技术从经济性和实用性多个方面支持着云计算技术。

1.2 数据管理技术

大量分布式存储技术为云计算提供了信息数据存储的空间,而大量数据的处理就需要用到数据管理技术。云计算相对于传统计算从互联网上寻找和处理的信息数据量更加大,而数据管理技术能够快速的从互联网技中寻找需要的信息,并对信息进行分类和高效的处理。它是云计算中非常重要的一项技术。

1.3 虚拟化技术

在传统的计算中,硬件、软件以及存储等都是紧密联系在一起的,这降低了数据的处理效率,同时也使信息处理欠缺便捷性。虚拟化技术也是云计算中非常重要的一项技术,它独立了硬件、软件以及存储等,从而达到合理分配计算资源的目的。虚拟化技术中各个部分的独立,使信息的处理更加快捷方便。比如需要读取信息时,可以从各个网络接入点进入,从云网络中读取数据。现在虚拟技术发展的一个方向就是将各种软件放置于云网络中,当需要用到软件时,不必要单独安装,只需要通过网络在云网络中进行读取就可以了。

1.4 并行编程模式

云计算跟传统计算不同的一点就是使用了并行编程模式,它采用的是Map-Reduce编程。当新产生一个任务时,它可以将任务按照树枝形状一样将任务一级一级的分布下去,各级能够同时进行执行分布下来的任务。这时任务的完成更加的快捷和方便。

2 Web 数据挖掘

Web数据挖掘是将互联网技术和数据挖掘技术进行有效结合的技术领域,它又可以叫做网络挖掘。Web数据挖掘不仅仅是直接在互联网中寻找到有用的信息,而且能够在复杂的网络信息中找到规律,从而实现信息的快速查找。Web数据挖掘覆盖的技术领域非常宽,主要涉及到数据挖掘、计算机语言学、统计学以及数据获取技术等多个方面。

Web数据挖掘技术根据挖掘方向的不同主要可以分为内容挖掘、结构挖掘和使用挖掘。内容挖掘是指从互联网上的众多信息中对有用知识进行提取,根据信息提取方法的不同,内容挖掘可以分为信息提取法和数据库方法。结构挖掘跟内容挖掘不同,它不是直接挖掘信息,而是针对海量信息后面可能存在的结构模式进行挖掘,通过分析结构模式来获取有用的信息。使用挖掘就是挖掘出相关站点的浏览人数和用户数量,它是通过挖掘日志文件和相关数据内容实现的。

3 基于云计算的web数据挖掘

基于云计算的web数据挖掘借助云计算的关键技术,实现传统web数据挖掘技术的优化。基于云计算的web数据挖掘跟传统挖掘技术目的和大致过程都是一样。目的都是从互联网上海量数据中来发现有用数据和结构,挖掘过程也主要分为数据预处理、数据挖掘以及模式评价三个阶段。但是在具体的数据处理、存储上有所不同。

3.1 数据的收集和处理

在数据收集方面,传统的做法是在将互联网上的数据直接进行收集,然后存储在一个数据仓库中。一旦数据仓库发生问题,所有的数据都可能会丢失。基于云计算的数据收集则是先将互联网上的海量信息数据进行筛选、转化和统一,最后还可以将统一后的数据转化为半结构化的XML文件,将其保存在分布式的文件系统中。这样做一方面可以优化数据收集方法,另一方面可以避免机器设备发生故障而造成存储信息数据丢失。在处理数据时,基于云计算的处理方式借助了Hadoop的MapReduce思想,将整个控制工作交给任务主节点负责。任务主节点会将任务进行分类细化,然后交给互联网上其它比较空闲的计算机资源进行处理。最后将各个分散中心处理后的信息进行集中,然后汇报给任务主节点。这样的处理方式最大化的利用了计算机资源,提高了数据处理的效率。

3.2 数据存储

基于云技术的数据存储是将收集到的信息数据存储在分布式的文件系统中。传统存储就好比把所有鸡蛋放在自己专有的一个篮子中,一旦这个篮子损坏,所有鸡蛋都有可能破坏。而基于云计算的数据存储则是脱离了孤立的一个篮子,而将鸡蛋交给“鸡蛋银行”管理,自己的篮子坏了鸡蛋是没有损失的。需要用鸡蛋时可以马上在各个网点从“鸡蛋银行”中进行提取。基于云技术的数据存储极大的增强了数据的安全性,还使数据的提取变得更加快捷方便。

4 结语

将云计算技术融入web数据挖掘中,极大的提高了web数据挖掘的高效性和准确性,对于计算机技术的发展具有重要意义。本文阐述了web数据挖掘相关概念以及云计算的关键技术。web数据挖掘在云计算的基础上有了很大的发展,而云计算也存在一定的缺点。目前,继续优化云计算技术是提高web数据挖掘高效性的一个重要研究领域。

参考文献

[1]王鹏.走进云计算[M].北京:人民邮电出版社,2009.

[2]陈修宽.Web数据挖掘综述[J].山东轻工业学院学报,2009.

作者简介

刘悦(1987-),女,天津市人。研究生学历。研究方向为计算机与软件。

作者单位

天津交通职业学院 天津市 300110

上一篇:科服网大型仪器共享管理系统的研究与开发 下一篇:浅析计算机信息泄露屏蔽技术