浅谈云计算的Web数据挖掘方法

时间:2022-07-27 09:49:10

浅谈云计算的Web数据挖掘方法

摘要:现代互联网技术和计算机技术的高速发展,使得信息数据处理成为其主要的发展方向和利用方式,随之而来的是对数据信息处理挖掘技术的研发与推广。信息在当今世界具有举足轻重的地位,在现代国际竞争、市场竞争乃至军事竞争中,只有占据信息上的制高点,才能占据竞争的有利地位。而信息的合成离不开数据的挖掘,如何更好地利用互联网和计算机的数据处理技术合成实际所需的信息,是当前计算机技术领域的重要研究方向。随着人工智能技术的发展,计算机数据处理技术越来越先进,利用计算机挖掘、收集、选择和存储数据信息,并且在数据分析中发现它们之间所隐藏的关系,能够最大限度的提取信息,对于信息利用部门预测实践发展趋势、趋利避害以及做出正确决策具有指导意义。

关键词:云计算;数据处理方法;数据挖掘方法;算法结果

中图分类号:TP311.13 文献标识码:A 文章编号:1674-7712 (2012) 06-0108-01

一、云计算简介

云计算是当今信息产业中极其重要的一个环节,其巨大作用主要体现在虚拟化数据信息处理计算方面,同时更是一种新型的商业模式。其主功能体现在以下三个方面:互联网领域的数据处理;各行业信息资源的处理;提供社会化的信息服务。现在全国许多地方都在建设或计划建设大规模的“云计算”或数据中心产业园区,面对云计算这一新兴领域,我们既需要科学的态度,又需 开放的心态,不断改进技术,加强功能实践,才能使云计算融入社会信息化的大潮。

二、数据的处理方法

(一)数据计算与存储的整合。利用云计算技术技术时,要考虑数据处理后的整合。互联网的带宽数据是相对稀缺的资源,当Map/Reduce的Map进行操作时,这种数据处理技术一般情况下是不需要有传输路径的,只需Reduce向Master传送计算结果。这种处理密集型数据的计算方法,能够节省数据传输时间。并且当前,计算机的计算机的计算速度远远大于网络数据的传输速度,有人由此提出了以计算来换通信的编程策略,即将输入数据分开保存在工作组的本地磁盘上,这样可以大大减少网络传输的压力。比如,将数据文件分成若干容量相等的块,分开保存保存块的拷贝,再由Master记住这些块的存储位置并执行Map的任务。这种方法并不占用网络带宽,能够减少网络宽带的开销压力。(二)数据文件的迁移。利用云计算技术时,还要考虑数据计算和存储的迁移。大部分云计算系统能够分开执行计算和存储这两项任务,但是却不能同时执行这两个命令。因为计算迁移要求数据块必须采用副本策略。

三、云计算的数据挖掘系统架构

在云计算的Web数据挖掘系统中,主要有三类相关的节点:一是调度与协调节点间工作进程的单一主控节点Master;二是负责存储数据算法的算法存储节点;三是负责存储分块文件并执行Master任务的服务节点ServiceNode。与此相对应,Web数据挖掘系统则可分为三层:数据存储层、挖掘算法层和业务处理层。数据挖掘子系统的核心设计理念是统一由Master负责调度任务,执行时其主要的流程是:若该Service Node工作正常,它会以一定的时间间隔方法向Master发送信号,然后Master将该ServiceNode设置为空闲节点。Master节点先接收用户各数据块,确定需调用的挖掘算法,然后向算法节点申请所需挖掘算法,算法节点则将算法发送至ServiceNode节点上。计算机启动计算工作,向Master传送计算结果,由Master汇总后生成最终的结果返回给用户。这一过程中数据的计算和存储都在一个节点上面,既节省了数据传输的时间,又节约了宽带流量。

四、基于云计算的Web数据挖掘算法

云计算的数据挖掘算法多种多样,其中主要有关联、聚类、分类等方法,这些方法中,尤其以关联方法应用最广泛,其在日志数据分析、个性化信息推荐等方面有十分重要的技术支撑,在普Web数据挖掘领域的应用较为普遍。这种方法主要有两个步骤:首先是找出所给信息或数据中频繁出现的项集;再就是在所找出的频繁项集中分析其与其他相机所产生的相关关联。在寻找频繁出现的项集时,大部分计算机采用数据处理的迭代方法,也就是说,计算机数据处理中心首先找出一个频繁出现的项集1,命名为L1,接着找出另一个频繁出现的项集2,命名为L2,一直到某个频繁出现的项集k,命名为Lk,当且仅当LK等于0时,这种迭代法才能结束。在求LK的值时,采用的方法是:将LK-1命名为CK,然后检查Ck的每一个元素,如果CK其中的某一个元素能满足用户自定义时所选的最小支持度阈值的元素,那么这个元素就是Lk的元素。很明显,这种在广域的数据源上的验证算法是当前数据挖掘技术的一个难点,这种方法操作数据,将会给计算带来很多不必要的工作,甚至会重复多次无意义的工作,既浪费资源,又浪费时间。基于以上原因,本文将要介绍一种新的算法,即基于云计算平台的Apriori算法。这种算法将寻找频繁项集和分析其关联的任务,分别分配给“云”中多个计算节点ServiceNode同时进行,要求各个节点求出各自局域范围内的频繁项集,并分析其相关关联,任务结束后由Master统计出各频繁项集的合计数,这种新的计算方法即是Apriori算法,这种方法可以大大提高数据的挖掘效率,节省数据处理和信息提取时间。

五、算法结果

在利用云计算提取数据信息时,对其计算结果的存储也十分重要。一般而言,在处理大规模数据信息时,将数据放在Master节点上,然后采用新的计算方法---Aprior算法,计算出所需的频繁项集后,要将所得数据频繁项集的数据分开保存在独立的节点上。通常采用的存储方式是保存在5个单独的服务节点上。存储完后,在1、3、5这3个服务节点上同时执行Aprior算法,计算出时间。最后将Aprior算法分别拷贝到5个服务节点上,将数据文件传输到1、3、5个服务节点上执行,计算出时间。通过这3个实验所用时间的对比,我们可以命令的执行效率同数据量成正比,同向节点传输数据的时间成反比。实验证明,这种新的计算方法,不仅数据信息提取的效率提高了,而且精确度也有了保证,是一种比较高明的计算方法。

我们得知,传统的数据挖掘系统主要是在小型机的平台上运行的,这种挖掘方式不仅效率低,而且数据容量小,计算方法简单,难以适应现代互联网数据信息的大规模聚合和处理要求。而基于云计算的Web数据挖掘系统则不仅使数据信息资源得到了充分利用,而且提高了数据挖掘的效率和精确度。同时,这种数据挖掘工作意义重大, 能够面向各方面信息的应用,尤其在国防、商业方面,具有更高的利用价值和信息价值。

参考文献:

[1]周晏,桑书娟.浅谈基于云计算的数据挖掘技术[J].电脑知识与技术,2010,(34)

上一篇:浅议广电光纤网络的搭建 下一篇:浅议女性在社会经济中的重要地位