数据挖掘技术研究范文

时间:2023-03-03 22:21:12 版权声明

数据挖掘技术研究

数据挖掘技术研究篇1

[关键词] 数据挖掘 数据挖掘方法

随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(Data Mining)技术由此应运而生。

一、数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

参考文献:

数据挖掘技术研究篇2

关键词:人工智能;数据挖掘;发展前景

当今社会已经进入了人工智能时代,人工智能的应用,大大改善了我们的生活。大数据时代已经来临,不论是从数据的使用,挖掘,处理等方面,都为人工智能的应用起到了基础和保障。

1人工智能

1.1人工智能的定义。人工智能(ArtificialIntelligence),简称AI。属于计算机学科下的分支,顾名思义,它是一门专门研究类人化的智能机器学科,即利用现阶段科学的研究方法和技术,研制出具有模仿、延伸和扩展人类智能的机器或智能系统,从而实现利用机器模仿人类智能的一切行为。1.2人工智能的研究背景。在1956年的达特矛斯会议上,“人工智能”这一术语正式由麦卡锡提议并采用了,随后人工智能的研究取得了许多引人注目的成就。在这之后,科研人员进行了许多的研究和开发,人工智能这个话题也取得了飞速的发展。人工智能是一门极具挑战性的科学,从事这项工作的人必须了解计算机知识、心理学和哲学理念。人工智能的研究包涵广泛的科学知识,以及其他领域的知识,如机器学习、计算机视觉等。一般来说,人工智能研究的主要目标是使机器能够做一些通常需要人工智能完成复杂工作的机器。1.3人工智能的研发历程。早期研究领域:人工智能专家系统,机器学习,模式识别,自然语言理解,自动定理证明,自动编程,机器人,游戏,人工神经网络等,现在涉及以下研究领域:数据挖掘,智能决策系统,知识工程,分布式人工智能等。数据挖掘的出现使得人工智能的研究在应用领域得到广泛的发展。以下简要介绍其中的几个重要部分:(1)专家系统。所谓专家系统就是控制计算的智能化程序系统,通过研发人员总结归纳了专业学科知识和日常经验,能够知道计算机完成某个领域内的专业性活动或者解决某些专业级别的问题。人工智能技术可以合理利用已知的经验体系在复杂环境中,解决和处理复杂问题。(2)机器系统。机器系统简单说就是机器人通过人造神经系统,借助于网络或者存储系统汲取系统的知识进行开发研究。(3)感知仿生。感知仿生系统通过模拟人类的感官,感知生物学特征,通过人工智能机器的感部件对外界外部环境进行感知,识别,判断,分析的能力。能够更好的适应环境,做出判断。(4)数据重组和发掘。是指通过人工智能系统,结合当前先进的理念,对大数据的总结归纳,识别存储,调取等应用。通过数据的加工处理,能够主动做出判断和分析。(5)人工智能模式。分布式人工智能是模式之一,该系统利用系统有效的规避和克服系统资源在某段时间内的局限性,并能有效地改善因资源造成的时间和空间不均衡问题。它具备,模式自动转换,并行处理,开放启发方式,冗余且容错纠错的能力。

2数据挖掘

2.1数据挖掘的定义。数据挖掘(DataMining,DM)是揭示数据中存在的模式和数据关系的学科,强调处理大型可观察数据库。数据挖掘的出现使得人工智能的研究在应用领域得到了广泛的发展。这里包括数据挖掘和智能信息提取过程,前者从大量复杂的现实世界数据中挖掘出未知和有价值的模式或规则,后者是知识的比较,选择和总结出来的原则和规则,形成一个智能系统。2.2数据挖掘的研究现状。当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。看似广泛,实际应用还远没有普及。而据Gartner的报告也指出,数据挖掘会成为未来10年内重要的技术之一。而数据挖掘,也已经开始成为一门独立的专业学科。2.3数据挖掘的研究发展。具体发展趋势和应用方向主要有:性能方面:数据挖掘设计的数据量会更大,处理的效率会更高,结果也会更精确。工具方面:挖掘工具越来越强大,算法收敛越来越多,预测算法将吸收新颖性算法(支持向量机(SVM),粗糙集,云模型,遗传算法等),并实现自动化的实现算法,选择和自动调谐参数。应用:数据挖掘的应用除了应用于大型专门问题外,还将走向嵌入式,更加智能化。例如进一步研究知识发现方法,对贝叶斯定理和Boosting方法的研究和改进,以及对商业工具软件不断的生成和改进,着重建立整体系统来解决问题,如Weka等软件。在先进理论的指导下,按照国内形态发展,至少需要20年的时间,才能改进数据挖掘的发展。

3数据挖掘与人工智能技术的联系

数据挖掘属于人工智能中独立系统。它于人工智能的存在关系属于,并存联系,且独立运行,互不从属。此设计体系一方面可以有效促进人工智能提升学习能力,增进分析能力,另一方面还对分析,统计,OLSP,以及决策支持系统模块等起到推动作用。在收挖掘应用领域,处理可以对WEB挖掘,还能够有效进行文本,数据库,知识库,不同领域不同学科的信息进行序列矩阵模式挖掘。基于数据本身的分类,辨识,关联规则,聚类算法更加博大精深。因此,独立于人工智能的数据挖掘,更加便于科研团体或者领域对数据的使用和分析。数据挖掘是人工智能领域的一部分。首先,高智能是数据挖掘和人工智能的最终目标,正是由于这个目标,人工智能和数据挖掘有很多关联。其次,数据挖掘和人工智能是各种技术的整合。数据挖掘和人工智能是许多学科的跨学科学科。最后,数据挖掘的出现逐渐发展壮大,加强了人工智能,因此可以说,它们两者是不可分割的。

4人工智能和数据挖掘技术的发展前景

在当前环境下,人工智能和数据挖掘技术具有以下发展前景:(1)在大数据互联网中的应用。将人工智能的技术应用于互联网中将会使网络技术带上智能的特性,可以为人们的生活提供智能化的帮助,给人们的生活带来便利。还可以提高网络运行效率、增加网络安全性等。(2)智能化服务的研究。人工智能和数据挖掘都很注重对智能化服务的研究,例如很多智能机器人便应运而生,它们已经能胜任许多简单的工作,可以为人们提供人性化的服务。高度的智能化是数据挖掘和人工智能研究最终追求的目标,也是二者最终合而为一的标志。(3)使知识产生经济化。在现阶段的知识经济时代,人工智能和数据挖掘势必受到经济的影响,这决定了人工智能和数据挖掘将具有经济特征。人工智能和数据挖掘技术作为无形资产可以直接带来经济效益,通过交流,教育,生产和创新的无形资产将成为知识经济时代的主要资本。可以预期未来的人工智能和数据挖掘技术将更加经济实用。(4)交叉学科的技术融合。各行各业的理论和方法都已经开始融入了人工智能和数据挖掘之中。未来的人工智能和数据挖掘技术必将是一个融合众多领的复合学科。当今,我们已经在逐渐使用人工智能与数据挖掘技术,去攻克更多难题,解决更多问题,造福人类,改善生活,近在眼前。

作者:喻正夫 单位:汉江师范学院

参考文献:

[1]万璞,王丽莎.数据挖掘与人工智能技术研究[J].无线互联科技,2016(10):113-114.

[2]王翔.试论如何利用大数据挖掘技术推动人工智能继续发展[J/OL].科技创新报,2017,14(01).

[3]秦益文.微博数据挖掘中人工智能推理引擎的应用[J].中小企业管理与科技(中旬刊),2017(02).

[4]蒲东齐.数据挖掘在人工智能上的应用[J].信息与电脑(理论版),2016(19).

[5]李丹丹.数据挖掘技术及其发展趋势[J].电脑应用技术,2007(02):38-40.

[6]蔡自兴,徐光祐.人工智能及其应用[M].北京:清华大学出版社,2004(8):5,21,312.

数据挖掘技术研究篇3

关键词:空间数据挖掘;地理信息系统;研究分析

随着数据采集技术的成熟和普及,大量的空间数据通过遥感、地理信息系统、多媒体系统、医学和卫星图像等多种形式汇集成庞大而丰富的信息源。面对庞杂、繁多的数据类型,空间数据挖掘技术应运而生,并在地理信息系统、遥感勘测、图像处理、交通管理、环境研究等领域得到广泛应用。

1 空间数据挖掘研究概述

空间数据挖掘(spatial data mining,简称sdm),是指从空间数据库中提取用户感兴趣的空间模式、普遍关系、数据特征的过程。空间数据挖掘技术综合数据挖掘技术与空间数据库技术,可用于对空间数据的理解、空间关系和空间与非空间关系的发现、空间知识库的构造以及空间数据库的重组和查询的优化等,其根本目标是把大量的原始数据转换成有价值的知识,发现大量的地学信息中所隐含的规则。

空间数据挖掘是计算机技术、数据库应用技术和管理决策支持技术等多学科交叉发展的新兴边缘学科,一般来说,空间数据挖掘可分成空间分类、空间聚类、空间趋势分析和空间关联规则四类。空间分类的目的是在空间数据库对象的空间属性和非空间属性之间发现分类规则,是近年来空间数据挖掘领域中比较活跃的一个方向,常用的方法是决策树。空间聚类是在一个比较大的多维数据集中根据距离的度量找出簇或稠密区域,目前提出的空间聚类方法有基于分割的方法、基于层次的方法、基于密度的方法和基于棚格的方法。空间趋势分析指离开一个给定的起始对象时非空间属性的变化情况,例如,当离城市中心越来越远时经济形势的变化趋势,空间趋势分析需要使用回归和相关的分析方法。空间关联规则是指空间邻接图中对象之间的关联,空间关联挖掘多采用逐步求精的优化思想,即首先用一种快速的算法粗略地对初始空间数据库进行一次挖掘,然后再在裁剪过的数据库上用代价高的算法进行进一步精化挖掘。

空间数据挖掘过程一般可分为数据筛选(消除原始数据的噪声或不一致数据)、数据集成(将多种数据源组合在一起)、数据选择(根据用户的要求从空间数据库中提取与空间数据挖掘相关的数据)、数据变换(将数据统一成适合挖掘的形式)、空间数据挖掘(运用选定的知识发现算法,从数据中提取用户所需的知识)、模式评估(根据某种兴趣度度量并识别表示知识的真正有趣的模式),知识表示(使用可视化技术和知识表示技术,向用户提供挖掘的知识)等阶段(见图1)。空间数据挖掘实际上是一个“人引导机器,机器帮助人”的交互理解数据的过程。

2 空间数据挖掘在gis中的应用

空间数据挖掘技术与地理信息系统(gis)的结合具有非常广泛的应用空间。数据挖掘与gis集成具有三种模式:其一为松散耦合式,也称外部空间数据挖掘模式,这种模式基本上将gis当作一个空间数据库看待,在g is环境外部借助其它软件或计算机语言进行空间数据挖掘,与gis之间采用数据通讯的方式联系。其二为嵌入式,又称内部空间数据挖掘模式,即在gis中将空间数据挖掘技术融合到空间分析功能中去。第三为混合型空间模型法,是前两种方法的结合,即尽可能利用gis提供的功能,最大限度的减少用户自行开发的工作量和难度,又可以保持外部空间数据挖掘模式的灵活性。

利用空间数据挖掘技术可以从空间数据库中发现如下几种主要类型的知识:普遍的几何知识、空间分布规律、空间关联规律、空间聚类规则、空间特征规则、空间区分规则,空间演变规则、面向对象的知识。目前,这些知识已比较成熟地应用于军事、土地、电力、电信、石油和天然气、城市规划、交通运输、环境监测和保护、110和1 20快速反应系统等资源管理和城市管理领域。在市场分析、企业客户关系管理、银行保险、人口统计、房地产开发、个人位置服务等领域也正得到广泛关注与应用,实际上,它正在深入到人们工作和生活的各个方面。

3 空间数据挖掘面临的问题

(1) 多数空间数据挖掘算法是由一般的数据挖掘算法移植而来,并没有考虑空间数据存储、处理及空间数据本身的特点。空间数据不同于关系数据库中的数据,它有其特有的空间数据访问方法,因而传统的数据挖掘技术往往不能很好地分析复杂的空间现象和空间对象。

(2) 空间数据挖掘算法的效率不高,发现模式不精练。面对海量的数据库系统,在空间数据挖掘过程中出现不确定性、错误模式的可能性和待解决问题的维数都很大,不仅增大了算法的搜索空间,也增加了盲目搜索的可能性。因而必须利用领域知识发现、去除与任务无关的数据,有效地降低问题的维数,设计出更有效的知识发现算法。

(3) 没有公认的标准化空间数据挖掘查询语言。数据库技术飞速发展的原因之一就是数据库查询语言的不断完善和发展,因此,要不断完善和发展空间数据挖掘就必须发展空间数据挖掘查询语言。为高效的空间数据挖掘奠定基础。

(4) 空间数据挖掘知识发现系统交互性不强,在知识发现过程中很难充分有效地利用领域专家知识,用户不能很好掌控空间数据挖掘过程。

(5) 空间数据挖掘方法和任务单一,基本上都是针对某个特定的问题,因而能够发现的知识有限。

(6) 空间数据挖掘与其他系统的集成不够,忽视了gis在空间知识发现过程中的作用。一个方法和功能单一的空间数据挖掘系统的适用范围必然受到很多限制,目前开发的知识系统仅局限于数据库领域,如果要在更广阔的领域发现知识,知识发现系统就应该是数据库、知识库、专家系统、决策支持系统、可视化工具、网络等多项技术集成的系统。

上述问题使得从空间数据库中提取知识比从传统的关系数据库中提取知识更为困难,这给空间数据挖掘研究带来了挑战。因此,空间数据挖掘在未来的发展中,还有很多理论和方法有待深入研究。

4 空间数据挖掘的发展趋势

(1)空间数据挖掘算法和技术的研究。空间关联规则挖掘算法、时间序列挖掘技术、空间同位算法、空间分类技术、空间离群算法等是空间数据挖掘研究的热点,同时提高空间数据挖掘算法的效率也很重要。

(2) 多源空间数据的预处理。空间数据内容包括数字线划数据、影像数据、数字高程模型和地物的属性数据,由于其本身的复杂性与数据采集的困难,空间数据中不可避免地存在着空缺值、噪声数据及不一致数据,多源空间数据的预处理就显得格外重要。

(3)其他各种空间数据挖掘及其相关技术研究。如网络环境下的空间数据挖掘、可视化数据挖掘、栅格矢量-体化空间数据挖掘、背景知识概念树的自动生成、基于空间不确定性(位置、属性、时问等) 的数据挖掘、递增式数据挖掘、多分辨率及多层次数据挖掘、并行数据挖掘、遥感图像数据库的数据挖掘、多媒体空间数据库的知识发现等。

5 小结

数据挖掘技术研究篇4

1 空间数据挖掘研究概述

空间数据挖掘(spatial Data Mining,简称SDM),是指从空间数据库中提取用户感兴趣的空间模式、普遍关系、数据特征的过程。空间数据挖掘技术综合数据挖掘技术与空间数据库技术,可用于对空间数据的理解、空间关系和空间与非空间关系的发现、空间知识库的构造以及空间数据库的重组和查询的优化等,其根本目标是把大量的原始数据转换成有价值的知识,发现大量的地学信息中所隐含的规则。

空间数据挖掘是计算机技术、数据库应用技术和管理决策支持技术等多学科交叉发展的新兴边缘学科,一般来说,空间数据挖掘可分成空间分类、空间聚类、空间趋势分析和空间关联规则四类。空间分类的目的是在空间数据库对象的空间属性和非空间属性之间发现分类规则,是近年来空间数据挖掘领域中比较活跃的一个方向,常用的方法是决策树。空间聚类是在一个比较大的多维数据集中根据距离的度量找出簇或稠密区域,目前提出的空间聚类方法有基于分割的方法、基于层次的方法、基于密度的方法和基于棚格的方法。空间趋势分析指离开一个给定的起始对象时非空间属性的变化情况,例如,当离城市中心越来越远时经济形势的变化趋势,空间趋势分析需要使用回归和相关的分析方法。空间关联规则是指空间邻接图中对象之间的关联,空间关联挖掘多采用逐步求精的优化思想,即首先用一种快速的算法粗略地对初始空间数据库进行一次挖掘,然后再在裁剪过的数据库上用代价高的算法进行进一步精化挖掘。

空间数据挖掘过程一般可分为数据筛选(消除原始数据的噪声或不一致数据)、数据集成(将多种数据源组合在一起)、数据选择(根据用户的要求从空间数据库中提取与空间数据挖掘相关的数据)、数据变换(将数据统一成适合挖掘的形式)、空间数据挖掘(运用选定的知识发现算法,从数据中提取用户所需的知识)、模式评估(根据某种兴趣度度量并识别表示知识的真正有趣的模式),知识表示(使用可视化技术和知识表示技术,向用户提供挖掘的知识)等阶段(见图1)。空间数据挖掘实际上是一个“人引导机器,机器帮助人”的交互理解数据的过程。

2 空间数据挖掘在GIS中的应用

空间数据挖掘技术与地理信息系统(GIS)的结合具有非常广泛的应用空间。数据挖掘与GIs集成具有三种模式:其一为松散耦合式,也称外部空间数据挖掘模式,这种模式基本上将GIS当作一个空间数据库看待,在G IS环境外部借助其它软件或计算机语言进行空间数据挖掘,与GIS之间采用数据通讯的方式联系。其二为嵌入式,又称内部空间数据挖掘模式,即在GIs中将空间数据挖掘技术融合到空间分析功能中去。第三为混合型空间模型法,是前两种方法的结合,即尽可能利用GIS提供的功能,最大限度的减少用户自行开发的工作量和难度,又可以保持外部空间数据挖掘模式的灵活性。

利用空间数据挖掘技术可以从空间数据库中发现如下几种主要类型的知识:普遍的几何知识、空间分布规律、空间关联规律、空间聚类规则、空间特征规则、空间区分规则,空间演变规则、面向对象的知识。目前,这些知识已比较成熟地应用于军事、土地、电力、电信、石油和天然气、城市规划、交通运输、环境监测和保护、110和1 20快速反应系统等资源管理和城市管理领域。在市场分析、企业客户关系管理、银行保险、人口统计、房地产开发、个人位置服务等领域也正得到广泛关注与应用,实际上,它正在深入到人们工作和生活的各个方面。

3 空间数据挖掘面临的问题

(1) 多数空间数据挖掘算法是由一般的数据挖掘算法移植而来,并没有考虑空间数据存储、处理及空间数据本身的特点。空间数据不同于关系数据库中的数据,它有其特有的空间数据访问方法,因而传统的数据挖掘技术往往不能很好地分析复杂的空间现象和空间对象。

(2) 空间数据挖掘算法的效率不高,发现模式不精练。面对海量的数据库系统,在空间数据挖掘过程中出现不确定性、错误模式的可能性和待解决问题的维数都很大,不仅增大了算法的搜索空间,也增加了盲目搜索的可能性。因而必须利用领域知识发现、去除与任务无关的数据,有效地降低问题的维数,设计出更有效的知识发现算法。

(3) 没有公认的标准化空间数据挖掘查询语言。数据库技术飞速发展的原因之一就是数据库查询语言的不断完善和发展,因此,要不断完善和发展空间数据挖掘就必须发展空

间数据挖掘查询语言。为高效的空间数据挖掘奠定基础。

(4) 空间数据挖掘知识发现系统交互性不强,在知识发现过程中很难充分有效地利用领域专家知识,用户不能很好掌控空间数据挖掘过程。

(5) 空间数据挖掘方法和任务单一,基本上都是针对某个特定的问题,因而能够发现的知识有限。

(6) 空间数据挖掘与其他系统的集成不够,忽视了GIS在空间知识发现过程中的作用。一个方法和功能单一的空间数据挖掘系统的适用范围必然受到很多限制,目前开发的知识系统仅局限于数据库领域,如果要在更广阔的领域发现知识,知识发现系统就应该是数据库、知识库、专家系统、决策支持系统、可视化工具、网络等多项技术集成的系统。

上述问题使得从空间数据库中提取知识比从传统的关系数据库中提取知识更为困难,这给空间数据挖掘研究带来了挑战。因此,空间数据挖掘在未来的发展中,还有很多理论和方法有待深入研究。

4 空间数据挖掘的发展趋势

(1)空间数据挖掘算法和技术的研究。空间关联规则挖掘算法、时间序列挖掘技术、空间同位算法、空间分类技术、空间离群算法等是空间数据挖掘研究的热点,同时提高空间数据挖掘算法的效率也很重要。

(2) 多源空间数据的预处理。空间数据内容包括数字线划数据、影像数据、数字高程模型和地物的属性数据,由于其本身的复杂性与数据采集的困难,空间数据中不可避免地存在着空缺值、噪声数据及不一致数据,多源空间数据的预处理就显得格外重要。

(3)其他各种空间数据挖掘及其相关技术研究。如网络环境下的空间数据挖掘、可视化数据挖掘、栅格矢量-体化空间数据挖掘、背景知识概念树的自动生成、基于空间不确定性(位置、属性、时问等) 的数据挖掘、递增式数据挖掘、多分辨率及多层次数据挖掘、并行数据挖掘、遥感图像数据库的数据挖掘、多媒体空间数据库的知识发现等。

5 小结

数据挖掘技术研究篇5

当前,数据库技术和网络技术的发展日趋成熟,世界上传统商务也正在经历一次重大的改革,电子商务成为发展重点。电子商务的一个重要应用技术就是数据挖掘技术,并且数据挖掘技术可以给正确的商业决定提供可靠的保证和强有力的支持,因此,数据挖掘技术被认为是电子商务中必不可少的工具。

一、数据挖掘技术的概念和应用

数据挖掘就是对数据仓库中存储的大量数据进行挖掘,来找出有意义的新的关联趋势和关联模式的过程。从商业的角度看,数据挖掘技术是一个对商业信息进行处理的新技术,具有能够分析、转换、抽取和其他模型化处理商业数据库中大量业务数据,从中提取出能够辅助商业决定的关键性数据的特点。

因为数据挖掘可以给电子商务带来显著的经济效益,所以其在电子商务中也有越来越广泛的应用。

数据挖掘应用于零售业,能够帮助商家识别顾客的购买行为,发现顾客的购买趋势和模式,从而可以帮助商家有针对性的提高服务质量,获得更好的顾客满意度与顾客保持力,提高货物的销量,设计出更好的货物分销与运输方法,降低商业成本。

数据挖掘应用于金融领域,能够帮助管理者分析客户的信用情况与偿还能力,并对其进行分类和评级,从而降低放贷的错误率,提升资金的使用效率。通过数据挖掘,还可以找到在偿还中有决定作用的主导因素,制定相应的金融策略,还能够发现洗黑钱和其它金融犯罪活动。

二、如何选择正确的数据挖掘技术

数据库方法、神经网络方法、机器学习方法和统计方法都是数据挖掘所使用的技术。本文将从可获得的数据与数据挖掘任务两个方面来说明如何选择正确的数据挖掘技术。

2.1 可获得的数据

数据挖掘可获得的数据信息主要是内容、记录和字段类型之间的关系,并且对数据挖掘技术的选择有影响的数据性质有以下几个:

第一,数值字段:聚集检测和MBR使用距离函数对数值字段进行处理;神经元网络把所有的输入转化到0-1之间;决策树使用splitter数值对数值字段进行处理;关联分析需要把数值变量区间转化为种类变量区间,但是区间的选择十分困难。

第二,种类字段:决策树、连接分析、关联分析都很适用于种类字段。

第三,多个非独立的目标字段:神经元网络可以很好地应用于存在多个依赖变量的情况。

第四,自由文本数据:采用MBR技术是最佳选择。

第五,具有时间顺序的数据:关联规则、神经元网络对有时间顺序的数据有比较好的处理能力。时间顺序也可以用决策树处理,但是需要准备较多的数据。

第六,每条记录都有大量独立的字段:关联规则挖掘、MBR技术、神经元网络都会受到记录中字段多的影响。但是决策树就会受到程度较小的影响。

第七,变长的记录:只有连接分析和关联规则能够对变长的记录进行处理,而如果使用其它技术,就需要对数据进行预处理:把一条记录拆分为几条记录,每个都含有记录号;能够生成一些统计字段。

2.2 数据挖掘任务

从数据中发现模式是数据挖掘的任务。在对某种数据挖掘技术进行选择之前,第一,要把需要解决的商业问题转化成正确的数据挖掘任务;第二,依照数据挖掘的任务来决定使用几种或者是哪一种数据挖掘技术。以下将以聚集和概念描述为例,对挖掘任务需要使用哪些挖掘技术进行分析。

(1)聚集。聚集就是把整个数据库分为不同的群组。其目的是使同一个群之间的数据尽量相似,而不同的群之间要有很明显的差别。协助市场分析人员在客户基本信息库中找出不同的客户群,并用购买模式对不同客户群的特征进行刻画是电子商务中对聚集的典型应用。另外,聚类分析也能作为分类、特征等其他算法的预处理步骤,这些算法可以再在生成的簇上进行处理。聚集与分类不同的是,在开始之前一般不知道该把数据分成几组和怎样分,所以要有一个对业务特别熟悉的人在聚集之后对这样分群的意义进行解释。一般情况下,需要经过几次反复的增加或删除变量才能得到理想的结果。

(2)概念描述。描述式数据挖掘的最基本形式就是概念描述。概念描述以简洁汇总的形式对给定的任务的相关数据集进行描述,提供数据的一般特征。一般,通过数据库来查询收集用户指定类的数据。有两种概念特征化的一般方法:面向属性归纳的方法和基于数据立方体OLAP的方法,这两种方法都是基于维或属性的概念化方法。一般使用面向数据库的方法实行概念描述挖掘,并且还能够采用机器学习方法中的基于范例学习的技术来进行。

三、小结

选择能够解决电子商务中一些问题的数据挖掘技术的时候,需要根据具体问题的特点来选择合适的技术方法,在选择了符合数据模型的算法之后,就要确定正确的模型与参数。并且要想很好的发挥数据挖掘能够帮助企业在激烈的竞争中做出正确决定的作用,就必须选对合适的数据挖掘工具。

参考文献

[1]胡永祥.电子商务系统中的数据挖掘技术研究[J].电子世界,2013,(24):25-25.

[2]徐羡文,郑厦君.数据挖掘技术在电子商务推荐中的应用[J].电脑知识与技术,2011,07(27):65-66.

[3]杨波.浅谈数据挖掘技术应用[J].电脑知识与技术,2010,06(24):82-83.

数据挖掘技术研究篇6

关键词:软件工程;数据挖掘;开发测试技术

作者简介:文娟(1982-),女,湖南长沙;研究方向:计算机应用,大数据,云计算。

近年来,信息技术飞速发展的过程中,相关软件技术也不断增加,增加了软件维护的难度。现阶段数据挖掘技术被有效应用于软件工程中,在及时提取数据上具有重要意义。不同软件在使用过程中会经历多个阶段,其中开发及测试阶段尤为重要,如果能降低二者使用时间及成本,将有利于软件工程效率的大幅度提升。本文首先对软件数据挖掘进行了简要介绍,并探讨了数据挖掘特点,在此基础上对面向软件工程数据挖掘的开发测试技术展开了研究。

1软件数据挖掘简介

现阶段,数据挖掘技术在应用过程中影响力越来越大,其在应用过程中能够深入挖掘大量数据中的重要信息,这一功能对于软件工程具有深刻影响,软件开发时间的缩短,促使效率大幅度提升,对稳定性和实用性在软件中的体现具有促进作用[1]。软件工程数据指的是在产生于开发软件过程中大量数据的积累,这些数据能够对文本的分析及解释起到重要作用[2]。这些数据是软件开发工作者获得信息的重要途径。现阶段,指数性特点是增加软件工程数据的主要特征,是在提升软件开发技术、扩大其规模基础上形成的。在这种情况下,数据的挖掘能促使软件工程在开发过程中更有规律地进行。

2软件工程数据挖掘的技术特点

在开发软件的过程中通常会产生大量的数据,这些数据统称为软件工程数据。这部分数据拥有重要的功能及作用。例如,能进行有效的文档设计、对文档可行性进行分析,生产软件代码、确定软件版本等。由此可见,软件工程数据的产生对软件开发工作具有重要贡献。作为一项信息工作,复杂而系统是数据挖掘最大的特点,重要的信息只能在大量的数据中筛选和应用。现阶段我国在积极进行计算机技术研究的过程中开展了软件工程数据挖掘工作,充分代表了我国在信息技术中的创新性[3]。在软件工程领域中有效应用软件工程数据挖掘技术,能够更地进行提取和分析挖掘技术,也能够保证软件开发及使用者在日常工作过程中享有更加完善的服务。

3面向软件工程数据挖掘的开发测试技术

3.1代码理解

开发软件流程中,工作人员需要解决很多问题,其中包括:首先,维护项目代码。然而原有文档在项目当中已经超出使用期限,也有很多情况下该文档已经消失;其次,修改项目缺陷。然而这一过程中,工作人员根本没有项目代码的详细资料;再次,审查项目代码。由于代码众多,工作人员的工作难度较大;最后,提取项目架构设计。这一过程中工作人员通常只能够掌握其源代码[4]。针对以上问题,分层聚类是工作人员面对源代码的主要方式,可视化展示不同的模块,这样一来能够更加准确地掌握项目架构在代码中的体现。分层聚类法的有效应用,能够促使源代码的分析更加精确,而这一方法在使用过程中通常包含2个内容,即聚类分别建立在PageRank和调用入口基础之上。

在分析软件系统结构的时候,软件聚类是重要的方法之一,该方法的有效应用能够促使维护软件工作更加顺利。例如,复用软件模块,挖掘软件体系结构等。在这一方法下,相关工作人员可以充分掌握总体结构在软件系统中的体现,并能够明确局部的详细信息。一般来讲,如果想灵活切换在该方式下得以体现,应提升相关设备的性能。例如,首先,划分软件聚类模块的层次;其次,在详细掌握用户对软件聚类使用状况的基础上促进调整的动态性。在软件聚类内容中,一个重要的组成部分就是图聚类,加强对其的研究便可以得出软件聚类的层次化算法,该算法是建立在有效分析源代码基础上的,能够促使聚类结果和层次的显示以多粒度的方式进行。同样,该算法在应用过程中也包含2个方面,同时能够将新的途径应用于命名输出的聚类结果模块当中,这种方式是建立在文本挖掘基础上的,模块命名具有一定的语义信息是文本信息的主要特点。

3.2代码开发

目前,编程建立在开源框架基础上的就是JAVA应用,这一过程中,XML配置文件是促使逻辑控制在配置中得以实现的前提,然而现阶段单机版是JAVA应用的主要特点,复杂性是框架逻辑的主要特征,文档化在开源框架当中较低。在这种情况下,工作人员在配置和使用框架的过程中存在较大的误差。新时期在积极解决以上问题的过程中,相关专业人员提出了一个推荐方法,该方法建立在XML配置文件和XML配置片段基础之上,前者根据应用代码库而建立,后者根据代码关联结构挖掘而建立。在软件开发过程中积极应用这一手段,促使编辑配置文件的过程中大幅度提升效率和质量。而频繁字数挖掘是以上方法的关键所在,在大量的实现分析数据下,会充分展现该方法的有效性,其在XML配置片段当中更是充当着不可替代的地位,由此可见,其在软件开发过程中具有重要意义。

现阶段,新系统的构建是软件开发的重要环节,工作人员要想实现编程,必须对编程框架进行明确的利用,从而充分发挥其通用性功能,同时还能够清楚表达其程序机构。在框架编程的过程中,工作人员应当积极扩展相关编程,并且应构建XML配置文件。相当一部分优势体现在框架编程当中,然而现阶段在将其应用到实际环境中时,仍然体现出种种不足[5]。例如,很容易利用其逻辑缺陷,同时工作人员无法正确而有效地使用该框架。由此可见,有效应用配置代码,充分发挥其实用性,能够促使数据及途径得以展现出来。

3.3回归测试

在开发软件应用以后,使用者在使用过程中经常会出现修改代码的状况,这一状况产生于使用以前和使用过程中,产生这种状况的主要原因是功能更新及代码缺陷等现象的存在。如在更新代码以后,需对其重新,在这之前,需要精确测试代码,就是所谓的回归测试。这一步骤实施的主要原因是对修改软件进行验证,从而充分发挥软件使用过程中的功能[6]。在这种情况下,软件在使用过程中,回归测试的价值不容忽视,对软件质量具有直接影响。新时期,我国在积极进行面向软件工程数据挖掘的开发测试技术研究的过程中,应当首先注重创新软件工程理念及措施。

加强分析实施需求,促使形式化、规范化等要求在数据挖掘中得以体现,在开发软件的相关理念上,重视数据挖掘,将烟花性设计有效应用于软件工程的架构当中,同时进行科学的创新,有效应用先进技术,促使软件编写能力得以提升;其次,加强对人工智能的应用。在我国科学和信息技术不断进步的背景下,我国各个领域在研究过程中已经开始对机器学习进行充分的利用,因此在软件工程数据挖掘的过程中,也应当对该技术进行充分的利用,为我国的软件开发创造更多奇迹。人工智能是现阶段我国科学技术创新中的代表,其拥有较强的学习和运算功能,能够促使软件工程数据挖掘工作更加精确、快捷,同时能够运用较为成熟的方式对运算过程中遇到的问题进行处理;最后,有效评价数据挖掘结果[7]。我国传统的数据挖掘测试技术在应用过程中无法对其结果进行充分的评价,也就导致重要的数据在经过深入挖掘以后无法得到有效应用。因此,新时期,我国工作人员应当对数据挖掘进行全面的缺陷检验,加强对结果的分析,在充分利用相关软件的基础上,得到用户的真实评价,在实践中不断完善。

4结语

综上所述,软件工程数据挖掘指的是在软件挖掘过程中产生的海量数据,被深入挖掘以后产生重要的、有价值的数据。这部分数据的有效应用能够促使软件开发更加便利和顺畅,能够促使开发出来的软件更具使用价值,使用寿命也更长,在此技术基础上进行的开发测试技术,能够为提高软件工程开发效率起到促进作用。因此,现阶段积极加强面向软件工程数据挖掘的开发测试技术的研究具有重要意义。

参考文献

[1]陈媛.基于数据挖掘的软件缺陷预测技术研究[D].长春:中国科学院研究生院长春光学精密机械与物理研究所,2012.

[2]朱沿旭.面向开源社区的Web数据抽取与挖掘关键技术研究[D].长沙:国防科学技术大学,2011.

[3]胡瑞飞.面向机械工程计算机测试系统的数据挖掘技术研究[D].成都:四川大学,2006.

[4]张律.面向数据挖掘的科研信息管理系统的研究与开发[D].成都:电子科技大学,2013.

[5]沃高全.基于实时可视化数据挖掘的高并发性能监测系统设计与实现[D].上海:复旦大学,2010.

[6]宫健.基于信息挖掘技术与J2EE架构的校园智能教务系统的研究与应用[D].西安:西北工业大学,2004.

[7]张通学.面向领域的数据挖掘平台相关技术研究及实现[D].大连:大连交通大学,2008.

数据挖掘技术研究篇7

关键词:数据挖掘;Web挖掘;电子商务系统;用户兴趣分析

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)31-6948-03

现今,随着网络技术和数据库技术的迅猛发展,有效推动了商务活动由传统活动向电子商务变革。随着商务活动活动的电子化、数字化和网络化,如何从这些大量的数据中找出有利于商业运作、提高竞争力和为访问客户提供更多更优质的服务的信息,成为电子商务成败的关键因素,越来越受到电子商务经营者的高度关注,这也对计算机数据技术提出了新的要求。数据挖掘技术应运而生,它是一种能够从网上获取大量数据,并能有效地提取有用信息供企业决策者分析参考,以便科学合理制定和调整营销策略,为客户提供动态、个性化、高效率服务的全新技术。

1 Web数据挖掘技术及其在电子商务中的应用

Web数据挖掘[1],即Web挖掘,它是指从Web资源上抽取信息或知识的过程,它将传统的数据挖掘思想和方法应用于Web之上,从Web文档和Web活动中抽取感兴趣的、潜在的、有用的模式和隐藏信息。它以从Web上挖掘有用知识为目标,以数据挖掘、文本挖掘、多媒体挖掘为基础,并综合运用计算机网络、数据库与数据仓储、人工智能、信息检索、可视化、自然语言理解等技术,将传统的数据挖掘技术与Web结合起来。建立在对大量的网络数据进行分析的基础上,采Web数据挖掘用相应的数据挖掘算法,在具体的应用模型上进行数据的提取、数据筛选、数据转换、数据挖掘和模式分析,最后做出归纳性的推理、预测客户的个性化行为以及用户习惯,从而帮助进行对网站以及网页的改进。

Web挖掘是数据挖掘技术在Web环境下的应用,是集Web技术、数据挖掘、计算机技术、信息科学等多个领域的一项新技术[2]。目前,随着电子商务网站的兴起,经过分析一定时期内站点上的用户的访问信息,发现该商务站点上潜在的客户群体、相关页面、聚类客户等数据信息,对各种商业领域具有重要的实用价值,因而,电子商务必将是未来Web数据挖掘的主攻方向。Web数据挖掘技术在电子商务中的应用主要包含以下几方面:(1)寻找潜在客户;(2)留住访问客户;(3)提供营销策略参考;(4)完善商务网站设计。

2 Web数据挖掘的过程和方法

根据Web数据挖掘的方法,Web数据挖掘的一般流程[3]分为:数据收集(采集)、数据预处理、模式发现、模式分析四个步骤。

Step1:数据收集(采集),从客户端、服务端或者是网站端获取数据。数据收集的对象以文本形式存在的,数据是粗糙、未经处理的,比如Web日志;

Step2:数据预处理,通过数据清洗,数据格式化对收集海量数据中的有用数据进行筛选,供下一步数据挖掘和分析;

Step3:模式发现,对预处理后的数据进行分析和挖掘,发现数据中存在的模式。

Step4:模式分析,针对发现的模式进行分析,提取其中有用的信息。得出的结果可以应用到制定商业决策或优化网站结构中。

3 数据收集和预处理模式的改进

3.1 传统的数据收集和预处理模式

传统的数据收集模式,获取的日志格式取决于各网站所使用的服务器日志格式,或者用户自定义的日志格式。这就导致获取的多个Web服务器日志文件的异构性,即记录的格式不同,内容排版也不同,无形中增加了数据收集的难度。

传统的数据预处理模式也存在相同的问题。由于数据的来源网站可能是多个,不同网站的网站路径结构都不一样,这导致大多数数据挖掘系统预处理后的信息只局限于来源url,访问url,访问的文档列表,流量等信息,无法得到定制化的信息,如用户点击了哪个商品类别等。

3.2 基于数据中心的数据收集和预处理模式

数据中心[4]是集数据收集、预处理、分析为一体的统一式数据管理中心系统,客户端只需要调用统一的数据中心接口,即可传递必需的数据,由数据中心统一的记录到日志文件中。因为数据都是有数据中心服务器的日志系统进行记录的,这样做就屏蔽了传统数据收集模式中,由于各个网站的日志记录格式不同,需要区别对待区别处理的问题。

在数据中心,将所有的网站的路径结构都抽象成了三层的目录结构,即应用系统层(例如淘宝)、模块层(例如数码这个类别)和资源层(例如iphone这个商品)。对每一层的目录,都使用一张表来进行维护。

比如对淘宝商城的路径结构进行抽象,应用系统层对应淘宝,code是taobao,数码这个类别对应模块层,code是digital,具体的产品,比如“iphone”,对应资源层,code是“iphone”。假设淘宝原来的商品“iphone”的查看页面路径是A,在数据中心配置该路径的映射路径B,也就是将上面的code组合起来,即三层目录结构taobao/digital/iphone。通过抽取每层的code和数据中心表中记录的应用程序、模块和资源进行对比,网站就可以得到用户访问了哪个模块或资源,解决了传统的数据预处理过程无法得到定制化信息的问题。

4 用户兴趣度算法

5 电子商务网站日志挖掘系统的设计与实现

5.1 电子商务网站中的Web数据挖掘对象

在电子商务网站中,Web数据挖掘的对象一般有用户的访问日志、用户的查询信息以及查询记录的数据。在本次的系统实现中,主要是对用户的访问日志进行挖掘。

5.2 Web挖掘系统的实现

1) 数据收集模块

以Web服务器的日志文件作为电子商务数据挖掘的数据源。其中,Web服务器的日志文件使用Web服务器自身提供的记录功能及规则,按照约定的或者自定义的格式进行数据收集。

2) 数据预处理模块

系统通过将收集到的日志进行数据清理、数据识别两个步骤对原有的Web日志文件进行预处理工作。

Step1:数据清理,根据挖掘的需要,去掉日志中无关的信息。

Step2:数据识别,根据服务端数据库存储的用户信息、应用信息、商品类别和商品信息,来对Web服务器日志中记录的信息进行匹配,将日志中的信息转换成可理解的,可被分析的数据。例如,在数据库中存储的商品类别表有一个类别“衣服”,它的url标识是“cloth”,所以系统会在访问信息的url查找cloth这个字串,找到了则会将此条信息和“衣服”类别进行联系,如此对所有的访问信息进行处理。最系统后会将这些信息处理成可被数据库识别的sql语句。

3) 数据分析模块

系统从多个角度分别对网站、商品类别、商品、用户、广告进行全面的数据分析,得出有价值的信息,比如网站全年的访问人数、商品的访问量排名、广告的点击率等等,并将这些分析的结果以图表的方式显示在页面上,方便查看。同时为后面的模式发现模块提供更多的挖掘维度和分析数据,更快的进行模式发现过程,如图1所示。

6 结论

Web数据挖掘是数据挖掘中很重要的一个领域,在电子商务中应用Web数据挖掘技术,可以为商务网站更准确、更有效的确认目标市场、制定商业决策、提高企业竞争力提供帮助,通过数据挖掘,商家还可以得到用于特定的消费群体进行定向营销的决策信息。论文研究并实现了一个电子商务网站日志挖掘系统,通过对传统的数据收集和预处理过程进行改进,对Web服务器日志进行了多角度的数据分析,对网站、商品类别、商品、用户、广告进行全面的数据分析,得出有价值的信息。

参考文献:

[1] 涂承胜, 陆玉昌. Web 使用挖掘技术研究[J] .小型微型计算机系统, 2004, 25(7) : 1177- 1184.

[2] Chen M S, Park J S, Yu P S. Data Mining for Path Traversal Patterns in a Web Environment[C] MIn: Proceedings of the 16th International Conference on Distr ibuted Computing Systems. Hong Kong: [s.n.] ,2006: 385- 392.

[3] Borges J, Levene M. Data Mining of User Navigation Patterns[C] MIn: Proceedings of the WEBKDD. 99 Workshop on Web Usage Analysis and User Profiling. San Diego, CA,USA: [s. n.] , 2008: 31- 39.

[4] 朱志国, 邓贵仕. Web 使用挖掘技术的分析与研究[J] .计算机应用研究, 2008, 25(1) : 29- 32.

[5] 陶俊,张宁.基于用户兴趣分类的协同过滤推荐算法[J].上海:上海理工大学,2011,30(2):34-38.

数据挖掘技术研究篇8

【关键词】Web挖掘、网络舆情、分析处理

0 引言

网络舆情作为一种十分重要的舆情表现形式,是公众在互联网上对某种社会现象或社会问题公开表达的具有一定影响力和倾向性的共同意见。要加强对网络舆情信息的分析,及时发现舆情热点,及时对民意走势做出正确引导。在此情况下,我们引入Web数据挖掘技术来提高对舆情的处理和分析的效率以及质量,实现网络舆情的分析。

1 Web挖掘

Web挖掘是数据挖掘在Web上的应用,它是一种综合使用自然语言处理、数据挖掘、人工智能、机器学习等技术的智能分析方法。根据挖掘对象的不同,Web挖掘可以分为Web内容挖掘、Web结构挖掘和Web使用挖掘三个方面。相比于传统的网络舆情分析方法,Web挖掘可以用更短的时间了解网络舆情的状况和走向以及与之相关联的热点问题,为网络舆情的深入分析提供了技术支持。

1.1Web内容挖掘。Web内容挖掘是指从Web文档的内容或者Web搜索的结果中获取知识的过程。由于网页的内容错综复杂不易于计算机理解,Web内容挖掘可以有效的对大量的Web文本集合进行总结、分类、聚类、关联分析,以及利用Web文本进行趋势预测。在网络舆情分析中,Web内容挖掘可以发现与事件主题相关的知识内容和语义关联模式。

1.2Web结构挖掘。Web结构挖掘是指对Web组织结构、Web页面的链接关系等进行挖掘并从中提取出潜在的有用的知识的过程。Web链接信息包括了大量的关于Web内容相关性、质量和结构方面的信息,为网络舆情的分析的提供了重要资源。通过Web结构挖掘,可以获得与舆情主题高度相关的链接以及链接逻辑结构的语义知识,从而帮助舆情分析人员确定重要舆情源和中心页面,有助于深入挖掘舆情信息。

1.3Web使用挖掘。Web使用挖掘是指通过挖掘Web服务器上的日志信息来提取浏览者的访问记录,获取有价值的信息的过程。这些信息包括网络服务器访问记录、服务器日志记录、浏览器日志记录、用户信息、注册记录、用户对话或交易信息、用户提问等。通过上述信息可以发现用户的访问模式以及行为偏好,可以更好地理解用户行为从而提供智能化的服务。通过Web使用挖掘,可以确定舆情热点和焦点,从而更准确地预测网民行为。

2 基于Web数据挖掘的网络舆情分析

2.1数据层。舆情信息采集的主要任务是提取与热点相关度高的信息,为下面的舆情挖掘和分析做好准备工作。舆情信息采集由以下5步完成。

(1)确定主题和选择采集地点。为了使采集效果更好,必须以主题的形式对信息需求进行描述。

(2)利用自动采集软件采集数据。数据采集软件可以自动采集相关信息,并下载到本地进行分析。

(3)页面分析。采集完页面之后,对页面进行分析,提取重要信息,以便进行后续的过滤和处理。

(4)URL与主题的相关性判断。在采集过程中增加过滤机制以便提高采集数据的质量。

(5)页面过滤。对采集页面进行主题相关性评价,去除相关性低的页面,从而提高采集页面的准确性。

2.2 挖掘层。挖掘层主要由语义信息集成和Web挖掘引擎两部分组成,而且语义信息集成为Web挖掘引擎提供经预处理后的结构化信息,简化并加速 了Web挖掘处理。

(1)语义信息集成。由于数据层的数据来自于不同的媒介,因而在结构和语义上都存在很多的不同,需要对其进行统一处理,并根据需要利用智能信息处理技术进行深入的预分析,从而提高挖掘引擎的效能和健壮性。

(2)Web挖掘引擎。Web挖掘引擎是网络舆情分析的动力部分,执行Web挖掘任务。它定义了Web挖掘模型语言,选取了合适的挖掘算法和工具。其主要目的是从大量的网络舆情信息中提取规律,并预测事件的发展趋势。可根据网络舆情信息源的特点,从多个方面更加深入的进行挖掘处理。

2.3分析层。分析层是核心部分,其主要技术应用于对网络舆情信息的智能分析,该分析从六个层面进行,分别是:主体类聚分析、语义关联分析、概念描述、趋势预测分析、主题识别探测和倾向性分析。其功能主要是将经过挖掘处理后的知识进行描述,并生成网络舆情分析报告来辅助决策机构。

2.4应用层。应用层的出现首先方便了与用户之间的交互。用户可以通过软件来指导网络舆情信息的采集、挖掘和分析处理,从而发现隐藏的规律和发展趋势,同时也更易于舆情信息的理解和分析结果的应用。其次,为后续工作提供接口。由于计算机不能对随机出现的各种警情进行判断,因此需要提供系统交互接口,可以让专家进行分析,实现人机互动,从而提高舆情分析的准确性。

3 基于Web挖掘的网络舆情分析系统实例分析

本文以方正智思舆情预警辅助决策支持系统为例,讨论Web挖掘技术在网络舆情分析中的应用。正智思舆情预警辅助决策支持系统是一款由北大方正技术研究院研发而成的中文智能信息挖掘与处理的平台软件。其核心技术为中文信息处理技术与Web挖掘技术,采用B/S结构,利用J2EE技术框架,实现基于浏览器的瘦客户、服务器模式。它不仅能对舆情信息进行全方位采集,还能对舆情信息进行智能分析处理。其实时响应、智能分析、辅助倾向性判断等特点为相关职能部门全面掌握网络舆论动态,作出正确引导,提供分析依据,从而提高各级政府应对突发事件的能力。

4 结语

Web挖掘是一种综合使用自然语言处理、数据挖掘、人工智能、机器学习等技术的智能分析方法。实践表明,将Web挖掘融入网络舆情分析中,可以充分发挥Web挖掘技术从海量信息中发现隐藏的规律,实现对网络舆情信息全方面深入的分析,从而辅助相关职能部门正确引导民意。在网络舆情中应用Web挖掘技术,可以有效地提高网络舆情分析结果的正确性,也是其未来的发展方向。

参考文献:

[1]付业勤,郑向敏. 国内外网络舆情研究的回顾与展望[J]. 编辑之友,2013,12:56-58.

[2]张玉峰,何超. 基于Web挖掘的网络舆情智能分析研究[J]. 情报理论与实践,2011,04:64-68.

[3]周君. Web文本挖掘关键技术的研究与实现[D].西安电子科技大学,2009.

注:本文为网友上传,不代表本站观点,与本站立场无关。

上一篇:数据挖掘技术探讨论文范文 下一篇:微观经济学范文

免责声明