数据挖掘技术研究范文

时间:2023-03-04 06:02:08

数据挖掘技术研究

数据挖掘技术研究范文第1篇

关键词:数据挖掘;Web挖掘;分类;研究

中图分类号:TP391文献标识码:A 文章编号:1009-3044(2009)36-10163-03

Review of Research on the Web- based Data Mining Technology

LI Jia-lin

(Nanjing Institute of Industry Technology, Nanjing 210046, China)

Abstract: With the explosive growth of knowledge available on the World Wide Web,it becomes much more difficult for users to access relevant information efficiently.Just in this case,Web data minging technology arises at the historic mement. This articlegive a definition of Web mining firstly. After a thorough analysis of the characteristics of Web mining and classification methods, It also expounds the details of the newest progress of the Web mining research and the direction of future development.

Key words: data mining; Web mining; classification; research

目前,Internet已经发展成为一个巨大的、分布广泛和全球性的信息服务中心,然而随着Internet上的信息量的成倍增长,人们在如此繁杂巨量的信息源面前往往感到无所适从:信息过量难以消化;信息形式不一致、难以统一处理;难以快速、准确地获得有价值的网络信息;如何理解已有的历史数据并将其用于预测未来的行为;如何从这些海量数据中发现知识等等。数据挖掘技术自20世纪90年代产生以来,已成功地应用于传统的数据库领域。人们对于数据挖掘在Internet信息处理上的技术也作了许多相应的研究,并形成了数据挖掘的一个重要分支――Web数据挖掘。

Web是一个巨大的、广泛分布、高度异构、半结构化的信息仓库,同时也是一个巨大的文档累积的集合,包括超链接信息、访问及使用信息。Web数据挖掘起源于数据挖掘,目的在于可以处理非结构化的数据,Web数据的非结构化这一显著特征使Web数据挖掘更加复杂。通过Web数据挖掘,我们可以从数以亿计存储着大量多种多样信息的Web页面及链接和用户对页面的访问信息中挖掘出我们需要的有用知识。

1 Web挖掘定义

Web挖掘是一项涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域的综合技术。不同研究者从自身的领域出发,对Web挖掘的含义有着不同的理解,其定义也各有其侧重点。例如,有学者认为,Web数据挖掘是从大量的Web文档集合和在站点内进行浏览的相关数据中发现蕴涵的、未知、有潜在应用价值的、非平凡的模式(Pattern)的过程[1]。也有学者从更为一般的角度出发,对Web挖掘作如下定义:

Web挖掘是指从大量Web文档的集合C中发现隐含的模式p。如果将C看作输入,将p看作输出,那么Web挖掘的过程就是从输入到输出的一个映射ξ:Cp[2]。

尽管Web挖掘的定义有很多,但Web挖掘技术从一开始就是面向应用的,因此从应用角度上来说,我们可以认为,Web挖掘就是采用数据挖掘等信息处理技术,从Web信息资源以及Web使用记录中发掘对特定用户感兴趣的,有用的信息或知识的过程,其结果可以为用户决策所使用。

由于Web挖掘从数据挖掘技术发展而来,其定义与我们熟知的数据挖掘定义相类似。但与传统的数据挖掘相比,Web挖掘在挖掘的对象、挖掘所得到的模式等方面有许多独特之处。通过 Web挖掘,人们可将Web上的文档进行分类、寻找文档主题、汇总搜索结果,使用户在Internet上查找信息更加全面准确。对Web站点的分析结果可用于重新组织Web站点结构,以便更好地为用户服务。

2 Web挖掘分类

依据不同的分类标准Web挖掘有不同的分类方法。例如,按照挖掘内容的语种可以分为中文Web挖掘、西文Web挖掘;按挖掘的站点的属性不同可以分为企业门户挖掘、政务门户挖掘、个人站点挖掘等。但更多的文献则是采用根据挖掘的站点信息来源不同将Web挖掘分为三大类的划分方法,即:Web内容挖掘(Web Content Mining)、Web结构挖掘(Web Structure Mining)和Web使用挖掘(Web Usage Mining) [3]。在实际应用中,Web挖掘的这三个研究方向在实际过程中并不是孤立的,而是相互交叉、相互渗透和相互联系的。

2.1 Web内容挖掘

Web内容挖掘是从大量的Web文档或其描述中发现知识的过程。这些Web文档包含了文本、图片、声音、视频、元数据和超链接等名种不同的数据类型。Web内容挖掘根据其所处理的数据对象的不同可分为文本挖掘和多媒体挖掘。由于文本仍是信息传递的主要方式,而且文本处理技术相对比较成熟,因此文本数据的挖掘在研究和应用上都比较普遍。文本挖掘主要分为文本的总结、分类、聚类、关联分析及利用Web文档进行趋势预测等,最常见的是文本的分类和聚类[4]。

多媒体信息挖掘,主要是对Web上的音频、视频和图像进行预处理,应用存储和搜索技术与标准的数据方法的集成,对其中潜在的有意义的信息和模式进行挖掘的过程[5]。多媒体信息挖掘可以应用于语音识别、图形和图像处理等研究领域。从而得到更为精确和有用的信息,以增强搜索引擎的内容查询功能。

2.2 Web结构挖掘

Web结构挖掘是从WWW的组织结构和链接关系中推导知识的过程。在整个Web空间里,有用的知识不仅包含在Web页面的内容之中,而且也包含在页面的链接结构之中。例如,如果我们发现一篇论文页面经常被引用,那么这个页面一定是非常重要的。Web结构挖掘试图发现Web链接结构中潜在的模型,而这种模型是建立在超链拓扑基础上的。它主要通过对Web站点的结构进行分析、变形和归纳,将Web页面进行分类,以利于信息的搜索。这一类的技术常常被用来改进搜索引擎,例如PageRank和Clever方法等。PageRank技术可以用来衡量某个页面的重要性,并且根据传统搜索引擎搜索返回的页面重要性来进行排序。Google就成功地利用了PageRank技术来提高其搜索引擎的有效性,并改善了它们的效率。

2.3 Web使用挖掘

Web中的每个服务器都保留了记录关于用户访问和交互的信息访问日志文件(Web Access Log)。分析这些数据可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务。Web使用挖掘的主要对象就是这些Web信息访问日志,因此通常又称之为Web日志挖掘。由于Web使用挖掘的主要目标则是从Web的访问记录中抽取感兴趣的模式[6],所以也有文献将这类挖掘称为Web用户访问模式挖掘。Web使用挖掘的主要数据源除了用户访问Web时在服务器保留的访问日志文件外,还包括Web站点的拓扑结构和站点文件、用户的注册信息、用户调查信息、cookies以及与网站服务相关的数据库数据等。通过挖掘得到的用户访问模式在银行业、证券业、电子商务等方面得到了广泛应用,例如可以进行网络广告分析、客户分类、个性化服务、网络欺骗预防等。

根据对数据源的不同处理方法,Web使用挖掘可以分为两类,一类是将Web使用记录的数据经预处理转换,再传递进传统的关系表里,使用数据挖掘算法对关系表中的数据进行常规挖掘;另一类是将Web使用记录的数据直接预处理再进行挖掘[7]。J.Srivastava和R.Cooley等人在根据数据来源、数据类型、数据集合中的用户数量、数据集合中的服务器数量等将Web使用挖掘应用领域分为五类:个性挖掘、系统改进、站点修改、智能商务和Web特征描述 [8-9]。

3 Web挖掘特点

和传统的数据挖掘方法相比,Web挖掘的挖掘对象有其明显的特殊性。数据挖掘的本质是针对数据的特性,采取相应的方法进行挖掘。传统的基于关系数据的挖掘方法(如分类、聚类、关联规则发现、统计方法等)需要结合Web数据的特性进行扩展、改进,以适应新的要求。这也使得Web挖掘具有以下明显的特点:

1) Web数据日新月异,具有有很强的动态性

数据仓库中的数据一般是相对固定的,而Internet上的信息日益增多,Web页面目前已达数千亿,每天还在不断更新之中,其容量之大,变化之快,任何一个搜索引擎都难以适应这样的快速发展。据中国互联网络信息中心于2008年7月的《中国互联网络发展状况统计报告》称,2008年6月中国的域名总数为1485万个,年增长率为61.8%,继续保持2006年12月以来50%以上的增长水平。中国国内网站数量已经从2004年的62.7万个发展到如今的191.9万个,年增长率达到46.3%。

Internet中这些数量众多的网站数据更新非常迅速,有些信息可能很快过时。因此,在进行Web挖掘前的一个重要工作就是针对当前状态的信息能够快速更新挖掘数据源,确定需要挖掘的站点和范围,以保证提供准确的决策支持。

2) 异构数据库环境

要处理的Web站点数据在物理上是分散的,它们各自包含大量的数据信息,怎样对其进行有效的处理和应用成了Web挖掘研究的热点。一般的数据库中的数据组织形式是基于二维关系的表格,结构性很强,而Web数据挖掘的对象是大量、异质的。Web上的每个站点就是一个数据源,每个数据源都是异构的,而且每个站点之间的信息和组织都不一样,这就构成了一个巨大的异构数据库环境。

显然,面向Web的数据挖掘比单个数据仓库的数据挖掘要复杂得多。要利用这些数据进行数据挖掘,首先,要研究站点之间异构数据的集成问题,只有将这些站点的数据都集成起来,提供给用户一个统一的视图,才有可能从巨大的数据资源中获取所需的东西。其次,还要解决Web上的数据查询问题,因为如果不能有效地得到所需的数据,对这些数据进行分析、集成、处理就无从谈起[10]。

3) 半结构化的数据结构

Web使用挖掘的数据非常复杂,往往具有半结构化或非结构化特性,难以映射到一个固定的模式,这与有一定的数据模型并可以根据模型来具体描述特定数据的传统的数据库有明显不同。针对Web上的数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的关键所在。除了要定义一个半结构化数据模型外,还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。

4) 数据源的获取越来越困难

早期的Internet上的信息都是简单的HTML文件,一般的Web挖掘工具都可以直接获取这些信息,网站也没有对这些Web抓取工具进行防护。随着ASP、JSP以及Web数据库技术的发展,许多页面都是从数据库中动态调用生成,同时许多Web站点禁止Robot类工具的访问。也有一部分站点的关键页面通常只对所谓的会员开放。这一切都为Web数据挖掘数据源的获取设置了障碍。

5) 用户目标的模糊性

基于Internet的数据挖掘用户往往对挖掘的主体有一个粗浅的认识,提不出很明确的目标来。这就需要Web挖掘系统具有一定的智能性和学习机制,不断地跟踪用户的兴趣,清晰地阐述挖掘结果。

4 Web挖掘发展方向

Web挖掘是一个较新的研究领域,具有广阔的发展和应用前景。应该指出的是,面对日益增加的商业需求,Web挖掘技术还有许多问题需要解决,有待这一领域的研究者深入研究。在未来一段时间内,Web 挖掘中的以下方面将可能成为主要的研究方向与应用热点。

1) Web挖掘技术在智能化搜索引擎上的应用研究

随着网上信息量的激剧增长与信息内容持续更新,人们迫切需要能够从Web上快速、有效地发现资源和知识的工具,提高在Web上检索信息、利用信息的效率。尽管目前搜索引擎性能已有了较大提高,但搜索引擎的最终目标是“理解用户需求精确返回所需”,如何翻译用户的非专业搜索请求,实现自然语言处理,这需要研究者们从不同的角度进行研究,将Web挖掘技术充分运用到搜索引擎中,提高搜索的准确性,优化检索结果与实现个性化服务。

2) Web挖掘技术在智能化Web浏览器上的应用研究

传统的Web浏览器已经不能很好地满足用户在浩瀚的Web资源中找到符合自己要求的信息的需求。传统的Web浏览器只是简单地接受用户的请求,与服务器交互后将传来的页面显示给用户,它根本没有考虑用户的所特有的个性化信息。深度优先的搜索方式也很容易使得用户进行漫无目的地浏览,从而很可能“迷失在超空间中”[11]。这些问题的解决将在很大程度上依赖于文档特征选取、用户兴趣模型的学习与更新、信息过滤与文档分类等关键技术的研究与应用情况,而这些正是Web挖掘技术研究的重要方面之一。

3) XML技术引入Web数据挖掘领域

XML(可扩充标记语言)的全称是eXtensible Markup Language,同HTML一样,是国际互联网协会(W3C,World Wide Web Consortium)为Web应用开发的SGML(Standard General Markup Language)的一个重要分支。相对目前大量使用的HTML而言,XML具有简单、开放性、通用性及跨平台可扩充等特性,能很容易使不同来源的非结构化的数据结合在一起,因而使搜索多样的不兼容的数据库成为可能, 从而为解决由于Web数据源的异构性和半结构化特性给数据挖掘所带来的困难提供了条件。XML对在Web中进行数据挖掘的促进作用是HTML无法比拟的。

此外,分布式Web 挖掘、语义Web 挖掘、无线网络下的Web 挖掘、Web2.0 时代的Web 挖掘、多语言环境下的Web 挖掘等也是值得研究的方向。同时,Web 挖掘技术应用于具体领域的研究将持续受到关注,例如银行证券、企业ERP、医疗卫生、农业、电子商务、网络教学、BLOG等领域。

Web数据挖掘是一个新兴的研究领域,已广泛地应用于金融业、远程通讯业、政府管理、制造业、医疗服务以及体育事业中,对它的应用和研究正在成为一个热点,并取得了一定成就。但从整体上看,目前的研究仍处于起步阶段,许多问题有待深入研究,在实际应用中还有很多理论与技术有待进一步的研究和探讨,我们有理由相信,随着技术的加强和广大科研工作者及工程技术人员的积极参与,Web挖掘技术必将在更广阔的领域得到充分运用。

参考文献:

[1] R Kosala,H Blockeel. Web Mining Research:A Survey[J].SIGKDD Exploration,2000,2(1):1-15 .

[2] 陈新中,李岩,谢永红,等.Web挖掘研究.计算机工程与应用[J],2002,(13):42-44

[3] 张娥,郑斐峰,冯耕中.Web日志数据挖掘的数据预处理方法研究.计算机应用研究[J].2004,21(2):58-60.

[4] 王继成,潘金贵,张福炎.Web文本挖掘技术研究.计算机研究与发展[J],2000,37(5):513-524

[5] 陈新中,李岩.Web日志挖掘技术进展[J].系统工程与电子技术,2005,4.

[6] Srivastava J et al. Web usage mining: Discovery and application of usage patterns from Web data[J].SIGKDD Explorations.2000,1(2):12-23.

[7] 陈健,印鉴.Web使用挖掘技术研究综述[J].计算机工程,2005,31(9).

[8] R.Cooley,B.Mobasher,J.srivastava.Grouping web page reference into transactions for mining world wide web browsing patterns[J].University of Minnesota Technical report. Tech Rep:TR 97 021.1997.

[9] R.Cooley,J.Srivastava.Data preparation for mining world wide web browsing patterns[J].Journal of knowledge and Information Systems.1999,1(1).

[10] 范亚芹,刘颖.Web数据挖掘原理及实现[J].吉林大学学报,2003,(4):370-3731.

数据挖掘技术研究范文第2篇

[关键词] 数据挖掘 数据挖掘方法

随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(Data Mining)技术由此应运而生。

一、数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

参考文献:

数据挖掘技术研究范文第3篇

关键词:云模型 数据挖掘 可视化

中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2013)07-0065-01

随着信息呈爆炸式趋势增长,人们急需从不同角度对海量信息进行解读,使数据挖掘需求日盛。然而,传统数据挖掘方式各有弊端,云计算方式成为必然选择,基于云模型的数据挖掘技术研究也成为重要课题。

1 云计算与云模型

云模型模型数字特征示意图如图1。其中Ex能够代表定性的概念,反映云滴群的云重心。En可以反映概念的模糊度,以及一定程度上表明模糊度与随机性的关联度。He是直接反映云的集中程度,用以表示空间中所有点的凝聚程度,在云模型中称之为熵。

2 云模型数据挖掘分析

(1)云模型数据挖掘的特点优势。

(2)云模型下的可视化技术。

云模型始终属于较为抽象的概念,主要将模型具体化,利用图形、图像等形式,并通过一定技术手段表现出来。如图2所示,都可以表示数据的不确定性。

可视化是通过云发生器来实现的。发生器有正向与逆向之分,正向发生器基于三个特征数字来实现可视化,根据三个特征数字产生云滴,近而累积成云;逆向发生器基于数据开发挖掘云模型的三个特征数字,是定量到定性的映射,在此基础上进一步反映整个云滴的整体。

3 基于云模型的数据挖掘技术

通过以上对云模型特征数字的分析,可以通过参数的使用分析,构建特征空间和概念空间。概念空间是从同一属性角度来集合不同的概念,而特征空间则是通过集合不同的属性来描述实体。云模型中云滴的分布会形成一个空间,在概念空间里云滴会构成一个等势线,称其为概念层次。同样,在特征空间中也会有概念层次,代表着实体的等势层次。

在概念空间中,每个数据都会在云模型中形成一个云滴,众多云滴构成一个空间。但是每个数据的权重、影响力可能不一样,模型中从云滴的位置以及云滴的亮度来表征这个问题。云滴的位置越靠近云重心、云滴越亮则云滴的影响力越大。在概念空间中,可以选择不同的角度来分析空间数据,而选择角度不同就是选择不同的函数来计算点势。图3为概念空间的等势线与等势面举例。

概念空间基于对概念的分析归类。不同的概念之间应该有着众多关系类型,诸如包含、从属、等价、相似等等。通过数据场的交互作用而构成泛概念树。云模型中的泛概念树区别于一般意义上的概念树,可以拥有多个父节点。泛概念树的组成情况可以因为不同的属性集合、实体群组合状态等的不同而不同。

在特征空间中,其等势的思想方法与概念空间中相似,两者的区别就在于特征空间以实体为基本的空间点,概念空间则是从属性角度出发表达概念。当问题集中在讨论空间实体的特征时,常常用特征空间加以表示。从特征空间角度对实体进行研究,其空间粒度与空间范畴将变得更大。特征空间所描述的实体的特征将构成一个多维的空间。通过把实体的多种属性以某种方式投射到空间中,形成一个特征点,累积下来就完成了特征空间的构造过程。随后进行数据分析,通过数据空间点所呈现出来的特性进行数据挖掘,这些特征包括点的整体抱团聚类、势的特征等等。普通的分析方式对于数据聚类的分析往往采用练习数据集归类和测试方法的有效性两部分,但是两部分数据的选取原则与选取标准仍然不够完善,并且对数据的不同权重也没有足够的关注。因此在特征空间中得到数据分析聚类结果更可靠。

总之,基于云模型的数据挖掘,结合不确定性推理和云变换共同实现挖掘技术。通过云滴模型的构建,能够具备三个特征参数值,能够反映云模型的中心值、模糊度、离散度等模型特征。从模型特征又可以进一步对实体的定性问题、概念模糊度、随机度等进行分析。云模型技术能够很好地进行定性概念与定量数据间的映射。数据挖掘则可以通过不同势层的表征,结合不同观察角度来实现信息的过滤和提取。基于云模型的数据挖掘技术以其高存储性能和超强计算能力日益得到广泛的应用,技术上的深入研究也显得紧要而迫切。

参考文献

[1]巩华荣,何佳.空间数据挖掘技术的研究与发展[J].测绘与空间地理信息,2007(05).

[2]何彬彬,方涛,郭达志.不确定性空间数据挖掘算法模型[J].中国矿业大学学报,2007(01).

数据挖掘技术研究范文第4篇

关键词:人工智能;数据挖掘;发展前景

当今社会已经进入了人工智能时代,人工智能的应用,大大改善了我们的生活。大数据时代已经来临,不论是从数据的使用,挖掘,处理等方面,都为人工智能的应用起到了基础和保障。

1人工智能

1.1人工智能的定义。人工智能(ArtificialIntelligence),简称AI。属于计算机学科下的分支,顾名思义,它是一门专门研究类人化的智能机器学科,即利用现阶段科学的研究方法和技术,研制出具有模仿、延伸和扩展人类智能的机器或智能系统,从而实现利用机器模仿人类智能的一切行为。1.2人工智能的研究背景。在1956年的达特矛斯会议上,“人工智能”这一术语正式由麦卡锡提议并采用了,随后人工智能的研究取得了许多引人注目的成就。在这之后,科研人员进行了许多的研究和开发,人工智能这个话题也取得了飞速的发展。人工智能是一门极具挑战性的科学,从事这项工作的人必须了解计算机知识、心理学和哲学理念。人工智能的研究包涵广泛的科学知识,以及其他领域的知识,如机器学习、计算机视觉等。一般来说,人工智能研究的主要目标是使机器能够做一些通常需要人工智能完成复杂工作的机器。1.3人工智能的研发历程。早期研究领域:人工智能专家系统,机器学习,模式识别,自然语言理解,自动定理证明,自动编程,机器人,游戏,人工神经网络等,现在涉及以下研究领域:数据挖掘,智能决策系统,知识工程,分布式人工智能等。数据挖掘的出现使得人工智能的研究在应用领域得到广泛的发展。以下简要介绍其中的几个重要部分:(1)专家系统。所谓专家系统就是控制计算的智能化程序系统,通过研发人员总结归纳了专业学科知识和日常经验,能够知道计算机完成某个领域内的专业性活动或者解决某些专业级别的问题。人工智能技术可以合理利用已知的经验体系在复杂环境中,解决和处理复杂问题。(2)机器系统。机器系统简单说就是机器人通过人造神经系统,借助于网络或者存储系统汲取系统的知识进行开发研究。(3)感知仿生。感知仿生系统通过模拟人类的感官,感知生物学特征,通过人工智能机器的感部件对外界外部环境进行感知,识别,判断,分析的能力。能够更好的适应环境,做出判断。(4)数据重组和发掘。是指通过人工智能系统,结合当前先进的理念,对大数据的总结归纳,识别存储,调取等应用。通过数据的加工处理,能够主动做出判断和分析。(5)人工智能模式。分布式人工智能是模式之一,该系统利用系统有效的规避和克服系统资源在某段时间内的局限性,并能有效地改善因资源造成的时间和空间不均衡问题。它具备,模式自动转换,并行处理,开放启发方式,冗余且容错纠错的能力。

2数据挖掘

2.1数据挖掘的定义。数据挖掘(DataMining,DM)是揭示数据中存在的模式和数据关系的学科,强调处理大型可观察数据库。数据挖掘的出现使得人工智能的研究在应用领域得到了广泛的发展。这里包括数据挖掘和智能信息提取过程,前者从大量复杂的现实世界数据中挖掘出未知和有价值的模式或规则,后者是知识的比较,选择和总结出来的原则和规则,形成一个智能系统。2.2数据挖掘的研究现状。当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。看似广泛,实际应用还远没有普及。而据Gartner的报告也指出,数据挖掘会成为未来10年内重要的技术之一。而数据挖掘,也已经开始成为一门独立的专业学科。2.3数据挖掘的研究发展。具体发展趋势和应用方向主要有:性能方面:数据挖掘设计的数据量会更大,处理的效率会更高,结果也会更精确。工具方面:挖掘工具越来越强大,算法收敛越来越多,预测算法将吸收新颖性算法(支持向量机(SVM),粗糙集,云模型,遗传算法等),并实现自动化的实现算法,选择和自动调谐参数。应用:数据挖掘的应用除了应用于大型专门问题外,还将走向嵌入式,更加智能化。例如进一步研究知识发现方法,对贝叶斯定理和Boosting方法的研究和改进,以及对商业工具软件不断的生成和改进,着重建立整体系统来解决问题,如Weka等软件。在先进理论的指导下,按照国内形态发展,至少需要20年的时间,才能改进数据挖掘的发展。

3数据挖掘与人工智能技术的联系

数据挖掘属于人工智能中独立系统。它于人工智能的存在关系属于,并存联系,且独立运行,互不从属。此设计体系一方面可以有效促进人工智能提升学习能力,增进分析能力,另一方面还对分析,统计,OLSP,以及决策支持系统模块等起到推动作用。在收挖掘应用领域,处理可以对WEB挖掘,还能够有效进行文本,数据库,知识库,不同领域不同学科的信息进行序列矩阵模式挖掘。基于数据本身的分类,辨识,关联规则,聚类算法更加博大精深。因此,独立于人工智能的数据挖掘,更加便于科研团体或者领域对数据的使用和分析。数据挖掘是人工智能领域的一部分。首先,高智能是数据挖掘和人工智能的最终目标,正是由于这个目标,人工智能和数据挖掘有很多关联。其次,数据挖掘和人工智能是各种技术的整合。数据挖掘和人工智能是许多学科的跨学科学科。最后,数据挖掘的出现逐渐发展壮大,加强了人工智能,因此可以说,它们两者是不可分割的。

4人工智能和数据挖掘技术的发展前景

在当前环境下,人工智能和数据挖掘技术具有以下发展前景:(1)在大数据互联网中的应用。将人工智能的技术应用于互联网中将会使网络技术带上智能的特性,可以为人们的生活提供智能化的帮助,给人们的生活带来便利。还可以提高网络运行效率、增加网络安全性等。(2)智能化服务的研究。人工智能和数据挖掘都很注重对智能化服务的研究,例如很多智能机器人便应运而生,它们已经能胜任许多简单的工作,可以为人们提供人性化的服务。高度的智能化是数据挖掘和人工智能研究最终追求的目标,也是二者最终合而为一的标志。(3)使知识产生经济化。在现阶段的知识经济时代,人工智能和数据挖掘势必受到经济的影响,这决定了人工智能和数据挖掘将具有经济特征。人工智能和数据挖掘技术作为无形资产可以直接带来经济效益,通过交流,教育,生产和创新的无形资产将成为知识经济时代的主要资本。可以预期未来的人工智能和数据挖掘技术将更加经济实用。(4)交叉学科的技术融合。各行各业的理论和方法都已经开始融入了人工智能和数据挖掘之中。未来的人工智能和数据挖掘技术必将是一个融合众多领的复合学科。当今,我们已经在逐渐使用人工智能与数据挖掘技术,去攻克更多难题,解决更多问题,造福人类,改善生活,近在眼前。

作者:喻正夫 单位:汉江师范学院

参考文献:

[1]万璞,王丽莎.数据挖掘与人工智能技术研究[J].无线互联科技,2016(10):113-114.

[2]王翔.试论如何利用大数据挖掘技术推动人工智能继续发展[J/OL].科技创新报,2017,14(01).

[3]秦益文.微博数据挖掘中人工智能推理引擎的应用[J].中小企业管理与科技(中旬刊),2017(02).

[4]蒲东齐.数据挖掘在人工智能上的应用[J].信息与电脑(理论版),2016(19).

[5]李丹丹.数据挖掘技术及其发展趋势[J].电脑应用技术,2007(02):38-40.

[6]蔡自兴,徐光祐.人工智能及其应用[M].北京:清华大学出版社,2004(8):5,21,312.

数据挖掘技术研究范文第5篇

关键词:空间数据挖掘;地理信息系统;研究分析

随着数据采集技术的成熟和普及,大量的空间数据通过遥感、地理信息系统、多媒体系统、医学和卫星图像等多种形式汇集成庞大而丰富的信息源。面对庞杂、繁多的数据类型,空间数据挖掘技术应运而生,并在地理信息系统、遥感勘测、图像处理、交通管理、环境研究等领域得到广泛应用。

1 空间数据挖掘研究概述

空间数据挖掘(spatial data mining,简称sdm),是指从空间数据库中提取用户感兴趣的空间模式、普遍关系、数据特征的过程。空间数据挖掘技术综合数据挖掘技术与空间数据库技术,可用于对空间数据的理解、空间关系和空间与非空间关系的发现、空间知识库的构造以及空间数据库的重组和查询的优化等,其根本目标是把大量的原始数据转换成有价值的知识,发现大量的地学信息中所隐含的规则。

空间数据挖掘是计算机技术、数据库应用技术和管理决策支持技术等多学科交叉发展的新兴边缘学科,一般来说,空间数据挖掘可分成空间分类、空间聚类、空间趋势分析和空间关联规则四类。空间分类的目的是在空间数据库对象的空间属性和非空间属性之间发现分类规则,是近年来空间数据挖掘领域中比较活跃的一个方向,常用的方法是决策树。空间聚类是在一个比较大的多维数据集中根据距离的度量找出簇或稠密区域,目前提出的空间聚类方法有基于分割的方法、基于层次的方法、基于密度的方法和基于棚格的方法。空间趋势分析指离开一个给定的起始对象时非空间属性的变化情况,例如,当离城市中心越来越远时经济形势的变化趋势,空间趋势分析需要使用回归和相关的分析方法。空间关联规则是指空间邻接图中对象之间的关联,空间关联挖掘多采用逐步求精的优化思想,即首先用一种快速的算法粗略地对初始空间数据库进行一次挖掘,然后再在裁剪过的数据库上用代价高的算法进行进一步精化挖掘。

空间数据挖掘过程一般可分为数据筛选(消除原始数据的噪声或不一致数据)、数据集成(将多种数据源组合在一起)、数据选择(根据用户的要求从空间数据库中提取与空间数据挖掘相关的数据)、数据变换(将数据统一成适合挖掘的形式)、空间数据挖掘(运用选定的知识发现算法,从数据中提取用户所需的知识)、模式评估(根据某种兴趣度度量并识别表示知识的真正有趣的模式),知识表示(使用可视化技术和知识表示技术,向用户提供挖掘的知识)等阶段(见图1)。空间数据挖掘实际上是一个“人引导机器,机器帮助人”的交互理解数据的过程。

2 空间数据挖掘在gis中的应用

空间数据挖掘技术与地理信息系统(gis)的结合具有非常广泛的应用空间。数据挖掘与gis集成具有三种模式:其一为松散耦合式,也称外部空间数据挖掘模式,这种模式基本上将gis当作一个空间数据库看待,在g is环境外部借助其它软件或计算机语言进行空间数据挖掘,与gis之间采用数据通讯的方式联系。其二为嵌入式,又称内部空间数据挖掘模式,即在gis中将空间数据挖掘技术融合到空间分析功能中去。第三为混合型空间模型法,是前两种方法的结合,即尽可能利用gis提供的功能,最大限度的减少用户自行开发的工作量和难度,又可以保持外部空间数据挖掘模式的灵活性。

利用空间数据挖掘技术可以从空间数据库中发现如下几种主要类型的知识:普遍的几何知识、空间分布规律、空间关联规律、空间聚类规则、空间特征规则、空间区分规则,空间演变规则、面向对象的知识。目前,这些知识已比较成熟地应用于军事、土地、电力、电信、石油和天然气、城市规划、交通运输、环境监测和保护、110和1 20快速反应系统等资源管理和城市管理领域。在市场分析、企业客户关系管理、银行保险、人口统计、房地产开发、个人位置服务等领域也正得到广泛关注与应用,实际上,它正在深入到人们工作和生活的各个方面。

3 空间数据挖掘面临的问题

(1) 多数空间数据挖掘算法是由一般的数据挖掘算法移植而来,并没有考虑空间数据存储、处理及空间数据本身的特点。空间数据不同于关系数据库中的数据,它有其特有的空间数据访问方法,因而传统的数据挖掘技术往往不能很好地分析复杂的空间现象和空间对象。

(2) 空间数据挖掘算法的效率不高,发现模式不精练。面对海量的数据库系统,在空间数据挖掘过程中出现不确定性、错误模式的可能性和待解决问题的维数都很大,不仅增大了算法的搜索空间,也增加了盲目搜索的可能性。因而必须利用领域知识发现、去除与任务无关的数据,有效地降低问题的维数,设计出更有效的知识发现算法。

(3) 没有公认的标准化空间数据挖掘查询语言。数据库技术飞速发展的原因之一就是数据库查询语言的不断完善和发展,因此,要不断完善和发展空间数据挖掘就必须发展空间数据挖掘查询语言。为高效的空间数据挖掘奠定基础。

(4) 空间数据挖掘知识发现系统交互性不强,在知识发现过程中很难充分有效地利用领域专家知识,用户不能很好掌控空间数据挖掘过程。

(5) 空间数据挖掘方法和任务单一,基本上都是针对某个特定的问题,因而能够发现的知识有限。

(6) 空间数据挖掘与其他系统的集成不够,忽视了gis在空间知识发现过程中的作用。一个方法和功能单一的空间数据挖掘系统的适用范围必然受到很多限制,目前开发的知识系统仅局限于数据库领域,如果要在更广阔的领域发现知识,知识发现系统就应该是数据库、知识库、专家系统、决策支持系统、可视化工具、网络等多项技术集成的系统。

上述问题使得从空间数据库中提取知识比从传统的关系数据库中提取知识更为困难,这给空间数据挖掘研究带来了挑战。因此,空间数据挖掘在未来的发展中,还有很多理论和方法有待深入研究。

4 空间数据挖掘的发展趋势

(1)空间数据挖掘算法和技术的研究。空间关联规则挖掘算法、时间序列挖掘技术、空间同位算法、空间分类技术、空间离群算法等是空间数据挖掘研究的热点,同时提高空间数据挖掘算法的效率也很重要。

(2) 多源空间数据的预处理。空间数据内容包括数字线划数据、影像数据、数字高程模型和地物的属性数据,由于其本身的复杂性与数据采集的困难,空间数据中不可避免地存在着空缺值、噪声数据及不一致数据,多源空间数据的预处理就显得格外重要。

(3)其他各种空间数据挖掘及其相关技术研究。如网络环境下的空间数据挖掘、可视化数据挖掘、栅格矢量-体化空间数据挖掘、背景知识概念树的自动生成、基于空间不确定性(位置、属性、时问等) 的数据挖掘、递增式数据挖掘、多分辨率及多层次数据挖掘、并行数据挖掘、遥感图像数据库的数据挖掘、多媒体空间数据库的知识发现等。

5 小结

数据挖掘技术研究范文第6篇

云计算、物联网和互联网的快速发展,使得数据量以极快的速度增长,大数据成为研究热点。大数据的价值产生于分析过程,所以大数据挖掘与分析是整个大数据处理流程的核心。本文介绍了大数据数据体量巨大、数据类型繁多、价值密度低、处理速度快的4V特征、以及基于这些特征的大数据挖掘与分析需要解决的关键技术。

关键词:

大数据大数据分析大数据挖掘可视分析

随着云计算、物联网和互联网等技术的快速发展,各种移动设备、传感网络、电商网站、社交网络时时刻刻都在生成各种各样类型的数据,大数据时代已经到来。大数据即数据体量巨大、数据类型多样、数据的质量低、处理速度迅速的数据。大数据分析的核心是从大量数据中获取有价值的内容,更准确、更深层次的知识,而不是对数据简单的统计和分析。

1大数据的定义与特征

大数据已经进入了我们每个人的生活,各行各业都在讨论如何发展和运用大数据,那么什么是大数据,大数据的特征是什么?大数据是指所涉及的数据规模巨大到无法通过目前主流的软件工具在合理时间内撷取、管理、处理、挖掘这些数据,并整理成为企业经营决策有用的信息。IBM提出大数据的4V特征,得到了业界的广泛认可。第一,数量(Volume),即数据巨大,从TB级别跃升到PB级别;第二,多样性(Variety),即数据类型繁多,不仅包括传统的格式化数据,还包含来自互联网的大量视频、图片、位置和日志等;第三,速度(Velocity),即处理速度快;第四,价值性(Veracity),即追求高质量的数据。大数据具有4V特征,给人们带来了新的机遇与挑战。

2大数据挖掘与分析的意义

在大数据处理的过程中,数据分析是核心,因为大数据的价值全部在数据分析过程中产生。互联网、硬件等技术迅猛发展,加深了人们对数据分析的需求。如果大数据是一种产业,赚钱的重点在于如何提高数据的分析能力,通过分析发现数据的更多潜在的价值。在大数据时代,数据分析是数据价值发现的最重要环节,也是决策的决定性元素。传统的数据分析主要针对结构化数据,且已经形成一整套非常有效果的分析体系。但是在大数据时代,半结构化和非结构化数据量的快速增长,给传统的分析技术带来了巨大的挑战和冲击。大数据分析于传统数据分析有哪些区别呢?

3大数据挖掘与分析的关键技术

大数据挖掘与分析的关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据实时处理、大数据可视化和应用等。

3.1大数据采集技术大数据采集一般分为大数据智能感知层和基础支撑层。智能感知层重点攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。基础支撑层重点攻克提供大数据服务平台所需的虚拟服务器、数据库及物联网络资源等处理技术。

3.2大数据预处理大数据预处理是指在大数据挖掘前期对大数据进行的一些提前处理。预处理包括数据清理、数据集成、数据变换和数据归约等几种方法(表1)。大数据的特点是数据量大,但并没有增加数据价值,相反增多了数据噪音,有很多数据放在存储器里就没再用过。数据量的突然增加,各种媒体数据被任意碎片化。在应对处理大数据的技术挑战中,大数据的降噪与清洗技术值得高度重视。早期主要是结构化数据的挖掘,可从数据库中发现时序知识、关联知识和分类知识等。在大数据时代,数据库已经不能满足人们的需求了。大数据中数据类型繁多,我们进入了一个非结构化数据挖掘时代。因此,非结构化数据模型是大数据预处理的重要研究方向。

3.3大数据管理大数据不断地从复杂的应用系统中产生,并且将会以更多、更复杂、更多样化的方式持续增长。多样化的物联网传感设备不断地感知着海量的具有不同格式的数据。物联网系统中大数据的复杂化和格式多样化,决定了物联网系统中针对大数据的应用场景和服务类型的多样化,从而要求物联网大数据管理系统必须采用特定技术来处理各种格式的大数据,而现在针对特定数据类型和业务的系统已经无法满足多样化需求,因此,设计新的具有可扩展性的系统架构已经成为大数据管理的研究热点。

3.4大数据实时处理根据大数据速度快的特点,时间越长,数据的价值也在不断衰减,因此很多领域需要对数据进行实时处理。大数据时代,伴随着各种应用场景的数据分析从离线转向了在线,实时处理的需求不断提高。大数据的实时处理面临着一些新的挑战,主要体现在数据处理模式和算法的选择及改进。

3.5大数据可视分析大数据可视分析是指在大数据自动挖掘的同时,融合计算机的计算能力和人的认知能力,利用人机交互技术和可视化界面,获得大规模复杂数据集的分析能力。在大数据时代,大数据可视化是必须尽快解决的关键问题,为大数据服务的研究指明了方向。

4结语

传统数据处理方法已经不能满足大数据挖掘与分析的需求。近年来,大数据挖掘与分析领域已经出现了很多新技术,并成为大数据采集、存储、处理和呈现的坚实基础。但是对大数据分析的价值尚缺少深入的理解,大数据分析中的很多重要技术还不成熟,还有很多其他关键技术难题需要去继续研究。

参考文献

[1]韩晶.大数据服务若干关键技术研究[D].北京邮电大学博士学位论文,2013.

[2]程学旗,靳小龙,王元卓等.大数据系统和分析技术综述[J].软件学报,2014,25(09):1889-1908.

[3]任磊,杜一,马帅等.大数据可视分析综述[J].软件学报,2014,25(09):1909-1936.

[4]McKinseyGlobalInstitute。Bigdata:Thenextfrontierforinnovation,competition,andproductivity[J],2011.

[5]孟小峰,慈祥,等.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,25(1):146-169。

数据挖掘技术研究范文第7篇

关键词:空间数据挖掘;地理信息系统;研究分析

随着数据采集技术的成熟和普及,大量的空间数据通过遥感、地理信息系统、多媒体系统、医学和卫星图像等多种形式汇集成庞大而丰富的信息源。面对庞杂、繁多的数据类型,空间数据挖掘技术应运而生,并在地理信息系统、遥感勘测、图像处理、交通管理、环境研究等领域得到广泛应用。

1 空间数据挖掘研究概述

空间数据挖掘(spatial Data Mining,简称SDM),是指从空间数据库中提取用户感兴趣的空间模式、普遍关系、数据特征的过程。空间数据挖掘技术综合数据挖掘技术与空间数据库技术,可用于对空间数据的理解、空间关系和空间与非空间关系的发现、空间知识库的构造以及空间数据库的重组和查询的优化等,其根本目标是把大量的原始数据转换成有价值的知识,发现大量的地学信息中所隐含的规则。

空间数据挖掘是计算机技术、数据库应用技术和管理决策支持技术等多学科交叉发展的新兴边缘学科,一般来说,空间数据挖掘可分成空间分类、空间聚类、空间趋势分析和空间关联规则四类。空间分类的目的是在空间数据库对象的空间属性和非空间属性之间发现分类规则,是近年来空间数据挖掘领域中比较活跃的一个方向,常用的方法是决策树。空间聚类是在一个比较大的多维数据集中根据距离的度量找出簇或稠密区域,目前提出的空间聚类方法有基于分割的方法、基于层次的方法、基于密度的方法和基于棚格的方法。空间趋势分析指离开一个给定的起始对象时非空间属性的变化情况,例如,当离城市中心越来越远时经济形势的变化趋势,空间趋势分析需要使用回归和相关的分析方法。空间关联规则是指空间邻接图中对象之间的关联,空间关联挖掘多采用逐步求精的优化思想,即首先用一种快速的算法粗略地对初始空间数据库进行一次挖掘,然后再在裁剪过的数据库上用代价高的算法进行进一步精化挖掘。

空间数据挖掘过程一般可分为数据筛选(消除原始数据的噪声或不一致数据)、数据集成(将多种数据源组合在一起)、数据选择(根据用户的要求从空间数据库中提取与空间数据挖掘相关的数据)、数据变换(将数据统一成适合挖掘的形式)、空间数据挖掘(运用选定的知识发现算法,从数据中提取用户所需的知识)、模式评估(根据某种兴趣度度量并识别表示知识的真正有趣的模式),知识表示(使用可视化技术和知识表示技术,向用户提供挖掘的知识)等阶段(见图1)。空间数据挖掘实际上是一个“人引导机器,机器帮助人”的交互理解数据的过程。

2 空间数据挖掘在GIS中的应用

空间数据挖掘技术与地理信息系统(GIS)的结合具有非常广泛的应用空间。数据挖掘与GIs集成具有三种模式:其一为松散耦合式,也称外部空间数据挖掘模式,这种模式基本上将GIS当作一个空间数据库看待,在G IS环境外部借助其它软件或计算机语言进行空间数据挖掘,与GIS之间采用数据通讯的方式联系。其二为嵌入式,又称内部空间数据挖掘模式,即在GIs中将空间数据挖掘技术融合到空间分析功能中去。第三为混合型空间模型法,是前两种方法的结合,即尽可能利用GIS提供的功能,最大限度的减少用户自行开发的工作量和难度,又可以保持外部空间数据挖掘模式的灵活性。

利用空间数据挖掘技术可以从空间数据库中发现如下几种主要类型的知识:普遍的几何知识、空间分布规律、空间关联规律、空间聚类规则、空间特征规则、空间区分规则,空间演变规则、面向对象的知识。目前,这些知识已比较成熟地应用于军事、土地、电力、电信、石油和天然气、城市规划、交通运输、环境监测和保护、110和1 20快速反应系统等资源管理和城市管理领域。在市场分析、企业客户关系管理、银行保险、人口统计、房地产开发、个人位置服务等领域也正得到广泛关注与应用,实际上,它正在深入到人们工作和生活的各个方面。

3 空间数据挖掘面临的问题

(1) 多数空间数据挖掘算法是由一般的数据挖掘算法移植而来,并没有考虑空间数据存储、 处理及空间数据本身的特点。空间数据不同于关系数据库中的数据,它有其特有的空间数据访问方法,因而传统的数据挖掘技术往往不能很好地分析复杂的空间现象和空间对象。

(2) 空间数据挖掘算法的效率不高,发现模式不精练。面对海量的数据库系统,在空间数据挖掘过程中出现不确定性、错误模式的可能性和待解决问题的维数都很大,不仅增大了算法的搜索空间,也增加了盲目搜索的可能性。因而必须利用领域知识发现、去除与任务无关的数据,有效地降低问题的维数, 设计出更有效的知识发现算法。

(3) 没有公认的标准化空间数据挖掘查询语言。数据库技术飞速发展的原因之一就是数据库查询语言的不断完善和发展,因此,要不断完善和发展空间数据挖掘就必须发展空间数据挖掘查询语言。为高效的空间数据挖掘奠定基础。

(4) 空间数据挖掘知识发现系统交互性不强,在知识发现过程中很难充分有效地利用领域专家知识,用户不能很好掌控空间数据挖掘过程。

(5) 空间数据挖掘方法和任务单一,基本上都是针对某个特定的问题,因而能够发现的知识有限。

(6) 空间数据挖掘与其他系统的集成不够,忽视了GIS在空间知识发现过程中的作用。一个方法和功能单一的空间数据挖掘系统的适用范围必然受到很多限制,目前开发的知识系统仅局限于数据库领域,如果要在更广阔的领域发现知识,知识发现系统就应该是数据库、知识库、专家系统、决策支持系统、可视化工具、网络等多项技术集成的系统。

上述问题使得从空间数据库中提取知识比从传统的关系数据库中提取知识更为困难,这给空间数据挖掘研究带来了挑战。因此,空间数据挖掘在未来的发展中,还有很多理论和方法有待深入研究。

4 空间数据挖掘的发展趋势

(1)空间数据挖掘算法和技术的研究。空间关联规则挖掘算法、时间序列挖掘技术、空间同位算法、空间分类技术、空间离群算法等是空间数据挖掘研究的热点,同时提高空间数据挖掘算法的效率也很重要。

(2) 多源空间数据的预处理。空间数据内容包括数字线划数据、影像数据、数字高程模型和地物的属性数据,由于其本身的复杂性与数据采集的困难,空间数据中不可避免地存在着空缺值、噪声数据及不一致数据,多源空间数据的预处理就显得格外重要。

(3)其他各种空间数据挖掘及其相关技术研究。如网络环境下的空间数据挖掘、可视化数据挖掘、栅格矢量-体化空间数据挖掘、背景知识概念树的自动生成、基于空间不确定性(位置、属性、时问等) 的数据挖掘、递增式数据挖掘、多分辨率及多层次数据挖掘、并行数据挖掘、遥感图像数据库的数据挖掘、多媒体空间数据库的知识发现等。

5 小结

数据挖掘技术研究范文第8篇

1 空间数据挖掘研究概述

空间数据挖掘(spatial Data Mining,简称SDM),是指从空间数据库中提取用户感兴趣的空间模式、普遍关系、数据特征的过程。空间数据挖掘技术综合数据挖掘技术与空间数据库技术,可用于对空间数据的理解、空间关系和空间与非空间关系的发现、空间知识库的构造以及空间数据库的重组和查询的优化等,其根本目标是把大量的原始数据转换成有价值的知识,发现大量的地学信息中所隐含的规则。

空间数据挖掘是计算机技术、数据库应用技术和管理决策支持技术等多学科交叉发展的新兴边缘学科,一般来说,空间数据挖掘可分成空间分类、空间聚类、空间趋势分析和空间关联规则四类。空间分类的目的是在空间数据库对象的空间属性和非空间属性之间发现分类规则,是近年来空间数据挖掘领域中比较活跃的一个方向,常用的方法是决策树。空间聚类是在一个比较大的多维数据集中根据距离的度量找出簇或稠密区域,目前提出的空间聚类方法有基于分割的方法、基于层次的方法、基于密度的方法和基于棚格的方法。空间趋势分析指离开一个给定的起始对象时非空间属性的变化情况,例如,当离城市中心越来越远时经济形势的变化趋势,空间趋势分析需要使用回归和相关的分析方法。空间关联规则是指空间邻接图中对象之间的关联,空间关联挖掘多采用逐步求精的优化思想,即首先用一种快速的算法粗略地对初始空间数据库进行一次挖掘,然后再在裁剪过的数据库上用代价高的算法进行进一步精化挖掘。

空间数据挖掘过程一般可分为数据筛选(消除原始数据的噪声或不一致数据)、数据集成(将多种数据源组合在一起)、数据选择(根据用户的要求从空间数据库中提取与空间数据挖掘相关的数据)、数据变换(将数据统一成适合挖掘的形式)、空间数据挖掘(运用选定的知识发现算法,从数据中提取用户所需的知识)、模式评估(根据某种兴趣度度量并识别表示知识的真正有趣的模式),知识表示(使用可视化技术和知识表示技术,向用户提供挖掘的知识)等阶段(见图1)。空间数据挖掘实际上是一个“人引导机器,机器帮助人”的交互理解数据的过程。

2 空间数据挖掘在GIS中的应用

空间数据挖掘技术与地理信息系统(GIS)的结合具有非常广泛的应用空间。数据挖掘与GIs集成具有三种模式:其一为松散耦合式,也称外部空间数据挖掘模式,这种模式基本上将GIS当作一个空间数据库看待,在G IS环境外部借助其它软件或计算机语言进行空间数据挖掘,与GIS之间采用数据通讯的方式联系。其二为嵌入式,又称内部空间数据挖掘模式,即在GIs中将空间数据挖掘技术融合到空间分析功能中去。第三为混合型空间模型法,是前两种方法的结合,即尽可能利用GIS提供的功能,最大限度的减少用户自行开发的工作量和难度,又可以保持外部空间数据挖掘模式的灵活性。

利用空间数据挖掘技术可以从空间数据库中发现如下几种主要类型的知识:普遍的几何知识、空间分布规律、空间关联规律、空间聚类规则、空间特征规则、空间区分规则,空间演变规则、面向对象的知识。目前,这些知识已比较成熟地应用于军事、土地、电力、电信、石油和天然气、城市规划、交通运输、环境监测和保护、110和1 20快速反应系统等资源管理和城市管理领域。在市场分析、企业客户关系管理、银行保险、人口统计、房地产开发、个人位置服务等领域也正得到广泛关注与应用,实际上,它正在深入到人们工作和生活的各个方面。

3 空间数据挖掘面临的问题

(1) 多数空间数据挖掘算法是由一般的数据挖掘算法移植而来,并没有考虑空间数据存储、处理及空间数据本身的特点。空间数据不同于关系数据库中的数据,它有其特有的空间数据访问方法,因而传统的数据挖掘技术往往不能很好地分析复杂的空间现象和空间对象。

(2) 空间数据挖掘算法的效率不高,发现模式不精练。面对海量的数据库系统,在空间数据挖掘过程中出现不确定性、错误模式的可能性和待解决问题的维数都很大,不仅增大了算法的搜索空间,也增加了盲目搜索的可能性。因而必须利用领域知识发现、去除与任务无关的数据,有效地降低问题的维数,设计出更有效的知识发现算法。

(3) 没有公认的标准化空间数据挖掘查询语言。数据库技术飞速发展的原因之一就是数据库查询语言的不断完善和发展,因此,要不断完善和发展空间数据挖掘就必须发展空

间数据挖掘查询语言。为高效的空间数据挖掘奠定基础。

(4) 空间数据挖掘知识发现系统交互性不强,在知识发现过程中很难充分有效地利用领域专家知识,用户不能很好掌控空间数据挖掘过程。

(5) 空间数据挖掘方法和任务单一,基本上都是针对某个特定的问题,因而能够发现的知识有限。

(6) 空间数据挖掘与其他系统的集成不够,忽视了GIS在空间知识发现过程中的作用。一个方法和功能单一的空间数据挖掘系统的适用范围必然受到很多限制,目前开发的知识系统仅局限于数据库领域,如果要在更广阔的领域发现知识,知识发现系统就应该是数据库、知识库、专家系统、决策支持系统、可视化工具、网络等多项技术集成的系统。

上述问题使得从空间数据库中提取知识比从传统的关系数据库中提取知识更为困难,这给空间数据挖掘研究带来了挑战。因此,空间数据挖掘在未来的发展中,还有很多理论和方法有待深入研究。

4 空间数据挖掘的发展趋势

(1)空间数据挖掘算法和技术的研究。空间关联规则挖掘算法、时间序列挖掘技术、空间同位算法、空间分类技术、空间离群算法等是空间数据挖掘研究的热点,同时提高空间数据挖掘算法的效率也很重要。

(2) 多源空间数据的预处理。空间数据内容包括数字线划数据、影像数据、数字高程模型和地物的属性数据,由于其本身的复杂性与数据采集的困难,空间数据中不可避免地存在着空缺值、噪声数据及不一致数据,多源空间数据的预处理就显得格外重要。

(3)其他各种空间数据挖掘及其相关技术研究。如网络环境下的空间数据挖掘、可视化数据挖掘、栅格矢量-体化空间数据挖掘、背景知识概念树的自动生成、基于空间不确定性(位置、属性、时问等) 的数据挖掘、递增式数据挖掘、多分辨率及多层次数据挖掘、并行数据挖掘、遥感图像数据库的数据挖掘、多媒体空间数据库的知识发现等。

5 小结

数据挖掘技术研究范文第9篇

关键词:数据挖掘技术;数据显示;处理器开发

1数据挖掘技术的应用特点

数据是软件开发以及功能实现的重要部分,经过开发人员对系统的整合研究,使用者可以轻松的在数据中发现有用信息,并对有用信息进行挖掘,通过这种方法可以更好的解决功能隐患冲突问题,无论是系统控制还是功能实现,都能够达到更理想的使用效果。在对信息进行整合时。数据挖掘系统也能够发现深层次的安全隐患,对数据做出进一步处理,在此方法下数据显示处理器可以得到安全防护,以免在后续的使用中出现功能上的冲突矛盾,这也是提升处理器运行效率的有效技术方法。应用该挖掘系统在技术方面创新性得到了很大的提升,如果不能合理的对数据显示处理器功能进行整合,可能会造成数据挖掘系统中的部分功能闲置,最终影响到工作计划的稳定落实。下面文章将针对数据挖掘系统应用在显示处理器开发中的具体形式进行介绍,结合使用功能完善方面来进行。

2数据挖掘流程

从数据本身来考虑,数据挖掘通常需要有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘实施过程、模式评估和知识表示8个步骤。步骤(1)信息收集:根据确定的数据分析对象,抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法,将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存储和管理的数据仓库是至关重要的。步骤(2)数据集成:把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而提供全面的数据共享。步骤(3)数据规约:如果执行多数的数据挖掘算法,即使是在少量数据上也需要很长的时间,而做商业运营数据挖掘时数据量往往非常大。数据规约技术可以用来得到数据集的规约表示,它小得多,但仍然接近于保持原数据的完整性,并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。步骤(4)数据清理:在数据库中的数据有一些是不完整的(有些感兴趣的属性缺少属性值)、含噪声的(包含错误的属性值),并且是不一致的(同样的信息不同的表示方式),因此需要进行数据清理,将完整、正确、一致的数据信息存入数据仓库中。不然,挖掘的结果会差强人意。步骤(5)数据变换:通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。对于有些实数型数据,通过概念分层和数据的离散化来转换数据也是重要的一步。步骤(6)数据挖掘过程:根据数据仓库中的数据信息,选择合适的分析工具,应用统计方法、事例推理、决策树、规则推理、模糊集,甚至神经网络、遗传算法的方法处理信息,得出有用的分析信息。步骤(7)模式评估:从商业角度,由行业专家来验证数据挖掘结果的正确性。步骤(8)知识表示:将数据挖掘所得到的分析信息以可视化的方式呈现给用户,或作为新的知识存放在知识库中,供其他应用程序使用。如图1所示。

3数据显示处理器概述

数据显示处理器可以归结为网络社区类软件,运行环境支持Android操作系统。可以建立自定义的数据收集格式传输到网络上,可打印报告、图表和进行即时数据分析。应用范围广泛,形式多样。

4数据显示处理器开发过程中挖掘技术的应用

4.1数据挖掘技术应用过程

运用数据挖掘技术首先会针对数据信息的采集范围进行定义,在此基础上探讨更有效的管理方法,并帮助进一步提升工作任务的完成效果,针对一些比较常见的数据资源限制现象,在确定功能基础上进行全面定义分析。数据挖掘技术是对传统处理器开发技术的一次创新,其特点是在运算速度上有明显的提升,可以在短时间内确定数据库中的有用信息并通过挖掘筛选来将其应用在程序汇编中,应用需要配合程序汇编语言来进行,这种方法下才更具有使用效率。将整体显示系统的设计分为若干个部分,对每一部分的功能做出设计,在考虑独立部分的运行情况时还要从整体层面来入手,确保最终的显示处理器能够更好地配合,在使用效率上得到明显提升,以免存在功能上的冲突导致部分现场使用功能不能实现。数据前期挖掘整合全部完成后,可以进入到后期的功能框架组合阶段,根据显示处理器使用方向来对现场工作做出进一步完善。

4.2目标定义与数据准备

接下来需确定数据挖掘所针对的主体,确定目标范围后,数据挖掘可以节省大量时间。数据显示处理器在开发中会根据未来的使用需求来对其数据库进行完善,达到理想的运行使用效果,因此定义与数据准备成为了开展显示器开发的首步骤,将有用信息筛选整合后,设置一个用于开发的临时数据库,其内部存储信息全部为系统功能设计所需要的。对于数据的比较分析,可以将数学算法与计算机系统相结合来进行,通过运算来确定数据信息是否是有用的,数据准备就绪后在接下来的开发应用中能够快速的从数据库中对其进行提取,帮助节省更多时间,这也是提升工作效率的有效方法。将其作为设计进行的首要步骤,那么接下来的设计任务也都是在此基础上进行,所准备的数据会应用在后续程序开发中,目前数据挖掘技术在一些大型系统开发研究中得到了广泛的应用,可以在短时间内完成基础框架的建设,这也是提升设计效果的有效措施方法。

4.3开发的结果解释与评估

数据挖掘结果需与数据库内的信息做出比较,即使是自动完成评估任务的,最终所得到的结果中仍然容易出现误差,这也是影响结果的主要原因,在此环境下所开展的各项评估任务要在额定数据范围内依次进行,通过这种评估解释能够帮助再次确定数据库中的有用信息,并为后续建设管理计划开展创造有利条件。数据库管理可以基于网络环境下进行,虽然管理效率得到了提升,但同时所面对的风险问题也因此而增多,这也决定了结果解释与评估在现场开展更加重要。评估时间确定也是十分重要的,可能会影响到最终的工作任务完成效果,对于一些比较常见的功能隐患问题,通过这种方法解释与评估的进行,可以帮助筛选出信息中不合理或者误差比较大的部分,方便对接下来的开发研究方向进行调整,确保显示处理器功能正常实现的前提下,在数据信息的稳定性上也得到了保障,这也是传统方法中所不具备的,是未来设计研发的主流方向。

5结语

如何才能从数据中提取有价值的知识,进一步提高信息量利用率,这需要新的技术来自动、智能和快速地分析海量的原始数据,以使数据得以充分利用,由此引发了一个新的研究方向:数据挖掘与知识发现的理论与技术研究。数据挖掘技术在分析大量数据中具有明显优势,基于数据挖掘的分析技术在金融、保险、电信等有大量数据的行业已有着广泛的应用。数据挖掘技术的运用还需要进一步加强研究。参考文献[1]杨振舰.可视化数据挖掘技术在城市地下空间GIS中的应用研究[D].河北工业大学,2012(10).[2]冯变玲.基于数据挖掘技术的心脑血管用药ADR关联模型构建研究[D].天津大学,2012(05).奏具有一定的唯一性。通过对文本中存在的语言节奏进行分析,得知语言节奏是在时间序列上展开的,一篇文章中某一时刻语言节奏标记或者语言节奏单元的出现,是与之前所有出现过的语言节奏标记和语言节奏单元概率相关的。因而,可以将语言节奏视为一个Markov过程,并进一步提取语言节奏的特征。由于每一类语言节奏中的节奏标记是有限的,所以在语言节奏Markov的过程中存在的状态也是有限的,因此,状态转移矩阵的规模就不会很大,对于文本分析的工作是非常有利的,至此完成了语言节奏特征的提取过程。

作者:郭崇 单位:辽宁工业大学管理学院

参考文献

[1]郭庆琳,李艳梅,唐琦.基于VSM的文本相似度计算的研究[J].计算机应用研究,2008(11):3256-3258.

[2]金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005(2):291-297.

[3]杨华,姬东鸿,陈波.基于话题相关的文档集的无向基本要素网络的连通性探讨[J].中文信息学报,2015(4):103-110.

[4]邓莎莎.支持决策研讨的文本分析方法研究[D].上海交通大学,2013.

[5]陈钒.语言节奏提取及其在文本分析中的应用[D].天津大学,2011.

数据挖掘技术研究范文第10篇

当前,数据库技术和网络技术的发展日趋成熟,世界上传统商务也正在经历一次重大的改革,电子商务成为发展重点。电子商务的一个重要应用技术就是数据挖掘技术,并且数据挖掘技术可以给正确的商业决定提供可靠的保证和强有力的支持,因此,数据挖掘技术被认为是电子商务中必不可少的工具。

一、数据挖掘技术的概念和应用

数据挖掘就是对数据仓库中存储的大量数据进行挖掘,来找出有意义的新的关联趋势和关联模式的过程。从商业的角度看,数据挖掘技术是一个对商业信息进行处理的新技术,具有能够分析、转换、抽取和其他模型化处理商业数据库中大量业务数据,从中提取出能够辅助商业决定的关键性数据的特点。

因为数据挖掘可以给电子商务带来显著的经济效益,所以其在电子商务中也有越来越广泛的应用。

数据挖掘应用于零售业,能够帮助商家识别顾客的购买行为,发现顾客的购买趋势和模式,从而可以帮助商家有针对性的提高服务质量,获得更好的顾客满意度与顾客保持力,提高货物的销量,设计出更好的货物分销与运输方法,降低商业成本。

数据挖掘应用于金融领域,能够帮助管理者分析客户的信用情况与偿还能力,并对其进行分类和评级,从而降低放贷的错误率,提升资金的使用效率。通过数据挖掘,还可以找到在偿还中有决定作用的主导因素,制定相应的金融策略,还能够发现洗黑钱和其它金融犯罪活动。

二、如何选择正确的数据挖掘技术

数据库方法、神经网络方法、机器学习方法和统计方法都是数据挖掘所使用的技术。本文将从可获得的数据与数据挖掘任务两个方面来说明如何选择正确的数据挖掘技术。

2.1 可获得的数据

数据挖掘可获得的数据信息主要是内容、记录和字段类型之间的关系,并且对数据挖掘技术的选择有影响的数据性质有以下几个:

第一,数值字段:聚集检测和MBR使用距离函数对数值字段进行处理;神经元网络把所有的输入转化到0-1之间;决策树使用splitter数值对数值字段进行处理;关联分析需要把数值变量区间转化为种类变量区间,但是区间的选择十分困难。

第二,种类字段:决策树、连接分析、关联分析都很适用于种类字段。

第三,多个非独立的目标字段:神经元网络可以很好地应用于存在多个依赖变量的情况。

第四,自由文本数据:采用MBR技术是最佳选择。

第五,具有时间顺序的数据:关联规则、神经元网络对有时间顺序的数据有比较好的处理能力。时间顺序也可以用决策树处理,但是需要准备较多的数据。

第六,每条记录都有大量独立的字段:关联规则挖掘、MBR技术、神经元网络都会受到记录中字段多的影响。但是决策树就会受到程度较小的影响。

第七,变长的记录:只有连接分析和关联规则能够对变长的记录进行处理,而如果使用其它技术,就需要对数据进行预处理:把一条记录拆分为几条记录,每个都含有记录号;能够生成一些统计字段。

2.2 数据挖掘任务

从数据中发现模式是数据挖掘的任务。在对某种数据挖掘技术进行选择之前,第一,要把需要解决的商业问题转化成正确的数据挖掘任务;第二,依照数据挖掘的任务来决定使用几种或者是哪一种数据挖掘技术。以下将以聚集和概念描述为例,对挖掘任务需要使用哪些挖掘技术进行分析。

(1)聚集。聚集就是把整个数据库分为不同的群组。其目的是使同一个群之间的数据尽量相似,而不同的群之间要有很明显的差别。协助市场分析人员在客户基本信息库中找出不同的客户群,并用购买模式对不同客户群的特征进行刻画是电子商务中对聚集的典型应用。另外,聚类分析也能作为分类、特征等其他算法的预处理步骤,这些算法可以再在生成的簇上进行处理。聚集与分类不同的是,在开始之前一般不知道该把数据分成几组和怎样分,所以要有一个对业务特别熟悉的人在聚集之后对这样分群的意义进行解释。一般情况下,需要经过几次反复的增加或删除变量才能得到理想的结果。

(2)概念描述。描述式数据挖掘的最基本形式就是概念描述。概念描述以简洁汇总的形式对给定的任务的相关数据集进行描述,提供数据的一般特征。一般,通过数据库来查询收集用户指定类的数据。有两种概念特征化的一般方法:面向属性归纳的方法和基于数据立方体OLAP的方法,这两种方法都是基于维或属性的概念化方法。一般使用面向数据库的方法实行概念描述挖掘,并且还能够采用机器学习方法中的基于范例学习的技术来进行。

三、小结

选择能够解决电子商务中一些问题的数据挖掘技术的时候,需要根据具体问题的特点来选择合适的技术方法,在选择了符合数据模型的算法之后,就要确定正确的模型与参数。并且要想很好的发挥数据挖掘能够帮助企业在激烈的竞争中做出正确决定的作用,就必须选对合适的数据挖掘工具。

参考文献

[1]胡永祥.电子商务系统中的数据挖掘技术研究[J].电子世界,2013,(24):25-25.

[2]徐羡文,郑厦君.数据挖掘技术在电子商务推荐中的应用[J].电脑知识与技术,2011,07(27):65-66.

[3]杨波.浅谈数据挖掘技术应用[J].电脑知识与技术,2010,06(24):82-83.

上一篇:微观经济学范文 下一篇:数据挖掘技术探讨论文范文

友情链接