数据挖掘技术应用范文

时间:2023-03-11 09:08:37

数据挖掘技术应用

数据挖掘技术应用范文第1篇

关键词:数据挖掘;数据集;数据挖掘算法

0 引言

随着信息科技的进步以及电子化时代的到来,现代信息社会中数据和数据库呈现爆炸式增长。面对浩瀚的数据海洋,如何从这些庞大的数据中找出它们之间存在的“潜伏”的关系和规则,进而根据这些关系和规则预测未来的发展趋势,已经成为二十一世纪探索的热点问题。

数据挖掘(Data Mining)技术的诞生,为解决这一问题提供了可以参考的方法,是开发信息资源的一种新的数据处理技术。它不仅能对过去的数据进行查询,而且能够找出过去数据之间的潜在联系,进行更高层次的分析,以便更好地解决决策、预测等问题。

1 数据挖掘概述

数据挖掘就是从大型数据集(可能是不完全的、有噪声的、不确定性的、各种存储形式的)中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。数据挖掘的目的是为了从这些数据中抽取一些有价值的知识或信息,提高信息利用率。

数据挖掘主要有以下对象:

(1)关系型数据库、事务型数据库、面向对象的数据库;

(2)数据仓库/多维数据库;

(3)空间数据(如地图信息);

(4)工程数据(如建筑、集成电路的信息);

(5)文本和多媒体数据(如文本、图象、音频、视频数据);

(6)时间相关的数据(如历史数据或股票交换数据);

(7)万维网(如半结构化的HTML,结构化的XML以及其他网络信息)。

数据挖掘的步骤一般会因不同的实际应用情况而有所变化,其过程就是用一定的数据挖掘算法从给定的数据库中提取模型,以及围绕数据挖掘所进行的预处理和结果表达等一系列的步骤,是一个需要经过反复的多次处理的过程。图1显示的是数据挖掘过程,主要由以下步骤组成:

(1)数据清理(消除噪音或不一致数据);

(2)数据集成(多种数据源可以组合在一起);

(3)数据选择(从数据库中提取与分析任务相关的数据);

(4)数据变换(数据变换或统一成适合挖掘的形式;如通过汇总或聚集操作);

(5)数据挖掘(基本步骤,使用智能方法提取数据模式);

(6)模式评估(根据某种兴趣度度量,识别提供知识的真正有趣的模式);

(7)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。

例如,应用数据挖掘算法中聚类分析的方法,可以在城市规划的过程中,根据类型、价格、地理位置等来划分不同类型的住宅。具体使用哪种数据挖掘算法,要根据具体情况和应用要求而定。一种数据挖掘算法可能在一种情况下适用,而在另一种情况下就不适用。在特定的应用环境下,应找出最适用的数据挖掘算法,并加以实施。

3 数据挖掘的应用

3.1 数据挖掘在零售业中的应用

由于零售业便于搜集大量的销售数据、顾客购物记录、货物运送、消费模式和服务记录等特点,使其成为数据挖掘的主要应用领域。

零售商们采用数据仓库使他们有更好的机会运用数据挖掘技术。通过数据挖掘,零售商们可以了解销售全局、对商品分组布局、降低库存成本、分析销售市场趋势,从而更加有效地对商品进行促销。大型的零售连锁店和杂货店用大量的“信息丰富” 的销售数据,通过数据挖掘揭示一些没有发现的“隐藏关系”,其中最著名的啤酒和尿布的故事即是数据挖掘在零售业中典型的应用。

3.2 数据挖掘在体育竞技中的应用

先进信息技术的运用是美国NBA职篮联盟成功的众多因素中非常重要的一个。例如,魔术队教练利用IBM公司开发的数据挖掘应用软件Advanced Scout,对不同的队员布阵时的相对优势进行了系统的分析,并根据分析结果取得了对迈阿密热队4连胜的战绩。

3.3 数据挖掘在企业中的应用

数据挖掘在企业信息处理中的应用是一个将信息转化为企业商业知识的过程。它主要用于企业的客户关系管理、市场分析、营销策略和趋势预测等方面。

数据挖掘技术已经广泛应用在美国银行和金融领域中。例如用数据挖掘工具Marksman可以分析消费者的赊账卡、家庭贷款、投资产品以及储蓄等信息,并对客户进行分类,从而预测何时哪类产品最适合哪类客户,因而被美国Firstar等银行使用。此外,近年来数据挖掘技术在信用记分的研究和应用方面也取得了很大的进步。银行利用Credit Scoring技术对客户的一些信息(如基本资料、资产以及以往信用等)进行分析、评估,做出最有利的决定。

数据挖掘在电信行业中的应用也很广泛。它可以帮助电信企业制定合理的电话收费和服务标准、针对特别的客户群的优惠政策、防止费用欺诈等。

3.4 数据挖掘在科学探索中的应用

随着数据挖掘技术的不断发展和完善,已经逐步应用到尖端科学的探索中。数据挖掘技术在生物学中的应用主要集中于分子生物学特别是基因工程的研究上。通过用计算生物分子系列分析方法,尤其是基因数据库搜索技术已在基因研究上做出了很多重大发现。

SKICAT(Sky Image Cataloging and Analysis Tool)是天文学上一个非常著名的系统。该系统使用数据挖掘算法中的决策树方法构造分星体类器对星体进行分类,结果使得能分辨的星体与以前的方法相比,在亮度上要低一个数量级之多,并且在效率上这种方法比以往的方法高40倍以上。

3.5 数据挖掘在信息安全中的应用

利用数据挖掘作为入侵检测的数据分析技术,把“潜伏”的安全信息从海量的安全事件数据中提取出来,抽象出有利于进行判断和比较的与安全相关的普遍特征,进而发现不确定的入侵行为,并作出判断、决策(如图3)。相对于传统的入侵检测分析技术,数据挖掘具有良好的自适应性、误警率低且能减轻数据过载,大大提高了检测和响应的效率和速度。

图3 数据挖掘方法的入侵检测系统流程图数据挖掘这一新兴技术至今已经在商业、银行、金融、制造业、互联网络、教育、科学研究等领域广泛应用,并且给我们的社会和生活带来了极大的改观。

参考文献

[1]Margaret H.Dunham: DATA MINING Introductory and Advanced Topics[M].北京:清华大学出版社,2003.

[2]Mehmed Kantardzic: DATA MINING Concepts,Models,Methods,and Algorithms[M].北京:清华大学出版社,2003.

[3]梁循.数据挖掘算法与应用[M].北京:北京大学出版社,2006.

[4]毛国君,段立娟,王石等.数据挖掘原理与算法[M].北京:清华大学出版社,2005.

数据挖掘技术应用范文第2篇

【关键词】 数据挖掘 大数据 分析方法 应用领域

一、数据挖掘

数据挖掘是一门新兴的学科,它诞生于20世纪80年代,主要面向商业应用的人工智能研究领域。从技术角度看,数据挖掘就是从大量的、复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先没有发觉的、有潜在价值的信息和知识的过程。

从商业角度来说,数据挖掘就是从庞大的数据库中抽取、转换、分析一些潜在规律和价值,从中获取辅助商业决策的关键信息和有用知识。

二、数据挖掘的基本分析方法

分析方法是数据挖掘的核心工作,通过科学可靠的算法才能实现数据的挖掘,找出数据中潜在的规律。通过不同的分析方法,将解决不同类型的问题,在现实中针对不同的分析目标,找出相对应的方法。

目前常用的分析方法主要有聚类分析、分类和预测、关联分析等。

2.1聚类分析

聚类分析就是将物理或抽象对象的集合进行分组,然后组成为由类似或相似的对象组成的多个分类的分析过程,其目的就是通过相似的方法来收集数据分类。它是一种无先前知识,无监督的学习过程,从数据对象中找出有意义的数据,然后将其划分在一个未知的类。这不同于分类,因为它无法获知对象的属性。“物以类聚,人以群分”,通过聚类来分析事物之间类聚的潜在规律。聚类分析广泛运用于心理学、统计学、医学、生物学、市场销售、数据识别、机器智能学习等领域。

聚类分析根据隶属度的取值范围可分为硬聚类和模糊聚类两种方法。硬聚类就是将对象划分到距离最近聚类的类,非此即彼,也就是说属于一类,就必然不属于另一类。模糊聚类就是根据隶属度的取值范围的大小差异来划分类。一个样本可能属于多个类。常见的聚类算法主要有密度聚类算法、层次聚类算法、划分聚类算法、网格聚类算法、模型聚类算法等。

2.2分类和预测

分类和数值预测是问题预测的两种主要类型。分类是预测分类(离散、无序的)标号,而预测则是建立连续值函数模型。分类是数据挖掘的重要基础,它是对已知的训练数据集表现出来的特性,获得每个类别的描述或属性来构造相应的分类器或者分类。分类是一种有监督的学习过程,它是根据训练数据集发现准确描述来划分类别。常见的分类算法主要有决策树、粗糙集、贝叶斯、遗传算法、神经网路等。预测就是根据分类和回归来预测将来的规律。常见的预测方法主要有局势外推法、时间序列法和回归分析法。

2.3关联分析

在自然界,事物之间存在着千丝万缕的联系,当某一事件发生时,可能会带动其它事件的发生。关联分析就是利用事物之间存在的依赖或关联知识来发现事物之间存在的规律性,然后通过这种规律性进行预测。如经典实例购物篮分析,就是通过分析顾客购物篮中物品的管理规律,来分析顾客的购物心理和习惯,然后根据这种规律来帮助营销人员制定营销策略。

三、大数据时代的数据挖掘的应用领域

3.1市场营销领域

市场营销是数据挖掘技术应用最早和最多的领域。通过分析和挖掘用户的消费习惯和消费特点,来提高商品的销售业绩。目前,数据挖掘在市场营销方面已经不仅仅限于超市购物等方面,已经普及到各个金融领域,如保险、电子商务、银行、电信零售等行业。利用数据挖掘技术来分析顾客的消费行为,为本行业带来潜在的客户和效益。

3.2科学研究

在科学研究中,经常需要分析各种大量的实验和观测数据,并找出相关的规律和知识。这些数据分析和挖掘都需要一定的算法,利用数据挖掘技术能科学的找出数据之间的规律以及找出我们未发现的知识。例如,对外空星体的探索、对DNA数据的分析等等。

在制造业、电信、教育领域,数据挖掘也发挥着巨大的作用,对过去政策的评估和新政策的制定都有很大的帮助。

伴随着大数据的数据管理,检索技术研究的进步,数据挖掘技术将迎来巨大的发展机遇,数据挖掘技术的应用也将更加广泛,数据挖掘的工具也将更加强大.

参 考 文 献

[1]胡天状.数据挖掘技术在教育决策支持系统中的应用[D].杭州:浙江师范大学,2002.

[2]吴文绍.甘肃省教育管理信息决策支持系统[D].兰州:兰州理工大学,2006.

[3]丁守哲.基于云计算的建筑设计行业信息系统开发模式与实现技术研究[D].合肥:合肥工业大学,2012.

[4]刘华婷,郭仁祥,姜浩.关联规则挖掘Apriori算法的研究与改进[J].计算机应用与软件,2009(1):146-149.

数据挖掘技术应用范文第3篇

关键词:数据挖掘;技术;神经网络技术

1 数据挖掘技术的方法

数据挖掘技术的方法主要分为统计、聚类和遗传分析[1]。统计方法可以满足数据库处理分析,包括:有线、非线、回归等多项统计方法;聚类方法应用于数据挖掘的内部处理,梳理内部数据的关系,基于聚类方法的存在,数据挖掘技术可以满足经济、模拟等多项数据领域的需求;遗传分析是数据挖掘方法的重点,以生物进化为导向,将重组、变异导入到数据库内,推进数据的后续发展,将后续模拟的数据,应用在现代数据库的某个部分,发挥同样作用,遗传算法高度模拟生物进化的方式,结合繁殖、基因、突变、重组的概念,引入新数据,促使数据库中新个体的形成,所以数据挖掘中的遗传算法,既可以作为数据分析的方法,也可以体现预算和评估的特点。

2 数据挖掘的技术支持

2.1 神经网络技术

神经网络主要以数学模型为主,重点针对复杂数据,快速完成数据抽取。神经网络技术处理的能力,可以超出计算机的分析水平,保障输入神经网络中的数据属于数值型,即可快速导出趋势性变化的数据。神经网络技术通过模拟大脑的神经元结构,利用MP,实现非线性规划,根据数据信息的特性,决定信息的存储位置,实现自主处理。神经网络技术在数据挖掘中,不仅可以实现数据的快速分类,还可以对数据进行模拟预测,促使数据挖掘处于优化的状态,完成难度聚类。神经网络技术的代表为RBF和BP。

2.2 决策树技术

此技术以模拟离散函数为主,借助树木模型,对实际案例进行综合分类处理。决策树的叶子,代表不同结点,而结点则是组成实例不同属性的测试,未来枝叶的分支,表示可能覆盖的属性预测[2]。决策树在根部向枝叶推进的过程中,蕴含丰富的数据挖掘,目的是得出有价值的属性信息,所以决策树理论支持数据挖掘的分析和分类,对相同属性的数据进行归类存储,进而挖掘数据分类中遵循的规则。

3 数据挖掘技术的应用领域

3.1 通信服务行业

在数据挖掘技术的带动和参与下,通信服务行业逐渐趋向于“三网融合”,即:电信、互联和电视,势必涉及诸多数据运营,数据挖掘技术可以针对三网状态,实行模式分析,挖掘商业潜能。例如:数据挖掘技术可以对通信数据进行分析,得出通信系统实时运行的参数和状态,以聚类的方式,归类系统数据,还可直接分析用户的实际行为,拓宽业务途径,同时发现发展机遇,提升通信服务行业的社会效益。

3.2 高校管理系统

数据挖掘技术在高校中的应用较为明显,例如:学生信息管理系统、教务评价系统、成绩查询系统、选课系统等,都可体现数据挖掘技术的优点。高校学生数量较多,通过数据挖掘技术,可以为学生提供一体化服务,学生在入学之际,即可将信息录入在管理系统内,整个在校期间,都可通过管理系统,查询个人信息,管理者也可以根据管理系统,快速调取学生信息,如:图书借阅、饭卡充值等,随时关注学生的信息动态[3]。高校在数据管理方面,已经实现多系统的融合发展,在数据挖掘技术的支持下,将不同功能的数据系统,兼容于统一系统,不论是学生,还是教务人员,利用独立账号、密码,都可实现个人信息管理或查询,对数据挖掘技术提供更高的发展要求。

3.3 医学领域

医学领域不仅涉及大量的信息数据,而且数据的编排、汇总非常复杂,大量数据同时出现的过程中,几乎不会出现相同数据,因此,医学领域的数据管理,具备一定难度。数据挖掘技术成功应用于医院数据管理中,特别是在病历管理、医药信息管理方面,例如:数据挖掘技术可以整合医药信息,将医药信息存储于数据库系统内,医务人员可以通过检索的方式,在管理系统内,迅速获得所需信息,避免信息筛选错误,提高信息识别的能力。由此,医务人员在信息管理和校对方面,提高操作效率,确保数据挖掘的质量。

3.4 金融行业

金融行业中的数据分类比较明确,如:信贷数据、储蓄数据等,需对数据采取合理的分配和管理。数据挖掘技术在金融行业中,为数据管理提供可靠的空间,成为管理金融数据的最佳方式[4]。数据挖掘技术具备独立分析的能力,可以在数据库中,设置多维参考点,对不同类型的数据实行严格区分,根据数据的异同性质,实行准确处理,发挥数据挖掘的优势,维持金融数据的运行。数据挖掘技术还可以根据金融数据的动态变化,有效发现影响金融活动的不良因素,防止金融行业出现数据漏洞,造成管理弊端。

综上所述,随着数据挖掘技术的发展,其在行业领域中的应用越来越广泛,为数据运行提供强大的技术支持。数据挖掘技术可以迅速获取有效信息,体现准确识别的能力,改善数据运行,因此,数据挖掘技术成为行业发展与进步的重要途径,不仅提高信息处理的能力,还可以保障信息处理的效率和价值,同时提高行业信息技术水平。

[参考文献]

[1]罗斌.数据挖掘研究进展[J].中国水运,2012(07):90-92.

[2]张昀.数据挖掘技术研究[J].软件导刊,2012(09):45-47.

[3]张惠萍.数据挖掘及其应用[J].科技咨询导报,2011(08):36-38.

数据挖掘技术应用范文第4篇

【关键词】信息时代;数据;利用;挖掘;应用

1.数据挖掘的起源

随着科学技术的日新月异,信息正在处于爆炸的时代,但是在数据庞大的背后,人们对其利用和提取的价值是有限的,有时候是不能满足现实的需要。当前大部分只是对所有的数据进行储存、统计、查询,很难找出数据背后存在的某种关系和规律,更不能对数据的未来发展进行准确的预测。这也就导致了虽然信息数据非常多但是价值却占到很少的一部分。正是因为有这种情况的产生,信息挖掘技术才会得到发展和应用。

2.数据挖掘的定义

所谓的信息挖掘通过对一些已有的数据存在不确定性、信息量大、不完整的数据进行分析提取,提取出数据背后存在的一些价值和有用的信息。通过对这些数据的分析提取为一些技术部门和相关的人员的战略决策提供很大的支持。

3.数据挖掘的过程

数据的挖掘是通过数据挖掘算法提取出数据模型,还有就是针对数据挖掘所采取的一些方法和步骤,一般都是经历几次甚至多次的处理过程。最后才会在数据上提取到其存在的潜在价值,整个过程主要包括一下几个阶段。

(1)目标定义阶段

做任何事情之前通过对将要做的事情进行计划分析,然后制定对所做这件事情需要达到的目标,这样事情就会很容易成功。数据挖掘也不例外,在对数据进行挖掘的时候,需要相关的人员了解和明确对所挖掘的数据要达到的目的,这也很大程度上会决定数据挖掘的成功与否。因此相关人员要在指定明确的目标,然后选择一定的技术手段和方式对数据进行挖掘。

(2)数据准备阶段

根据已有的数据挖掘目标,就应该对所有的数据进行分析处理,大略的挑出能达到目标的一些数据,剔除一些没有意义的数据。还有就是对数据进行一些变化,主要就是为了能够在一些有特征的数据找出符合要求的数据,减少在数据挖掘过程中需要考虑的其他因素。

(3)数据挖掘阶段

这个阶段是整个数据挖掘阶段最重要、最核心的阶段。相关的工作人员应该在已有的数据挖掘目标的基础上选择合理、科学的数据挖掘方法对数据进行挖掘,提取出数据背后隐藏的价值。

(4)数据挖掘结果解释和评估阶段

首先应该对数据挖掘出来的信息进行研究,把最终满足要求的数据提取出来。因为数据的挖掘的最终目的就是为客户服务,所以还应该针对客户的一些特殊要求对挖掘出来的数据进行提炼,经过客户对所挖掘的数据结果的评估后,将一些不满足要求的数据剔除。还有就是把挖掘的数据应该进行合理的优化使其更加人性化,给客户优质的服务。

4.数据挖掘的研究方向

(1)对于数据挖掘系统来说,其不可能对各类型的数据进行数据挖掘,因此应该针对不同类型的数据研究出不同的数据挖掘系统,这样就可以在数据挖掘时能够快速、高效的对数据进行挖掘。

(2)数据挖掘系统应该具备能够对数据进行高效率的挖掘,因为随着信息化时代的到来,数据会越来越多,越来越复杂。如果其系统不能高效的工作,会很大程度上影响到数据挖掘的整体进度。

(3)数据挖掘结果的准确性、通俗性以及有效性也是数据挖掘所需要达到的,只有这几方面都能满足要求,才会能够很好的服务客户。

(4)随着信息时代和科学技术的快速发展,人们也越来越关注到一些个人隐私。所以在对数据挖掘的过程中不应该侵犯到他人的隐私。还有就是对挖掘出来的数据有一定的安全保护措施,防止数据丢失。

(5)挖掘出来的数据也应该能够及时的和现有的数据进行结合和补充,这样就能使数据得到更广泛的应用和利用。

5.数据挖掘的应用领域

随着科技的不断发展和信息化时代的到来,数据挖掘技术也取得了一些成就,在许多行业也得到了一定的应用

(1)科学研究

因为许多科学研究的数据的大量性、复杂性使得一般的分析工具很大对数据进行分析、提取,因此数据挖掘技术在这种情况下深受科学研究方面的广大欢迎,其也在这个行业得到了快速的发展和应用。通过数据挖掘在科学研究的应用,促进了科学的快速发展,使其能够为社会提供有价值的科学成果,为国家做出贡献。

(2)风险分析和欺诈辨别

因为许多行业的数据存在具有庞大性、真假难辨性,所以对这些数据进行挖掘分析,分析出有价值、真的数据,防止因为假的数据给我们带来的不必要的麻烦。还可以经过对数据的挖掘分析提高对风险的分析能力。还有就是一些行业的数据可能被不法分子利用对人们进行欺诈,通过数据挖掘可以对这些数据进行辨别,从而避免了经济损失。

(3)制造业的应用

数据挖掘一般就是对制造业的制造部件的缺陷进行分析,通过分析挖掘出能够优化制造部件的数据,从而避免制造部件的缺陷。

(4)学校教育的应用

学校的数据也是非常庞大、复杂的,因此数据挖掘也在学校的各个信息系统得到了一定的应用。学校通过数据挖掘挖掘出对学校、老师、学生有价值的数据,从而让学校科学的管理,老师更加高效的工作和教学,学生更加高效的学习。

参考文献:

[1] Jiawei Han.Data Mining:Concepts and Techniques[M].机械工业出版社.2004

[2] 刘同明等.数据挖掘技术及其应用[J].北京:国防工业出版社.2001.(9)

[3] 康晓东.基于数据仓库的数据挖掘技术[J].北京:机械工业出版社.2004.(1):131~175

[4]李雄飞,李军.数据挖掘与知识发现[M].北京:高等教育出版社.2003.(11)

数据挖掘技术应用范文第5篇

关键词数据挖掘;Web数据挖掘;相关技术

引言

随着Internet 的进一步发展和完善,各种基于Internet的应用业务也如雨后春笋般的发展起来,例如网上商店、网上银行、远程教育、远程医疗等。我们应该看到Internet在给我们带来机遇的同时也带来了挑战,它使得WWW 上的一些主要工作, 例如Web 站点设计、Web 服务设计、Web 站点的导航设计、电子商务等工作变得更为复杂更为繁重。对于网站经营方来说,他们需要更好的自动辅助设计工具, 可以根据用户的访问兴趣、访问频度、访问时间动态的调整页面结构,改进服务, 开展有针对性的电子商务以更好的满足访问者的需求。解决这种需求的一个有利的工具就是Web 数据挖掘。

1. Web 数据挖掘概述

Web挖掘是一项综合技术,涉及Web、数据挖掘、计算机语言学、信息学等多个领域。Web挖掘就是从Web 文档、Web活动中抽取感兴趣的、潜在的有用模式和隐藏信息。Web 挖掘是指从大量Web文档结构和使用的集合C中发现隐含的模式p。如果将C看作输入,p看作输出,那么Web挖掘的过程就是从输入到输出的一个映射ξ:Cp

Web挖掘从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相类似,都是在对大量的数据进行分析的基础上,作出归纳性的推理,预测客户的行为,帮助企业的决策者调整市场策略,减少风险,作出正确的决策的过程。但是对Web 进行有效的资源和知识挖掘面临极大的挑战:(1)对有效的数据仓库和数据挖掘而言,Web 似乎太庞大了。(2)Web页面的复杂性高于任何传统的文本文件。(3) Web是一个动态性极强的信息源。(4) Web上的信息只有很小的一部分是相关的或有用的。这些挑战推动了如何有效地发现和利用Internet 的资源的研究工作。

1.1 与传统的数据挖掘相比较

1.1.1 数据源具有很强的动态性。

1.1.2 挖掘目的的模糊性。

1.1.3 数据类型的多态性。

1.1.4 数据信息的分布性、多维性。

1.2 Web 数据的特点

1.2.1 数据量巨大

Internet把分布于世界不同位置的电脑(服务器)连接了起来,每个电脑上都存有丰富的数据,这些数据涉及各种不同的行业和领域,又由于连接于Internet 的电脑数量非常巨大。

1.2.2 异构数据库环境

每一个Web站点都可以看作是一个数据源,由于各站点是相互独立的, 之间除了可以互相访问之外并没有任何关系,所以每个站点之间的信息及信息组织方式都是不相同的,这就构成了一个巨大的异构数据库环境。

1.2.3半结构化的数据结构

Web上的数据与传统数据库中的数据不同之处还在于传统数据库都有一定的模型,可以根据数据模型来对具体的数据进行描述,而Web 站点中的数据不存在统一的模型,各站点都是独自设计,并且站点中的数据是处于不停变化之中的。

2.Web数据挖掘相关技术

Web 挖掘应用非常广泛,对Web挖掘相关技术的研究也很多,针对上述不同类别的Web 挖掘,有不同的相关技术,下面分别介绍。一般地,Web挖掘可以分为三类:Web 内容挖掘(Web content mining)、Web 结构挖掘(Web structure mining)、和Web 使用模式的挖掘(Web usage mining) 。

2.1技术分类

2.1.1Web内容挖掘

Web内容挖掘是从文档内容或其描述中抽取知识的过程。主要有两种策略:直接挖掘文档的内容,或在其它工具搜索的基础上进行改进。采用第一种策略的有针对Web 的查询语言WebLOG,利用启发式规则来寻找个人主页信息的AHOY等。采用第二种策略的方法主要是对搜索引擎的查询结果进行进一步的处理,得到更为精确和有用的信息。属于该类的有WebSQL,及对搜索引擎的返回结果进行聚类的技术等。

2.1.2 Web 结构挖掘

Web 结构挖掘是从WWW的组织结构和链接关系中推导知识。由于文档之间的互连WWW能够提供除文档内容之外的有用信息。利用这些信息,可以对页面进行排序发现重要页面。这方面的代表有PageRank〗和CL EVER,此外,在多层次Web数据仓库(MLDB)中也利用了页面的链接结构。

2.1.3 Web 使用挖掘

Web使用挖掘的主要目标是从Web 的访问记录中抽取感兴趣的模式。WWW 中每个服务器保留了访问日志,记录关于用户访问和交互的信息。分析这些数据可以帮助理解用户的行为从而改进站点的结构,或为用户提供个性化的服务。

2.2 Web 数据挖掘研究领域及发展

2.2.1 Web 数据挖掘的研究领域类型根据对Web 数据的感兴趣程度不同,Web 挖掘一般可以分为三类: 网络内容挖掘(Web Content mining) 、网络结构挖掘(Web structure mining) 、网络用法挖掘(Web usage Mining)

2.2.2 网络内容挖掘网络信息内容是由文本、图像、音频、视频、元数据等形式的数据组成的。网络内容挖掘就是一个从网络信息内容中发现有用信息的过程。由于网络信息内容有很多是多媒体数据, 因此网络内容挖掘也将是一种多媒体数据挖掘形式。

2.2.3 网络结构挖掘网络结构挖掘就是挖掘Web潜在的链接结构模式。通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。这种模式可以用于网页归类,并且由此可以获得有关不同网页间相似度及关联度的信息。网络结构挖掘有助于用户找到相关主题的权威站点。

2.2.4网络用法挖掘网络内容挖掘和网络结构挖掘的挖掘对象是网上的原始数据,而网络用法挖掘面对的则是在用户和网络交互的过程中抽取出来的第二手数据,包括网络服务器访问记录、服务器日志记录、浏览器日志记录、用户简介、注册信息、用户对话或交易信息、用户提问方式等。通过网络用法挖掘,可以了解用户的网络行为数据所具有的意义。

2.3 Web数据挖掘的四个步骤

2.3.1查找资源:任务是从目标Web 文档中得到数据。

2.3.2信息选择和预处理:任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。2.3.3模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。

2.3.4模式分析: 验证、解释上一步骤产生的模式。

3. Web数据挖掘的应用

3.1 Web挖掘在搜索引擎方面的应用

通过对网页内容的挖掘,可以实现对网页的聚类和分类,实现网络信息的分类浏览与检索。运用Web挖掘技术改进关键词加权算法,提高网络信息的标引准确度, 改善检索效果。参与搜索服务市场的有多家实力企业,如Google、雅虎(Yahoo!) 及微软(Microsoft) 等巨头企业, 以及若干规模较小但有特定市场区隔或技术者如dTSearch、Copernic 等Google 提供更多的技术,会自动找寻常用的字词,尽量缩短搜索时间,提高效率。

3.2Web挖掘在电子商务方面的应用

Web挖掘这方面的应用可以为企业更有效的确认目标市场、改进决策获得更大的竞争优势提供帮助,从中可得到商家用于特定消费群体或个体进行定向营销的决策信息。电子商务方面的Web挖掘功能主要是如下几个方面:首先,客户分类和客户聚类。对Web 的客户访问信息进行挖掘,对客户进行分类分析。应用聚类分析对客户进行分组, 并且分析组中客户的共同特征, 这样就可以让商家更好了解自己的客户, 向客户提供更有针对性的服务。其次是找到潜在的客户。在对Web 的客户访问信息的挖掘中, 利用分类技术可在因特网上找到未来的潜在客户。最后保留客户的驻留时间, 对于客户而言,在网上每个销售商对于客户来说都是一样的, 如何尽量使客户在自己的网上驻留更长的时间, 这样对于商家才能有更多客户和更大的利润空间。

3.3 Web 数据挖掘在网络教育中的应用

教育网络化的趋势不仅为学生提供了便利的学习方式和广泛的选择,也为学校提供了更加深入了解学生需求信息和学生行为特征的可能性。由于受教育对象个体之间存在着极大的差异性,网络教学也必须是一种适应个别化学习需求的个性化教学。这种个性化教学的提供,是通过将传统的数据挖掘(Data Mining) 同Web 结合起来,进行Web 数据挖掘,即从Web 文档和Web 活动中抽取学生感兴趣的潜在的有用模式和隐藏的信息,作为对学生提供个性化教学服务的依据,协助管理者优化站点结构,提高站点效率,更好地为网络教育服务。

3.4在网站设计中的应用

在网站设计方面中的应用,主要是通过对网站内容的挖掘,特别是对文本内容的挖掘,可以有效地组织网站信息,如采用自动归类技术实现网站信息的层次性组织;通过对用户访问日志记录信息的挖掘,把握用户感兴趣的信息,从而有助于开展网站信息推送服务以及个人信息的定制服务,吸引更多的用户。

4. 结束语

社会的发展越来越离不开信息的传播与使用,在数据量急剧增长的情况下如何高效地检索出使用者需要的信息更加显得重要,Web 数据挖掘正是因为满足了这方面的需要才能获得如此迅速的发展, Web 挖掘技术也将成为重要的研究课题和方向。

参考文献

[1] 曼丽春, 朱宏, 杨全胜. Web 数据挖掘研究与探讨[J].现在电子技术2005 (8) :3~6

[2] 夏火松. 数据仓库与数据挖掘技术[M]. 科学出版社,2004.207- 227.

[3] Jiawei Han,Micheline Kamber.DataMining:Concept and Techniques[M].Morgan Kaufmann Publishers,Inc 2001.272- 312.

[4] 陈文伟.黄金才.赵新昱.数据仓库与数据挖掘技术[M].北京:北京大学出版社,2002.1- 14.

[5] 王继成.潘金贵.Web 文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513- 520.

数据挖掘技术应用范文第6篇

关键词:数据挖掘;用户偏好;考试系统;入侵检测

中图法分类号:TP274文献标识码:A文章编号:1009-3044(2010)22-6231-02

Survey on Data Mining Technology

WANG Wen

(School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221116, China)

Abstract: Data Mining technology is an important part of modern computer technology. Using Data Mining can solve many problems in artificial intelligence. In this article, the development and the principle of Data Mining are introduced. Some of the newly application of Data Mining are involved. This article also have the expects for the future development of Data Mining.

Key words: data mining; user preference; examination system; intrusion detection system

随着时代的发展,计算机科学在以飞快的速度前进着。在计算机科学的众多领域中,人工智能是最富有挑战性和创造性的一个领域。近几十年来,随着人工智能技术的日渐成熟,人们对人工智能的研究更加深入,对人工智能更加重视。科学界对于人工智能的重要性也已形成共识。

自进入21世纪以来,电子数据获取与计算机技术方面的不断发展以及网络的广泛普及与应用,人们日常生活中接收的数据和信息较以往正以飞快的速度增加,因而形成了独特的知识爆炸时代。就在最近几十年很多超大型数据库的产生使得整个社会发生着天翻地覆的变化,遍及银行存款、超级市场销售、粒子物理、天文学、化学、医学以及政府统计等领域。在这个数字化、信息化时代,这么大规模的数据库以及以后可能诞生的更大规模的数据库的数据管理问题将会是以后对数据处理的一个重要关注点。众多科技工作者共同关注的焦点集中在了如何从这些大型数据库中发现有用的、信息、模式以及如何实现有效的数据处理方法。因而“数据挖掘”(Data Mining) 的新领域逐渐走进了人们的事业,并且在人们的关注和不断研究下飞速发展,这是一个与统计学、人工智能、模式识别、机器学习、数据库技术以及高性能并行计算等领域都有很大相关的新学科,正是计算机学科的一个研究重点。

1 数据挖掘的一般过程

数据挖掘一般分为如下四个步骤(图1)。

1.1 数据预处理

收集和净化来自各种数据源或数据仓库的信息,并加以存储, 一般存于数据仓库中。

1.2 模型搜索

利用数据挖掘在数据库中匹配模型,这个搜索过程可以由系统自动执行,自下而上搜索原始数据以发现它们之间的某种联系;也可以进行用户交互,由分析人员发问,自顶向下寻找以验证假设的正确性。一个问题的搜索过程可能用到许多模型,如神经网络、基于规则的系统(决策树)、机器学习、基于实例的推理等。

1.3 评价输出结果

一般来说,数据挖掘的搜索过程需要反复多次,当分析人员评价输出结果后,它们可能会形成一些新的问题,或者要求对某一方面作更精细的查询,通过反复的搜索过程即可满足分析人员的这种需求。

1.4 生成报告

知识的发现过程可以由数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示等几个步骤组成。数据挖掘可以与用户或知识库交互,把用户关心的模式提交给广大用户,或作为新的知识存放在知识库中。

2 数据挖掘应用

2.1 数据挖掘在实现网站用户偏好度的应用

数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。使数据能够被更加高效的利用,对无用的数据加以摒弃,是数据挖掘技术最主要的实现形式,也是其最重要的应用方式。传统的数据库中的数据相对于Web的数据而言,其结构性很强,是完全结构化的数据,而半结构化则是Web上的数据最大特点。因而,面向单个数据仓库的数据挖掘较之面向Web的数据挖掘比要简单许多。据统计,网站上的绝大部分内容对绝大部分用户来说是无用的信息。事实是对于某个特定用户来说,其关心的内容仅是网站上极小部分的内容,而网站上提供的更多的内容对于这个用户来说是其不感兴趣的,并且过多的信息往往会掩盖有用的信息,使得用户的查询效率降低,并且对于网站也不是一件利事。

对于Web数据挖掘技术而言,半结构化数据源模型和半结构化数据模型的查询与集成问题是应当首要解决的问题。解决Web上的异构数据的集成与查询问题,有一个模型来清晰地描述Web上的数据是很必要的。因此,针对数据半结构化的Web数据的特点,寻找一个半结构化的数据模型至关重要。并且除此定义一个半结构化数据模型之外,一种半结构化模型抽取技术(自动地从现有数据中抽取半结构化模型的技术)也是应当提出的。因而半结构化模型和半结构化数据模型抽取技术是面向Web的数据挖掘实现的重要前提。

用户浏览网站上的内容时,他会被很的多因素影响,网页的外观,信息标题,网页链接以及个人的兴趣和习惯等等。我们可以设定合理的假设,建立他们之间的模型,利用以上提到的方法解决用户偏好度的问题。

2.2 数据挖掘在在线考试系统方面的应用

数据挖掘在在线考试系统方面的应用最主要体现在题库的构建,下面分别介绍题库的构建中数据挖掘的应用情况。

在设计数据库方面,数据库主要由题库、答案库和答案关键字库构成,题型库又涵括科目、题号、题型、题目、难度、分值等字段;答案库中包含科目、题号、分值、答案以及在同一题中有不同答案时应提供的不同答案序号等字段;答案关键字库中有题号、答案序号、权重和答案关键字。此后在将答案录入答案库。对于客观题而言,仅仅需要录入唯一的答案;但对于主观题而言,则需要尽量给出多个参考答案并将每个答案的关键字及其所对应的权值、答案序号输入答案关键字库。

通常有两类数据挖掘方法:①统计型,应用概率分析、相关性、聚类分析和判别分析等技术得以实现;②通过人工智能中的机器学习,经过训练以及学习输入大量的样品集,以得出需要的模式或参数。由于每一种方法都根据其特点都有其优势以及相应的引用领域,最后结果的质量和效果将受到数据挖掘技术选择的影响,采用多种技术结合的方法,其各自的优势可以达到互补的要求,从而实现最佳配置。下面介绍了两种数据挖掘方法: ①决策树算法:为每个问题的答案构造一个二叉树,每个分支或者是一个新的决策点,或者是一个叶子节点。在沿着决策树从上到下的遍历过程中,对每个问题的不同回答导致不同的分支,最后到达一个叶子节点,每个叶子节点都会对应确定的权值,通过对权值的计算判定得分;②模糊论方法:利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇聚分析。由于主观题答案很灵活,答案不可能完全匹配,采用此方法将考生答案与答案库中的答案进行对照,以确定答案的正确度,从而更客观准确地评定主观题分数。

2.3 数据挖掘在网络入侵检测系统方面的应用

入侵检测就是通过运用一些分析方法对从各种渠道获得的反映网络状况和网络行为的数据进行分析、提炼,再根据分析结果对这些数据进行评价,从而能够识别出正常和异常的数据或者对潜在的新型入侵做出预测,以保证网络的安全运行。

基于分布式数据挖掘的入侵检测系统要对一个网段上的信息进行全面而细致的监测,同时在网络上多个点进行数据采集,如网关和特别需要保护的服务器等。整个系统构成分为本地分类器、规则学习模块和集中分类器三块基本构件。本地分类器负责对从网络上各个点采集到的数据通过预处理模块去除掉无效数据,并将原始数据处理成为以后进行数据挖掘算法可识别的格式,以实现对数据的初步检测和处理。本地分类器有2个输出:一个输出为分类数据,用于提交给规则学习模块,另外一个为数据摘要,用于提交给集中分类器。规则学习模块负责对标记过的分类数据进行深层次的数据挖掘,从而学习到新的知识。学习到的知识被直接录入到规则库中,这样保证了规则库可以根据网上的变化可以随时达到更新的需求。另外一种方式是通过规则学习模块实现人工训练系统,从而实现升级规则库的需求。最后将分布式数据挖掘的结果形成数据摘要发送给集中分类器,由集中分类器对各点数据摘要进行汇集,从而做出综合判断,达到有效地检测协同攻击的效果,最后将检测结果提交给决策模块。

3 结束语

数据挖掘技术是人工智能学科的一个重要分支,也是现代计算机科学的一个研究重点。现在基于数据挖掘技术的科研可以说是硕果累累,自从人工智能这个概念被提出来之后,其发展一直是计算机学科的热门而且其分支广而泛,都在不同的领域发挥着十分重要的作用。相信在计算机研究人员的不断努力下数据挖掘会在更多的方面服务人们,并且期待着新的理论的提出。

参考文献:

[1] 何克抗.建立题库的理论[M].长沙:国防科技大学出版社,1995.

[2] 刘波,段丽艳.一个基于Internet的通用题库系统的设计与实现[J].华南师范大学学报:自然科学版,2000(1):39-44.

[3] 王实,高文.数据挖掘中的聚类方法[J].计算机科学,2000,27(4):42-45.

[4] Hand D J.Statistics and data mining:intersecting disciplines[J].ACM SIGKDD Explorations Newsletter,1999,1(1):16-19.

数据挖掘技术应用范文第7篇

关键词:数据挖掘 分类规则 算法

中图分类号:TP393 文献标识码:A

一、数据挖掘在市场营销的应用

数据挖掘技术在企业市场营销中得到了比较普遍的应用,它是以市场营销学的市场细分原理为基础,其基本假定是“消费者过去的行为是其今后消费倾向的最好说明”。

通过收集、加工和处理涉及消费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为,然后以此为基础,对所识别出来的消费群体进行特定内容的定向营销,这与传统的不区分消费者对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而为企业带来更多的利润。

就目前而言,关联规则挖掘技术已经被广泛应用在西方金融行业企业中,它可以成功预测银行客户需求。各银行在自己的ATM机上就捆绑了顾客可能感兴趣的本行产品信息,供使用本行ATM机的用户了解。如果数据库中显示,某个高信用限额的客户更换了地址,这个客户很有可能新近购买了一栋更大的住宅,因此会有可能需要更高信用限额,更高端的新信用卡,或者需要一个住房改善贷款,这些产品都可以通过信用卡账单邮寄给客户。当客户打电话咨询的时候,数据库可以有力地帮助电话销售代表。销售代表的电脑屏幕上可以显示出客户的特点,同时也可以显示出顾客会对什么产品感兴趣。如考虑属性之间的类别层次关系,时态关系,多表挖掘等。近年来围绕关联规则的研究主要集中于两个方面,即扩展经典关联规则能够解决问题的范围,改善经典关联规则挖掘算法效率和规则兴趣性。

二、入侵检测中数据挖掘技术的引入

入侵检测技术是对(网络)系统的运行状态进行监视,发现各种攻击企图、攻击行为或者攻击结果,以保证系统资源的机密性、完整性与可用性。

根据数据分析方法(也就是检测方法)的不同,我们可以将入侵检测系统分为两类:(1)误用检测(Misuse? Detection)。又称为基于特征的检测,它是根据已知的攻击行为建立一个特征库,然后去匹配已发生的动作,如果一致则表明它是一个入侵行为。(2)异常检测(Anomaly Detection)。又称为基于行为的检测,它是建立一个正常的特征库,根据使用者的行为或资源使用状况来判断是否入侵。

将这两种分析方法结合起来,可以获得更好的性能。异常检测可以使系统检测新的、未知的攻击或其他情况;误用检测通过防止耐心的攻击者逐步改变行为模式使得异常检测器将攻击行为认为是合法的,从而保护异常检测的完整性。

三、算法在入侵检测中的具体使用

(一)基于误用的检测型。

首先从网络或是主机上获取原始二进制的数据文件,再把这些数据进行处理,转换成ASCII码表示的数据分组形式。再经过预处理模块将这些网络数据表示成连接记录的形式,每个连接记录都是由选定的特征属性表示的。再进行完上面的工作后,对上述的由特征属性组成的模式记录进行处理,总结出其中的统计特征,包括在一时间段内与目标主机相同的连接记录的次数、发生SYN错误的连接百分比、目标端口相同的连接所占的百分比等等一系列的统计特征。最后,就可以进行下面的检测分析工作,利用分类算法,比如RIPPER 、C4.5等建立分类模型。只有这样才能建立一个实用性较强、效果更好的分类模型。

(二)基于异常的入侵模型。

异常检测的主要工作就是通过构造正常活动集合,然后利用得到的一组观察数值的偏离程度来判断用户行为的变化,以此来觉得是否属于入侵的一种检测技术。异常检测的优点在于它具有检测未知攻击模式的能力,不论攻击者采用什么样的攻击策略,异常检测模型依然可以通过检测它与已知模式集合之间的差异来判断用户的行为是否异常。

在异常检测中主要用到的两个算法就是模式比较和聚类算法:(1)模式比较。在模式比较算法中首先通过关联规则和序列规则建立正常的行为模式,然后通过模式比较算法来区别正常行为和入侵行为。(2)聚类算法。聚类分析的基本思想主要源于入侵与正常模式上的不同及正常行为数目应远大于入侵行为数目的条件,因此能够将数据集划分为不同的类别,由此分辨出正常和异常行为来检测入侵。数据挖掘中常用的聚类算法有K-means、模糊聚类、遗传聚类等。基于聚类的入侵检测是一种无监督的异常检测算法,通过对未标识数据进行训练来检测入侵。该方法不需要手工或其他的分类,也不需要进行训练。因此呢功能发现新型的和未知的入侵类型。

四、结论

入侵检测中数据挖掘技术方面的研究已经有很多,发表的论文也已经有好多,但是应用难点在于如何根据具体应用的要求,从用于安全的先验知识出发,提取出可以有效反映系统特性的属性,并应用合适的算法进行数据挖掘。另一技术难点在于如何将数据挖掘结果自动应用到实际IDS中。

入侵检测采用的技术有多种类型,其中基于数据挖掘技术的入侵检测技术成为当前入侵检测技术发展的一个热点,但数据挖掘还处于发展时期,因此有必要对它进行更深入的研究。

(作者单位:湖北工业大学 计算机学院)

参考文献:

[1]. 范明,孟小峰.数据挖掘――概念与技术.机械工业出版社,2001。

[2].Mehta M,Agrawal R,Rissanen J,SLIQ:A Fast Scalable Classifier for Data Mining.Lecture Notes in Computer Sci.Proc.of the 5th Int.Cord.on Extending Database Tech. 1996:18-33.

数据挖掘技术应用范文第8篇

数据挖掘(DataMining,DM),是随着数据库和人工智能发展起来的新兴的信息处理技术。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘是一门涉及面很广的交叉性新兴学科,涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。

2、数据挖掘技术

2.1关联规则方法

关联规则是一种简单,实用的分析规则,描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,所挖掘出的关联规则量往往非常巨大,但是。并不是所有通过关联得到的属性之间的关系都有实际应用价值,对这些关联规则进行有效的评价。筛选出用户真正感兴趣的。有意义的关联规则尤为重要。

2.2分类和聚类方法

分类就是假定数据库中的每个对象属于一个预先给定的类。从而将数据库中的数据分配到给定的类中。而聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异。分类和聚类的区别在于分类事先知道类别数和各类的典型特征,而聚类则事先不知道。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价。

2.3数据统计方法

使用这些方法一般首先建立一个数据模型或统计模型,然后根据这种模型提取有关的知识。传统的统计学为数据挖掘提供了许多判别和回归分析方法。贝叶斯推理、回归分析、方差分析等技术是许多挖掘应用中有力的工具之一。

2.4神经网络方法

神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。这些优点使得神经元网络非常适合解决数据挖掘的问题。因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类;用于分类、预测和模式识别的前馈式神经网络模型;用于联想记忆和优化计算的反馈式神经网络模型;用于聚类的自组织映射方法。新晨

2.5决策树方法

决策树学习是一种通过逼近离散值日标函数的方法,把实例从根结点排列到某个叶子结点来分类实例。叶子结点即为实例所属的分类,利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的字段。建立决策树的一个结点,再根据字段的不同取值建立树的分支;在每个分枝子集中,重复建立树的下层结点和分支的过程,即可建立决策树。

2.6粗糙集

数据挖掘技术应用范文第9篇

随着科技的进一步发展,已经带动着各大领域的创新和发展。而我国在近年来,城市信息化的普及也在不断推进,网络技术的改革和发展也显得格外重要。而特别很多企业对于自身的信息和数据储存、共享以及处理都格外注重,要求技术本身要包含安全性、便捷性以及可靠性。,而是在大数据提出后,数据挖掘技术已经成为了一种新的主流技术,而研究数据挖掘技术的理念、方法以及应用领域,将对我国工程施工领域的未来带来更多的机遇和挑战。

关键词:

大数据时代数据挖掘技术分析和研究运用数据挖掘技术,也被称为数字处理技术,顾名思义,就是对于目前各大企业的内部数据,进行整理、调整、挖掘实施以及评估等一系列处理操作,其主要的目标是保证全局数据都能够得到充分的优化。而大数据则是区分于以往抽样调查的方法,而是对于全局数据进行分析,从而保证分析的全面以及完成。而大数据技术也包含4个优点,即高数量、高速度、多元化以及高价值。而笔者将通过本文,就大数据时代的数据挖掘技术与应用进行分析和探讨。

1相关概念的简介

1.1大数据的概念关于大数据的理念提出,可以追溯到麦肯锡研究院于2011年的《大数据:创新、竞争和生产力的下一个新领域》,其中阐述的观念就涵盖数据方面,即数据已经融入到了人们的日常生活中,也是生产运作的一个重要因素。而大数据的运用,对于消费以及生产水平都是一种有效的提升提升,根据美国曾经的《大数据研究和发展倡议》资料,截至2011年一年,全球总的数据就增加了1.8ZB,而进行人均计算,相当于每个人都具有至少200GB的数据资源,而且这一数据还在呈现出日益增长的趋势,根据统计计算,这一数值将会按照约为50%/年的速度增长。

1.2数据挖掘作为一个新型学科,数据挖掘技术源于20世纪的80年代,那时其效用与目前存在本质差异,科学家最初研究大数据,主要是用于一些人工智能技术的开发。简而言之,技术层面上,数据挖掘就是一个对数据进行发掘创新的过程,即要求目标数据具有隐蔽性、挖掘价值以及挖掘潜力,而且需要操作者在一堆冗杂的、随机的、模糊的数据库中进行挖掘;而对于商业层面上来说,数据挖掘就是在一些大量的数据信息中获得规律以及价值信息,从而为决策提供重要的知识凭据。

2数据挖掘的研究手段

对于数据挖掘而言,不同的研究手段将是其开展的重要基础,而研究手段的决定,主要需要依靠科学的计算为依据,分析和对比数据中存在的一些不为人知的规则,然后通过研究手段的改变去应付不同的问题,对于实际操作来说,就是针对不同的数据找出不同的解决方法,而常见数据挖掘的研究手段主要可以分为四类,即聚类研究、分类和预测以及关联研究。

2.1聚类研究将抽选的数据或者对象的库进行类似“分类”的聚类划分,然后再将其中的相同或者相近的数据划分为一个组类,由此建立起多个组类开展研究的过程。整个过程突出的是一种无知识基础、无监督管控的学习过程。而整个过程由于分类研究有本质的差异,因为聚类研究在事先根本无法得到目标的重要属性数据,而这种分析方法主要可以用于多个区域,例如心理、统计、医药、销售以及数据识别等,而根据其隶属度的取值,有能将其分为两种研究方法,即硬聚类与模糊聚类,对于前者来说,就是将目标按照影响标准进行划分,即目标如果属于某类,必定不属于其他类;而对于后者来说,主要取决与隶属度的取值不同。而划分过程可能会将目标划分入多个聚类中。此外聚类的计算方法也能分为多种,即包含密度算法、层次算法、划分算法、网格算法以及模型算法等等。

2.2分类与估测对于分类与数值估测来说,都是属于是问题预测方式,其中前者要求估测各个类中的标号,这些标号都是分散且无规律的,而估测方法可以采用函数模型,要求模型类型为连续值函数。分类估测作为数据挖掘的起始工作,主要需要反应已经获知的训练数据库的特点,从而根据以上基础完成其中对每一类的情况以及特点完成相应的分类操作,而整个操作也是受到督促的,对于一般的分类算法可以有决策树、粗糙集、贝叶斯、遗传等算法,而估测主要是基于分类以及回归基础,估测数据将来的动向,即包含局势外推、时间序列以及回归分析几类。

2.3关联研究关联研究是源于自然生物间微妙的关系,而某事情的发生和发展也会引发连锁的事情发展,也就类似所谓“蝴蝶效应”的定义。而关联研究的研究目标即是研究物与物之间的微妙关系,包含一些依赖关系等等,从而找出其中的规则,基于规则,分析将来的动向。以购物为例,分析购物者的心理规律以及习惯,可以从他们对于购物的一系列表现,例如购物篮的物品类型、放置规律、购物消费理念、购物环境需求等等,而掌握这些规律,足以让一个销售企业获得巨大的消费市场以及商机。

3大数据时代的数据挖掘的运用

3.1数据准备准备流程需要依附于研究者已经建立起长期且丰富数据资源的数据库,而根据这些无规则的原始数据进行相应的挖掘前的准备的工作,例如数据的处理、择取、清除、推敲以及转变,作为基础的流程,数据准备操作在整个流程中起到重要的基础作用。

3.2数据挖掘开展数据挖掘操作,需要根据挖掘对象的情况择选最优的计算方法,从而获取其中的规律性,例如对应采用决策树算法、分类算法、神经网络算法以及Apriori算法等。

3.3数据挖掘的模式评估研究模式评估的对象主要是通过数据挖掘处理过程数据,而评估流程是了解、研究且取得其中数据的规则,然后对数据进行转变“翻译”成通俗易懂的语言,供人们去研究和思考。

3.4数据挖掘的知识应用知识应用是数据挖掘的最后一步,通常知识运用就是一种现实运用的过程,通过数据准备、挖掘、研究评估,最后将结果数据或者规律用于现实中,从而体现数据的本身的价值,这就是知识应用的内涵。

4大数据时代的数据挖掘的运用

4.1市场营销方面市场营销行业已经是目前数据挖掘采用最多的行业,数据挖掘的作用主要体现在的对于消费者群体的消费习惯以及行为进行解析,从而改变销售方法,提升产品的销售量,此外,除了一些购物消费以外,数据挖掘技术以及拓展到了各大金融行业,例如保险行业、银行行业以及电子商务行业等等。例如:在市场营销方面,采用数据挖掘中的聚类研究,即客户一系列无规则、无意识的行为数据,对他们进行识别,即根据客户的忠诚度、消费意识进行分类,帮助企业寻找其中的潜在客户以及固定客户群。

4.2数据挖掘的科学分析科学本身就是一个寻找规律、发现规律以及利用规律的过程,而且任何科学研究都是需要基于数据作为基础,所以数据挖掘对于科学领域也具有重要的意义和价值,特别是针对一些未知的事物、领域或者知识,通过数据挖掘可以有效展示数据规则。例如对于太空行星的分析,遗传基因DNA的数据以及遗传规律等。

4.3制造业与其他行业不同,制造业运用数据挖掘的目的主要是产品质量检查方面,例如研究产品的数据,找出其中规则。分析整体生产流程,解析其中过程,找出影响生产质量以及效率的问题,然后通过对这些问题进行解决,提升企业经济效益。对于制造业而言,数据挖掘运用主要体现在决策方面,即首先通过数据筛选,获取有用的知识和数据,然后采用决策树算法,统计决策,然后选择其中正确的决策,即像根据目前产品的流行情况,预测目前生产产品的受欢迎度,然后决策生产的时间以及周期。

4.4教育方面对于教育行业来说,最重要的除了教师的教学方法以外,学生的学习情况、心理动向以及教学评估都是十分重要的,采用数据挖掘技术,则可以有效将这些数据通过分类、筛选以及处理,得出有效的数据规则,供学校教学改革时进行参考。例如:教学质量评估数据挖掘模块的开发,即将教学质量相关的项目通过QSLSevrer进行整合和存储,例如教学准备、教学内容、教学方式以及教学态度等,最后学生可以进行自行浏览并且完成评估,而评估结果则会上传系统进行最后通过数据挖掘,筛选其中有用的信息,再通过Apr1ori算法挖掘其中关联规律。

5结语

虽然数据挖掘技术不是一项新兴的技术,但是其还具有较大的研究价值与运用前景,特别是在特殊领域的运用,对于一系列数据进行科学冗杂的处理,然后分析其中规则价值,可以有效提升各大行业的经济效益。

参考文献

[1]赵倩倩,程国建,冀乾宇,戎腾学.大数据崛起与数据挖掘刍议[J].电脑知识与技术,2014,11(33):7831-7833.

[2]韩英.浅析大数据时代的数据挖掘与精细管理[J].成都航空职业技术学院学报,2013,12(04):63-71.

[3]李平荣.大数据时代的数据挖掘技术与应用[J].重庆三峡学院学报,2014,05(05):45-47.

数据挖掘技术应用范文第10篇

关键词:数据挖掘技术;气象数据;应用

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)09-0239-02

Abstract: along with our country social improvement, economic development,meteorological services in China has been developed greatly in the process.In the process of the development of meteorological services, meteorological data along with the increasing scale and coverage. In the face of this part of the huge data, how to effectively search, its use has become a problem of great concern to the industry of our country. In this paper, the application of data mining technology in meteorological data on the study and analysis of some.

Key words: data mining; meteorological data; application

对于气象数据的收集与分析有利于帮助我们对不同地区所具有的气象条件以及气象规律进行把握,以此使我们能够更好的对该地区某一时段下的气象情况进行预测。但是,这种数据的收集就会使我们所具有的气象数据资料越来越多,难以对其进行管理与应用。仅仅通过我们计算机方式的应用,也很难对这种规模较大的数据集进行处理,在这种情况下,就需要我们能够以数据挖掘技术的应用更好的实现气象数据的管理。

1 数据挖掘流程

1.1 确定对象

在开展数据挖掘工作中,首先需要对业务所具有的问题进行明确的定义,帮助我们对数据挖掘的目的进行确定。虽然对于我们后续数据的挖掘结果会具有一定的不可预测性,但是对于我们问题探索的目标却需要具有良好的预见性,并以此针对性目标的确定帮助我们更好的开展后续工作。

1.2 数据准备

在这个环节中,主要具有数据预处理、数据转换以及数据选择这三个主要步骤。其中,数据选择是对同本次业务具有关联的维度或者数据进行选择,并从中选择出适合本次数据挖掘工作的相关数据;数据预处理则是对本次研究数据所具有的质量进行研究,并以此帮助我们为后续的进一步分析作出准备,同时对数据操作所具有的类型进行确定;数据转换则是要将不同类型数据通过一定的方式将其转换为我们所需要的数据分析模型,对于该模型而言,其是针对我们原有挖掘算法而建立的,而这种分析模型的建立也是我们开展数据挖掘工作的重要基础与重点环节。

1.3 数据挖掘

数据挖掘正是我们本次工作的核心环节,需要对所有数据预处理完成的、经过转换的数据进行全面的挖掘。在此过程中,除了需要我们以人工的方式对适合本次挖掘工作所使用的算法进行选择之外,其余的工作都会以自动的方式开展。

1.4 结果解释与评价

在我们数据挖掘工作结束之后,往往会得到一系列规则集,而这部分规则集通常需要在专业人员对其进行一定的研究与合理的解释才能够被人们更好的掌握。对此,就需要我们对本次数据挖掘结果进行适当的解释与评价,进而使其能够具有更好的易用性以及广泛性。

2气象资料特点

2.1 数据量大

气象资料可以说是我国历史最为久远、保存最为系统且完善的一类资源信息。尤其随着改革开放之后,我国已经积累了数量非常多的气象基础数据以及信息,且新的气象数据资料也以非常快的速度在每年增长,在我们实际处理时经常会出现冗余情况。

2.2 多样性

气象信息具有着非常多样化的种类,如高空气象资料、农业气象资料、日地物理资料、雷达资料、气象辐射资料、冰雪圈资料、土壤与植被资料、气象灾害资料、地面气象资料、水文气象资料以及卫星资料等等。而气象资料所具有的载体也具有着很多种方式,如不同气象站所的气象原始报表,不同省市所的气象卫星云图以及雷达图等等。

2.3 多维性

在气象资料中,通常都具有着较多的气象要素,如高空资料以及地面资料往往具有着温度、日照以及气温等很多种要素。而在每一类要素中,也都具有着其所独特的属性维度。也正是根据这种特点,则使气象资料往往具有着较为明显的多为特征。

2.4 复杂性

气象资料中所常见的数据类型主要有标称类型、二元类型、数值类型以及序列类型等等。比如降雨与否为二元类型、气压为数值类型等等。

2.5 连续性

在气象站中,无论是高空站还是地面站,其所具有的气象要素属性值都是一种具有连续特征的数值,比如气压、温度以及气温要素。

3 气象资料预处理

3.1 缺失值处理

在SPSS软件中,具有着很多种对于数据的缺失值处理方式。而对于气象数据来说,由于其所具有的变化是一个能量的动态变化过程,对此,我们对于气象数据所具有的缺失值则使用Mean of nearby points方式进行,并对其中所具有的缺失值根据邻近三个小时所具有的数据平均值对缺失值进行替代。

3.2 气象资料属性泛化

在数据维度泛化方面,需要严格的按照我国相关标准开展工作,比如在二氧化硫数据的泛化方面,其是否存在超标情况则需要根据我国所制定的污染物浓度标准对其进行泛化。即如果CO2所执行的为一级标准,那么则可以根据其每小时所具有的浓度值同标准中的参考值0.15进行比对,并以此帮助我们判断该项参数是否存在超标的现象。而对于其所具有的超标、不超标现象来说,我们则需要在对结果判断之后将其标记为(是,否)二元属性值。

3.3 气象资料标准化

在气象数据资料中,不同维度间数据往往具有着不一致的量纲,而我们在对其开展定量量测以及聚类分析时,也经常由于量纲所具有的不同而对最终的分析结果产生较大的影响。一般情况下,气象资料中所具有的风向数值都会控制在0至360之间,而如果污染因子的单位为毫克,那么其所具有的范围则会在0至1之间,我们在对聚类进行应用时如果以距离作为评价,其主要依据则会在两个维度中更加倾向于风向维护。而为了能够对这部分维度间所具有的影响进行消除,就需要我们对这部分重点维度开展标准化预处理。在气象数据的标准化处理中,具有着很多种方式,Z标准化是我们应用较多的一类方式,即均值为0,方差为1。

3.4 气象资料维归约

在气象资料中有时候维度之间具有很强的依赖性或者说相关性,对于维度之间的这种依赖性或者相关性有时候在数据分析时候由于数据量巨大会导致多余的计算,所以对于一些需要把握主要的或者消除冗余的数据来进行数据分析时就可以采用主成分分析方法或者计算相关性来消除这些冗余的属性维度。

4 气象资料孤立点分析

在气象资料中的庞大数据中,我们在对其进行分析时往往忽略了孤立点的存在,或者忽略了孤立点所具有的特殊意义。通常来说,人们认为孤立点仅仅是噪声数据的一种,且经常将孤立点分析这项工作作为了数据预处理进行处理,仅仅对其中可能对数据挖掘整体结果产生影响的因素进行了剔除。但是,在气象数据中,这部分孤立点往往具有着非常特殊的意义,通过孤立点数据的分析与检测,很容易帮助我们对很多灾害气象进行分析。目前,对于孤立点进行分析的技术主要有以下几种:

4.1 基于统计方式

首先,需要假设我们所具有的数据集能够满足某一种概率的分布形式,之后再根据其所具有的这种独特概率对数据集进行拟合,并通过不一致检验方式的应用对其中很多个数据对象开展不一致性测试。如果经过测试发现其存在着不符合的情况,就可以认为其是一个孤立点。

4.2 基于距离方式

在该种方式中,我们可以将对于孤立点的分析视作邻居对象不充分的集合,且这种邻居对象也是根据对象所具有的距离进行定义的。通常来说,人们仅仅会通过DB(p,d)的应用对全局孤立点进行发现,而对于局部孤立点却很难判断。对此,我们则可以认为孤立点概念不需要以一分为二的属性对其分离,而可以通过对象孤立度的制定对其所具有的模糊度进行衡量。

4.3 基于密度方式

基于密度的孤立点分析就是探测局部密度,通过不同的密度估计策略来检查

孤立点。密度即指任一点和 p 距离小于给定半径 R 的领域空间数据点的个数。基于密度的孤立点分析最显著的特点就是给定了对象是孤立点程度的定量量度,并且是数据具有不同密度的区域也能得到很好的处理。基于密度的孤立点分析较基于距离的孤立点分析更合理,但数据的计算复杂度较基于距离的孤立点分析要高许多。

4.4 基于聚类方式

聚类分析是用来发现数据集中强相关联的对象组,而孤立点检测是发现不与其他对象组强关联的对象。因此,孤立点分析与聚类是两个相互对立的过程。首先聚类所有的对象,然后评估对象属于簇的程度,对于基原型的聚类,可以用对象到它的簇中心的距离来衡量对象属于簇的程度。

总得来说,数据挖掘技术在我国现今的气象数据处理中具有着较为重要的作用。在上文中,我们对于数据挖掘技术在气象数据中的应用进行了一定的研究,而在实际操作过程中,也需要我们在联系数据类别的基础上通过数据挖掘技术的应用获得更好的气象分析效果。

参考文献:

[1] 何永健, 曹芸, 黄勇. GIS气象数据的管理与表达方法[J]. 南京信息工程大学学报(自然科学版), 2011(3):232-237.

[2] 石扬, 张燕平, 赵姝, 张玲, 田福生, 汪小寒. 基于商空间的气象时间序列数据挖掘研究[J]. 计算机工程与应用, 2007(1):101-102.

上一篇:人工智能课程范文 下一篇:人工智能技术范文

友情链接