数据挖掘技术研究范文

时间:2023-10-01 21:12:47

数据挖掘技术研究

数据挖掘技术研究篇1

[关键词] 数据挖掘 数据挖掘方法

随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(Data Mining)技术由此应运而生。

一、数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。 转贴于

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

参考文献

数据挖掘技术研究篇2

在当今信息高速发展的科技时代,数据挖掘技术的发展也进入了一个新的高峰期。所谓的数据挖掘技术,已经逐渐的成为了我们当前的数据库与相关人工的智能领域所要研究的焦点。该篇文章主要是针对国内外一些数据挖掘技术方面的整体的状况进行比较笼统的介绍,这其中主要包括了其数据挖掘技术所产生的背景及其相关的应用领域等等。当然,还包括了数据挖掘技术的分类,并且还在一定的程度之上对目前数据挖掘技术一些相关的算法做出了详细的说明,然后列出一些数据挖掘技术在我们实际领域当中的简单的应用,当然,对其未来的发展方向也做出了美好的展望。我们相信,在不久的未来,数据挖掘技术定当渗透到我们生活的各个领域。

关键词:

数据挖掘的技术;发展现状;发展方向;趋势;分析与探讨

1、引言

在当今信息高速发展的科技时代,各个方面的发展都非常的迅速。且其数据库的应用规模和范围以及深度已经从点逐渐发展到一个面了,例如,从单台的机器发展到如今全面的网络,甚至是到我们如今的英特网全球性的信息系统。这使得一些商业和企业以及政府或者是相关的科研机构,都相应程度的积累了各种各样的数据资料。当然,这些资料是十分的复杂和散乱的,单单去依靠数据库进行查询是绝对不能够满足我们实际的需要的,所以,它非常迫切的要求自动和智能的去将一些有待进一步处理的数据,在一定的程度之上转换为有价值的信息与知识,从而达到相关的目的。

2、什么是数据挖掘技术

数据挖掘技术,通常又可称为数据库当中知识的发现,可以方便或者是自动的进行模式化的提取。数据挖掘在一定的程度之上是一个多学科的领域,因为它主要是从多个学科当中去提取相关的知识,这其中主要涉及到了人工智能、数据库技术和机器学习以及信息检索等等多个方面的领域。总之,数据挖掘技术的研究有着非常广泛的运用前景,这主要是因为其数据挖掘所产生的一些知识可以去用于信息管理和决策支持以及科学研究等等多个领域。

3、数据挖掘分类

既然我们知道了什么是数据挖掘技术,那么又是如何对数据挖掘进行分类的呢?还有具体可以分为几类呢?以下我们主要就技术方面的分类进行详细的探讨;

3.1 决策树 决策树的归纳法是一种非常经典的分类的算法。它主要是运用了从顶向下各个击破的方式去建造决策树。其树的每一个结点之上所运用的信息增加的度量可以选择测试的属性。

3.2 神经网络的方法 什么是神经网络的分类算法呢?神经网络分类的算法重点主要是去构造相应阈值的单元,它可以相应的输入一组加权系数,然后对它们进行求和,如果超过阈值,就相应的输出一个量,可以在一定的程度之上完成分类、特征挖掘和聚集等等多种的数据挖掘的任务。

3.3 可视化的技术 主要是指通过一些比较直观的图去将相关的数据和关联的关系等呈现给相关的决策者,在这些图形当中,我们运用最多的便是直方图、散点图和数据立方体了。

3.4 遗传的算法 遗传的算法主要是指模拟生物进化的一种算法。它主要是基于一些群体的、同时还具有随机与定向搜索的相关特征的一个迭代的过程。这其中主要包括了四种比较突出的算子:遗传、交叉、自然选择和变异。

3.5 统计学 在我们数据库的字段项之间存在着不同的关系。我们对这些数据的分析主要是根据这不同的关系,并且采取一些统计学的方法进行分析,例如回归分析、相关分析和主成份分析等。

4、数据挖掘技术的研究现状及发展方向分析

4.1 针对其相关的生物医学与其DNA的数据所分析的数据进行挖掘 在当今,数据的信息量是非常的庞大的,因为我们所获得的大量的实验数据的观测如果仅仅是去依靠一些比较传统的分析数据的工具,是非常的不靠谱的。所以,对一些具有强大功能且具有自动化的工具的需要就越来越迫切了,这很显然的推动了数据挖掘技术的发展,并且还在一定的程度之上取得了重要的成果。

4.2 针对其金融的分析 因为一些金融的投资一般都存在着很大的风险,所以我们在进行投资和决策的时候,就需要去对各种各样的投资方向相关的数据进行分析。那么数据挖掘技术在此刻就起到了巨大的作用了。它不但可以对我们现在所获取的一些信息进行加工和处理,还可以对市场进行预测。

4.3 零售业当中数据挖掘的应用 在零售业当中,运用数据挖掘技术不但可以在一定的程度之上了解相关消费者的消费倾向,从而迎合消费者的口味,制定出更加接地气的市场政策,以提高销售额。当然,还可以适当的预测行业状况。

4.4 保险业当中数据挖掘的应用 我们知道,保险业是一种风险性十分巨大的业务。相关的研究表明,数据挖掘技术的运用不但可以预测相关风险性,还可以在一定的程度之上为保险业务工作者提供正确的方向。很明显,这是非常的有利于保险业的持续性发展的。

5、结束语

综上所述,伴随着信息时代的到来,及其数据的挖掘和数据相关仓库集成进一步的优化与深入,势必会给我们广大的用户带来十分广泛的利益。当然,其数据挖掘技术的发展前景也是更加的广阔的,将会使我们更多的人获益。我们坚信,在不久的将来,数据挖掘技术将会使得我们的生活变得更加的美好与丰富。

参考文献:

[1]高丽,王丽伟. 数据挖掘技术在国内图书馆应用领域的研究[J]. 数字技术与应用. 2015(12)

[2]梁雪霆. 数据挖掘技术的计算机网络病毒防御技术研究[J]. 科技经济市场. 2016(01)

[3]阳馨. 高校管理中应用数据挖掘技术的途径研究[J]. 数字技术与应用. 2016(01)

数据挖掘技术研究篇3

关键词:云模型 数据挖掘 可视化

中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2013)07-0065-01

随着信息呈爆炸式趋势增长,人们急需从不同角度对海量信息进行解读,使数据挖掘需求日盛。然而,传统数据挖掘方式各有弊端,云计算方式成为必然选择,基于云模型的数据挖掘技术研究也成为重要课题。

1 云计算与云模型

云模型模型数字特征示意图如图1。其中Ex能够代表定性的概念,反映云滴群的云重心。En可以反映概念的模糊度,以及一定程度上表明模糊度与随机性的关联度。He是直接反映云的集中程度,用以表示空间中所有点的凝聚程度,在云模型中称之为熵。

2 云模型数据挖掘分析

(1)云模型数据挖掘的特点优势。

(2)云模型下的可视化技术。

云模型始终属于较为抽象的概念,主要将模型具体化,利用图形、图像等形式,并通过一定技术手段表现出来。如图2所示,都可以表示数据的不确定性。

可视化是通过云发生器来实现的。发生器有正向与逆向之分,正向发生器基于三个特征数字来实现可视化,根据三个特征数字产生云滴,近而累积成云;逆向发生器基于数据开发挖掘云模型的三个特征数字,是定量到定性的映射,在此基础上进一步反映整个云滴的整体。

3 基于云模型的数据挖掘技术

通过以上对云模型特征数字的分析,可以通过参数的使用分析,构建特征空间和概念空间。概念空间是从同一属性角度来集合不同的概念,而特征空间则是通过集合不同的属性来描述实体。云模型中云滴的分布会形成一个空间,在概念空间里云滴会构成一个等势线,称其为概念层次。同样,在特征空间中也会有概念层次,代表着实体的等势层次。

在概念空间中,每个数据都会在云模型中形成一个云滴,众多云滴构成一个空间。但是每个数据的权重、影响力可能不一样,模型中从云滴的位置以及云滴的亮度来表征这个问题。云滴的位置越靠近云重心、云滴越亮则云滴的影响力越大。在概念空间中,可以选择不同的角度来分析空间数据,而选择角度不同就是选择不同的函数来计算点势。图3为概念空间的等势线与等势面举例。

概念空间基于对概念的分析归类。不同的概念之间应该有着众多关系类型,诸如包含、从属、等价、相似等等。通过数据场的交互作用而构成泛概念树。云模型中的泛概念树区别于一般意义上的概念树,可以拥有多个父节点。泛概念树的组成情况可以因为不同的属性集合、实体群组合状态等的不同而不同。

在特征空间中,其等势的思想方法与概念空间中相似,两者的区别就在于特征空间以实体为基本的空间点,概念空间则是从属性角度出发表达概念。当问题集中在讨论空间实体的特征时,常常用特征空间加以表示。从特征空间角度对实体进行研究,其空间粒度与空间范畴将变得更大。特征空间所描述的实体的特征将构成一个多维的空间。通过把实体的多种属性以某种方式投射到空间中,形成一个特征点,累积下来就完成了特征空间的构造过程。随后进行数据分析,通过数据空间点所呈现出来的特性进行数据挖掘,这些特征包括点的整体抱团聚类、势的特征等等。普通的分析方式对于数据聚类的分析往往采用练习数据集归类和测试方法的有效性两部分,但是两部分数据的选取原则与选取标准仍然不够完善,并且对数据的不同权重也没有足够的关注。因此在特征空间中得到数据分析聚类结果更可靠。

总之,基于云模型的数据挖掘,结合不确定性推理和云变换共同实现挖掘技术。通过云滴模型的构建,能够具备三个特征参数值,能够反映云模型的中心值、模糊度、离散度等模型特征。从模型特征又可以进一步对实体的定性问题、概念模糊度、随机度等进行分析。云模型技术能够很好地进行定性概念与定量数据间的映射。数据挖掘则可以通过不同势层的表征,结合不同观察角度来实现信息的过滤和提取。基于云模型的数据挖掘技术以其高存储性能和超强计算能力日益得到广泛的应用,技术上的深入研究也显得紧要而迫切。

参考文献

[1]巩华荣,何佳.空间数据挖掘技术的研究与发展[J].测绘与空间地理信息,2007(05).

[2]何彬彬,方涛,郭达志.不确定性空间数据挖掘算法模型[J].中国矿业大学学报,2007(01).

数据挖掘技术研究篇4

关键词:管理;决策树;数据挖掘技术

当前,大部分高校都拥有配套的管理系统,该系统具备海量数据储存和管理功能,彻底告别了手工记录信息和数据的年代。不但节约了纸张,更有效提高了高校管理数据和信息的效率。然而我国高校没有有效利用应用数据挖掘技术,因此研究数据库挖掘技术在高校管理中的应用十分必要。

1数据挖掘技术的流程

数据挖掘技术能够将海量数据展开分析和处理,再把整体数据库中存在规律的数据整合起来,实施该技术主要包括以下五个环节。目标定义:该环节中要与有关领域的背景知识相结合,清晰、精确的定义出数据挖掘目标。数据准备:在该环节中要搜集、选取数据源中的数据,处理已选数据,将其转换为适合数据挖掘的形态。数据挖掘:该环节是数据挖掘技术的核心,即采用关联规则法、分类分析法等各种数据挖掘方法把数据中隐藏的知识和规律发掘出来。结果表示:在该环节中可以以用户需求为依据,将挖掘出来的知识和规律转变为用户能接受和理解的形态。知识吸收:该环节中,主要是把挖掘结果与指定领域中的需求相结合,在该领域中应用发掘出来的结果,为决策者提供知识,是数据挖掘的终极目标。

2数据挖掘技术在教学质量评估中的应用

2.1运用关联规则法挖掘数据库中的信息

评估老师教学质量不但是评定教学效果的重要部分,也是评定教师职称的重要根据,因此是高校管理工作中不可或缺的部分。目前评估教学质量的主要措施是搜集、统计学生的成绩和以及对老师的评价,然后加权算出老师的总得分,作为评估该老师教学质量指标。这种方法非但不科学,其权威性也较低,因此需要深挖数据的相关性,本文采用了数据挖掘技术中的关联规法挖掘数据中的规律和知识,为评估老师教学质量提供有力根据。运用关联规则法挖掘数据,其规则方法为“XY,置信度为c%,,支持度为s%”。关联规则中置信度为c%:在整体事件D集合中,如果既能够符合事件X中拥有c%的需求,也能够符合Y的要求。那么就用置信度来表示关联规则的强度,被记录为confidence(XY),置信度最小值用minConf来表示,通常置信度最小数值由客户提供。关联规则中置信度为s%:在整体事件D集合中,如果既能够符合事件Y中的s%的需求,又能够符合X要求。用支持度来表示关联规则的频度,把支持度的最小数记录用minsup(X)来表示,通常支持度最小数值由客户提供。频繁项集合:当X项集的支持度大于等于用户设定好的最小支持度时,那么频繁项集是X。通常关联规则包含两个环节:①把全部频繁项集从整体事件集中选出;②运用频繁项集产生关联规则。在这两个环节中关联规则效果和性能是否良好取决于第一个环节。

2.2关联规则分析在评估教学质量中的运用

第一步是准备数据期,在某大学的教学管理系统中将五百条与教学评价有关的记录从数据库中随机抽取,并挑选出老师编号、学历、性别、教龄、评估分和职称这六个属性,并将相关数据从数据库中提取。比如把讲师、副教授和教授等职称转化成11、01、00等编码,表1就是制定的评价教师教学记录表。第二步采用关联规则分析法把90分以上评价分数作为检索目标和判断标准,也就是将≥90分作为判断是否是高教学质量阙值。通过检索有143条记录符合标准,即设定最小的支持度为10%,置信度则为15%,得出下表2的关联规则。最后一步评价本次实验的结果。由上表得知,学生喜欢男老师和女老师的程度大致相同;学历愈高的老师,给予他们的教学评价也就愈高,即学历和教学评价成正比,这也说明了学历高的老师其基本功与学历低的老师相比,前者基本功更为稳固,也有较高的科学研究水平;有较长教龄和较高职称的老师,其教学质量也越高;此外,在支持度中可以看出,高校教授和高学历人才越多,说明其办学能力也就越高。

3结语

高校管理系统作为教学信息化的重要举措,只是起到搜集和储存海量教学信息的作用,并没有挖掘出海量数据之间的相关性,而在本文中把关联规则法运用在教师教学质量评估中,在数据中挖掘有价值的知识和规律,使评估教师教学质量更具有科学性,因此在高校管理中全面应用数据挖掘技术,能为高校深化教学改革提供新的契机。

作者:阳馨 单位:四川水利职业技术学院

参考文献

[1]江敏,徐艳.数据挖掘技术在高校教学管理中的应用[J].电脑知识与技术,2012,(24):541-545+560.

数据挖掘技术研究篇5

[关键词]Web数据挖掘;HTML;XML

中图分类号:TP311.13 文献标识码:A 文章编号:1009-914X(2014)47-0257-01

1、Web数据挖掘

Web数据挖掘是对Web信息进行分析整理、提取有效信息的过程。一般,数据挖掘又称为数据库知识发现(Knowledge Discovery in Database, KDD)。对网络信息进行挖掘的关键在于网络信息的提取;与传统数据挖掘相比,Web数据挖掘具有以下特点:一、Web数据挖掘的对象是丰富的、异构的、分布的;二、Web数据挖掘在逻辑上是由一个文档节点和超链接构成的图;三、Web文档的半结构化或结构化决定了传统数据挖掘技术需要对Web数据进行预处理才能够应用。

根据Web数据挖掘处理对象的不同,Web数据挖掘可分为Web内容挖掘、Web结构挖掘、Web使用记录挖掘,Web用户性质挖掘四类[1]。

2 XML技术

XML技术[2]是基于HTML技术的一种规范简化的技术,是一种结构化的解析语言。相比较HTML用来显示数据,XML用来传输和存储数据。在XML技术中,可以将内容和显示样式分离,对相同的内容以不同的样式显示,这就增强了XML技术的兼容性。XML技术在数据挖掘中的作用不仅仅在于信息内容的显示,而且关键在于网络信息的提取,这是利用XML技术进行数据挖掘的关键。XML技术将内容与显示分离。在XML中,标记的显示方案是在XML文档中附带的、用户编写的样式单中定义的。即标记的显示方案既不是由XML文档本身、也不是由浏览器确定的。XML中的标记只描述文档的内容,不描述显示方案。这也是XML与HTML的最大一个区别。内容与样式的分离使XML可以跨平台共享,也提高了文档输出的灵活性。这也对Web数据挖掘提供了一种便利,一种更高效的方法。

3 HTML与XML的转换

已有的数据大部分都是以HTML格式进行约束显示的,对此,我们需要先对HTML格式的数据进行转换[3],转换为XML方式的数据,因为XML数据有很好的结构性,对进行下一步的挖掘提供了便利。目前,已经有很多对HTML代码进行转换为XML数据格式的工具,主要有Tidy工具等。同时,工具的好坏也影响着进行下一步的数据挖掘。

4 基于XML数据挖掘

传统的数据挖掘是对关键字和词条进行搜索。根据文本的关键字或者文中出现的词条进行比对,从而确定挖掘的内容符合度。对词条进行出现次数统计,可以得出相似度。相似度越高,产生的结果就越准确。对于当前的Web信息,大部分是html语言编写的,结构上不是特别清晰,故而无法准确对信息进行分类查询。但是,如果针对的是XML语言规范约束的网页,具有很强的结构性,可以根据规范的标记来确定所要查询的内容所在点,降低了查询范围,提高了查询的速度,同时也提高了查询的准确度。

5 基于XML数据挖掘模型

5.1 基于XML数据挖掘模型的原理

本模型中,思想是把现有的、已经查询到的Web页面转换成XML格式,利用相关的方法对XML结构的数据进行抽取,改正HTML中出现的常见错误,生成格式规范、有效性高的等价文档。在这个过程中,可以利用相关语言编写构造一个类来完成Web数据从HTML格式到XML格式的转换,以及与XML相关的任务。数据抽取的过程[4]如图1所示。

(1)数据库是组成Web信息所有各种异构数据信息。

(2)对万维网上的信息进行查询,会得到一个没有经过进一步处理的XHTML文档集。

(3)对于一般的HTML文档,找到一个确定的标记,例如,就确定了内容的主置。利用tidy工具,对XHTML文档中的Table标记的内容进行抽取。得到一个新的XHTML文档。

(4)对上面步骤得到的新XHTML文档进行下一步的标记转换,这是关键的一步。在进行这一步之前,我们要先创建实际抽取数据的代码。这个代码将以XSL文件的形式出现。

5.2 系统模型

5.2.1逻辑架构

在Web Web挖掘模型的结构有三个逻辑层次[5],分别为:数据挖掘层、数据存储层、数据获取层。

(1)数据获取层是对数据源进行采集。采集的对象主要有HTML文档、XML文档,甚至包含网站的日志数据。

(2)数据存储层主要应用于数据的存储。在对挖掘来的元素进行XML转化后,需要将转化的文档进行存储,并进行合并,由XML统一管理这些文档。

(3)数据挖掘层是本模型的最终目的。在这一层,系统将应用大量的挖掘算法挖掘有用的信息,完成挖掘任务。

5.2.2 基于XML的Web页面数据挖掘子系统[6]

Web页面信息都包含了结构信息和文本信息两部分。对于得到的页面需要从两个方面进行挖掘。一方面是文本内容上,另一个是从Web页面链接上。在基于XML的Web页面数据挖掘子系统中,需要注意以下几点。

(1)数据筛选。在初级搜索得到的数据中,需要摒弃无用的HTML文档,再将剩下的有用文档进行XML格式转换。

(2)文本分类。在筛选之前,可以根据用户挖掘主题将数据进行一个分类,利于用户的挖掘。这个技术叫文本分类技术,目前主要有BAYES、LLSF、SVM、KNN等方法。

(3)文本聚类。文本聚类与文本分类正好相反。文本聚类是将内容相似的文本进行聚合,组成簇集。不同的簇集要求尽可能的降低相似度。

5.2.3 基于XML的Web访问日志数据挖掘子系统

Web访问日志是拥护访问Web页面产生的一系列记录。通过对Web访问日志的挖掘,可以有效的缩短数据挖掘的速度。在基于XML的Web访问日志数据挖掘子系统中,需要注意已下几个方面。

(1)数据精简。Web日志中记录的数据是非常繁杂的,不仅仅包括用户访问的内容,还包括访问的路径,地址IP等。在挖掘中,路径地址,图片等是不需要的。因此,需要对这一部分信息进行剔除。

(2)会话识别。这一功能是用来识别用户是否对同一页面进行了多次访问。

(3)路径挖掘。当用户访问的链接与网站设计的链接一致时,这个结果正好是用户需要的。因此,可以对用户浏览的路径进行挖掘。

(4)建立一种自适应的网站。自适应网站是一种特殊的网站,网站可以根据不同的用户呈现不同的网页。这种网站需要相关的聚类算法的支持。

5.3 结论

基于XML的Web数据挖掘技术不仅可以解决当前的信息危机,而且可以对未来信息增长提供一个发展的平台。但是,对Web数据的挖掘重点在于非结构化或者半结构化的数据的挖掘,这一点需要强有力的相关算法的支持,这将是该技术需要不断完善发展的重点。随着数据挖掘技术的不断完善,应用领域的不断扩展,XML技术将渗透到各个领域中去。

参考文献

[1] 苏燕,梁武.基于Web数据挖掘的研究与应用[J].软件导刊,2014(1):131-132.

[2] 张建飞.XML使用培训教程[M].北京:科学出版社.2003:4-12.

数据挖掘技术研究篇6

【关键词】数据仓库 数据挖掘 分析系统 个 WEB服务

信息技术正从数据处理向数据应用转变,图书馆迫切希望将多年来在数字化建设中形成的数据集进行面向过程、主题的抽取和分析,形成支持决策的分析数据和报表,从而改进图书馆的管理和服务。数据挖掘(Data Mining)这一技术下正是为数据从处理向使用转变的技术解决方案。

一、图书馆信息服务现状

(一)信息不虞和信息过剩问题变得越来越严重

信息以数字形式在图书馆界得以应用和普及,数据以比特流在网络中传播和利用,滚雪球似地被用户加工和完善,面对如此众多的数据,如何找到有用的信息,成为知识,成为信息社会最大矛盾。今天,用户真切地感受到了“信息贫乏”(Information poor)和“数据关在牢笼中”(data in jail)的无奈,奈斯伯特(John Naisbett)就曾惊呼“We are drowning in information,but starving for knowledge”(人类正被数据淹没,却饥渴于知识!)的精辟论断,这说明信息的数量和用户需求的矛盾越来越突出。

(二)图书馆2.0带来新的挑战

Web2.0最重要的理念是以用户为中心,图书馆应本着“以人为本、开放、实用、易用”的经营理念和服务于用户的态度,保持最大程度的中立性,充分整合各类开放资源,来构建一种开放、主动、互动的创新氛围,并利用自己的核心资源和核心能力发展事业。Web2.0强调用户参与和协作,能为用户带来真正的个性化和信息自。Lib2.0走出了本馆的概念,在资源建设上走向合作和分工,信息发送者和使用者已没有严格界限,保证信息不失真和严谨、对信息的有效识别变得难以把握,图书馆在从信息管理上升到知识管理的难度越来越大,2.0时代对图书馆信息服务提出更高的要求。

二、数据仓库与数据挖掘技术

(一)数据仓库是基于数据库管理之上的信息管理

建立数据仓库并不是取代图书馆原有的联机事务处理系统,而是将图书馆不同的数据库管理系统中的联机处理数据按一个统一的视图组织并存储,不改变原有数据的基础上进行清理、转移、分析、映射、总结和综合,形成统一的存储格式,建立新的数据模型,并按其关键技术分为数据抽取、存储和管理以及数据表现三个基本方面,数据仓库离不开原的数据库系统,必须以原有的数据库系统为基础和数据采集源。

(二)数据挖掘的核心是知识发现

数据挖掘和知识发现是同一过程,其手段是从数据库和数据仓库中提取所感兴趣的知识、或更高层次的信息,将过去的、历史的数据进行数据统计、形成能预测将来、支持决策的信息,并以图形、图表的形式反映,知识就能够准确、安全、可靠地从数据库取出数据。

三、数据挖掘在图书馆信息管理中的应用

(一)图书馆集成管理系统中的数据挖掘

图书馆管理系统是根据传统手工借阅和卡片目录实现计算机管理而设计的一种计算机软件,此软件能快速地将图书馆传统手工业务通过计算机和网络实现读者服务,增强工作效率,达到理想的用户服务。但是新的问题随之而出,在这个信息技术不断革新升级的过程中,图书馆业务自动化的软件数据成几何级的数量增长,软件升级和更换成了图书馆管理软件发展不得不面临的问题,数据和日志由于数据量大和系统的异构性,致使大部分数据成为历史数据,甚至成为垃圾数据而存在,图书馆不得不保存这些垃圾数据,随着时间的推移,部分用户抛弃了这些数据,有些图书馆对数据遗弃感到价值贬值,作为管理者和经营者,更多地希望通过对历史数据的采样和分析,获得读者阅读习惯、阅读动态数据,了解馆藏结构和发展变化,充分掌握馆藏的情况,根据分析报告指导图书馆业务工作。

(二)电子资源系统中数据挖掘

现代图书馆,电子馆藏已成为必要的组成部分,各个商业数据库从访问方式和系统架构都趋于多样化、复杂化,图书馆要想获得使用情况的分析,不得不依赖商业公司提供的有限的报表支持功能,且系统间的数据不能实现共享和综合分析,即信息系统还不足以支持决策,图书馆要进一步全方位综合地分析和处理,具有本馆特色的分析,才能从根本上多面(multiply tub)分析数据,通过数据挖掘技术对电子资源进行综合评估、分析、对比形成资源在本馆的价值分析系统。

(三)图书馆留言、FAQ等虚拟咨询台信息的数据挖掘

基于图书馆网站的第二服务平台,其形式和手段都得以改善和提高,用户可以通过网络平台进行咨询,获取图书馆的服务,一系列的虚拟参考服务系统(平台)在图书馆得到广泛的应用,解决了在网络环境对下用户与图书馆员间的沟通和互动,但是这些信息相对零散,虚拟参考平台侧重于从技术手段改进,没有从根本上解决语义分析,知识提取的功能,采用数据挖掘技术,将用户咨询问题,解答日志进行分析,通过一定的计算机模型,让计算机模仿和学习,通过网络计算机以人的方式分担馆员的部分咨询和服务。

四、结束语

信息技术的发展改变了读者对图书馆资源索取和利用的方式和手段,提出了新的服务要求,图书馆不得不采用新的技术手段来满足或适应读者的需求,图书管理系统在技术自动化、信息处理多元化等方面较以前有了很大的提高,对数据库技术的普遍应用较好地解决了读者在时间、地域限制的问题,方便读者快捷地索取资源。

参考文献:

[1]刘俊熙.Web挖掘过程和元数据的运用[J].情报杂志,2004,2:30-33.

[2]杨宝森.面向学科的Web数据挖掘研究[J].情报杂志,2006,3:19-21.

数据挖掘技术研究篇7

    [关键词] 电子商务数据挖掘兴趣特征

    数据挖掘技术是随着数据库技术和人工智能技术发展起来的一种新型的交叉信息技术。无论是B2B、B2C还是B2G电子商务模式,商品的采购者都需要通过Web方式与商品的供应商及其合作者之间建立信息流的交互,面向电子商务的数据挖掘的特点就是从Web数据库中,运用关联、分类、聚类等技术手段,从中提取出可以指导市场策略的有用数据。它基于“消费者过去的行为预示着其今后的消费倾向”的原理,通过收集、分析和处理从网上获取的有关消费者消费行为的数据,从潜在的、隐含的、事先不知的状态,经过提取、洗涤、加工变为潜力巨大的价值信息,从而实现网络营销的目的,确定特定消费群体或个体的消费习惯、爱好、倾向,进而预示出消费者下一步的消费行为,有针对性地提供服务。

    一、电子商务Web数据挖掘技术

    1.电子商务Web数据挖掘技术的分类

    电子商务Web数据挖掘一般可分为三个部分:内容挖掘、结构挖掘、用法挖掘。Web内容挖掘有两种策略:直接挖掘文档内容和在其他检索工具搜索的基础上进行改进。Web结构挖掘是从WWW上的组织结构和链接关系中推导知识。Web用法挖掘的主要目标是从Web的访问记录中抽取感兴趣的模式。大多数基于数据库的数据挖掘方法均可作用于电子商务Web数据挖掘。

    在研究以电子商务网上购物为应用背景的工作时发现。商家在Web上建立自己的在线商品目录,顾客(即用户)通过浏览器可以浏览商品目录、实现网上订购甚至网上支付等。用户与商家的Web服务器间交互的过程信息(包括用户的登录信息、用户的浏览记录)以及用户的个人简要信息等,都能以日志文件或顾客数据库的形式存在,从中找出规律性,对商家的市场销售是至关重要的;从大量顾客数据及日志数据中,应用到计算机并行处理、神经元网络、模型化算法和其他信息处理技术手段,挖掘出有意义的用户访问模式及相关的潜在顾客群,从中可得到商家用于向特定消费群体或个体进行定向营销的决策信息。同时有效地对这些Web日志进行定量分析,揭示其中的关联关系、时序关系、页面类属关系、客户类属关系和频繁访问路径、频繁访问页面等,不但可为优化Web站点拓扑结构提供参考,而且还可为企业更有效地确认目标市场、改进决策获得更大的竞争优势提供帮助。

    2.电子商务Web数据挖掘模型构建和基本流程

    电子商务Web服务器自动收集客户浏览信息并保存在访问日志、引用日志和日志中。典型的电子商务Web服务器日志文件包括以下信息:IP地址,请求时间,方法(如get),被请求文件的URL,HTTP版本号,返回码,传输字节数,引用页的URL和。

    电子商务Web挖掘,首先对日志文件进行预处理,预处理主要由两部分构成:数据清洗(data cleaning)和事务识别(transaction identification)。包括对Web日志进行清洗、过滤和转换以及无关记录的剔除,判断是否有重要的访问没有被记录,并从中抽取感兴趣的数据;并将URL、资源的类型、大小、请求的时间、在资源上停留的时间、请求者的Internet域名、用户、服务器状态作为数据cube的维数变量;再将对模块、页面和文件请求次数,来自不同Internet域请求次数、事件、会话、带宽、错误次数、不同浏览器种类、用户所在组织作为度量变量建立data cube;而将文件、图像脚本及多媒体等其他文件转换成可用于Web使用挖掘的数据格式,从而可将数据挖掘技术用于Web流量分析、典型的事件序列分析和用户行为模式分析及事务分析。

    定义函数log={ip,uid,url,time}表示电子商务Web服务器日志。其中,ip,uid,url,time分别标识客户ip、客户id、客户请求的url和浏览时间。

    在经过数据预处理阶段后,即可针对电子商务中不同的挖掘目标可以采用不同的数据挖掘方法,选择数据挖掘模式,如统计分析、关联规则、时序模式、路径分析(path analysis)及聚类、分类技术。

    进行实际的挖掘操作的要点有:首先决定如何产生假设;选择合适的工具;发掘知识的操作;证实发现的知识。

    二、基于兴趣的关联算法在电子商务中的Web挖掘应用

    关联分析是寻找在同一个事件中出现的不同项的相关性,比如在一次购买活动中所买不同商品的相关性。序列模式与此类似,它寻找的是事件之间时间上的相关性,假设I={i1 ,i2 ,…,im} 是所有项的集合, 相当于商品的所有种类的集合,D是所有事务的集合, 也即数据库中记录的集合, 事务T={t1 ,t2 , … ,tn},tiI, 相当于交易中的商品列表。设X是一个I中项的集合,如果XTk,那么称交易Tk包含项集X,若X,Y为项集,XI, YI,并且X⌒Y=Φ,则形如X==>Y的表达式称为关联规则。

    计算方法:

    交易数据集中同时包含X和Y的交易数与所有交易数之比:

    support(XY)=P(X∪Y)=|{T:XYT,T∈D}|/|D|×100%(其中|D|是交易数据集D中的所有交易数),给定一个交易集 D, 挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度 (minsupp)和最小确信度(minconf)的关联规则。当规则的确信度和支持度分别大于minsupp、minconf 时,我们认为规则是有效的,称为强关联规则。当数据项集X的支持度大于minsupp时, 称X为高频数据项集。

    关联规则发现任务的本质是要在数据库中发现强关联规则。在电子商务中关联规则的发现也就是要找到客户对网站上各种文件之间访问的相互联系。例如,用关联规则发现技术,我们可以找到以下的相关性:40%的客户访问页面/company/product1时,也访问了/company/product2。30%的客户在访问/company/special时,在/company/product1进行了在线定购。利用这些相关性,可以更好的组织站点,实施有效的市场策略。

    三、数据挖掘技术的工具

    随着电子商务和数据库技术的发展,越来越多的公司、厂家开始开发数据挖掘工具。如Oracle公司通过从Thinking Machine公司获得Darwin产品来增强其数据挖掘功能;IBM公司的Intelligent Miner提供了基于DB2的数据挖掘能力,提供了支持C++类和方法的API(应用程序接口);SAS公司推出的SAS/EM(Enterprise Miner)数据挖掘软件可以对Oracle、Informix、Sybase、DB2的数据集进行操作。Accrue公司更是推出了一个综合性Web数据挖掘工具,能够对网站的运行状况进行深入、细致和准确的分析。

    四、小结

数据挖掘技术研究篇8

关键词:数据挖掘;数据仓库;招生录取

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)31-0003-02

Application of Data Mining Technology in the EnrollmentDataPlatform

HUANG You-fu

(Guangzhou Panyu Polytechnic,Guangzhou 511483, China)

Abstract: With the continuous expansion of enrollment in colleges,management and newborn admissions office using only data management and analysis software has been unable to obtain valid information on a deeper level, in order to improve management efficiency and to develop admissions policies and plans to provide scientific data, we use data mining techniques to study enrollment data, using association, clustering, decision tree method, a large number of applicants for student information for cleaning, analysis and statistics, the admissions processes scientific decision-makingprovide valuable reference.

Key words: data mining;data warehousing;admission

近年来,我国大力发展职业教育,并投入了大量的人力和物力,高职教育也得到了前所未有的发展。但是随着目前各大高职院校的招生规模不断扩大,招生方式也在不断地改革与创新,各高校的生源竞争也日趋激烈,各高校都在努力地去对招生的数据进行研究,使用数据仓库、数据挖掘等技术,将招生过程中收集到的生源信息进行提取,采用分类、聚类、关联分析等方法,通过对大量的报考学生信息进行清洗、分析和统计。获取学生学习的需求、专业需求、就业需求等信息,找出科学与规律,从而更好的制定招生政策,招生计划,提高入学报告率和生源质量,促进学校的发展。

1数据挖掘的定义

数据挖掘(Data Mining)是指人们从大量的、模糊的、零碎的、随机的、不完整、含有噪声的应用数据中,提取出一些有潜在价值的信息和知识的一系列管理与分析过程。主要的工作流程主要包括:首先对原始数据的整理,选择数据并对数据进行预处理,然后对预数据的进行转换,最后抽取出有用的信息并获取知识。数据挖掘基于数据库对模式进行发现,可将模式划分预测型模式与描述型模式两种。

2 数据挖掘的常用方法

2.1聚类分析方法

聚类分析的方法是目前数据挖掘技术中一个很常用的方法,主要源用于统计学、生物学及机器学习等学科。它是使用簇的集合,通过使用一个簇内的任意两个对象之间的相似性,找出对象间的相异性的过程。

2.2决策树

决策树分为分类树和回归树两种,其中分类树是对离散型数据变量进行决策,而回归树主要应用于连接的数据变量进行决策。它的主要工作过程就类似于数据流程图中的树型结构,把整个结构分为根结点、中间结点和叶结点,在进行数据分析的过程就是把数据进行切分,每个问题对应一个结点。

2.3关联规则

关联规则主要的思想是根据数据的出现的频率找到出现之间的相互关系,主要的目的是根据他们的关联信息找出其中的规律,并为之所利用。最核心的方法就是基本频集理论的递推方法。

2.4统计分析的方法

常用的统计分析立法有回归分析方法、判别分析方法和探索性分析方法三种,它主要是要从大量的数据中,使用科学的统计方法,推断出事物之间存在可能的规律。

3招生数据仓库的建模

本文在创建数据仓库的过程中,主要通过数据驱动的方法,从不同的数据源中获得的数据存储到数据仓库中,根据决策的主题,实现招生数据的更科学决策分析,本文主要选用 SQL Server 数据库,从概念建模、逻辑建模及物理建模的三级模式来构建数据仓库。

4数据挖掘流程

我校是部级示范性高职院校,招生类型多,招生管理工作复杂繁琐,把数据挖掘技术应用于招生数据的管理中,有利于对考生志愿的合理选择,同时也让更多的学生及家长了解当前的专业模式,以及对录取的新生报到率的预测,为下一年的设定招生人数和专业设置提供有价值的参考资料。数据挖掘技术在本校的招生数据管理的主要工作流程如图1所示:

图1 数据挖掘的流程图

我们从最原始的学生填写的高考志愿信息表中,获取基础数据,从考生的高考成绩、学业水平成绩、高中毕业考试成绩、考生类别、生源地、家族信息等信息中,通过前端处理工具,主要使用Clementin 工具,设置字段选项、选择记录点、对数据进行抽样,汇总等建立数据仓库,基于数据挖掘所要实现的目标以及数据所具有的特点,确定合适模型,通过聚类模型实现挖掘分析。最后评价数据挖掘结果,确定最佳模型,将其应用到具体实际问题中,与招生工作进行结合从而解释数据挖掘结果。

5数据挖掘在招生平台的应用

建设招生数据管理平台主要是为了对所有的招生数据进行科学的分析,解决招生过程中专业的设置,冷热门专业分析,录取分数线分析,考生第一志愿的分析以及招生计划的设置等。

5.1专业设置

招生平台中,可以以专业类别当成维度,采用关联分析,对各专业进行分析,与及对某一专业和其相关联的或相近专业,使用多维数据集与 EXCEL 的数据透视表工具结合,能方便地进行OLAP操作及结果的报表、图形等多种方式的可视化展现。

5.2冷热门专业分析

以生源所在地的考生为基础,运用聚类算法进行分析,以发掘考生填写志愿的相关规律,确定哪些专业是热门,哪些专业是冷门专业,根据毕业生的就业情况以及对当前的市场变化趋势深入了解,持续地对热门专业进行支持与挖掘,对冷门专业进行控制。

5.3考生第一志愿分析

第一志愿是志愿填报中最重要的一环,目前我校在录取规则上优先录取第一志愿考生,这样可以有相应专业人才的稳定生源,这批生源在最大程度上有志于自己所填报的志愿,而且在录取第一志愿考生时,学校热门专业通过第一志愿录取即可招满相应的新生。本文通过关联分析的方法,结合统计分析和聚类分析,根据考生的专业兴趣,高考成绩,以及兴趣爱好等,分析考生第一志愿的情况。

5.4招生计划安排

以考生的专业类别为基础数据,对某一类考生的信息进行分析,主要包括对考生的填写志愿的行为分析,有针对性地对考生性质,考生的志愿爱好,以及考生的高考成绩中的单科成绩情况进行分类分析及关联分析,采用决策树法,合理地安排专业招生计划。在系统平台的运用中,挖掘出隐含的规则与特征,把相关数据信息传递到各二级学院,让二级学院根据挖掘的结果做出合理的招生计划安排。

5.5挖掘结果展现

为了更好的展现考生的各种属性之间的联系,以“专业”、“成绩等级”、“生源地等级”作为前项,“报到状态”为后项,进行关联规则挖掘。运行结果如图5所示:

图2 招生数据挖掘结果

6 结束语

目前,很多高校都使用了各自的招生数据管理系统,也深入地掌握了数据挖掘技术对招生数据进行分析与干预,本文主要是使用关联规则法、决策树、统计分析等数据挖掘技术方法进行计算、分析、研究,构建了以考生类别、考生生源地、高考成绩、专业志愿等关系模型,结合 Microsoft SQL Server 2005 中的数据挖掘功能,通过这个模型找出了各个因素与考生专业选择、考生报到率以及对学校招生政策等的关联关系,提高学校的生源质量,促进学校的发展。

参考文献:

[1] 林宇.数据仓库原理与实践[M]. 北京: 人民邮电出版社, 2003.

[2] 王光翔.数据仓库技术在招生决策系统中的应用[J].贵州大学学报:自然科学版, 2006, 23(4):359-391.

[3] 陈文伟, 黄金才.数据仓库与数据挖掘[M]. 北京: 人邮电出版社, 2004:16-19.

[4] 谢秋丽.基于关联规则的教学质量评价数据挖掘[J].现代计算机:专业版. 2008(6):25-27.

上一篇:数据挖掘技术探讨论文范文 下一篇:微观经济学范文