数据挖掘技术探讨论文范文

时间:2023-03-18 13:07:59

数据挖掘技术探讨论文

数据挖掘技术探讨论文范文第1篇

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

参考文献:

苏新宁杨建林邓三鸿等:数据挖掘理论与技术[M].北京:科学技术文献出版社,2003

[摘要]本文主要介绍了数据挖掘的基本概念,以及数据挖掘的方法。

数据挖掘技术探讨论文范文第2篇

【关键词】教育数据挖掘;研究现状;关键内容;发展趋势

【中图分类号】G40-057 【文献标识码】A 【论文编号】1009―8097(2010)10―0021―05

引言

对数据挖掘的研究始于20世纪80年代,现在已经成功地应用于商业、金融业和市场营销等领域。教育信息化的发展和网络远程教育的开展,导致教育领域的各类数据迅速增长,如何从海量的数据中挖掘出对教育者和学习者有用的信息,以提高教育管理绩效和学习绩效,这一问题的提出促使教育数据挖掘研究的出现。

信息技术在教育领域的广泛应用促进教育科研信息化的发展,信息化科研(e-research)是指信息技术所“使能的”科学研究实践,其发展经历了以下三个阶段(Halfpenny,2007):一是对技术的研究阶段,如技术创新、技术应用、数字鸿沟等;二是利用技术开展研究的阶段,如计算机辅助的访谈、技术支持的数据分析、社会性网络分析等;三是技术使能的研究阶段,如数据挖掘、数据处理、数据整合、数据分析、模拟、可视化等 [1]。教育数据挖掘正是数字化教育研究的体现,也是教育信息化发展的必然需求。自2005年起人工智能(AAAI)、人工智能教育应用(AIED)及智能导师系统(ITS)等国际会议开展了多次“教育数据挖掘”主题研讨会,2008年在加拿大召开了第一届教育数据挖掘国际学术会议,2009年在北京师范大学举行的第五届高级数据挖掘与应用国际会议首次加入“数据挖掘在教育中的应用”主题,2011年7月将在荷兰埃因霍温举办第四届教育数据挖掘国际会议,并且已经成功创办了专门的电子期刊――教育数据挖掘杂志(JEMD)。

一 教育数据挖掘概述

数据挖掘(DM),与数据库中的知识发现(KDD)同义,指从大型数据库中提取出有意义的、隐含的、先前未知并有潜在价值的信息或模式的非平凡过程[2]。DM的研究内容包括基础理论研究和应用研究两大类,其中基础理论研究包含方法、功能、算法以及数据挖掘系统和软件的建设等方面,应用研究的重点不在于数据挖掘技术本身,而在于成果应用,不同领域开展不同的应用研究。

教育数据挖掘(EDM)指应用数据挖掘方法从来自于教育系统的数据中提取出有意义的信息的过程,这些信息可以为教育者、学习者、管理者、教育软件开发者和教育研究者等提供服务[3]。EDM主要研究数据挖掘在教育领域中的应用,从EDM研究领域的角度分析,EDM研究包括“在教学研究中的应用”和“在教务管理中的应用”两个子类;从数据来源的角度分析,EDM研究包括“在传统教育中的应用”及“在网络教育中的应用”两个子类,结合这两个方面,可进一步对EDM研究内容进行细分,如图1所示。

数据挖掘技术可应用于招生、就业、后勤、图书馆管理、人事管理、设备管理、师资管理等方面,有助于管理者做出科学的决策。EDM更重要的意义在于指导和改善学习,提高教学质量,尤其是在网络教育中的应用。网络学习环境不能像传统课堂中通过面对面交流得到反馈,却能够记录学生的大多数学习行为,通过对网络学习系统中的学习者登记信息、日志文件、过程性数据、交互信息及管理数据等进行挖掘,如有多少人访问了该页面、来自哪里、哪些页面是最受欢迎的、用户访问完该页面后下一步可能的访问页面是什么等等,确定学习者个体或群体的特征模型,管理和监控网络学习过程,支持学生的个性化学习,指导教学及课程设计,构建有效的学习模式,改进系统及修改站点、建设适合学习者的资源,进行教与学的评价,为页面推荐和智能化学习提供服务,也可用于网络学习学生流失分析、进行教学决策等。

二 EDM研究的现状分析

1研究样本的检索及变化趋势统计分析

对国外文献,选取教育数据挖掘相关会议论文集,并且以educational data mining为检索词对Science Direct外文期刊数据库和Google中2009年12月以前的文章进行检索,筛选与数据挖掘在网络教育中的应用相关的文章。对国内文献,分别以“数据挖掘”和“网络教学”、“远程教育”、“网络教育”等为关键词和索引对中国知网中2009年12月以前的文章进行高级检索,统计时剔除和主题关系不大与重复的文章,结果如表1、2所示。

为了更加直观地分析国内外相关研究的趋势,绘制如图2所示的分布态势图,该图显示国内外对数据挖掘网络教育应用的研究总体呈上升趋势,关注度逐年增加。国外研究持续增多,并且在2008年和2009年迅速增加,两年的研究总量近乎相当于前些年的总和,主要因为2008开始召开的国际教育数据挖掘会议以及JEMD电子期刊的创办。数据挖掘网络教育应用研究在国内发展时间不长,2002年才开始有学术论文出现,随后几年缓慢增加,该领域的发展与网络教育的发展及数据的来源相关,随着广播电视大学的发展、网络精品课程的开发使用和2004年67所网络学院的成立,国内研究开始有所增加,2007年达到了一个小高峰。学术论文代表研究的广度,研究相对较浅,学位论文代表着研究的深度,是相关知识的综合运用,从2003年才有该研究的学位论文出现,短短的七年时间学位论文达到42篇,其中仅有一篇博士论文。对比国内外研究,国外正处于快速发展阶段,国内开始研究的时间滞后于国外,前些年属于引进探索阶段,现阶段正处发展初期,预计相关文献量的高速增长还将持续很长一段时间。

2研究者学科背景统计分析

国外有很多开放的网络教育数据资源,并且大多研究者都具有交叉学科背景,研究者涉及计算机领域专家、教育学家、心理学家、统计学专家等,主要研究力量集中在北美、西欧、澳大利亚和新西兰等地区。而国内EDM研究者还没有形成整体力量,基本上都是来自于高校,研究者的学科背景比较单一,其比例如图3所示,78%的计算机或相关专业,10%的教育技术学专业,12%的教育科学、管理学、心理学或其他专业。研究者大多数是计算机专业学者,他们熟练掌握数据挖掘技术,但是缺乏教育和心理学理论以及教育数据的来源,导致国内研究相对滞后。

3研究内容类目划分及分析

依据样本研究内容的性质,将数据挖掘网络教育应用的研究划分为“理论探索和方法介绍的描述性研究”、“可行性分析论证研究”“数据挖掘方法的具体应用及数据挖掘过程的实例分析”三个子类,按照这三个研究范畴对国内外学术论文的文献统计结果如表3所示。国内外对数据挖掘网络教育应用的各个研究范畴都有所涉及,国内理论描述、可行性分析和应用研究样本的分布差异不显著,理论概述类文章数量相对较多,占39.8%,这一方面说明了随着研究的发展,这一研究引起了越来越多的关注,另一方面也在某种程度上说明了研究内容相对浅显,趋于重复。国外理论描述、可行性分析和应用研究样本的分布差异非常显著,应用研究占63.92%,明显多于理论研究,国外侧重具体的应用研究,这一现象在EDM领域是非常合理的,说明国外的研究相对成熟。

通过对样本的进一步分析发现早些年理论描述和可行性分析的文献比较多,而近几年应用研究的文献大量增加,且在核心期刊上的数量居多。理论探索如早期庞先伟(2002)通过对数据挖掘技术、知识发现及资源型学习的认识探讨一种基于数据挖掘技术的资源型学习[4]。可行性分析如Ha等(2002)详细描述了将Web挖掘应用于网络远程教育的可能性,并展示了在网络远程教育中应用Web挖掘的前景[5],这一篇文章引起了人们对该研究的普遍关注。应用研究大多都是采用一定的数据挖掘方法、选用合适的数据挖掘工具,对来自于一般的网络课程、学习内容管理系统或自适应智能网络教育系统的数据进行挖掘,解决一定的教育教学问题,如孙玉荣等的《数据挖掘在网络教学中的应用》(2009)利用关联分析、序列模式分析、分类分析和聚类分析等分析方法对《数据结构》网络教学数据库的信息进行挖掘,探讨学生的学习习惯,学习兴趣和学习成绩间的关系,为网络分层教学、提升教学质量服务[6]。还有一些基于数据挖掘方法设计学习评价或个性化、智能型教学实用系统的研究,如丁卫平(2009)设计了基于数据挖掘技术的教学评估智能辅助决策平台(TEIA),并对该平台的应用情况进行了分析,结果表明该平台能智能化提取出隐藏在评估数据中有用的规律和知识,为教学评估提供决策支持[7]。

三 EDM研究的关键内容

教育数据挖掘方法的使用是EDM研究最为关键的内容。Zaiane[8]使用挖掘方法评价学习过程,帮助学习者进行网络学习,是目前EDM研究中引用次数最多的文章。Romero and Ventura[9]从EDM工具、教育数据的来源、EDM方法几个方面对1995-2005年EDM的相关文献进行了详细的描述,是了解国外EDM发展的权威资料,他们依据任务将用于网络教育系统中的特定数据挖掘方法分为统计和可视化及Web挖掘两类。

1统计和可视化

数据挖掘将描述性数据分析技术本身看作目的,而正式的统计趋向于将基于假设的检验作为最终目标,可视化是将数据信息转化为有意义的、易于理解的图像的过程,虽然它们常常不被认为是数据挖掘技术,但是作为对数据的探测方法,它们可以处理一些通常由数据挖掘解决的问题。蒋玉兰等[10]以宁波电大2000级金融专业为研究对象,采用统计和可视化图形分析学生流失的态势,旨在找出远程开放教育中学生辍学的原因。

2 Web挖掘

Web挖掘是从WWW资源上获取信息的过程,是数据挖掘技术在Web环境下的应用。依据挖掘对象的不同可以将Web挖掘分为三类:Web内容挖掘、Web结构挖掘和Web使用记录的挖掘,目前Web日志使用记录挖掘在网络学习中的应用研究最多,黄茜[11]通过对学习者在网络教育中留下的日志信息进行挖掘,以实现个性化的网络教育。在Web使用记录挖掘中,网络学习行为采集和学习者的特征分析是关键,王巧玲 [12]、吕莉等 [13]对国内外相关研究进行梳理,王巧玲的硕士论文还实现了基于Web服务的网络学习行为的采集。EDM中的Web挖掘方法可以归纳为以下三组:

(1)聚类、分类和偏差检测

聚类是一个将物理或者抽象对象的集合分组成由类似的对象组成的多个类或簇的过程。分类是通过挖掘数据中的某些共同特性从而对数据项进行分类,用分类或聚类方法划分相似学生群体或个体,以提供相似或个性化的教学。偏差检测是对一些异常或孤立点数据对象进行分析的过程。黄勇等[14]尝试采用决策树分类的D3算法,构造学习者学习能力决策树,对学习者数据库进行分类,将学习者分成学习能力强和学习能力弱的两大类。Ueno[15] 使用在线偏差检测方法分析学习者非常规学习网络课程内容的反应时间数据,指导网络教学。

(2)关联规则挖掘和序列模式挖掘

关联规则挖掘技术用于从用户访问序列数据库的序列项中挖掘出相关的规则,能够揭示学习者访问一些内容的同时会访问哪些内容,借此找出具有相关内容的网页,可更好的组织课程页面和推荐页面,尽可能缩短相关内容的分布距离,或提供便捷的路径指引。时间序列模式挖掘试图找出页面依照时间顺序出现的内在模式,能够揭示哪些内容能够激发对其它内容的访问,可以用来对学习者的浏览趋势分析,解决远程教育中针对各种层次学生进行因材施教等问题。关联挖掘技术注重事务内的关系,序列模式技术则注重事务间的关系,这两种方法的应用非常普遍。

(3)文本挖掘

Web文本挖掘主要是对Web上大量文本集合的内容进行总结、分类、聚类、关联分析以及运用Web文档进行趋势预测等,是针对非结构化或半结构化的数据集。Web内容挖掘大多是基于文本信息的挖掘,这类方法相对更加困难、复杂,Dringus and Ellis[16]使用文本挖掘策略对异步讨论区进行评价,国内尚未发现文本挖掘在网络教学研究方面的应用。

Baker也对EDM方法进行分类,分为预测、聚类、关系挖掘、人类的判断和模式发现五类。Baker and Yacef[17]对Romero and Ventura的文章中从1995年-2005年运用EDM方法的60篇论文按照Baker的分类法进行归类统计,如表4所示,又将国际教育数据挖掘会议2008年和2009年的文章进行归类统计,如图5所示(有些研究可能使用多种方法,文章被多次统计)。

对图4和图5进行对比分析,近几年对EDM方法的应用重心发生了变化,关系挖掘方法在1995-2005年间占主导地位,但在2008年和2009年下滑,预测占据了主导地位,人类判断和聚类大致保持一致,模式发现位居第二,而在1995-2005年间几乎没有此类方法应用的文章,模式发现能够真正体现EDM研究的价值。另一个趋势是来自于项目反应理论的结构方程模型分析和贝叶斯网络等方法的使用,这些变化反映了国外研究者群体的和研究领域的继续扩大。分析国内研究中使用的EDM方法,基本上一直都使用分类、聚类和关系挖掘。

除了对EDM方法的研究以外,EDM工具、EDM数据的来源、EDM过程也是研究中的关键内容,对这些问题的研究相对固定。目前所进行的研究大多使用广泛的数据挖掘工具,国外也有少数的研究者开发专门的EDM工具使用。随着网络学习人数的增加,数据的来源越来越广泛,早期需要研究者自己搜集收据,现在已经有大量的开放数据供免费使用,陶剑文等 [18]、卢永艳 [19]对网络教学中可利用的数据来源做了详细的描述,EDM数据的来源包括服务器数据、客户登记信息和级数据。曹梅[20]对数据挖掘过程的研究现状进行梳理,数据收集、数据预处理,数据挖掘和结果评价是必要的环节,整个过程是一个不断循环和反复的过程。

四 EDM的研究趋势

目前国内外研究者对EDM的前景持肯定的态度。教育信息化引起信息量的急剧增长和对信息提取的更高要求,使用计算机进行研究数据搜集、分析和处理的数字化教育研究随之发展;借助数据挖掘技术可以发现数据中隐藏的教育规律和模式,反过来教育科研信息化的进程将极大地促进教育信息化的进程。未来的研究方向主要在以下几方面:

1 EDM方法的应用研究

可视化是优先选择的方法,传统统计在数据分析方面持续发挥着作用,Web挖掘成为EDM方法研究转向的焦点。Web是一个动态性极强的信息源,数据库中的数据时刻都在发生变化,所以面向Web的数据挖掘研究极具挑战性,Web使用挖掘是其中最有前途的研究领域。Web数据挖掘通常有两种应用方式:离线式数据挖掘和在线式数据挖掘,离线式数据挖掘主要通过分析服务器访问日志来发现规律,而在线式具有实时性,难度大,但能做到及时和有效的指导和帮助,目前Web数据挖掘的主要方式还是离线式数据挖掘,而Web在线式数据挖掘很少有研究,应该加强这一方面的研究。

2 EDM方法和数据的标准化研究

标准对于任何系统都很重要,EDM领域也需要整合网络学习环境的普适化的工具和方法。数据库之间采用不同的数据存储类型、对数据的不同定义等问题导致了不一致的现象,数据标准化的主要功能是消除变量间的量纲关系,从而使数据具有可比性。数据标准化、规范化是实现信息集成和共享的前提,在此基础上才能达到信息的准确、完整和及时,没有数据标准化,信息共享就无从谈起,没有信息共享则没有普适化的可以应用到任何教育系统的工具。因此,数据的标准化和预处理任务是必需的。

3 开发易于使用的EDM工具

数据挖掘结合人工智能、统计学和数据库技术等多个学科的思想,数据挖掘技术是一种面向应用的复杂技术,应用难度很大。很多数据挖掘工具封装了挖掘算法、可视化技术等,例如应用于商业领域的DBMiner、Clementine、Intelligent Miner等,然而这些工具不是专门为教育领域而设计,对很多教育工作者来说设计的过于复杂,不易于使用,在挖掘方法和数据标准化的基础上,针对教育领域的特点,开发一些专门的EDM、统计和可视化工具,设计更加直观和易于使用的接口,以帮助教育工作者对于不同层次的教学过程进行分析。

4 特定的EDM技巧研究

这一领域的研究者群体中很大一部分是计算机专家,他们缺乏教育和心理学理论,即使通过数据挖掘能够获知学习者的行为,但是不能解释学习者产生这种行为的原因,提不出合理的预测和解决方案。教育领域有其自身的特点,某些具体对象的属性难以用数量方法描述,信息具有隐含性和模糊性,网络教学信息数量大,包括教师教的信息、学生学的信息及交互信息,这些信息很难进行挖掘。数据挖掘在教育系统中的应用,需要考虑教育情境做相应的调整,结合特定的整合教育领域知识的数据挖掘技巧,可以借助教育测评技术、教学理论和教育心理学理论等寻求突破口,在有效且易于使用的数据挖掘工具支持下,将特定的DEM技巧整合到网络学习环境中,使得所有的数据挖掘任务都能成为一个应用,所获得的反馈和结果能够直接被应用到网络学习环境,更好地为教育教学服务。

参考文献

[1]顾小青,李雪.信息化科学研究及其教育应用综述[J].开放教育研究,2008,(8):17-21.

[2]Jiawei Han,Micheline Kamber著.范明,孟小峰译.数据挖掘概念与技术[M].北京:机械工业出版社,2001

[3] Educational Date Mining[DB/OL].

[4]庞先伟.基于数据挖掘技术的资源型学习[J].现代远程教育研究,2002,(3):39-42.

[5]Ha,Bae,Park.Web Mining for Distane Edueation [J].IEEE,2002, (2).

[6]孙玉荣,罗立宇,黄慧华.数据挖掘在网络教学中的应用[J].现代教育技术,2009,(6):104-106.

[7]丁卫平,王杰华,管致锦.基于数据挖掘技术的教学评估智能辅助决策平台的设计与实现[J].电化教育研究,2009, (4):90-105

[8] Zaiane,O.Web Usage Mining for a Better Web-based Learning Environment[C].Proceedings of conference on advanced technology for education, Banff, Alberta,2001:6064.

[9] Romero & Ventura. Educational Data Mining:A Survey from 1995 to 2005[J]. Expert Systems with Applications.2007,(33):125-146.

[10]蒋玉兰,周磊.关于开放教育学生流失情况的调研报告[J].宁波广播电视大学学报,2006,(3):50-56.

[11]黄茜.WEB日志挖掘在个性化网络教育中的应用[J].现代教育技术,2004,(5):52-55.

[12]王巧玲.基于Web服务的网络学习行为采集与集成初步设计与实现[D].武汉:华中师范大学,2007.

[13]吕莉,张屹.基于Web服务的网络学习行为采集研究现状[J].开放教育研究,2009,(6):99-104.

[14]黄勇,李玉华.面向知识发现的数据分类技术在网络教学中

的应用研究[J].南华大学学报,2006,(6):32-35.

[15]Ueno,M. Online Outlier Detection System for Learning Time Data in E-learning and Its Evaluation[C].International conference on computers and advanced technology in education.2004:248253.

[16]Dringus & Ellis.Using Data Mining as a Strategy for Assessing Asynchronous Discussion Forums[J].Computer & Education Journal,2005,(45):141160.

[17]Baker & Yacef,The State of Educational Data Mining in 2009:A Review and Future Visions[EB/OL].

[18]陶剑文,黄崇本.Web Usage Mining在网络教学中的应用研究[J].情报杂志,2006,(5):73-77.

[19]曹梅.知识发现在网络教学系统中的应用研究进展[J].开放教育研究,2008,(12):89-93.

数据挖掘技术探讨论文范文第3篇

数据挖掘技术综述

数据挖掘(Data Mining)是一项较新的数据库技术,它基于由日常积累的大量数据所构成的数据库,从中发现潜在的、有价值的信息——称为知识,用于支持决策。数据挖掘是一项数据库应用技术,本文首先对数据挖掘进行概述,阐明什么是数据挖掘,数据挖掘的技术是什么,然后介绍数据挖掘的常用技术,数据挖掘的主要过程, 如何进行数据挖掘,主要应用领域以及国内外现状分析。

一. 研究背景及意义

近十几年来,随着数据库系统的广泛流行以及计算机技术的快速发展,人们利用信息技术生产和搜集数据的能力大幅度提高。千万个数据库被用于商业管理、政府办公、科学研究和工程开发等,特别是网络系统的流行,使得信息爆炸性增长。这一趋势将持续发展下去。大量信息在给人们带来方便的同时也带来了一大堆的问题:第一是信息过量,难以消化;第二是信息真假难以辨认;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。面对这种状况,一个新的挑战被提出来:如何才能不被信息的大海所淹没,从中及时发现有用的知识,提高信息利用率呢?这时出现了新的技术——数据挖掘(Data Mining)技术便应用而生了。

面对海量的存储数据,如何从中发现有价值的信息或知识,成为一项非常艰巨的任务。数据挖掘就是为迎合这种要求而产生并迅速发展起来的。数据挖掘研究的目的主要是发现知识、使数据可视化、纠正数据。

二. 概述

1,数据挖掘

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行

数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系,是一个交叉学科领域,可以集成数据数据库、人工智能、数理统计、可视化、并行计算等技术。 2,数据挖掘技术

数据挖掘就是对观测到的数据集进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。它利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策和预测。

数据挖掘的过程就是知识发现的过程,其所能发现的知识有如下几种:广义型知识,反映同类事物共同性质的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依赖或关联的知识;预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。

数据挖掘是涉及数据库、人工智能、数理统计、机械学、人工神经网络、可视化、并行计算等的交叉学科,是目前国际上数据库和决策支持领域的最前沿的研究方向之一。

3,数据挖掘的功能

数据挖掘通过预测未来趋势及行为,做出预测性的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,按其功能可分为以 下几类。

3.1 关联分析(Association Analysis)

关联分析能寻找到数据库中大量数据的相关联系,常用的一种技术为关联规则和序列模式。关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。

3.2 聚类

输入的数据并无任何类型标记,聚类就是按一定的规则将数据划分为合理的集合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差别很大。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。

3.3 自动预测趋势和行为

数据挖掘自动在大型数据库中进行分类和预测,寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势,这样以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。。

3.4 概念描述

对于数据库中庞杂的数据,人们期望以简洁的描述形式来描述汇集的数据集。概念描述就是对某类对象的内涵进行描述并概括出这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。

3.5 偏差检测

数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。这常用于金融银行业中检测欺诈行为,或市场分析中分析特殊消费者的消费习惯。

三.目前的研究现状及存在的主要问题

自KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议以来。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了13次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到超过千人,论文收录数量也迅速增加,研究重点也从发现方法逐渐转向系统应用直到转向大规模综合系统的开发,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。

与国外相比,国内对DMKD的研究稍晚,没有形成整体力量。1993年国家自然科学基金首次支持我们对该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程

研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。

四. 研究内容

1,数据挖掘的过程

数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识。

数据挖掘的一般过程如下流程图所示:

图1,数据掘的一般过程

2.1 神经网络

神经网络方法是模拟人脑神经元结构,以MP模型和Hebb学习规则为基础。它主要有三种神经网络模型:前馈式网络、反馈式网络、自组织网络。为

2.2决策树

决策树学习着眼于从一组无次序、无规则的事中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支,在决策树的叶结点得到结论。

2.3 遗传算法

遗传算法是一种优化技术,是模拟生物进化过程的算法。基于进化理论,并采用遗传结合、遗传变异以及自然选择等设计方法。由三个基本算子组成:繁殖、交叉、变异。

2.4 传统统计分析

这类技术建立在传统的数理统计的基础上。在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用判别分析、因子分析、相关分析、多元回归分析及偏最小二乘回归方法等。

2.5 关联规则

关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。关联规则是展示属性: 值频繁地在给定数据集中一起出现的条件,是数据挖掘中作用比较广泛的知识之一。

2.6 可视化技术

可视化技术是利用计算机图形学和图像技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。可视化数据挖掘技术将可视化有机地融合到数据挖掘之中,使用户对于数据挖掘有一个更加直接直观清晰的了解,提供让用户有效、主动参与数据挖掘过程的方法。

3,数据挖掘的应用领域

数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计,分析,综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。

一般Data Mining较长被应用的领域包括金融业、保险业、零售业、直效行销业、通讯业、制造业以及医疗服务业等。更广义的说法是:数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。

4,数据挖掘的发展方向

目前,数据挖掘的研究方面主要有:数据库知识发现方面,将知识发现(KDD)与数据库系统、数据仓库系统和Web数据库系统紧密结合,力图充分利用Web中的丰富资源;机器学习方面,进一步研究知识发现方法,希望克服现存算法的计算性瓶颈,如注重对Bayes(贝叶斯)方法以及Boosting算法的研究和提高;统计领域,加大传统统计方法在数据挖掘中的应用。数据挖掘研究正蓬勃开展,在今后还会掀起更大的波澜,其研究焦点集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互;研究在网络环境下的数据挖掘技术,特别是在Internet上建立数据挖掘服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。

5,数据挖掘的新技术

Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题。这就必须要有一个模型来清晰地描述Web上的数据,而寻找一个半结构化的数据模型是解决问题的关键所在。除此之外,还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。

XML可看作一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性对应起来,实施精确地查询与模型抽取。利用XML.Web设计人员不仅能创建文字和图形,而且还能构建文档类型定义的多层次、相互依存的系统、数据树、元数据、超链接结构和样式表。

6,数据挖掘面临的问题和挑战

虽然数据挖掘技术已经在各方面都得到了广泛的应用,但数据挖掘技术的研究还不够成熟,在应用上有很大的局限性。正是这些局限性,促使数据挖掘技术进一步的发展:

(1)挖掘的对象 数据库更大,维数更高,属性之间更复杂,数据挖掘处理的数据通常十分巨大。

(2)数据丢失问题 因大部分数据库不是为知识发现而定做的,那么它就有可能会存在一些重要的数据和属性丢失的问题。

(3)多种形式的输入数据 目前数据挖掘工具能处理的数据形式有限,一般只能处理数值型的结构化数据。

(4)网络与分布式环境的KDD问题 随网络的发展,资源的丰富,技术人员各自独立处理分离数据库的工作方式应是可协作的。

五.研究达到的预期结果

系统的介绍数据挖掘技术,使更多的研究人员在数据库中发现有用的,有潜在价值的数据知识。

六.小结

通过各方面资料的查找,理解了基本的数据挖掘概念、数据挖掘技术、数据挖掘的实际应用及国内外现状。在论文中将对数据挖掘的概念以及发展概况进行介绍,并总结数据挖掘中使用的技术,主要结合当前的研究成果,分析了数据挖掘领域的。研究领域方面,可能主要集中在网络信息中的主要应用。

七.毕业论文进程安排

序号 论文各阶段安排内容 日期

1 资料调研及方案设计 1.4-1.10

2 数据挖掘的概论研究 1.11-1.25

4 数据挖掘常用技术研究 1.26-2.15

5 数据挖掘的应用研究 2.15-3.1(中期检查)

6 数据挖掘的新技术研究 3.1-3.10

7 数据挖掘的发展方向 3.11-3.16

8 撰写论文 3.16-4.10

9 论文修改 4.11-4.30

数据挖掘技术探讨论文范文第4篇

>> 云计算架构及其关键技术 云计算及其关键技术 云计算及其关键技术问题 探析云计算体系架构及其关键技术分析 云计算及其关键技术研究 网络环境下的云计算及其关键技术 云计算关键技术及挑战 云计算关键技术研究 基于云计算的数据挖掘平台架构及其关键技术研究 云计算的关键技术及其核心问题研究 基于云计算的电力数据中心基础架构及其关键技术 基于云计算的数据挖掘平台架构及其关键技术探讨 浅谈云计算环境下电子文件管理的关键技术 浅谈云计算环境下的体系构架及关键技术 云计算安全关键技术研究 基于云计算的架构和关键技术探讨 云计算的关键技术及发展前景 云计算关键技术及发展现状研究 云计算体系架构与关键技术漫谈 云计算环境下分布存储关键技术解析 常见问题解答 当前所在位置:?fr=ala0_1_1.

[2] (美)MICHAEL MILLER云计算(史美林・译)[M].北京:机械工业出版社,2009年4月.

[3] 王鹏.云计算的关键技术与应用实例[M].北京:人民邮电出版社,2009年12月.

[4] Luiz AndréBarroso, Jeffrey Dean, Urs H-lzle.

Web search for a planet: The Google cluster architecture [J]. IEEE Micro,Mar/Apr, 2003, 23(2): 22 -28.

作者简介:

数据挖掘技术探讨论文范文第5篇

关键词: 数据仓库与数据挖掘; 研讨型; 教学模式; 教学实践

中图分类号:N42 文献标志码:A 文章编号:1006-8228(2012)12-52-02

Analysis on research-oriented teaching model in data warehousing and data mining

Huang Meili

(Zhejiang Agriculture and Forestry University, Lin'an, Zhejiang 311300, China)

Abstract: As a comprehensive and practical course, data warehousing and data mining is opened not so long ago, so teaching methods of this course for undergraduate students are rarely seen. Based on the characteristics of this course, combined with teaching experience of several years, the application of research-oriented teaching model is mainly discussed and several typical students’ learning outcomes are listed. Finally, some places which need to be cautious are put forward.

Key words: data warehousing and data mining; research-oriented; teaching model; teaching practice

0 引言

20世纪90年代兴起的数据仓库和数据挖掘是数据库研究、开发和应用中最活跃的两个领域。随着其理论及应用技术和产品的不断成熟与发展,数据仓库与数据挖掘不仅成为高等院校计算机专业、信息技术与信息管理类专业硕士、博士研究生的专业课程,而且相继在本科相关专业高年级学生中开设了该课程。

该课程是一门综合性和实践性很强的课程,其内容新且广,对于本科教学有一定的难度。本文针对课程自身特点及高年级学生学习及能力培养需要,结合自身教学实践,探讨以激发学生学习兴趣为着眼点、学生分析解决问题能力培养为目的的研讨型教学模式。

文中章节1具体介绍课程内容、教学过程中存在的问题及研讨型教学模式;在章节2中,以自身的教学实践为例,给出研讨型教学实践效果及该方法应用的注意事项;最后,是结论部分。

1 本科数据仓库与数据挖掘课程教学

1.1 课程教学内容

数据仓库与数据挖掘课程涉及两方面的教学内容:①数据仓库技术和基于数据仓库的联机分析处理应用技术。具体包括数据仓库的基本概念、创建技术和方法、数据仓库的体系结构以及OLAP的基本概念、多维数据库、OLAP的实现技术。②数据挖掘的基本概念、基本方法和基本技术(包括分类、预测、关联、聚类等),以及数据挖掘的应用。

1.2 课程在本科教学过程中存在的问题

⑴ 教学内容不统一

由于该课程是一门综合性很强的课程,涉及到的学科知识很广,加上在本科教学中开设的时间并不长,也没有得到大家一致认可的相应教材供使用,使得开设该课程的不同高校的教学内容与教学重点各不相同,即便是同一学校不同教师对于教学内容的把握上也有很大差异。

⑵ 传统教学方法的不适用性

虽然本课程涉及内容宽泛,而且是在已具备自主学习能力的本科高年级学生中开设的,但是课程的教学方法却多采用传统的以教师讲授为主、学生为辅的教学模式。

从本科教学过程中存在的问题可见:课程授课对象及课程自身的特点,决定了传统教学方法的不适用性[1-3]。因此,有必要探讨新的教学模式在具体教学实施过程中的应用。

1.3 研讨型教学模式

虽然课程涉及到的学科内容广且深,但是对于已学习高等数学,并熟悉数据库知识和具备程序设计能力的高年级学生而言,还是能较好地掌握数据仓库的建模以及经典数据挖掘算法的实现与简单应用。因此,在课程的教学实践中,我们把该部分内容作为课堂教学的重点;对于一些较难的和新的挖掘算法与技术,及其应用和最新发展趋势,则作为学生研讨内容。

作为传统的教师讲解教学模式的有益补充和提高,开展研讨型的教学模式,可以按照如下四个环节开展:

⑴ 教师出题&学生选题;

⑵ 相关文献查阅;

⑶ 报告撰写;

⑷ 课堂汇报与讨论。

第一步,由教师出题,学生选题。在学期初,就由教师给出研讨的主题供学生选择。这样既可以避免学生选题过于盲目,也可以避免最后课堂讨论阶段的研讨内容偏离课程教学主题。

第二步,相关文献查阅。在接下来的课程教学期间,学生除了保证基本的学习内容的掌握之外,还需要利用课余时间,利用各种手段查阅与选题相关的文献,为报告的撰写和汇报阶段做充分的准备。

第三步,报告撰写。经过大量的文献阅读后,学生需撰写文献阅读报告,报告的撰写格式可以参考毕业设计的要求。

第四步,课堂汇报与讨论。在课程后期,教师在每次课堂上抽取一定的时间,供学生课堂汇报,然后其他学生与教师一起针对学生的汇报内容展开讨论。该环节的开展,既开拓了学生的视野,又可以有效地避免部分学习不认真的学生的应付行为。

从教师出题到最后的学生课堂汇报与讨论,每个环节都要求学生的亲自参与。这样,在课时有限的情况下,以研讨型的教学模式开展教学,既可以保证教学内容的讲授,又能使学生主动参与到课堂教学中来,激发了学生的学习主动性,拓宽了学生的视野。

2 研讨型教学实践效果及注意事项

2.1 教学及其效果

我校在大四计算机专业学生中开设该课程。其中,理论32学时,实验16学时,共计48学时。教材采用韩家炜先生编著的《数据挖掘:概念与技术》一书[4]。该教材是得到业内广泛认可的经典教科书,但教材内容偏重理论。为了在有限的课时内,让学生尽可能掌握基本教学内容,使得研讨型教学模式得以开展,我们以李志刚编著的《数据仓库与数据挖掘的原理与应用》作为相关内容的辅助教材[5]。具体地,按如下方式进行。

2.1.1 教学内容及学时分配

教学内容围绕数据仓库与数据挖掘两条主线展开。涉及的相关内容及学时分配如表1所示。

2.1.3 考核方式

期末总成绩=平时成绩25%+文献报告25%+期末卷面成绩50%

在最近两年的研讨型教学模式实践中,我们选出有代表性的学生作品,如表3所示。

2.2 教学注意事项

研讨型教学模式适用于“数据仓库与数据挖掘”课程的教学,但是在相应课程中开展研讨型的课程教学模式需注意以下几点。

⑴ 注意授课对象的选择。文献资料的查阅、文献阅读报告的撰写以及课堂汇报是研讨型教学模式开展过程中的主要环节,而这些环节要求学生所需具备的能力,不适于在低年级学生中开展。

⑵ 注意教学模式的选用。研讨型教学模式不能代替传统的教师讲解的教学模式,而应是两者的有机结合。

⑶ 注意考核方式的改革。研讨型教学模式的开展,除占用一定的课堂教学时间之外,还需要学生花费大量的课外时间用以查阅文献资料、撰写报告等。如果采用传统的以考试为主的考核方式,那么在实践过程中可能会遇到部分学生的抵制。因此,为了提高研讨型教学模式的效果,需要对传统的以期末笔试成绩为主的评价方式进行适当改革,向研讨内容及成果倾斜,以提高学生的积极性。

3 结束语

研讨型教学模式的开展,可以有效地避免传统教学方法下以教师讲解为主,以学生为辅的填鸭式教学模式,较好地解决数据仓库与数据挖掘课程在本科教学过程中遇到的问题。

经过近几年在本科计算机专业毕业班对该课程采用研讨型教学模式的实践表明,该模式的开展不仅有效地激发了学生的学习兴趣,开拓了学生的视野,而且能够很好地为学生的毕业设计环节中有关文献查询、论文撰写及答辩等奠定基础。从列举的近两年的代表性学生研讨内容及成果中可以看到,该教学模式在高年级学生中开展是现实可行的,而且也是有效的。

研讨型教学模式的开展,需要占用一定的教学时间,如何在有限的课时内保证教学内容,并挤出足够的时间开展研讨是教师必须考虑的问题;与此同时,学生为准备研讨内容需要花费大量的课余时间,因此,如何调动学生的积极性也是该模式能否成功应用的关键因素之一。上述两方面的问题,都有待在今后的教过实践中,进一步深入细化该模式,以更好地达到教学培养目标。

参考文献:

[1] 徐金宝.对应用型本科生开设数据挖掘课程的尝试[J].计算机教育,

2007.7:27-29

[2] 胡建军.浅谈数据仓库与数据挖掘的本科教学[J].广西科学院学报,

2007.23(3):209-210,214

[3] 韦艳艳,张超群.“数据仓库与数据挖掘”课程教学实践与探索[J].高

教论坛,2011.1:94-96,99

[4] 李志刚,马刚.数据仓库与数据挖掘的原理及应用[M].高等教育出版

社,2008.

[5] Jiawei Han,Micheline Kamber著,范明,孟小峰译.数据挖掘:概念与

数据挖掘技术探讨论文范文第6篇

讨论如何在图书馆个性化推荐中应用网络数据挖掘,并具体对社会网络分析的应用进行了深

入分析,提出了具体算法。

网络数据挖掘又称Web数据挖掘,是数据挖掘技术在网络信息处理中的应用,从与网络相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,是从Web网站的数据中发掘关系和规则。其挖掘对象是大量、异质、分布的Web文档,可以对数据库、Web服务器上的日志、读者信息等数据展开挖掘工作。同时,由于Web在逻辑上是一个由文档节点和超链接构成的图,因此Web挖掘所得到的模式可能是关于Web内容的,也可能是关于Web结构的,或者是关于用户行为模式的1。通过网络数据挖掘对每个用户的访问行为、频度、和内容等进行分析,能提取出每个用户的特征,给每个用户个性化的界面,提供个性化的Web信息服务。

本文以中国知网(CNKI)总库为统计源,以主题“We数据挖掘”、“网络数据挖掘”搜索到国内近六年的论文数量,从中可以看出相关领域的研究从2007年开始呈逐年上升趋势,2009年达到峰值后,逐年有所下降。具体数据如表2所示:

根据对这些文章内容的分析,研究网络数据挖掘算法及其实现的占大多数,国内关于网络数据挖掘在图书馆的应用研究不多,大多是作为电子商务中数据挖掘研究的一部分。网络数据挖掘在图书馆中的应用主要表现在以下几个方面:

(1)图书推荐系统。这类系统主要通过日志挖掘读者的借阅习惯,推测读者的阅读需求,从而为不同兴趣的读者提供相应的推荐内容。这种个性化推荐系统能够较好地把握读者需求,通过聚类和关联规则为读者推荐借阅过的相似图书或可能需要的其他文献。但它的缺点在于,推荐的相似图书,读者已经借阅过,再借阅的几率不大。因此,这个研究的重点和难点在使用的挖掘算法上2。

(2)网络学习平台。现代图书馆越来越重视读者的学习需求,从而推出各种学习服务3。这类应用主要是针对网络学习中的学习资源的挖掘。因为在图书馆提供的虚拟学习平台中,资源是庞大的,而读者的精力有限,同时每个人的兴趣不同,需要对不同的读者组织不同的教育资源。而网络数据挖掘在其中所起的重要作用就是对读者的借阅和浏览行为进行挖掘分析,根据分析结果为读者匹配学习资源。

(3)文献检索系统。网络数据挖掘技术也常见于文献检索系统的应用中,图书馆资源包含大量的文本、期刊、视频等。读者常常需要通过检索才能获取自己想要的信息,使用网络数据挖掘也是为读者提供高效获取信息的方式。

由以上分析看出,网络数据挖掘在图书馆中应用的主要目的就是为读者找到所需资源,满足读者的个性化需求。下面我们就针对网络数据挖掘在图书馆个性化推荐中的应用进行探讨。

1、 图书馆个性化推荐常用分析方法

1.1聚类算法

通常说来,许多图书馆的读者建模方法是基于统计的,即对所有读者的统计数据(比如基于平均值)进行分析。这样的后果是对读者的个性化行为视而不见,影响了读者专业性和个性化需求,忽略了隐含的读者信息的价值。而读者聚类建模,则是把一类读者聚集起来,分析他们的特性并对这类读者建模,在建模质量相同或接近的条件下,聚类建模所需的数据量将远远低于对单个读者建模的数据量,因为分类中的每个读者(知识背景和生活阅历贡献具有很大的相似度)都贡献了其数据。常用聚类算法如表3。

1.2 社会网络分析

社会网络分析已经有相当长的一段历史了,近60年来,相关研究人员做了大量的研究,由Brin和Page等人提出的PageRank算法,以及由Kleinberg说提出来的HITS算法开创了将社会网络研究应用在Web范畴的先河。这两种算法都来源于社会网络分析,都利用了网页的超链接结构并依据网页的“威望”或者“权威”级别来对网页进行分级排序。这在搜索引擎中得到了广泛的运用。图书馆也同样存在着这样的社会网络关系,这种关系主要通过读者浏览和获取文献行为体现。这种关系和活动可以用网络或图来表示,其中,每一个顶点(结点)用来表示一个读者,而一条边的连接用来表示两个读者之间的关系。利用网络图我们可以研究该网络的结构特征,以及每个读者威望性、中心性等属性。同时从中我们也可以找到各种类型的子图,即社区。

2、 基于网络数据挖掘的图书馆个性化推荐分析

2.1基于K-means聚类推荐分析

图书馆读者聚类可以通过两种方式进行聚类,建立二维推荐模型,即:查询聚类和借阅聚类。在此,只要实现查询信息和借阅信息的高效率、高准确率的自动分类,然后根据读者兴趣模型匹配,就可以完成其推荐过程。自动分类信息可以采用K-均值聚类算法实现,并根据图书馆相关信息结构的特点,对算法本身加以改进。具体流程如图1。

2.2 基于PageRank社会网络分析

在图书馆借阅场景下,读者浏览和借阅行为反应了读者的需求。PageRank算法关键在于测度每个对象的随机访问概率。我们假定读者借阅史就是读者推荐书目单,反应了读者对于图书的认可程度。在此,我们可以把访问概率转化为读者推荐书目单的紧密程度,因此,问题转化为求读者推荐书目单的紧密程度,然后通过PageRank算法,求出读者推荐书目单的权威度排名,进而推荐给兴趣模型相似的读者。

我们用dist(j, t)表示两个读者推荐书目单关系程度,使用其文本相似度 来度量,进而产生新的PageRank2算法。对于每个读者推荐书目单,其重要度PR2(i)可定义为:

其中DIS(j,i)定义为:

在实际应用中,由于某些读者推荐书目单可能与其他读者推荐书目单 值为0,故将公式2调整为:

其中a为衰减系数,设定为0和1之间,其本质是为了消除孤立读者,给每个读者增加一条指向所有其它读者的链接,并且给予每个链接一个由参数a控制的转移概率,在这里我们沿用PageRank中的取值a=0.8570。

3、 结语

本文主要探讨了网络数据挖掘在图书馆中的应用问题,并对于社会网络分析的应用进行了较为深入的分析,提出了具体算法。网络数据挖掘广泛应用于互联网。随着数字图书馆的不断兴起,其在图书馆领域的应用将更加广泛4。但是,图书馆相对封闭的信息环境制约着网络数据挖掘的应用。相信随着Web2.0和读者个性化需求不断得到重视5,数字图书馆技术的不断发展,网络数据挖掘将会发挥更加重要的作用。

参考文献

[1] 马费成,王晓光.信息资源管理研究及国际前沿[J].情报学研究进展.武汉大学出版社,2007.

[2] 刘晓忠.数据挖掘技术在图书馆建设中的应用[J].硅谷,2012(6).

[3]夏南强,张红梅.基于数据挖掘的数字图书馆个性化服务[J].图书馆学研究, 2006, (1):32-34.

[4]李卓玲,王健.基于Web挖掘个性化服务系统的研究与实现[J].信息技术,2007(10)..

数据挖掘技术探讨论文范文第7篇

【关键词】信息资源管理;研究生教学;财经院校

【中图分类号】G642 【文献标识码】B 【论文编号】1009―8097 (2008) 09―0125―03

信息资源管理(IRM)是为了确保信息资源的有效利用、以现代信息技术为手段,对信息资源实施计划、预算、组织、指挥、控制、协调的一种管理活动[1]。信息资源管理的理论和实践活动及以后信息资源管理类学科之间的集成和整合的需要,导致了一门渗透性很强的横断学科――信息资源管理学产生[2],其内容涉及信息科学、管理科学、数据处理、通信、计算机科学、文献情报学等各个方面。随着全球信息化基础设施建设的热潮,信息资源管理也成为国内外高校开设的一门重要课程。

一 国内外高校同类课程现状

信息资源管理作为一门新兴边缘学科,打破了原有学科界限,具有鲜明的时代特征,作为档案学、图书馆情报学和情报学的一个分支领域,多学科综合性、交叉性等特点是其典型特征[2]。在国外大学,IRM课程多设置在信息科学专业,如美国东北大学,或者图书馆学专业,如威斯康星大学。根据学科专业不同,课程侧重点也有所不同,主要可分为三大方向:信息系统学派、记录管理学派、信息管理学派。

90年代初,中国学者孟广均和卢泰宏等人系统地引入了信息资源管理理论[3]。目前,国内很多高校信息管理专业和图书馆情报学专业都开设了信息资源管理课程,大多都设置在本科专业,也有一些设立了硕士和博士研究方向。大部分还是以传统的信息管理为主线,以理论教育为主导,和企业应用及时代特点结合的较少,教学重点也依专业有所不同。

二 课程教学探讨

1 课程定位

我校自2001年开始开设此课程作为信息学院硕士研究生必修课程。不同于其他高校的信息管理专业和图书馆情报学专业,我校是财经类院校,信息学院硕士方向主要为电子商务、供应链管理、信息管理,是以管理学、经济学为主、信息技术为辅助实现手段的交叉学科,因此我们的IRM课程定位也是多学科交叉,侧重从管理思维及企业应用而不是技术角度,结合当前知识经济时代特征组织课程内容体系、分析讲解问题,和企业市场对具有复合型知识结构人才的需求紧密结合。

2 体系结构

本课程自开设以来,一直由作者承担此课程的教学及相关研究工作。作者在对当前国内IRM教材著作、教学内容深入研究及6年教学实践体验的基础上,结合在美国威斯康星大学图书馆和信息科学学院的交流学习经验,提出了适合本专业方向和学生特点的创新课程体系结构,经过多次教学实践,得到学生的认可。我们的课程体系遵循系统性和创新性原则,在保证教学内容所包含的知识是具有内在逻辑联系的完整知识体系前提下,区别于以传统信息系统管理为主线的内容体系,采用符合知识经济时代特征的体系结构,反映学科领域最新成果,在这里提出来供大家探讨。

(1) 信息资源管理概述:作为整个课程的基础,这部分主要包括数据、信息、信息资源、信息化、信息产业、知识、知识经济、知识管理等概念及其关联,目的是使学生掌握信息资源从产生到利用到再创造的过程。

(2) 知识管理:知识是从相关信息中过滤、提炼、经过人脑加工得到的有用信息,知识管理是现代信息资源(知识资源)管理的核心。这部分主要介绍知识的生命周期;企业知识管理的原因、目的、工具和手段;知识管理的企业实施和应用;知识管理系统方案和技术平台;北京移动、三星等企业知识管理案例分析。

(3) 数据挖掘:数据挖掘是数据库中的知识发现,是从海量数据中抽取出潜在的、有价值的信息、知识,是针对目前企业面对大量杂乱数据无法辨别有价值的资源进行管理,而提出的方法。本部分主要介绍数据挖掘的特点、原由、过程、人员、环境、相关技术;数据挖掘的商业应用;相关软件(重点SPSS系统);数据挖掘与CRM;数据挖掘在证券行业、网络应用、远程教育等方面的应用案例分析。不同于介绍技术和算法为主的数据挖掘课程,本课程重点在于数据挖掘的商业应用,侧重于分析、管理和应用。

(4) 信息资源规划(IRP):IRP是完全中国特色的信息资源管理内容,是指对企事业单位或政府部门所需要的信息资源,从采集、处理、传输到使用的全面规划,是针对于国内信息化建设的总体规划。主要内容包括:信息资源管理基础标准的讲解及应用;信息资源网;IRP在大型企事业单位的实施(四一三三原则);IRP与ERP;IRP2000系统软件介绍;政府信息资源规划案例。

(5) 首席信息执行官(CIO):CIO在企业的角色主要就是对企业的信息资源进行总体规划、协调、管理,因此这部分主要介绍IRM与CIO;中国CIO面临的挑战和机遇;CIO与IRP的工程化方法;CIO与本组织信息化整体解决方案(IT服务链)。

(6) 网络信息资源管理:适应当前网络发展,介绍通过网络如何对信息资源进行更好的组织和管理。主要包括网络信息资源及信息结构;网络信息资源组织;信息结构(导航、标志、检索等系统)设计;网站资源设计原则;案例分析。

(7) 信息资源安全管理:在信息资源的开发、管理和利用过程中,安全问题是一个十分重要的问题,因此本部分主要从管理和技术两方面对信息资源管理中的安全风险及应对措施进行分析,并结合案例介绍对系统进行审计和评价的方法。

3 教学资源

教师注重将所讲授内容体现在教学实践本身,随时随处体现“信息资源管理”观点和方法:利用知识管理理念,整合各方面知识资源,包括各种教材著作、专家渠道、国内外最新研究论文、案例资源等内容,形成资源库。

自课程开设以来,先后使用参考过科学出版社出版孟广均等著的《信息资源管理导论》,高等教育出版社王景光主编的《信息资源管理》,武汉大学马费成编著的《信息资源开发利用》,北京理工大学甘仞初主编的《信息资源管理》,电子工业出版社肖明编著的《信息资源管理》等著作,以及Ricks Betty R & Gow, KAY F. Information Resource Management Cincinnati (Ohio)等国外著作。已有教材都对信息管理学科进行了全面系统的论述,但内容大都比较抽象,理论性较强,多以信息系统论为核心,和现实企业应用及我们专业特点结合不足。因此,教师在教学中,指定其中两本为参考教材,而围绕课程体系的内容主要来自于教师对国内外研究资料收集整理加工后形成的教案、讲义,资料来源大都为排名行业前列的学术刊物、数据库、著名专家。除了理论知识,资源库还纳入不同企业的案例,以及知识案例获取的各种专家渠道。

4 教学方法

结合课程和中国学生特点,教师在教学中注重创新性,借鉴国内外同行的经验,及时引入先进的教学理念和方法手段,采用整合的教学方式“课堂讲授+案例分析+Leading Discussion+小组讨论/作业”相结合,目的在于尽量激发学生主动学习的愿望和能力,区别于以往“高级本科生”似的研究生教育方式。

(1) 教师的课堂讲授主要在于让学生了解知识课程体系结构及关键知识点,特别是重点和难点,引导学生把点串成线,配合阅读资料和案例,进而使知识面立体化。

(2) 案例分析,主要是教师通过企业渠道获得并整理内容详实的企业案例,把理论知识融入到企业实际应用中,加深学生对理论和实践如何结合起来的理解,弥补学生由于条件所限无法亲自参与重要的企业实践环节的缺口。

(3) Leading Discussion是教师借鉴美国大学研究生课程教学方法所得,培养学生独立深度研究分析能力。由于课程内容比现有教材更新,涉及范围更广,仅靠教材难以获取足够知识。教师定期提供国际上较新的研究论文,课下每位同学独立阅读并总结出不超过一页纸的summary,提出2-3个针对性问题。课堂上每次轮流由不同学生主持leading discussion对论文进行分析讨论,并回答问题。这种方式有助于学生开拓视野,了解国际最新动向,督促其主动学习、思考、沟通能力(这正是中国学生普遍缺乏的),还能提高专业英语阅读理解归纳能力和阅读速度。

(4) 小组讨论/作业主要是教师提供案例内容框架及引导问题,学生分组讨论不同案例(课堂或课下,视时间而定),鼓励brain storming,以PPT形式进行课堂演示,实现知识资源共享。最后教师对各组案例分析就行评价总结。

全程采用多媒体教学,教学中始终贯穿着启发式、引导性和参与性的理念。启发式教学:启发学生通过以上各种方式实现自我学习、自我教育,克服教师满堂贯、填鸭式的教学方式,注重研究生教育和本科教育的区别。引导性:教师在教学中先引入问题,积极启发学生主动思考,而不是被动接受灌输;引导学生探索性阅读,进入学术研究领域。参与性:鼓励学生主动参与教学环节,师生互动、教学相长,调动学生学习的积极性和主动性。

5 考核

为体现课程的多学科交叉性、复合型知识能力特点,课程采用多形式考核方式,重在考察学生对企业实际问题分析、提出解决方案的能力,以及此过程中对现代IRM管理理念和知识的理解应用和渗透。在强调“开卷+闭卷”传统考试形式基础之上,将参与讨论、案例分析、Leading Discussion、论文撰写、企业调研、小组作业等综合起来全面考察学生学习情况,这种“非概念记忆”的能力考核方式进一步调动了学生主动学习的积极性和创造力。

三 结言

经过多次教学实践不断改进,教学内容体系和方式方法得到了专家及学生的一致认可:普遍认为课程内容新颖全面,反映信息资源管理领域的最新发展和趋势;国外资源丰富,与国际学科发展接轨;高质量案例的引入恰当充分,和实际企业应用相联系。教师在讲授中补充很多专业领域最新的知识,扩展学生知识面;注重关键知识点的掌握,培养学生独立思考和判断、分析、解决问题的能力,非常适合财经类院校研究生阶段教学的特点。

在教学中,我们也注意及时发现总结问题,充分意识到不足和需要改进之处:

1 教学中很多内容都超出现有参考教材,因此需要将教学内容资源整合成更加系统全面的教材,供学生参考。

2 对于一些最新的较为抽象的内容,以及一些专业术语,还需进一步增加关联性更强的实例,更加深入浅出的进行讲解,让学生更容易理解。

3 信息和网络时代,知识及企业应用的更新频率都在加速,需要及时更新资源库以和现实世界发展保持同步,如何追踪最新的知识资源、企业实践和专家渠道是很大的挑战。

信息资源管理课程是知识经济时代新兴的一门重要课程,教学体系、方法发展还不完善。在北京召开的北京高校信息资源管理专业高级研讨会上,大家也一致认为信息资源管理这门课程的教材的内容和教学方法需要进一步改革。本文提出了适合财经类院校研究生的教学内容体系和教学方法设计,供开设此课程的高校教师探讨,并希望能有一定的启发借鉴作用。

参考文献

[1] 王景光.信息资源管理[M].高等教育出版,2002.12.

[2] 赵国俊,周晓英,张斌.档案学、图书馆学、情报学:发展历程及发展趋势[R].中国人民大学中国人文社会科学发展研究报告.2002.

数据挖掘技术探讨论文范文第8篇

【关键词】数据挖掘; 网络教学;关联规则;分类模型

【中图分类号】G420 【文献标识码】A 【论文编号】1009―8097(2009)06―0104―03

数据挖掘技术可以从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中人们事先不知道的,但又是潜在有用的信息和知识的过程。通过这种技术把获取的信息和知识提供给决策支持系统。这种技术已广泛地用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等[1,2,3] ,随着信息技术的发展,数据挖掘在网络教学中的应用研究也逐渐深入[4,5,6] 。网络教学成为一种新型教学手段,理论上学习者可以在任何时间、任何地点以任何形式、从任何章节开始学习任何内容,实现个性化学习。但在网络教学实施过程中,教学内容和组织活动却不能随着学生的学习状况发生动态变化,导致了教与学脱离的现象,教学效果达不到预期效果。因此可以利用该技术对收集到的与学生学习相关的历史数据进行分析,从而可以为教师深入理解学生的实际学习情况,制定相关的教学目标供 其学习提供有力的决策支持,是提升教学效果的有力手段。

一 拟解决的关键问题

本文探讨 在现有的网络教学平台基础上,以在教学信息数据库中采集到的学生学习记录为样本,应用数据挖掘技术,挖掘有用的规则,探讨学生的学习习惯, 学习兴趣和学习成绩间的关系,从而及时了解学生对每一章节知识的掌握程度并根据每个学生的情况制定下一章节的教学目标,为其提供不同的教学内容,从而使教学更适合学生

个性的发展,实现网络分层教学,最终实现教学过程的动态调节。

二 数据预处理

由于人为的原因、设备的故障及数据传输中的错误,导致现实世界的数据含有脏的、不完整的和不一致的数据。数据预处理技术可以检测数据异常,调整数据并归约待分析的数据,从而改进数据的质量,提高其后挖掘过程的精度和性能。

本文数据源于《数据结构》网络教学课程,48节理论课,24节实验,4.5个学分。学生111人,其中06级信息与计算科学专业班合计64人,07级地理信息系统专业一个班计47人。针对1节提出的问题,本文通过对网络教学平台教学信息数据库中的学生信息表、学生学习进度表、测试信息表等进行数据挖掘,说明其在网络教学中的应用。各表结构如表1至表3所示(本文中学生信息经过掩饰处理)。

其中内容是指客观性考题,如单项选择题等。主观性考题,如算法设计之类考题可以以教师组织的BBS讨论为依据评分,在此以有效讨论次数(有实质性的讨论内容)计算。

首先去除数据表中的冗余信息,如学生信息表中除学号信息以外的各分项信息,每一章节学习进度表中的节、日期信息,每章测试信息表中的题号、内容、答案等信息;对某些汇总数据项进行离散化处理,如将测试信息表中得分汇总后分为(0,59),(60,85),(85,100)等 3个组并概化为不及格,合格和优秀三个层次;学习时间汇总后分为(0,2),(2,4),(4,6),(6,)等 四个组,单位:小时;学习次数汇总后分为(0,3),(3,6),(6,)等 三个组,BBS讨论汇总后分为(0,3),(3,6),(6,)并 概化为积极,参与和不积极三个层次[7];同时下一章节的教学目标制定为三个层次,内容呈现分别表示为A类、B类、C类三个层次的内容,提供给学生学习。然后检查数据的完整性及数据的一致性,对其中的噪音数据进行处理。经过数据预处理工作,得到一张描述学生学习过程信息的数据表格,表4是我们整理出的某一章节的学生学习情况数据。

三 数据挖掘过程

主要是利用关联分析、序列模式分析、分类分析和聚类分析等分析方法对数据库中的潜在规则进行挖掘。针对1节中提出的问题,根据国内外对各类模式挖掘算法的研究[8,9],本文采用FP-Tree关联规则挖掘算法进行关联规则挖掘和用于 分类模型判定树归纳算法进行数据挖掘。

1 关联规则挖掘

关联规则挖掘可以发现大量数据中项集之间有趣的关联或相关联系,通过这种挖掘技术对表4进行挖掘,可以发现学生的学习时间、学习次数及网络课堂讨论和学习效果之间的关系,使教师了解学生的网上学习行为和目标掌握程度,帮助教师调整教学计划,如设计有意义的讨论课题提升学生的学习兴趣,从而间接增加学生的学习时间和学习次数。

首先给出关联规则的形式化描述:设 是m个项的集合,D是数据库事务的集合,每个事务有一个标识符。关联规则就是形如 的蕴含式,其中 ,并且 。规则的支持度记为 ,是事务D中包含的 事务数与所有事务数之比,置信度记为 ,是指包含的 事务数与包含的 事务数之比。

给定事务数据库D挖掘关联规则问题就是产生支持度、置信度分别大于用户给定的最小支持度和最小置信度的关联规则。

表5是使用FP-Tree算法对学生学习情况表进行挖掘得到的一系列关联规则(因篇幅限制,本文仅列出部分内容)。

从上表可以看出,学习时间在6小时以上并且成绩为优秀的同学占全班的20.51%,学习时间6小时以上的同学中有34.78%的学生成绩为优秀。学习时间在2小时以下的并且成绩不及格的同学占全班的7.69%,学习时间2小时以下的同学中有75%的学生成绩不及格。学习时间在6小时以上,学习次数多于6次且成绩为优秀的学生占全班的7.69%,这部分同学中有75%也积极参与BBS讨论,而学习时间少于2小时,次数少于3次,基本不参与讨论的同学,不及格率为100%,这部分同学占全班的7.69%。比例明显偏高,需要调整教学的内容和设计讨论问题以提高学生的兴趣。从表中还可以看出,学习次数多于6次的学生中有92.31%的学生其学习时间一般也会超过6小时,这部分学生占全班的61.54%,通过关联规则的挖掘,可以掌握学生网上学习行为,从而为教师的教学策略调整提供依据,可以更好地进行学生的培养。

2 分类模型挖掘

著名的心理学家、教育学家布卢姆提出的掌握学习理论认为:“只要在提供恰当的材料和进行教学的同时给每个学生提供适度的帮助和充分的时间,几乎所有的学生都能完成学习任务或达到规定的学习目标”。

通过构造判定树可以建立学生分层教学模型,并依据判定树为学生提供不同层次的教学内容而 实现对学生的网络分层教学。分类模型判定树归纳算法主要表述为计算每个属性的信息增益,将具有最高信息增益的属性选作 给定样本集合的测试属性,创建树的结点,并以该属性标记,对属性的每个值创建分支,并据此划分样本。由于样本数据中存在噪声或孤立点,通过树剪枝去除不合理的分支,以提高在未知数据上分类的准确性。据此算法构造的判定树如图1所示。

判定树的第一层条件为每一章节的单元测试成绩,分别表示为优秀、合格和不及格。不及格的同学下一章节进入C类教学目标学习,优秀的同学则进入A类教学目标学习,合格的同学则根据学习的次数决定下一章节的教学目标。学习次数为0~2次的同学进入B类教学目标学习,3~5次的同学则需要根据学习时间判定,根据判定树可知,所有同学进入B类教学目标学习,这和我们日常的判断逻辑相符,因为学习次数较多,学习时间较长,但成绩却是合格的同学很有可能是因为方法不当等原因导致接受知识能力较差,进入A类目标学习显然是不合理的。当学习次数大于6次时,可以根据学生参与BBS讨论的次数决定学生的下一章节的学习目标,讨论次数0~2次的同学其学习目标定为B类,3次以上的同学其学习目标则定为A类,这类学生表现出对知识的渴求,兴趣较浓,理解知识的能力相对较强。

本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

根据判定树,可以根据学生学习本章节的实际情况对学生学习下一章节内容的效果进行预测,据此对学生进行分类,提供不同的教学内容供其学习,以提高整体教学质量。

参考文献

[1] 汤小文,蔡庆生. 数据挖掘在电信业中的应用[J].计算机工程,2004,30(6):36-37,41.

[2] 杨引霞,谢康林,朱扬勇等.电子商务网站推荐系统中关联规则推荐模型的实现[J].计算机工程, 2004, 30(19):57-59.

[3] 印鉴,陈忆群,张钢.基于数据仓库的联机分析挖掘系统[J].计算机工程,2004,30(19):49-51.

[4] 杨清莲,周庆敏,常志玲.Web挖掘技术及其在网络教学评价中的应用[J].南京工业大学学报(自然科学版),2005, 27(5):100-103.

[5] 刘革平,黄智兴,邱玉辉.基于数据挖掘的远程学习过程评价系统设计与实现[J].电化教育研究,2005,(7):67-69.

[6] 孙莹,程华,万浩.基于数据挖掘的远程学习者网上学习行为研究[J].中国远程教育,2008,(5):44-47.

[7] 龚志武.关于成人学生网上学习行为影响因素的实证研究[J].中国电化教育,2004,(8):32-34.

[8] Sarwar B, Karypis G, Konstan J,et al. Analysis of Recommendation Algorithms for E-commerce [Z]. ACM Conference on Electronic Commerce, 2000.

[9] Tung A K H, Lu Hongjun, Gan Jiawei,et al. Efficient Mining of Interransaction Association Rules [Z]. IEEE Transactions onKnowledge and Data Engineering, 2003, 15(1).

Application of Data Mining in Network Teaching

SUN Yu-rong1LUO Li-yu2HUANG Hui-hua1

(1.College of Science, Central South University of Forestry and Technology, Changsha ,Hunan, 410004, China;2.The Journal Editorial Department, Hunan University of Technology,Zhuzhou, Hunan, 412007,China)

Abstract: A key matter of network teaching is how to realize combining teaching with learning. It is helpful to find out the association of learning hours, times, BBS discussion and test result by analysis the historic data of learning with the technique of association rules. A teacher can revise the teaching plan according to the association. To a teacher, it is also easy to realize a network level teaching, enhance teaching quality with the technique of classification model.

Keywords: Data Mining; Network Teaching; Association Rules; Classification Model

数据挖掘技术探讨论文范文第9篇

关键词:数据挖掘技术;成绩管理

一、数据挖掘的定义

数据挖掘是一个涉及多学科交叉的研究领域,综合了人工智能、机器学习、数理统计等学科,它把对数据的应用从较低层次的简单的查询提升到从数据中挖掘知识。简单的说,数据挖掘就是从数据中获取知识。从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道、但又是潜在有用的信息和知识的过程。数据挖掘应该更正确地命名为“从数据中挖掘知识”。

二、数据挖掘的过程

数据挖掘过程大概可以概括为三部分:数据准备、数据挖掘、结果的表达和解释。如图1-1。

三、数据挖掘的特点

数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,所得到的信息具有事先未知、有效、实用三个特征;用户不必提出明确的要求,系统能够根据数据本身的规律性,自动地挖掘数据潜在的模式,或通过分析建立新的业务模型,帮助决策者调整市场策略,这有利于发现未知的事物。因此,它是由数据驱动的一种真正的知识发现方法。

四、学生成绩管理的现状

随着高校招生规模的扩大使成绩管理处理的数据量急剧增加,存放在数据库中的大量的成绩数据,对于一般的查询过程是有效的,管理人员能够通过简单的统计或排序等功能获得一些表面的信息,但随着数据库中存储的数据量的增大,传统的数据库管理系统的数据管理和处理功能就不能满足现实的需要,因为无论是查询、排序还是方差,其处理方式都是对指定的数据进行简单的数字处理,对于学生成绩管理方面,往往只能做一些简单的功能,由于大量数据以不同的形式存储在不同的计算机上,从而使隐藏在其中的大量有用信息无法得到有效的利用,无法发现数据中存在的关联和规则,无法根据现有的数据预测未来的发展趋势。上述问题直接导致教学管理部门无法进行有效的评估,任课教师无法进行有效的教学方法改进。而如何将这些数据信息转化为知识表示,为学校管理者提供决策依据,科学指导教学,提高教学管理水平,将是高校需要迫切解决的问题。

五、将数据挖掘技术在成绩管理中的应用

1、学生成绩分析方面

学生的学习成绩是评估学生表现好坏的重要依据,也是学生是否掌握好所学知识的重要标志,目前高校使用的成绩管理系统大部分只能做一些简单的数据管理和处理,例如:学生的平时成绩输入、考试成绩输入、毕业设计成绩登记,进行各类统计报表和信息查询、分析某一个班学生学习成绩分布的情况等。目前大量的成绩数据只是简单地存储在数据库中,隐藏在这些数据中的潜在信息被闲置,没能被充分利用。在数据库中学生成绩分析从定性的角度考虑不是很精确,而数据挖掘是从定量的角度精确地分析学生成绩分析的各个方面数据。

2、在考试方面

考试是对教师教学效果和学生学习效果的一个检验,是教学中必不可少的环节,虽然按考试成绩可以总体评价在一定时期内学生取得的成绩,但这并不能有效地说明成绩的高低与哪些因素有关,无法知道教师教学环节中的成功与不足之处,对教师教学方法的改进和学生学习成绩的提高都没有实际意义上的帮助,而且,学生考试成绩的高低也与试题的质量有着很大的关系,因此探索有效的方法来评价试题的质量如试题难易度,知识点全面度等在实际的教学过程中同样具有重要的意义。将数据挖掘技术应用于试卷分析数据库中,然后根据学生得分情况分析出每道题的难易度、区分度、相关度等指标,那么据此,教师可以对试题的质量作出比较准确的评价,进而可以用来检查自己的教学情况及学生的掌握情况,并为今后的教学提供指导。

2、在教学评价方面

教学评价是教学中的一个重要环节,是引导教育、培养高素质人才,帮助社会充分利用教育成果和促进教育健康发展的保证。传统的教学评价大多是参考相关评价指标体系和调查问卷等方式实施的,而且更是注重评价的结果,以作为教师晋升、学生评优等的依据.高校每学期都要搞课堂教学评价调查,积累了大量的教学信息数据,利用数据挖掘技术,从教学评价数据中进行数据挖掘,探讨教学效果的好坏与教师的年龄、职称之间有无必然的联系,课堂教学效果与教师整体素质关系如何,合理配备班级的上课教师,使学生能够较好的保持良好的学习态度,从而为教学部门提供了决策支持信息,促使更好地开展教学工作,提高教学质量。

3、选择教师的教学方法方面

在教学过程中,教师可以采用多种方法来完成自己的教学任务,比如讲授法、多媒体演示、分组讨论法、课程实习法等,在通常情况下,一般可以采取一种或几种方法进行.据此可用数据挖掘的方法来挖掘数据库中的数据,判定下一步应采取什么样的教学方法,以满足教学的需要,更有利于学生对知识的吸收。

4、课程的合理设置方面

在学校,学生的课堂学习是循序渐进的,而且课程之间有一定的关联与前后顺序关系,在学一门较高级课程之前必须先修一些先行课程,如果先行课程没有学好,势必会影响后续课程的学习,此外,每一学期安排课程的多少,也会影响学生的学习效果。利用学校教务管理系统中存放的历届学生各门学科的考试成绩,结合数据挖掘技术的相关功能,得出一些有价值的规则和信息,最终找到影响学生成绩的原因,在些基础上,对课程设置做出合理安排。

六、结束语

随着我国各高校管理信息化的不断推进,各类学校的数据库建设不断完善,在学校平时的教育教学管理中累积了大量的数据。在这些海量的数据中,隐藏着大量有用的知识,如果利用好这些知识,将能够对学校的教育教学工作起到积极的指导作用。数据挖掘技术正是为了解决如何从海量数据中挖掘出有用的知识,因此,将数据挖掘技术应用到高校的教育教学中去是非常有必要的。

参考文献:

【1】吉根林,帅克,孙志挥.数据挖掘技术及其应用.南京师大学报(自然科学版),2000,23(2):25-27

【2】李庆香.数据挖掘技术在高校学生成绩分析中的应用研究:硕士学位论文.重庆:西南大学教育技术系,2009

【3】朱敏.数据挖掘技术在学生成绩分析中的应用研究:硕士学位论文.上海:华东师范大学计算机科学系,2009

数据挖掘技术探讨论文范文第10篇

随着银行业改革的深入,我国银行业的发展从粗放到精细化的发展是必然趋势,近期舆论讨论的利率市场化改革从中长期来看是一种必然,一旦利率市场化,银行通过单纯的存贷利差与乘数效应来实现经目标会变得十分艰难。因此,提前思考商业银行经营的出路显得十分必要。考虑到商业银行在长期的经营过程中积累了大量的数据,从宏观来看,这些数据直接或者反映了国家甚至是世界的经济状况,根据历史的数据来指导银行未来的发展意义重大;从微观来看,商业银行掌握了各类经济实体的储蓄及信贷数据,对于商业银行的产品设计、客户服务具有重大意义。基于这个前提,本文试图用营销学的前沿理论的数据库营销来讨论商业银行的发展转型,并重点分析数据挖掘技术对于商业银行进行数据库营销的意义与价值。

一、商业银行的数据库营销

从营销的视角出发,数据库营销是市场主体通过其积累的历史信息,包括客户人口统计资料、消费数据、行为模式等,通过统计分析与趋势外推等方式来预测顾客未来的消费行为,包括可能消费的品类、产品、服务等。同时,市场主体可以据此通过聚类分析等统计学的方法对客户进行聚类分析,通过STP的模式来划分细分市场,根据企业的定位于特点来为某细分市场提供相应的市场供应物,以达到企业经营的目的。同时,利用数据库,企业可以进行客户关系管理。

从历史沿革上来看,数据库营销是有客户关系管理发展而来,其实质为以概率论与统计学为基础,以计算机技术、网络技术与数据库技术为支撑与实现手段。

其运用的基本原理为:作为市场主体的企业通过其记录的大量的消费数据信息,通过适当的算法、程序来对消费者的未来行为进行预测,并利用分析的结果来进行企业产品定位、设计针对性的营销方案,以实现企业的经营目标。数据库营销同时为企业对其经营的战略与策略提供了一个检核工具,使得企业能够不断检核企业的经营行为,并实现企业的长期价值最大化。

数据库营销是企业经营与运营的重要工具,具有普遍适用性。在具体的商业银行应用中,数据库营销可以理解为商业银行通过其积累和搜集的大量储蓄、信贷、理财、资信水平等信息,通过一定的分析方法预测包括居民个体、企事业等银行客户的行为,并对根据分析结果对客户进行分类,选择最适合的的客户作为重点服务对象,开发针对性的产品,提供特色的产品或者服务,并进行针对性的营销,实现商业银行的经营目标,即在较低风险水平上的可持续发展。

二、商业银行数据库营销的重要工具―数据挖掘技术

商业银行要有效的发挥数据库营销的威力,需要相应的技术手段来从商业银行庞大的数据库中“挖掘”有效信息用于指导银行的决策与实践。其中,数据挖掘技术是最重要的实现数据库营销的工具之一。

所谓数据挖掘是指通过设计一定的算法或者程序来从历史数据中来提取隐含的信息,此种隐含的信息能够指导实践与深入认识事物的基本规律。此种信息有几个特征:(一)隐含性。在其原始的呈现方式中,此种信息淹没在大量的无用数据之中,必须通过一定的算法或者程序使之显现出来;(二)价值性。数据挖掘出来的数据对于认识及实践具有直接或者间接的指导性,从而体现出其价值型;(三)科学性。数据挖掘是基于一定的数学与概率统计基础等基础科学之上,方法的科学保证了结论的科学。

数据挖掘区别于传统简单的统计回归,其更注重其商业应用。其能够对大量的隶属数据进行提取、转化、分析与建模等处理,并发掘其中的关键性的规律。

数据挖掘的基础是历史数据,记录历史数据的数据库、档案等为数据挖掘提供了“原料”,通过对“原料”的“精炼”,提取出对决策有帮助的信息。

在具体的应用中,数据挖掘主要应用于消费者行为预测、趋势分析、相关性分析、聚类分析等方面。

数据挖掘技术从应用来看,其主要包括分类、聚类分析、关联分析、以及概念描述、偏差检验和预测等。

(一)分类

通过对分析客体的特点,通过建立一定的标准来对总体进行细分,从而化大为小。比如银行可以通过对储户的行业特征进行分析,从而知道客户等级的划分或者制定针对性的营销策略。

(二)聚类分析

聚类分析基于大量的数据进行统计特征的分析,将不同的数据记录所体现的客体进行特征的计算,将大量的对象根据某些标准分成若干类别。对象分类之间具有较大的差异,而在类别之内的对象则具有较小的差异。比如银行根据其大量客户的信贷记录对企业的成长性进行评价,区分相应的类别,便于确定银行的信贷投放计划或者投放比例。

(三)关联分析

关联分析即相关性分析,其基本原理为一个事件的发生与另外一些事件的发生可能存在一定的联动性,此种联动性可能包括简单相关、因果相关、甚至是虚假相关等。如银行可以根据相关性的原理来开发某些信贷质量监测指标,当某个指标超过灵节点的时候,可以界定为信贷投放需要重点监管等。

(四)概念描述

对特定的对象的内涵与外延进行界定,并提炼出其共同点。并揭示出一种概念区别于另外一种概念的主要特征等。如商业银行在私人银行中对高风险承受能力与低风险承受能力的客户进行准确的界定,以开发针对性的产品和提供差别化的服务。

(五)偏差检验

在历史数据中可能有一些数据与其它数据存在重大的差异,即“孤点”,在数据处理的时候,这些数据被排除,因为其不能反映总体的状况,并可能给均值等指标带来较大的影响。但“孤点”也有其实践用途,如在贷款质量监测中,发现某些企业的现金流量急剧减少或者存货占总资产的比例过高,此种情况绩效出现,因为就需要分析,此项贷款是否存在难以按期偿付的风险,从而预防坏账的产生。

(六)预测

预测为根据历史数据提炼出相应的规律,在规律的假设条件没有变化的情况下,可以对未来的发展做出适当的推测。比如,银行可根据客户的定期存款情况或者基金定投的规律来推测客户的未来收益,从而为其信用授信提供计算依据。

三、商业银行利用数据挖掘进行数据库营销近期应推行的策略

(一)转变思路,提高认识

数据库营销是营销学的概念,而在传统的商业银行经营过程中,指导银行发展的主要经济学、金融学、财务学等学科,引入营销学,特别是营销学的前沿工具与思路对于传统的商业经营从业者来讲,需要思维的突破与视野的打开。商业银行的竞争格局已经要求所有的机构必须紧跟最前沿的各类思想与知识,吸纳数据库营销的理论、利用数据挖掘的方法是典型的跨界应用。

(二)预判环境变化,以市场为导向

商业银行经营的成功与国家政策密切相关,当信贷扩张的时候,商业银行的效益较好,而在信贷紧缩的时候,商业银行的经营相对比较有压力。但作为市场竞争主体而言的商业银行,其必须通过预判环境,提前进行业务布局的调整,是实现比较优势的关键点。利用其庞大的数据库与客户资源,接触数据库营销与数据挖掘,其完全可以实现业务格局的调整。

(三)加强科研与人才培养

数据库营销与数据挖掘属于典型的知识密集型的工作,要利用这两种工具,需要商业银行加强人才的培养与科研的重视力度,商业银行可以采用校企合作、建立科研机构等方式来实现人才的培养。

商业银行是一个复杂的系统,其经营的成功有赖于很多方面,但借用营销学中的数据库营销与数据挖掘技术能够为商业银行的经营成功提供一定程度的助力,从而使商业银行能够减少经营的风险,实现银行的可持续发展。

参考文献

[1] 侯文,基于数据挖掘的银行信用卡客户细分研究.硕士毕业论文,2008.

[2]丁杰,魏敏文,等.数据仓库和数据挖掘技术在湖南水库调度中的应用.水电自动化与大坝监测,2005(129):3

上一篇:数据挖掘技术研究范文 下一篇:小学信息技术范文

友情链接