数据挖掘学习计划范文

时间:2023-09-17 19:11:17

数据挖掘学习计划

数据挖掘学习计划篇1

关键词:数据仓库;数据挖掘;教务数据;深度挖掘

中图分类号:TP393 文献标识码:A

1 引言

在信息时代,信息技术的快速发展对社会各个领域都产生了一定的影响,在电子商务中反映尤为突出。对于学校教务系统的应用相对较晚,但教务数据对学校而言,是最基本的数据,这些数据的保留是学校运作的根本。对教务数据的分析也是对学校教学效果的评定,能够从庞大的教务数据中挖掘出更潜在的信息,既是对学校运行状况的更深入了解,又有利于学校对未来发展方向的决策。

2 教务管理状况分析

教务管理不仅是处理学校的日常事务,它更重要的作用体现在可以反映学校的教学效果和分析学校培养方向的正确性,并以此帮助学校向更好的方向发展。教务数据分析的处理到目前为止经历了人工和计算机处理的两大阶段。

2.1 人工处理阶段

为了反映较大范围教务情况的整体特征,教务部门通常要付出庞大的人力和物力收集和分析大量数据。这个数据的收集通常要经历一个较长的时间,间隔一段时间还必须重复执行。比如开课计划、学生成绩、教室使用情况等。然而,分析收集来的海量数据更是教务部门头疼的一件事。

还没有出现计算机前,光靠人工来处理数据有时还会面临这样的窘境:上一期的数据结果还没分析出来,下一期的数据收集又要开始了,因此整个数据收集和分析工作变得没有任何意义。另外,有些数据需要间隔一段时间重新收集,然后进行短期和长期的分析数据。比如成绩分析,若按照4年制本科为一个分析周期。首先,每学期教务部门要进行一次短期成绩分析。其次每学年教务部门就需对即将毕业的本科前4年的所有成绩做一次中长期成绩分析。然而,如果学校还需了解长期以来各级学生的学习情况,则还必须知道近10年、20年、50年甚至更长时间的成绩发展趋势,那么光靠人工去翻阅以前的数据就是件很困难的工作了。所以人工处理数据阶段,有许多教务数据分析工作受到很大限制。

2.2 计算机处理阶段

自计算机出现后,许多领域的工作发生了翻天覆地的变化,教务管理同样也不会忽略如此有效的技术手段。20世纪80年代以来,我国一直关注信息化在各领域的应用,教务管理信息化的发展大致经历了以下三个阶段:面向数据处理的第一代教务管理、面向信息处理的第二代教务管理、面向知识处理的第三代教务管理。在前两个阶段中,许多教务工作确实提高了效率,但是教务海量数据中隐含的价值仍不能被有效发掘与利用。正如在一大座金山中,获取更有价值的黄金还需更细致更有效的清理和挖掘。

虽然在前些年,学校各级部门具备了一定的信息化基础设施,为构建信息化教务系统奠定了基础。但是,由于缺乏统一的规划,学校各子系统或多或少存在“信息孤岛”的问题,也没有有效的方法从海量数据资源中快速挖掘更有价值的知识信息。因此,耗费成本收集的数据没有利用就被弃置了,教务数据分析仅停留在表面。

由于信息技术的发展,信息化时代逐渐进入第三展中,即有效应用数据仓库和数据挖掘技术挖掘知识。

3 DW和DM技术

数据仓库(DataWare,即DW)是指一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策[1]。当大量的数据被整合在一起后,从用户分析角度来看,使用这些数据的手段是多方面和多层次的。面向知识处理的教务系统应能够自动剔除掉不需要的数据,按照用户的要求整合杂乱的数据资源,获取某些可用的属性。而且,学校的决策通常是经过观察长期发展的状况而制定的。其间,需要分析5年、10年,甚至几十年的大量相关数据资源。因此,教务数据需要被长期且稳定的存储。在日常收集数据和整理数据时,利用数据仓库的思想来进行,有利于我们充分发挥数据挖掘技术进行知识的挖掘。

数据挖掘(Data Mining,即DM)是指从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。数据挖掘就是从大量数据中提取或“挖掘”知识。

首先,我们要确定数据挖掘的对象有哪些。数据资源可以从多方面获得,如系统分析设计人员向不同范围的业务对象调研获得,或反之业务对象主动向系统设分析设计人员提出;在互联网时代,从网络中获得数据资源更快更多了。

其次,要有效地应用数据挖掘技术,就要遵循科学的应用流程。一般的挖掘流程是:(1)确定挖掘对象;(2)数据准备;(3)数据挖掘,即模式提取;(4)结果分析,即模式评估。[2]

数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务一般可以分为两类:描述和预测。描述性挖掘任务刻画数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,以进行预测。数据挖掘系统要能够挖掘多种类型的模式,以适应不同的用户需求或不同的应用。数据挖掘功能以及它们可以发现的模式类型包括:class/concept description、Association analysis、Classification and prediction、Clustering、Outlier analysis等。

4 建立面向知识处理的教务数据分析系统

按照上述数据挖掘的基本流程,以教务系统中成绩分析为例介绍如何让教务系统实现面向知识的处理。

4.1 构建教务系统的数据仓库

这部分主要分为四个任务:确定教务系统中的数据源;Web数据的预处理;多维Web数据模式的建立;应用OLAP技术。

4.1.1确定教务系统中的数据源

教务系统的数据主要从两个方面获得:

(1)各学院开课计划、学校学计划;

(2)教师提交的各门课程的成绩。

第一方面的数据主要由学校、各学院按照培养计划每学期提交,包括各专业班级的课程安排、授课教师、课时、学分等。这部分数据主要以Excel表格形式提交,教务部门对这部分的数据收集与存储大部分停留在文档形式。

第二方面的数据主要在学期末由授课教师分专业班级和课程提交。目前,这部分的数据收集有的以纸质文档形式收集,有的以Excel文档形式收集,也有的实现了数据库收集存储。

在进行数据挖掘之前,首先要将这两方面的数据完全实现数据库收集与存储。随着教务数据与日俱增,还需使用数据仓库来管理这些数据。

目前,有许多学校实现了在线登录成绩的信息化。那么如何对庞大的Web数据建立数据仓库呢?

4.1.2 Web数据的预处理

通过Web收集的数据称之为原始数据,管理员可根据需要用某些字段记录相关数据。如:专业班级名称,教师登录名,课程名称,成绩比例,分数,提交时间等。对Web数据的预处理包括两步。第一步:清除噪音,即去掉对知识挖掘无关的数据。第二步:转化数据,即将原始数据按照挖掘需求,通过重新组织或简单计算转换成规范模式。

4.1.3多维Web数据模式的建立

分为三步进行。第一步,选取维。多维数据便于我们从多个角度、多个侧面对数据库中的数据进行观察、分析,以深入了解包含在数据中的信息和内涵。N维数据矩阵用C(A1, A2, . .., Am ,count)模式表示,其中Ai代表第i维,i=1,2,...,n, count是变量,反映数据的实际意义。

数据单元用r[A1:a1,...,An:an,count]模式表示,即为维Ai选定一个维成员ai,i=l,…,n,这些维成员的组合唯一确定了变量count的一个值。通常,需要了解成绩的分布情况,可以选取专业班级维、时间维、课程维构建数据矩阵,以形成多维视图。

第二步,构造多维视图。先选取Date维(按学期组织)、Class维(按专业班级组织)用二维形式表示每个专业班级各学期的成绩状况。然后加入第三维Course维(按课程组织),进一步构建成绩分布的三维视图。视图显示的事实是Course_Class_Analyse(课程专业学习情况)。

第三步,创建多维数据模式。最流行的数据仓库数据模型是多维数据模型。最常见的模型范例是星型模式。

4.1.4应用OLAP技术

OLAP,即在线联机处理。应用OLAP技术可以很方便地从Web数据矩阵中作出一些简单的结论性分析,如回答一些问题:(1)哪些专业班级学习情况较好,哪些较差?(2)哪些专业课程成绩较高,哪些较低?我们可以充分利用多维数据模型上的OLAP操作,如下钻(drill-down)、上卷(roll-up)、切片分析(slice)和切块分析(dice)等技术对问题进行求解。

4.2 挖掘模式的有效应用

应用数据挖掘技术可以自动发现学生学习倾向和专业发展趋势。

4.2.1数据挖掘技术应用的范围

虽然现在已有很多学校都建立了自己的教务管理网站,但教职工与学生仅仅只在Web上进行成绩的登录和查询。这样的教务网站只是提供了收集数据的快捷途径,并没有从根本上体现本身应有的应用价值。教务系统希望能够从其门户网站中收集大量原始数据,并依此发掘更深入的服务信息。同时,学校高层也希望能从教务系统中发现学生的学习情况,课程计划的实施效果等。这些都需要从海量的教务数据中应用特定的挖掘模型反映出来。基于此,对于下一次培养计划的修订才有现实的数据支撑。

4.2.2应用挖掘模式提取和分析知识

根据不同的应用要求,在数据挖掘模式中选择合适的方法进行计算,提取有效数据,得出知识。对于教务系统而言,可以应用聚类方法确定特定不同成效的学生与课程的分布,从而识别出一些问题:

(1) 对于某个专业班级,哪些课程学习效果较好;

(2) 对于学习效果较好的课程,是因为教学效果好,还是开课计划恰当;

(3) 对比同一门课的不同专业班级,以辅助各学院分析培养计划的适应性。

5 结束语

关于DW and DW 技术对教务数据分析的应用,还有许多值得继续深入研究。但是,不论从哪个方向进行研究,都必须要以提高教务处理能力为宗旨,让教务资源发挥最大的辅助决策价值。

参考文献:

[1] Colin White. Data Warehousing: Cleaning and Transforming Data [M], InfoDB, 2002.

[2] 林宇. 数据仓库原理与实践[M],北京: 人民邮电出版社, 2003.

[3] 周铝, 王全春, 张仙. 高校教务管理系统数据仓库的设计与实现[J]. 福建电脑, 2010(10).

数据挖掘学习计划篇2

[关键词]数据挖掘数据挖掘方法

随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。

一、数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

参考文献:

数据挖掘学习计划篇3

web技术的飞速发展和web信息的迅猛增长使得web不再仅仅是一个信息共享和平台。如何在用户的web活动中挖掘获取有价值的信息和隐含知识,并以此提供智能化、语义化、个性化的信息服务已经成为研究热点。

随着信息化教育的发展,数字化校园和网络教育逐渐成为人们足不出户完成教育和学习的关键领域,各种类型的教育软件和网站层出不穷,用户在自由浏览教育网站信息的同时出现了海量的具有潜在价值的日志信息。如何把这些教育数据转变成教育决策和教育教学活动优化等有用信息和知识,便是elearning用户行为模式挖掘的意义所在。

1web数据挖掘

1.1web数据挖掘及web用户行为模式挖掘

web数据挖掘(web data mining)是数据挖掘技术在web上的应用。web挖掘是集数据挖掘、信息检索和信息抽取多种技术于一体的研究领域。web数据挖掘的发展源于数据挖掘,但是web挖掘的研究对象囊括了很多传统数据挖掘技术很难处理的数据:图像、视频、声音及网页之间的各种链接等。这些数据具有海量、异构、非结构化等特性,web挖掘就是针对这些数据特点而进行研究并获取潜在有用信息的过程。

行为模式是指用户操作过程中所体现出来的某种规律性[1]。用户行为模式挖掘是在web日志挖掘(web usage mining)基础上的应用研究,以网络日志为研究对象。web日志挖掘是指从用户的访问记录中提取感兴趣内容的挖掘模式。在用户浏览internet信息的过程中,服务器会记录用户访问及其与客户端之间的交互信息(包括访问的页面、时间、用户id等信息)并被记录在日志文件中,包括3种类型的日志文件:server logs、error logs、cookie logs。web用户行为模式挖掘正是对这3种日志文件进行挖掘,从而发现相似用户群体、访问模式、频繁路径等知识。

1.2web行为模式挖掘

目前, web行为模式挖掘研究领域主要包括:形式化描述网络访问行为、自动获取行为特征以及发现行为规律,研究的数据主要包括url页面请求、页面间链接的拓扑结构、注册用户特征等[2]。常用的研究方法主要有统计分析、关联规则分析、聚类分析和频繁序列模式分析[3]。

(1)统计分析是指获取用户行为的统计信息,如访问时间、频率等[4]。

(2)关联规则分析可获取用户页面访问行为间的关系。

(3)聚类分析是指通过聚类将特征相似用户的访问行为特点归并分组。

(4)频繁序列模式分析可以获取用户访问习惯、爱好及趋势等[5]。

通过这些分析方法获得的数据在页面导航、应用和产品推荐及公共教育服务系统的开发方面有着十分重要的作用。

1.3用户行为模式挖掘工作流程

结合web应用的需求,针对用户行为模式的特点,参照web日志挖掘的方法和流程,建立了用户行为模式挖掘模型,其工作流程如图1所示。

图1web用户行为挖掘工作流程

1.3.1数据准备

web挖掘过程中的数据采集和预处理阶段,旨在收集web服务器的访问日志文件,生成挖掘数据源,主要包括数据清洗、用户唯一性识别和完善访问路径等。通过这些可以有效地过滤掉一些类似用户访问传输协议、错误请求和短时间内多次重复的干扰信息,从而提高数据的纯净度、准确度和可信度。

1.3.2用户行为建模

早期的web应用大多以静态网页的形式呈现,现在越来越多的应用系统转变为基于平台的,并逐步发展成为具有实时交互性和开放性的web服务模式。人们发现在应用这些服务系统的过程中,理解用户与系统交互行为对于网络系统性能的提高、站点的重构以及个性化、多元化服务等具有重要意义[6]。同时,大量实践也表明,用户行为在时序、聚集、依赖等方面确实存在强一致性的行为特征[7]。

传统的建模方法和仅基于web日志的访问路径建模方法缺乏对用户行为模式的动态语义信息描述,为了解决这些建模方式存在的问题,我们采用一种新的基于网页元数据的建模方式。根据web用户行为的分层特性,行为模式可分为url访问、活动、会话3个层次。

基于分层的行为模型在用户访问序列信息的基础上增加了访问内容的局部主题、关键字等信息,这样的行为模型不仅有助于对用户行为的分析和理解,而且为新的

网络服务系统构建提供了良好的支持。

1.3.3用户频繁行为序列模式挖掘

用户行为序列模式挖掘是在用户行为序列模型的基础上,根据网络行为的一般规律,在目标用户群中通过序列模式挖掘方法,获得频繁的、普遍的、潜在的行为序列规律。这种行为序列描述了该用户群体在网络环境下一定程度上的共性行为特征,为后期的个性化行为预测提供了必要的支持[8]。

针对行为序列数据的特点,对现有序列模式挖掘算法适用场合进行分析,我们选择出一种合适的访问行为频繁序列模式挖掘算法——prefixspan算法。根据访问行为序列特点,发现此算法比较适合行为序列模式挖掘。这主要是因为:①行为序列的每个元素都是单向的,便于序列投影;②以活动为单位的序列模式很长,使用此算法才能提高挖掘效率。

prefixspan算法是一种深度优先搜索算法,其基本思想是使用频繁前缀划分搜索空间和投影序列数据库,并搜索相关序列,检查前缀子序列,将其相应的后缀子序列投影到数据库中。该算法同时采用分治的策略,不断产生更多个更小的投影数据库,然后在各投影数据库上进行序列模式挖掘。

假设用户分为一个组,根据prefixspan 算法得到频繁序列模式为:

fsgroupid=(groupid,{(s1,t1),(s2,t2),…,(si,ti),…,(sn,tn)},tmin)(1≤i≤n)(1)

其中, groupid为用户组的标识,具有唯一性。si是该组内频繁行为序列,ti为si的支持度。

1.3.4用户行为模式聚类

web用户访问模式聚类就是根据用户访问的公共特性进行聚类。通过聚类形成多于一个的用户簇,这样每个簇中的用户都具有共同特性。通过对上述web日志挖掘数据的获取,提取用户的访问特性。

当前,用户网络行为分类研究还处于初级阶段,可将用户的网络行为简单分为交互行为、浏览行为、查询行为、协同行为等。然而现实生活中,用户的网络行为模式大多是这些行为的综合。聚类技术根据被分析对象间的相似性将相同或相似的对象集划分在同一类中。根据行为序列模式在时间轴上的变化特点,通过以序列相似性为基础的序列聚类算法对行为序列模式聚类,实现行为序列模式类别划分。

(1)序列相似性计算。因为网络用户行为存在着自主性和不确定性的特点,使得用户的访问行为发生的时间有很大的差异,普通的基于时间序列的欧几里得距离及其变形的序列相似性计算算法难以满足需要,因而,此处使用一种基于序列投影压缩的相似度计算方法。

以网络活动序列为例,假设有两条活动序列si,sj,且si=(ai1,ai2,…,ain),sj=(aj1,aj2,…,ajm),n≤m。则相似度计算公式如下:

sim(si,sj)=s(si,sj’)(t/m) (2)

sj’为sj 投影压缩后的变形,t为sj’的长度,即t= |sj’|

(2)序列聚类算法。在行为序列相似度计算的基础上,进行行为序列聚类,可以采用基于k中心聚集的序列聚类算法。

输入:行为序列集d,预设的簇数k。

输出:k个簇的集合,使得所有对象与其最近中心点的相异度总和最小。

方法:①从序列集d中随意选取2k个序列,组成k个初始簇,则每个簇就包含了两个序列;②将剩余的每个序列进行序列相似性计算,寻找与初始序列的投影压缩最相似的簇;③添加序列到该簇;④反复迭代执行,直到簇的大小不再发生变化。

2web行为模式挖掘在elearning系统中的应用

2.1elearning系统

elearning是指通过因特网或其它数字化内容进行的学习与教学活动,它充分利用现代信息技术所提供的、具有全新沟通机制和丰富资源的学习环境,实现一种全新的学习方式,这种学习方式将改变传统教学中教师的作用和师生之间的关系,从而根本改变教学结构和教育本质[9]。目前市场上的elearning供应商大致分为3类:平台技术供应商、课程资源供应商和平台兼资源共同发展的供应商。elearning系统应用也经历了从最初的在线学习阶段,到在线学习+学习管理阶段,再到在线学习+学习管理+培训管理阶段,最终发展成为现在的在线学习+学习管理+培训管理+知识管理阶段。

2.2web行为模式挖掘与elearning系统

基于web用户行为模式的数据挖掘在elearning方面的应用,就是指一个将来自各种elearning网络教学平台的日志文件所包含的潜在有用的

数据转换为有用信息的过程,这些有用信息可为教师、学生、家长、教育研究人员、教育管理人员以及elearning软件系统开发人员所利用,以了解学生及其所受教育的情况,并据此采取有针对性的管理和教学优化措施[9]。

elearning用户行为模式挖掘过程如下:①收集网络elearning系统服务平台用户使用数据;②数据预处理;③用户行为建模;④用户频繁序列模式分析和行为序列聚类,如图2所示。

实验发现,将用户行为模式挖掘算法和流程应用在elearning系统的分析和挖掘,具有很好的效果,可以获得一些有用的数据,进而为教育教学工作服务。

通过用户行为模式挖掘,elearning系统的建设者可以清楚地了解用户的需求,建立“以用户为中心的”网络结构体系,针对不同用户的需求“量身定做”课程设置,使elearning教育系统的优势最大化,同时提高用户满意度;网站管理者可以利用系统向用户推送一些可能有兴趣的新知识;当用户关注到下一个知识点时,系统会建议并提供一些在学习新知识时可能会用到的知识点和相关信息,针对不同用户的个性化学习,定制个性化信息,即通过用户行为模式挖掘,建立、调整用户的喜好,使用户能够以自己的方式来访问,从而实现服务的个性化。不仅如此,通过用户行为模式挖掘可以让网站的设计者不再完全依赖专家的定性指导来设计网站,而是根据访问者的信息来修改网站的结构,设计网站的外观,找出优化网站组织结构的策略,节省用户的访问时间,节约网站的开支;通过挖掘结果还可以分析用户浏览学习的历史资料,预测用户的需求趋势,评估需求倾向的改变,提高elearning服务系统的核心竞争力。通过web用户行为模式挖掘知识、规律和信息,及时调整系统课程设置和专业设置,满足广大用户的需求,留住现有用户,吸引更多用户。

图2elearning用户行为模式挖掘流程

3结语

web行为模式挖掘是在web数据挖掘基础上发展起来的一门综合技术,主要致力于从网络海量的、异构的、多维的信息资源中寻找有潜在价值的知识。elearning在我国经过十几年的发展,其模式也在不断改变,从单纯的在线学习发展到在线学习与在线管理相结合的模式。随着网络教育的发展,科学安排在线学习及管理模式非常重要,将web行为模式挖掘运用于elearning系统中,能有效地帮助网站开发者和网站管理者了解用户,依据用户的偏好合理布局、改变管理模式以及调整发展战

第6期 陈新:基于java rmi的分布式数据库系统开发与应用软 件 导 刊2014年标题

基于java rmi的分布式数据库系统开发与应用

作者陈新

作者单位(镇江高等职业技术学校,江苏 镇江212000)

摘要摘要:以java rmi(远程方法调用)机制为基础, 以多层数据库作为模型,成功地实现了分布式数据处理。通过对java rmi的使用,实现了对数据的反复利用,不仅使系统效率得到显著提高,还使系统开发过程变得更为简便。

关键词关键词:java rmi;分布式数据库系统;多层模型

数据挖掘学习计划篇4

关键词:数据挖掘;院校教育;教学管理

中图分类号:G424文献标识码:A文章编号:1009-3044(2009)27-7591-02

Discusses the Application of Data mining Technology in the Colleges and Universities Education Informationization Shallowly

LI Yong

(The Computer Room of Bengbu College of Automobile Management, Bengbu 233011, China)

Abstract: As one kind of emerging data technology,the data mining obtains the widespread application in many domains.The article embarked from data mining's concept,has outlined the major function and the process of data mining,and expounded the application of data mining in the colleges and universities education informationization from the teaching management,the teaching appraisal,the curriculum,the teaching method choice and so on.

Key words: data mining; colleges and universities education; teaching management

现代计算机技术、信息通讯技术和网络技术在院校教育系统的整合应用,在一定程度上实现了教育教学、组织管理、校园生活服务等活动的数字化、网络化、自动化,提高了教育质量和效率,形成了适应信息社会要求的全新的教育和管理模式,即教育信息化。院校教育信息化带来的是信息量的急剧增长和对信息提取的更高要求,现在再依照传统方法在海量数据中寻找决策的依据是很困难的事情。数据挖掘是一个新兴的多学科交叉领域,利用数据挖掘技术可以帮助人们分析、理解存储在计算机系统中的海量数据,为决策提供支持,因此,可以借助数据挖掘工具去发掘院校教育数据中隐藏的规律或模式,为教育教学决策提供科学依据和更有效的支持。

1 数据挖掘

1.1 数据挖掘的定义

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、有用的信息和知识的过程。数据挖掘是对数据内在和本质的高度抽象与概括,是对数据从感性认识到理性认识的升华。它涉及对数据库中的大量数据进行抽取、转换、分析以及模型化处理从中提取辅助决策的关键性数据,因此数据挖掘就是深层次的数据信息分析方法。

1.2 数据挖掘的主要功能

具体来说,数据挖掘具有预测趋势和行为、关联分析、聚类、概念描述以及偏差检测等主要功能。

预测趋势和行为:数据挖掘可以自动在大型数据库中寻找预测性信息,以往需要由手工分析大量数据完成的问题如今可以通过数据挖掘迅速直接地得出结论。

关联分析:数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。

聚类:数据库中的记录可被划分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。

概念描述:概念描述就是对某类对象的内涵进行描述,并对其特征进行概括。

偏差检测:数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例等。

总之,数据挖掘所要处理的问题,就是在庞大的数据库中找出有价值的隐藏事件,并且加以分析,获取有意义的信息,归纳出有用的结构,作为决策者进行决策的依据。

1.3 数据挖掘的过程

数据挖掘一般包括以下几个基本过程:

1) 确定和逐步理解应用领域。清晰地定义出业务问题,这是数据挖掘的重要一步。

2) 数据选择。搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。

3) 数据预处理。研究数据质量,确定将要进行的挖掘操作的类型。

4) 数据编码、数据转换。将经过预处理的数据进行一定的格式转换,使其适应数据挖掘系统或挖掘软件的处理要求,形成一个分析模型。

5) 数据挖掘。利用各种数据挖掘方法对数据进行分析,挖掘用户需要的各种规则、趋势、类别、模型等。

6) 解释结果。将挖掘结果以可视化的形式展现在用户面前。

7) 管理发现的知识。

2 数据挖掘在院校教育信息化中的应用

院校教育信息化所产生和积累的数据,为我们进行数据挖掘提供了有效的数据。数据挖掘技术可以应用于院校教育信息化的多个方面,如教学管理,教学评价,课程设置,教学方法选择等等。

2.1 辅助教学管理

随着计算机在教学管理方面的广泛应用,学生和教师的学习、工作、奖励、处罚等。

信息被存储在教学管理数据库中,通过分别对师生数据库进行挖掘,利用得到的有价值的数据来制定正确决策。

2.1.1 合理制定教师培训、招聘计划

在院校教师管理中,传统方法是运用日常管理中积累表层信息实施决策,这样只能获得数据的表层信息,并不能获得内在属性和隐含的信息。如果转变理念,运用数据挖掘理论,采用新技术分析这些数据,就会使大量的数据信息得以有效利用。

利用分类算法对不同年龄、学历、职称级别的教师教学数据进行分析,确定哪些专业的人才可以通过内部培训产生,哪些专业人才短缺而且急需,需要通过引进解决,从而达到平衡内部人才和外部招聘人才的关系,进而制定教师进修、培训、招聘计划,以调整师资队结构,使专业教师分布均衡。

2.1.2 分析学生特征

学生入学后,在校学生管理数据库中存放有大量的学生档案,包括的内容有家庭情况、身体状况、入校前后的学习成绩、特长爱好、奖惩等信息。利用数据挖掘的关联分析和演变分析等功能,在学生管理数据库中挖掘有价值的数据,分析学生特征,掌握学生的状态,帮助学生修正自己的学习行为。通过对学生特征分析结果和事先制订的行为目标标准进行比较,使学生提高学习能力、完善人格,促进其综合素质的发展。

2.2 辅助教学评价

教学评价就是根据教学目标和教学原则的要求,系统地收集信息,对教学过程中的教学活动以及教学成果给予价值判断的过程。其内容主要包括对学生“学”的评价和对教师“教”的评价。目前,院校教育评价指标主要包括学生综合测评指标和课堂教学评价指标,这些评价指标多数是参考国内外相关评价指标体系并结合实际操作中的经验和调查问卷等制定的,对于各项指标之间的关系、重要程度以及指标存在的合理性等方面很难作出判断,将关联规则和粗糙集理论应用于各评价系统,可以对指标进行排序、约简等,在一定程度上对评价指标进行优化,可以找到比较合理且简单易行的评价指标体系。

首先,院校教育信息化产生了大量数据,如学生的学习成绩数据库、行为纪律数据库、奖励处罚数据库等。利用数据挖掘工具对这些数据库进行分析处理,可以及时得到学生的评价结果,对学生出现的不良学习行为进行及时指正。同时,还能够克服教师主观评价的不公正、不客观的弱点,减轻教师的工作量。

其次,将关联规则运用于教学评价数据中,探讨教学效果的好坏与教师年龄、职称之间的关系、学生各项素质指标之间的关系等,能够及时地对教师的教学和专业发展以及学生的学习和个性发展提供指导。

最后,将数据挖掘中的关联规则应用于分析试卷数据库,根据学生得分情况可以分析出每道题的难易度、区分度、相关度等指标,教师也可以据此对试题的质量作出比较准确的评价,进而可以用来检查自己的教学情况及学生的掌握情况并为今后的教学提供指导。

2.3 合理指导课程设置

院校的课程设置有其一定的规律性,先基础,后专业,学习是循序渐进的。如计算机专业的学生在学习数据结构这门课程之前,会先学习语言程序设计和离散数学等课程。如果先行课程没有学好,势必会影响后续课程的学习。此外,同一年级学习同一课程的不同班级,由于授课教师、班级文化的不同,班内学生的总体成绩也会有所差异。每学期安排课程的多少,也会影响学生的学习效果。我们可以利用学生的学习成绩数据库中存放的历届学生各门学科的考试成绩,结合数据挖掘的关联分析与时间序列分析等相关功能,从这些数据中挖掘出有用的信息,帮助分析这些数据之间的相关性、回归性等性质,得出一些具有价值的规则和信息,最终找到影响学生成绩的原因,并在此基础上对课程设置做出合理安排。

2.4 辅助选择适当教学方法

在教学过程中,教师通常采用多种教学方法完成对本门课程的教学任务,如讲授法、讨论法、案例法、演示法、实验对比法、参观学习法等等。这些大量的教学班次实践过的经验数据存放于教学数据库中,可以用数据挖掘的方法来挖掘数据库中的数据,判定当前的教学班应该采取什么教学方法才能满足教学需要,更有利于学生对知识的理解和吸收。课程结束后将每个学生的成绩和对教学方法的评价进行综合,运用回归线性分析、关联规则的方法来判断本次教学方法适合哪一类学生,对于分类、分层次教学具有推广和指导意义。

3 结束语

数据挖掘作为一种新兴的数据处理技术,在数据的利用和提取方面发挥着日益重要的作用。在教育领域的应用,为教学工作的决策、设计、实施以及评价等各项内容提供了新的途径和方法,随着数据挖掘技术在教育领域中应用功能及技术的不断发展和完善,必将发挥越来越大的作用。

参考文献:

[1] Insight into Data Mining Theory and Practice.范明,牛常勇,译.数据挖掘基础教程[M].北京:机械工业出版社,2009.

[2] 段向红,张飞舟.数据挖掘技术及其在职业教育中的应用探讨[J].职业教育研究,2007(7).

[3] 赵全超,赵国杰,王举颖.院校信息化水平的测度与综合评价研究[J].情报杂志,2004(6).

数据挖掘学习计划篇5

关键词:序列模式;数据挖掘;教学管理;运用

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)13-0189-02

序列模式挖掘是属于数据挖掘范畴内的一个常用的分支,该模式未来的应用前景非常广阔,该模式能够根据时间序列数据库发掘先后事件之间存在的关联规律,序列模式发掘在教师管理中充分应用,能够发掘学习者在学习成绩方面具有前导后续的时序关系规律,同时可以得出这一关联规律在教学管理应用可以帮助进行科学的决策有利于教师做出指导性的建议。

1序列模式挖掘模型

I代表的是项目全集,这一全集指的是论域内相关的独立数据项构成的非空数集I={i1,i2,…,Im}(k=1,2,…,m)代表的是单独的数据项。

项集sj=(1,2,…,2m-1),指的是一个全集 I 若干项目构成的集合,可以得出sj?I且 s 存在的数量2m-1。增加时间属性之后集合T为:

T = {,,…,},在此全集中ti表示的是si的出现的时间,同时存在 ti

2 学生成绩序列模式建模

2.1数据抽取

从某一教学管理数据库中抽取一定的学生成绩当做初识的数据信息,在数据库中仅仅读取和成绩相关的数据字段,涉及学年学期、课程名称、学号等。

2.2 隐私保护

抽取的成绩样本属于学生的隐私范畴的内容,因此对所抽取的样本信息实施隐私保护[1]。为了保护信息,可以歪曲处理相关初始的一些信息,关联规律发掘的对象是集聚信息的数据集并非单独的数据项目,所以存在足够数据信息的状况下,可以对具体的数据进行歪曲处理,数据集设计统计和聚集信息能够得到准确的储存,对处理之后的信息发掘关联规律,一方面可以有效保护隐私,另一方面可以发掘数据集内部存在的关联性[2]。面对获得的样本数据,在数据信息统一的基础之上,使用随机的方法替换学号,隐蔽实际的学号,这是隐私保护的主要手段

2.3 过滤

获得成绩信息中总评成绩字段涉及部分意义不大字段信息,比如,旷考、缓考等信息,对于这部分信息需要过滤掉[3]。与此同时,为了确保数据自身的完善性,假如过滤掉部分信息,那么这一实体需要删除全部信息。

2.4 离散化

总评成绩字段最初信息可以在0 ~100进行随意取值,为方便进行分类处理,最为简便的方式是设置一个合格界限60,离散为是否合格两种取值形式。

2.5 建立序列数据模型

在教学数据库中,最初的成绩保存形式是一条记录储存一项成绩,这属于时序数据库基础上的事务模式:

M={Tid,Cid,Time,Item_set}

差别非常大,因此必须转变课程信息并建立模型。

1)时间段划分

通常来说,学习成绩可以根据学期将成绩获取时间化为8个时间段,也就是四个学年,每个学年存在2个学期。但是也可能存在别的状况,比如,一个学年存在三个学期,如果是这种情况的话,需要按照实际的状况划分具体的时间段。

2)代换

为方便对数据进行处理,应当对课程名称以及经过离散获得成绩利用符号的形式进行转换。比如,我们单纯关注不合格成绩,这样对后续的课程出现的不及格成绩是否会造成影响,可以将各个几个成绩信息过滤后,使用字母符号针对某一课程涉及的不及格数据进行表示。

3)归并

在相同的时间段内获得相同学生的成绩应当划分到一条事务之中,可以保障数据同序列数据事务模式M相符,继而便于后学的序列模式发掘。假定初始成绩如同表1所示,对其进行离散、按照时间段进行划分、进行一系列的替换以及归并之后得出的序列数据库事务(如表2所示)。

3 GSP 算法

GSP 算法数据最具代表性的Apriori 类型的方法,当然也有很多需要进行扫描的数据库同时具有一定的缺陷比如候选集量太大,但是因为本次研究需要进行处理的样本信息数量相对小,因此使用GSP 算法具有一定的可行性[4]。GSP 算法描述如下:

4 序列模式挖掘实验及结果

学生成绩样本经过一定的过滤获得共计50000多条信息,在进行离散、划分、替换以及归并等操作之后,获得序列模式数据库D,进而使用GSP 算法发掘序列模式,将最后的发掘情况进行关联规律的转变,高于65%的置信度的存在三条:

1)Confidence( 高数 1 不合格高数 2 不及格)= 66% ;

2)Confidence( 英语1 不合格∩英语2 不及格英语 3 不合格) =73%;

3)Confidence( 信息技术 1 不合格信息技术 2不合格) =87%。

其置信度越高就表示假如规律涉及的条件具备的情况下,这样规则情况出现的几率也就会更高。规律3具有87%的置信度,通过一系列的分析,产生这一情况的原因是只有极少数人的信息技术1不合格,但是大多数人的信息技术2 是不合格的,也就是说信息技术1没有过关的这部分人中,大部分的人他们的信息技术2是不合格的。这表明各项功课不合格几率的差异会在一定程度上影响发掘的最终结果。此外,站在规律推广立场上讲,假如需要采用序列模式发掘获得 鼓励对后续工程不合格的概率进行预测,本质上还不存在确切的可以进行表述的约束条件,样本成绩以及需要进行预测的成绩不合格率应当基本相当,不然的话获得的规律缺乏较高的有效性。上述获得三条管理可以指导学校的教学管理活动,也可以指导学生的学习进展。具有较高置信度的关联规则,假如其条件具备,则规则中涉及的情况出现几率就会增加,假如不想出现规则结果,可以实施一定的措施进行补救。比如,一个学生的英语1、2均不合格,必须提醒他英语3很可能还会不合格,不合格风险高达75%,要求该学生充分重视,学习更加努力,另外对其进行针对性的辅导,加快成绩的提升。

5 结束语

文章中在教学管理中运用序列模式挖掘,充分发掘学生成绩样本数据,获得三项较高置信度的时序关联规则,所得出的规律可以有效指导教学管理工作,教师可以针对具体规律中涉及的情况进行合理的分析,对于问题采取积极的措施进行规避,对于不足进行改善,促进教学质量和水平的提升,对于学生的具体的情况,制定特定的教育方案,提升学生的学业成绩。

参考文献:

[1] 侯锟.数据挖掘技术在高校教育教学中的应用[J].吉林省教育学院学报:下旬,2012(28):51-52.

[2] 王智钢,王池社,顾云锋,等.序列模式挖掘在教学管理上的应用[J].计算机与现代化,2012(11):22-25.

[3] 刘美玲,李熹,李永胜.数据挖掘技术在高校教学与管理中的应用[J]. 计算机工程与设计,2010(31): 1130-1133.

数据挖掘学习计划篇6

关键词:数据挖掘;教师培训;教师专业发展

中图分类号:TP391文献标识码:A文章编号:16727800(2012)007011302

作者简介:徐海霞(1980-),女,宁夏银川人,西北师范大学教育技术与传播学院硕士研究生,研究方向教学设计;寇艺儒(1966-),男,宁夏银川人,宁夏银川一中高级教师,研究方向为物理学教育理论。

随着教育的不断发展,教师培训已成为促进教师专业发展的一种有效途径。而培训过程中会积聚各种资源,培训结束后也会有大量的数据需要处理。本文利用数据挖掘技术发现、捕获和挖掘有效的信息资源,使分布、异构信息的智能聚合问题得到有效解决,使网络平台上丰富的信息资源得到有效利用与深度共享,以帮助培训者更有效地制定培训规划与培训策略,从而提高培训效果。

1数据挖掘的概念

数据挖掘(Data Mining,简称DM)被称为数据库中的知识发现(Knowledge Discovery in Databases,简称KDD)。有一种比较公认的定义是:数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。简单地说,就是从大量数据中提取或“挖掘”知识。

这些知识是隐含的、事先未知的潜在的有用信息,提取的知识表示为概念、规则、规律、模式等形式。数据挖掘要处理的问题,就是从庞大的数据库中寻找出有价值的隐藏事件,并加以分析,将这些有意义的信息归纳成结构模式,供有关部门决策时参考。此外,数据挖掘看重的是数据库的再分析,包括模式的构建或是资料特征的判定,其主要目的是要从数据库中发现先前未曾获悉的有价值的信息。

2数据挖掘技术的选取

为进一步加强教师培训,全面提高教师队伍素质,在联合国儿童基金会(UNICEF)的资助下,中央电教馆组织实施了基于交互式电视培训课程的“灾区教师培训”项目,加快了教师继续教育学习与终身学习的步伐,基本上每位教师都参与了不同程度、不同学科的培训学习。应用数据挖掘技术将培训对象、学习内容、模块设计、作业、发帖量、培训反思等数据生成数据库,通过对这些网络平台上的数据信息进行分析,可以得到关于培训现状与效果的一些数据信息,用以改进培训过程中存在的不足。更重要的是,通过对这些数据特征的理解与分析,可以开展有针对性的培训预测。本文利用数据挖掘技术来挖掘网络平台上的数据资源,以此来达到资源深度共享,也为提高教师培训网络平台系统的完整性、协调性和高效性。

3数据挖掘在教师培训系统中的应用

在联合国儿童基金会(UNICEF)的资助下,中央电教馆组织实施了基于交互式电视培训课程的“灾区教师培训”项目。该项目是为提高四川、甘肃地震受灾地区的小学教育质量,使四川省北川县、青川县、什邡市、绵竹市及甘肃省西和县这5个县级地区的200所学校的5 000名教师和100 000 名8~12岁的小学生从高质量的教育中受益。并在教育部国家教师培训网站(省略.cn)上建立网络学习模块,实施网络学习远程指导。本文就数据挖掘技术应用于教师培训系统中的培训对象、培训内容设置、培训效果评价等几个方面进行具体分析。

3.1培训对象方面

该项目的培训对象被分成两部分:一部分为资源教师,另一部分为学科教师。资源教师在灾区教师培训中也被称为骨干教师,由各学校的校长、语文、数学、科学等主要学科带头人组成。资源教师在接受培训后,将负责组织和实施各自学校的校本培训,因而在本校的校本培训过程中是核心人物,他们所担任的角色较多,主要是为学科教师集中授课,提供网络指导,并组织、管理校本培训,与网络远程指导团队沟通协调。所以在“灾区教师培训”项目中,我们将资源教师作为一种宝贵的资源纳入教师培训发展的关键环节。利用数据挖掘技术,整理数据信息库,充分利用资源教师和学科教师在项目培训过程中的所有信息(包括姓名、性别、年龄、职务、教龄、学科、职称等)和过程性资料(在项目培训过程中资源教师的作业提交情况、网络平台注册情况、发帖情况、回帖情况、学习成绩等),在分析资源教师和学科教师特征的基础上进行信息处理和数据分析,从中挖掘出有价值的资源信息和培训信息。我们在数据库的属性中罗列出培训对象的所有基本信息,并利用数据挖掘得到了一些意想不到的数据信息,如资源教师的教龄与发帖情况有着正向联系,资源教师与学科教师的职务与网络课程学习有着密不可分的关联。通过数据挖掘,利用足够的信息迭代,修正种种问题,尤其是对资源教师和学科教师的行为、需求及其在校本培训过程中的指导研究,可为教师培训提供科学的决策依据,以此提升教师培训的效果。

3.2培训内容设置方面

“灾区教师培训”项目中,培训内容的设置是循序渐进的,培训内容之间有着前后顺序和一定的相关性。项目的主要内容是借助中央电教馆和联合国儿童基金会设计开发的交互式教师培训光盘——《有效教学交互电视培训——教师能力培训课程》,开展以“课堂观察与评价”、“有效地课堂导入”、 “有效课堂讲授”、“课堂提问与对话”、“小组讨论与合作学习”、“课后作业管理”等6个模块为主要内容的教师教学能力培训工作。

数据挖掘学习计划篇7

关键词:统计学;数据挖掘;案例驱动

中图分类号:G712 文献标志码:A 文章编号:1674-9324(2014)40-0069-02

一、前言

近年来,数据获取和数据存储技术快速发展,各种数据库、数据仓库中存储的数据量飞速增长。人们关注的焦点要从噪声、模糊的随机数据中提取重要的信息、知识,数据挖掘的出现,提供了一种有效解决“数据丰富而知识贫乏”问题的方法。

数据挖掘作为统计专业的核心课程,是学生必须掌握的职业能力课程。根据高职生的知识结构体系和培养目标,我们采用案例驱动教学方法,以学生为主体,案例为主线,教师为主导,对案例进行分析,学习案例所涉及的相关知识点,从而会利用相关软件工具对数据进行分析,挖掘数据间的知识。

二、数据挖掘中案例驱动教学的实施

(一)合理高职高专统计专业数据挖掘课程教学目标

数据挖掘是集数据库技术、统计学习、机器学习、模式识别、可视化等学科的一个新兴交叉学科,又包含了聚类分析、关联规则分析、分类等,每一种挖掘又有不同算法,是一门理论性、实践性及综合性较强的课程。其知识内容丰富,内容深浅不一,各种方法变化快,新方法层出不穷,这对师生都提出了严峻的挑战。

高职高专将培养高等技术应用型专门人才为根本任务,以适应社会行业发展需求为基本目标,结合本院统计专业学生的专业技能特点,我们将本门课程的教学目标定位为:掌握数据挖掘课程涉及的基本概念,提高信息分析能力,能从收集到的数据信息中利用有效的软件工具CLEMENTINE进行知识“挖掘”;要根据实际情况制定合理完整的数据模型并进行评估,这些评估要具有可视性,才能有效地解决问题,而使数据挖掘更具有合理性。

(二)如何驱动教学来设计数据挖掘案例

1.介绍案例驱动教学法。案例驱动法是在“哈佛大学”的情境案例教学课起源,是一种探索性和协作性学习的教学模式。整个授课过程围绕着同一个目标和几项任务“教授”,学生通过对课程的学习、资料的查找和知识的整合,通过充分思考和与实践相结合,提高自身能力。这种案例驱动的教学法可以让学生提高学习兴趣,发展学生自身的能力。同时能让教师更好地发挥促进学生学习、引导学生成功的功能。

案例驱动法是把教学内容和目标通过一个任务来体现,把教材内容重新整合,老师的授课和学生的接受都围绕这个任务完成。

案例驱动法可以充分发挥学生的主体地位,从而改变传统的关于师生关系的观念,让学生从被动学习到主动学习,真正爱上学习,提高自己的创新、自学和实践能力,同时要求老师在授课中给予学生正确的引导、促进、组织和控制,这样可以增强同学间的协作精神和学生的独立意识。通过学生的自主学习和探索,可以改变原来枯燥的学习方式。对于数据挖掘这门课程,内容深奥,既要求学习一定的理论知识,又要求掌握数据挖掘的使用方法,因此我们引入使用案例驱动的教学方法。

2.数据挖掘案例教学的实施规划。利用CLEMENTINE软件工具进行数据挖掘,将数据挖掘看成一个以数据为中心的循序渐进的螺旋式数据探索过程,该过程分为业务理解、数据理解、数据准备、建立模型、方案评估和方案实施六大部分。因此,在教学过程中,我们围绕数据挖掘的六大部分,在每一部分,讲解基本的数据挖掘技术原理;对于数据挖掘算法,只要求掌握相关算法使用的方法和使用的场合,并会使用专业的数据挖掘工具CLEMENTINE,此应用的前提条件要求对学生进行数据挖掘;将教学的亮点和重点放在案例分析和实际应用上,要对学生进行动手能力的训练。

在教学的过程中,最重要的是案例的选取。通过参考教学大纲和教学目标,对教学案例进行精心设计,可以提高学生的分析能力,提高学生发现问题和解决问题的能力,才能更好地将教案落实,并形成具体的项目。根据数据挖掘课程的特点和具体内容,我们通过某些小案例引入一些相关知识,并且采用学生能够接受的一个大案例让学生使用成绩数据模型组织整个教学过程。

我们的课程内容按数据挖掘过程分为六大部分,按照每一部分的教学目标我们设计了多个不同的小案例如下。

(1)药物研究数据和学生参加社会活动数据案例:通过这两个数据模型掌握在CLEMENTIME软件工具中利用软件中SOURCES选项卡的多种节点读入多种文件类型(如TXT文件、EXCEL文件、SPSS文件等)的数据,掌握读入数据的数据类型,掌握APPEND节点、MERGE节点合并数据的方法。

(2)移动客户数据案例:通过利用移动数据让学生掌握TYPE节点进行变量说明的方法,会使用该节点进行有限变量值和无效值的调整,会使用DATA AUDIT节点对数据质量进行评估和调整;掌握数据中对离群点、极端值和缺失值的调整,对数据进行质量管理;会使用AGGREATE对数据进行分类汇总;利用FILLER节点对变量值重新计算,会用RECLASSIFY节点实现变量值进行调整;会对数据进行筛选、样本子集划分等处理;了解数据分析特征,把握数据间相关性强弱的基本手段;利用压缩样本量、简约变量值或变量降维等方法对样本量庞大的数据进行精简。

(3)决策树模型案例:了解C5.0决策树算法,会建立决策树模型,学会归纳和提炼现有数据包含的规律,建立分类预测模型,会分析结论,用于对未来新数据的预测。

(4)人工神经网络模型案例:了解人工神经网络算法,掌握人工神经网络建立的步骤,建立B-P反向神经网络模型,预测分析结果。

(5)贝叶斯模型案例:了解贝叶斯网络算法,掌握贝叶斯网络结构的组成和构建,会用TAN贝叶斯和马尔科夫毯网络解决从庞大数据中寻找输入变量之间的相关性,输入变量的组合取值对输出变量的影响,用网络结构直观展示它们的关系。

在设计小案例的同时,我们还选择学生既熟悉又感兴趣的综合项目案例选题:学生成绩数据、图书管理数据、电信服务数据等,让学生带着问题进一步学习课程,在学习中寻找方法解决项目中遇到的问题。当课程结束后,各项目组呈交项目数据模型和报告,且项目组长要向所有同学按数据挖掘的六大部分讲解分析报告。

3.案例驱动教学的成效。围绕案例进行教学的“数据挖掘”课程除了采用案例驱动教学法,还要增加学生的实际训练能力,都取得了明显的效果,从以下五个方面体现:①学生要主动提出问题,同时积极主动地参与课堂教学,才能提高学生分析和处理问题的能力;②增强学生的自主学习能力,要求学生通过小组讨论的形式和实际训练让学生以积极主动的态度处理和解决一些技术问题,从而提高自学能力;③学生间要注意培养团队合作能力的,也要具有竞争意识;④课程学习结束后,普遍反映对利用CLEMENTIME软件工具进行数据挖掘的自信心提高,能够进一步提高对专业的认知,独立解决一些数据统计分析的问题。

三、结束语

数据挖掘是统计专业的专业课程,其内容繁多、深奥,把基于案例驱动的教学模式引入《数据挖掘》课程,学生在学习过程中,实现了整个数据挖掘的流程,在基于项目的技术应用中深入理解了数据挖掘的理论知识。学生要将所学的理论知识和实践相结合,从而有效提高自己的操作技能和知识水平,培养了自己应用数据挖掘技术解决实际问题的应用能力和创新实践能力。

从教学效果来看,通过将理论教学和实践相结合,案例教学法整合了各种学习工具和教学资源,这样才能充分发挥学生的主观能动性,培养和提高学生的主观能动性,同时增强学生分析和处理问题的能力,今后,我们将继续完善数据挖掘的教学案例,研究和总结教学经验,使整个教学环节更加完善合理。

参考文献:

[1]刘云霞.统计学专业本科生开设“数据挖掘”课程的探讨[J].吉林工程技术师范学院学报,2010,(26).

[2]覃义,杨丹江,刘忆宁.《数据挖掘》本科教学的体会与创新[J].科技信息,2012,(10).

[3]李国荣.培养统计专业学生动手能力和创新能力的探索[J].统计教育,2007,(9).

[4]白忠喜,鲁越青,梁伟,等.校政企共建基地开展基于项目驱动的实践教学改革[J].中国大学教学,2011,(2).

[5]焦国华,黄健柏,黄晖.数据挖掘技术在钢铁行业的应用[J].系统工程,2010,(28).

[6]宋威,李晋宏.项目驱动的数据挖掘教学模式探讨[J].中国电力教育,2011,(27).

数据挖掘学习计划篇8

关键词:数据挖掘;关联规则;成绩分析

中图分类号:TP37 文献标识码:A 文章编号:1009-3044(2014)09-1866-03

课程的学习是有先后顺序关系和一定的关联性的,某一门课程的学习的效果或者先后顺序可能会对另外一门课程的学习产生影响,这些课程之间存在不易让人发现的关联关系,所谓学生就是以学为生,学生的学习成绩不仅是体现一个学生的学习效果,更重要的是体现了一个学校的办学质量,如何才能充分利用学校的一切资源,提高学校的办学效果以及学生的学习成绩,是各个学校的根本目标。数据挖掘技术的发展及在各个领域的应用,使得隐藏在大量数据信息中的有价值信息得以挖掘,这给人们各个方面都带来了极大的好处。该文对存储在学分系统中历届学生的学习成绩进行分析,以某个年级学生的成绩为例,

对学生成绩结果数据进行深入的分析,利用数据挖掘关联规则Apriori算法试图挖掘出课程之间的相关性,例如一个课程的学习,从一定程序上影响了另一门课程的学习,为了提高教学效果,提高学习成绩,为我们制定教学计划提供依据。挖掘算法可用于高校教学管理系统是非常多的,该文根据学生成绩模块数据,利用关联规则挖掘,使用SQL2005作为后台数据库,使用VC++6.0开发平台进行数据分析,挖掘出具有一定价值的规则,从而对以后的教学具有指导作用。数据挖掘是由多个步骤完成的。数据挖掘的基本过程如图1所示:

图1 数据挖掘的基本过程

文章根据数据挖掘的基本要求,使用SQL2005为后台数据库,VC++6.0为开发平台开发系统,系统需满足以下条件:(1)可视化界面,即系统简单并易于操作;(2)数据的处理过程简洁有效;(3)与其他工具的兼容性,即和其他开发工具易于集成。

1 关联规则与Apriori算法

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的,但潜在有用的信息和知识过程[1]。

设I={i1,i2,…im}是项的集合。设任务相关的数据D是数据库事务的集合,其中每个事务T是项的集合,使得[T?I]。每个事务有一个标识符,称作TID。设A是一个项集,事务T包含A当且仅当[A?T] 。关联规则是诸如A=>B的蕴涵式,其中 [A?I,B?I] ,并且[A?B≠?] 。规则的支持度和置信度是两个规则兴趣度量值,它们分别表示发现规则的有用性和确定性[2]。

Support(A=>B)=P(A∪B) Con?dence(A=>B)=P(B/A)

同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称作强规则,支持度和置信度的取值范围是0到1,使用0%到100%之间的数据表示。

2 建立模型

数据预处理

数据预处理主要包括以下三个步骤:数据清理、数据集成和数据变换[3]。

1) 数据清理:数据清理就是通过消除原始数据集中的错误、噪声、缺损、不一致等元组,提高数据质量。我们这里主要是由于缺考造成部分空值,数据清理空缺值方法是使用属性的平均值填充空缺值的方法。

2) 数据集成:在现有教务管理软件的基础上开发,该文的数据资源已经存储在SQL Server 2000服务器中,均已关系型数据结构存储。

3) 数据变换:以表1学生成绩表作为训练集为例,可见在表1中完全相同的“属性-值”很少,如果直接将其作为项进行挖掘,就不可能得到理想的结果。为了简化数据量,必须对原始数据中的量化属性进行转

化,转换成布尔型离散属性。选取布尔值为1的数据项形成事务表。

对成绩的离散化:成绩的筛选条件为大于等于85分,大于等于85分的转化成布尔型数值”1”,而成绩小于85分的转化成布尔型数值”0”[4]。课程编码:将表1 学生成绩表中的课程名分别以K1,K2,…编码,如“计算机网络”的编码为K1。从学生成绩数据库中提取相关属性,为整个数据挖掘模块提供了数据挖掘对象。由于Apriori算法适用于事务库的数据挖掘,所以需要将关系表转换为相应的事务库。该文将关系表中的除学号外的每个属性视为一个事务。每条记录中每个事物发生的标志为离散化后值为“1”。

例如,表2.1中的第一条记录,转化为事务:{K1,K6,K8,K10,K11}

3 功能实现

利用经典的Apriori[1]算法对数据进行关联性分析:

提供了两个可选项,一是专业的选择,该文只对相同专业的学生成绩进行课程的相关性分析;二是支持度的选择这里我们设了强、中、弱三个支持度供用户选择,强的值为0.5、中的值为0.3、弱的值为0.2,置信度我们统一设定为0.6[5]。

要对上述表中的成绩优秀课程进行关联规则挖掘,需要给出支持度和置信度我们的实验数据以最小支持度为0.2,置信度为0.6时得出。最后得知C6为频繁集 ,且L6为最大频繁集[6]。

由于我们是对学生的成绩进行相关性分析,按照课程的开课顺序得到规则文件如图2所示。

从以上的关联规则结果,可以得出如下的知识规则:1.先学习《C语言》再学习《数据结构》是可行的,它们之间的支持度为0.02,置信度(可靠性)高达0.76.9,这充分说明先学习《C语言》再学习《数据结构》是非常有必要的。而先学习《数据结构》再学习《C++程序设计》的支持度为0.5,置信度为0.88,这说明学习《数据结构》对学习《C++程序设计》是非常有帮助的。所以,从以上的规则我们可得出学生的课程学习顺序:《C语言》 《数据结构》《C++程序设计》。2. 先学习《C语言》再学习《微机原理》也是可靠的,它们之间的支持度为0.26,置信度(可靠性)也达到了0.61,这也可以得出先学习《C语言》再学习《微机原理》也是有好处的。而先学习《数据结构》再学习《C++程序设计》的支持度为0.4,置信度为0.7,这说明学习《微机原理》也是学习《C++程序设计》的基础前提。所以,从以上的规则我们可得出学生的课程学习顺序:《C语言》 《微机原理》《C++程序设计》。3. 先学习《网页》再学习《图形图像》是可取的,它们之间的支持度为0.23,置信度(可靠性)高达0.77,这也可以看出《图形图像》课程应该开设在《网页》之后,这样有利于学生学习成绩的提高。综上所述,可对同学们的选课提出如下建议:《C语言》 《数据结构》 《C++程序设计》《C语言》 《数据结构》 《微机维护》《网页》 《图形图像》 《C++程序设计》。通过对学生考试成绩进行关联挖掘操作结果的分析,得到了这些课程之间的关联,给教学管理人员在制度人才培养方案以及教学计划等的时候提供的参考,帮助分析课程开设的前后顺序是否合理以及时的做出相应调整。此外,这些知识规则还作为参照挖掘课程自身、课程与课程之间及课程的设置与课程成绩之间的有用信息,从而指导教师在教学改革、专业人才培养方案的制定、教学质量的提升等方面取得更大的成绩。

4 结论

实践证明将数据挖掘技术运用到高校学生成绩分析中,可以更加客观有效地对学生的学习情况加以评测,为学生选课、教师课程教学安排、教学方法等诸多方面提供参考,使得高校教师在人才培养方案的制定以及教学时,可通过关联规则挖掘发现哪些课程是需要先开设,哪些课程比较重要,哪些是学生的薄弱环节,以便及时调整人才培养方案、教学方法、教学计划,从而提高教学质量及学生成绩。

参考文献:

[1] Margarent H.Dunham.数据挖掘教程-世界著名计算机教材精选[M].北京:清华大学出版社,2005.

[2] 陈志泊.数据仓库与数据挖掘[M].北京:清华大学出版社,2009.

[3] 蒋文沛.SQL Server2005实用教程[M].北京:人民邮电出版社,2009.

[4] Tan,Steinbach,Kumar.Introduction to Data Mining,2004.

[5] Hartigan,J.A.(1975).Clustering Algorithms.Wiley.

上一篇:期末考试学习计划范文 下一篇:初中生活学习计划范文