数据挖掘在学科建设中的应用研究

时间:2022-08-02 07:45:20

数据挖掘在学科建设中的应用研究

摘要:随着高校教学改革进程的加快,校园信息的积累越来越丰富,本文结合教学管理具体要求,通过设计学院某门课程的在线答疑建立的一个“随访信息库”,对在线答疑学生进行跟踪访问,记录在线答疑的数据,然后通过设计合适教学管理决策需求的数据仓库模型设计和数据处理方法,对“随访信息库”进行数据挖掘,建立了完备、正确、无冗余的教学管理系统数据仓库模型——一个有价值和指导意义的“学科建设指导库”。教师通过查询“学科建设指导库”中的信息资料,可以了解某门课中某个问题的解决方式、解决方法或解决方案,并结合教师自己的教学经验,形成解决问题的切实方案,最终达到便于教学经验的总结和提高教学质量的目的,对以后的教学改革方案的实施有重要的指导意义,为后期进行决策分析提供有效的支持和依据,从理论和实践上提供一套行之有效的方法,为高校全面进行数据仓库建设、数据挖掘研究与开发提供参考。

关键词:数据挖掘; 教改; 教学改革; 数据仓库模型; 数据仓库; 教学管理; 学科建设

中图分类号:TP 312.1 文献标识码:A 文章编号:1006-3315(2012)09-125-002

一、引言

数据挖掘技术作为一个多学科交叉的新兴学科,在研究领域等得到了越来越多的应用,尤其在需要进行信息分析的领域得到了十分广泛的应用。随着科学技术的飞速发展,如何提高高等学校教学质量,以适应新形式发展已成为一个刻不容缓的问题,而提高教学质量,改善教学环境则是改善高等教学的关键。高校教学管理中每天都会有海量数据产生,面对如此海量的数据,目前的教学管理系统只是做一些查询、更新、统计、打印报表等操作,并没有完全发挥信息技术的潜能,即没有从大量数据中挖掘所隐含的规律,从而应用这些规律去指导教师的日常工作。因此,如何利用数据挖掘技术从这些数据信息中发现有益的知识,利用信息化手段来为教师进行决策支持服务,提高教学质量以适应新形势发展,不但可以提高教师的教学水平,还可以带来更多的好处。

二、数据挖掘的相关知识

1.数据仓库

数据库系统作为数据管理手段,主要用于事物处理。在目前的计算机处理能力上,直接使用事务处理环境来支持决策是行不通的。近几年,随着数据库技术的应用和发展,人们尝试对数据库中的数据进行再加工,形成一个综合的、面向分析的环境,以更好地支持决策分析,数据仓库(Data Warehouse简称DW)正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。数据仓库弥补了原有数据库的缺点,将原来以单一数据库为中心的数据环境发展为一种新环境:体系化环境。数据库要建立在一个较全面和完善的信息应用基础上,用于支持高层决策分析。

2.数据挖掘的概念

数据挖掘[1-2]是指从数据库中提取出隐含的人们事先未知的、潜在的有用信息和知识,所提取的知识可以表示为概念规则、规律、模式等形式,它具备有效性、新颖性、潜在有用性及最终可理解性,即发现的知识可接受、可理解、可运用,最好能用自然语言表达发现的结果。处理的原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形、图象数据;甚至是分布在网络上的Web数据和异构型数据。获取的知识可用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一个介于统计学、模式识别、人工智能、机器学习、数据库技术以及高性能并行计算等领域的交叉新学科。我国学者在这个领域也已开展了很多研究,主要来自计算机科学及相关领域。

3.数据挖掘的过程[4]

数据挖掘使用一定的算法,从实际应用数据中挖掘出未知、有价值的模式或规律等知识,整个过程由数据预处理、数据挖掘、模式评估、巩固知识和运用知识等步骤组成。

3.1数据预处理。数据挖掘的处理对象是数据,这些数据一般存储在数据库系统中,是长期积累的结果。但是往往不太适合直接对这些数据进行知识挖掘。需要先清除数据噪声和与挖掘主题明显无关的数据,其次将来自多数据源中的相关数据源组合并,最后将数据转换为易于进行数据挖掘的数据存储形式,这就是数据预处理。数据预处理是数据在进入数据仓库系统之前的处理过程,在这个过程中,需要将来自关系数据库、实时数据库或者文件系统等多个外部数据源的数据进行有效的抽取、清理、转化和综合,检查数据的完整性、一致性等质量指标,对其中的噪音数据、空值等进行处理,最后存入数据仓库。数据预处理是数据挖掘的第一步,它是整个过程中很重要的一步,数据预处理是否合适将影响到数据挖掘的效率、准确率以及最终模式的有效性。

3.2数据挖掘。数据挖掘就是根据数据挖掘的目标,选取相应的算法及参数,分析准备好的数据,产生一个特定的模式或数据集,从而得到可能形成知识的模式模型。

学院教学管理数据主要存储在关系型数据库中,大量的数据和数据模型都是反映历届学生的学习情况和教师的教学任务、教学计划以及教师教案等,已开发的数据库系统基本上是面向事物处理的简单的管理信息系统。随着学校对决策信息需求的日益广泛、复杂和迫切,这些传统的数据库系统存在的问题也越来越明显:(1)原有数据库系统是面向OLTP而不是面向OLAP的;(2)原有数据库系统难以适应各类对象数据粒度的不同要求。

在数据仓库中,系统体系结构是关键,要成功地实施数据仓库,首先应该拟订适合本校特点的数据仓库系统框架,一个真正实用、有效、灵活的数据仓库系统体系结构的建立是十分必要的。在对教务系统进行深入调研和需求分析的基础上,针对教务管理自身的特点,给出一个比较适合本校教务管理的数据仓库体系结构,该结构由一个集中式数据仓库(即中央教务数据仓库)、分布式数据集市(即部门学院级数据仓库)和个人级数据仓库相结合。如图1所示。

(1)中央数据仓库。中央数据仓库的目标是进行决策支持,它是支持管理决策过程的、面向主题的、集成的、稳定的、时变的数据集合,它面向主题组织数据,每个主题对应一个客观分析领域,它可以为辅助决策分析集成多个部门、不同系统的大量数据。

上一篇:浅议技工学校技能化的语文教学设计 下一篇:平行研究的“名”与“实”