基于关联规则数据挖掘技术在教学管理中的应用

时间:2022-07-05 10:04:40

基于关联规则数据挖掘技术在教学管理中的应用

摘 要:数据挖掘技术是一种以从大量数据中提取潜在有价值的数据规律或数据模型为目的的信息处理技术。将此技术运用在高校信息处理的工作上,可智能生成有价值的信息,用于学校教学管理与决策。本文将以目前高校普遍使用的学分制选课数据系统依托,运用数据挖掘技术中关联挖掘规则,对已有数据进行分析,为读者提供一个简单易操作的数据挖掘范例,供读者参考。

关键词:Oracle,Apriori 算法;关联规则;数据挖掘;选课;用户支持

中图分类号:C42 文献标识码:A

1 概述

在现代科学的不断进步的今天,高校的教学管理也不可避免的要趋于日益规范化、信息化和网络化。其主要侧重点要转向项目研究、方法创新、优化服务而非单一的规范管理。通过数据挖掘和知识发现技术,我们可以从现有数据中分析提取潜在有用的知识信息并应于与教学管理中。本文将介绍学分制选课成绩信息的关联规则挖掘的相关内容,并结合Oracle 数据库的教学数据库系统,对关联数据挖掘技术进行探讨。

2 基本的挖掘算法

基本的数据挖掘算法主要包含置信度(confidence)和支持度(support)两个参数。Apriori 是已知的最早的关联规则的挖掘基本算法。它的主要作用是用来描述用户对挖掘出来的规则的偏好程度。把浏览大量事务数据时的每一个的单个项累加起来,在所有事物浏览完毕后,把自身支持度小于用户给出的支持度的项目删除,以此为基础拓展到多项事务中去。

3 以Oracle 数据库系统为基础的挖掘系统

在应用服务器层上进行数据逻辑处理的工作,是在普遍的C/S 和B/S 数据库应用系统中所采取的办法,我们通常把数据库当成一个储存数据的工具来看待和管理,在返还给数据库之前,我们想要先提取数据库中的某一种特定数据并进行处理。在这个过程中,Oracle 数据库是目前是最常用也是最优秀的有关于数据存储,、转换、应用的中心系统。数据挖掘系统在工作时,时常要对数据表中所有数据进行彻底扫描,因为这样可以将尽可能多的把整体数据转换和处理过程放在数据库系统内来执行,以提高数据扫描效率。

4 教学系统中的挖掘实例

4.1 学生成绩事务数据预处理

首先,我们需要学生成绩的事务型数据表,这是因为使用关联挖掘算法需将具体学生的所有成绩数据元组组合并成一个事务数据。通常数据库中存储学生成绩的方式为N 对N 的元组,即“学号——课程号——成绩”的形式。不难发现,我们很难把它们组装到一个事务中去,因为每个学生在数据表中都是由多个元组组成的。倘若这样大型的事务性数据表要在在挖掘过程中重新创建,那就要花去很长的运算时间,得不偿失,所以将其一直存储在数据库内才是正确的选择。

笔者认事物数据的建立可以分解为:数据集成、数据选择和预分析。

(1)数据集成。在这个步骤中,从操作型环境中提取并集成的数据中语句不可避免的会含有许多语句的二义性问题,我们要首先把它统一起来或者直接消除。消除语义二义性是在教学系统的数据处理时的主要工作。例如对于《c语言程序设计》,有的表则会将其显示为:“c 语言”。而他们指的其实是一回事,所以我们要把它们合二为一。建立在园区网络的系统研发应该以两个数据集市为主题,即学生与课程。

(2)数据选择。减小数据量、保证数据挖掘结果的优质性是预分析和数据选择的主要功能。因为在之前的过程中,由于数据仓库的容量会不断增加。数据挖掘时的一次耗时也会相应地加长。会给用户造成巨大的负担。

(3)数据预处理。首先,要将处于离散状态的多元组的学生成绩数据和成绩转化为事务性的成绩数据,一个事务元组配对一个学生,既学号——成绩事务组。具体形式如下:(0243041087,“C语言程序设计B,软件工程B,数据结构A,?”) 或(0243041293,“C 语言程序设计A,汇编语言B,人工智能B,? ”)。其中,用一个足够长的字符串来存储,每个事务用逗号作为间隔,使用的时候通过很简单的字符串分析就能够提取出里面的所有成绩事务。

4.2 数据挖掘

取得课程间的相关信息,进而指导学生选课是关联规则对学生成绩数据库进行数据挖掘的最终目标。Apriori、AIS、SETM和 Partitio 等是关联规则的主要分析算法,本文中的实例将采用Apriori 算法。

在进行处理时,学生考试成绩,隶属院系等基本信息以及在数据预备阶段形成的各课程所隶属的课程分类信息都是关联规则分析中可能用到的,应该加以留存。依据学生的考试成绩,分析出各门课程之间的内在联系,提高数据挖掘的精确度,仅仅靠考虑可信度以及支持度在实际应用中是远远不够的,有时甚至还会引起不必要的误导。笔者认为可以通过在原来的关联规则上增加兴趣度阈值这一手段来实现。例如《C语言程序设计》(以下简称《C语言》)和《软件工程》(以下简称《软件》)成绩为优的学生数量在成绩库中占15%,但是《软件》中优秀的学生数量在《C语言》为优的学生中占到数量的50%,我们可以由这两个足够大的支持度和可信度得出:“提高《C 语言》的教学水平有助于《软件》教学成绩的提高”,这种结论看似合理,而实际的情况却是原始记录显示选修《软件》的学生有60%成绩都是优,也就是说有35%的学生《C 语言》成绩非优但《工程》的成绩为优。而且《软件》成绩优秀的概率高于已知《C 语言》成绩为优的概率这一定律,对于任意我们不知道信息的学生都成立。所以,如果用户在选择时没有仔细分析,上面的信息很显然会给他们造成很负面的误导。所以我们引入兴趣度阈值这一参数来解决这个问题。

定义规则R的兴趣度公式为:IR=(CR- SRH)/max(CR,SRH)

其中CR 是规则R的可信度|H∧B|/|B|,SRH 就是原始记录中支持该规则推出的信息即规则右部H 的比例。很显然CR 与SRH 之间是不具有任何关联性的,兴趣度IR 在计算时,R的结果可正可负。正负就是R值得意义所在。如果为负,就表示该规则是具有误导性的,应该舍弃。反之则表示该规则有效,输出。

上一篇:基于220KV GIS变电设备的运行维护技术探讨 下一篇:我国特种设备安全现状评价分析