基于序列决策的成绩分析系统研究

时间:2022-09-04 10:49:24

基于序列决策的成绩分析系统研究

摘要:文章通过对数据挖掘技术的相关分析与比较,提出了序列决策的分析方法,将数据挖掘与统计分析相结合,从海量成绩数据中提取隐藏于其中的有用信息,从而科学指导教学,提高教学管理水平。序列决策是指:采用模糊聚类算法对数据进行分组;采用基于决策树的分类方法,对成绩分析库中数据进行挖掘,生成学生成绩决策树,采用基于总结规则的统计分析方法,进行模型准确性评估。

关键词:序列决策;数据挖掘;模糊聚类;决策树

中图分类号:TP301文献标识码:A文章编号:1009-2374(2009)10-0001-04

数据挖掘的理论应用越来越广泛,商业、制造业、金融业、医药业、电信业等等许多领域都有了成功的应用实例。目前,各高校普遍采用了计算机进行教学管理,储备了各种类型的电子数据,具有了进行数据挖掘的前提条件。故而将数据挖掘理论引入到学生成绩分析中,以此来帮助教师和教学部门制定相应的措施,有利于提高教学质量。

一、序列决策的提出

序列决策是源于《运筹学》中的一个概念,它在统计学中主要是指当进行决策后又产生一些新情况,需要进行新的决策……这样,决策、情况、决策……构成一个序列。描述序列决策的有力工具是决策树,决策树是由决策点、事件点及结果构成的树形图。序列决策的概念主要是运用多种数据挖掘法,多侧面、多角度、多层次地对学生考试成绩的当前和历史数据进行综合评价,分析结果能够传递考试成绩中隐含的信息,使得教学双方能够从中受益。

二、数据采集与预处理

(一)挖掘主题

本研究的挖掘任务为某高校一次C语言程序设计课程的成绩分别为及格和不及格的学生的特征,找出能预测学生取得及格成绩的相关因素,所以挖掘主题可以明确地描述为:分析影响某高校C语言成绩的相关因素及相互关系。

(二)挖掘库的建立

根据挖掘主题的要求,分析学生取得优秀和及格的相关因素,根据该校教务管理系统得供的学生基本情况库、课程库、学生成绩库等,我们选取其中与挖掘主题有关的属性组成成绩挖掘库,见表1。

(三)数据预处理

数据预处理的主要工作是:数据清理、数据转换和归约。因为现实世界中的数据多半是不完整的、有噪声的和不一致的,为了提高分类和预测的准确性、有效性和可伸缩性、必须对数据进行预处理。具体操作为填充某些空缺的字段值,消除多个数据表中的不一致,构造一些字段以便概化,对某些数据型字段进行离散化的归约工作等。

三、聚类模型的建立

聚类就是将一组数据对象划分成多个类或簇,在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差别较大。聚类要划分的类是未知的。

(一)模糊集

一般的基于规则的分类系统有一个缺点:对于连续属性,它们有陡峭的截断。例如,考虑关于顾客信用卡的审批规则。该规则本质上可以描述成:

IF(year_employed>=2)AND (income>=50000)THEN credit=approved

如果,一个至少工作两年的顾客的收入超过50000美元,他将得到信用卡,如果他的收入是49000则他就得不到。这种苛刻的阈值看来不公平。换一种方式,我们可以将income离散化成分类的,如{low_income,medium_income,high_income},然后使用模糊逻辑,允许对每个类定义“模糊”阈值或边界。模糊逻辑使用0.0~1.0之间的真值表示一个特定的值是一个类成员的隶属程度,而不是用类之间的精确截断。每个类表示一个模糊集。因而,使用模糊逻辑,可以表达这样的概念:在某种程度上,49000美元的收入是高的,尽管没有50000美元的收入高。模糊集理论允许我们处理模糊或不精确的事实。例如,高收入集的成员是不精确的,不像传统的“明确的”集合,元素或者属于集合S或者属于它的补,在模糊集合论中,元素可以属于多个模糊集。例如,收入值49000美元属于模糊集medium和high,但具有不同的隶属度。

(二)模糊聚类

对带有模糊特征的事物进行聚类分析,显然应该采用模糊数学的方法,因此称其为模糊聚类分析法。在很多模糊聚类算法中,受到普遍欢迎的是基于目标函数的模糊聚类方法,也就是说,把聚类归结成一个带约束的非线性规划问题,通过优化求解获得数据集的模糊划分和聚类。该方法设计简单,解决问题的范围广,还可以转化为优化问题而借助经典数学的非线性规划理论求解,并易于在计算机上实现。在基于目标函数的聚类算法中,模糊―C均值(FCM)算法的理论最为完善、应用最为广泛。模糊聚类的目标函数为:

(1)

式中为模糊分类矩阵, ,V= ,表示第i类的聚类中心(i=1,2,……,c)是用来决定聚类结果模糊度的权重指数。当m=1,该聚类变成了硬划分;在实际应用中,从物理解释上得出m=2最有意义;Pal等人则从聚类有效性的实验研究中得到m的最佳选取区间应为 [1.25,2.5], 在不作特殊要求下可取区间中值m=2。J(U,V)表示各类中样本到聚类中心的加权距离平方和,权重是样本xk到对第i类隶属度的m次方。式中

(2)

矩阵A为对称阵,一般取A=I,则dik为欧式距离。

根据聚类准则求J(U,V)的最小值:min{J(U,V)},因此

(3)

利用拉格朗日乘数法求解后进行优化可得:

(4)

(5)

(6)

其中

模糊C均值聚类算法的步骤:

1.确定类数k。

2.给出初始聚类中心。

3.利用公式4计算新的隶属矩阵,注意公式4的分母为0,则规定若。

4.利用公式6求各类的聚类中心。

5.如果两次迭代之间的聚类中心距离小设定值,则停止,否则转3。

对入学成绩和录取分数线两个属性进行模糊聚类得到基础程度属性的值,根据挖掘目标,要将基础程度分为高、中、低三类,用1、2、3来表示类别,即k=3;为简便起见,取m=2,现以某次考试C语言的成绩为数据集合进行模糊聚类,参加该课程考试的总人数为137人,用模糊C均值算法对入学成绩和录取分数线两个属性进行分组的结果见表1:

表1 对基础程度模糊聚类的训练结果

上表统计结果见表2:

表2 基础程度、实验学时及成绩属性离散化的结果

在对入学成绩进行聚类过程中,可以看出每两个相邻类中都有部分数据交叠现象,也就是一个数据可能不只属于一个固定的类,根据其属于不同类别的隶属度大小,选取隶属度最大的类作为其分类结果。通过建立聚类模型,对影响等级考试成绩的因素进行概化和归约,将成绩挖掘库中的数值型数据进行离散化,为我们进一步作分类预测奠定了基础。

四、分类模型

分类要解决的问题是为一个事件或对象归类。分类与聚类不同,分类是在已知类标记的情况下对数据集合进行分类描述,理想情况是找到准确的分类规则。而聚类是在没有先验知识的情况下对数据集合进行划分,我们在上面已经用聚类划分了数值区间,下面用决策树技术根据这些离散化的字段建立分类模型。

用于挖掘的学生成绩表中的属性很多,选择其中与成绩属性相关性较大的是否重修、实验学时、基础程度、性别四个属性作为建立成绩分类决策树模型的依据。建立成绩是否不及格决策树模型时,以是否不及格属性作为分类属性。下面以训练集为例来说明成绩是否及格决策树模型的生成。

采用C4.5算法建立决策树模型的步骤如下:

1.对表中的每个测试属性分别计算该属性的信息增益率。

2.选取信息增益比率最大的属性作为根结点,并按其值划分数据集合,如果该属性只有一个值则停止划分。

3.对划分的每个子数据集递归执行(1)~(2)。

具体的实现过程如下介绍:

1.计算分类属性的信息量。在所取的训练集中,共有137个样本。为计算每个属性的信息增益率,首先计算出对给定样本分类所需的信息熵:

2.计算“是否重修”属性的信息量。“是否重修”属性中有两个属性值,需要对每个属性值所划分的子集计算信息量,将样本集中的数据根据该属性进行归纳可得表3:

表3 是否重修属性所划分的子集

3.计算“是否重修”属性的信息熵。

4.计算“是否重修”属性的信息增益量。

5.计算“是否重修”属性的信息增益率。

同理计算基础程度、实验学时、性别属性的信息量、信息熵、信息增益量和信息增益率。

表4 各测试属性所划分的子集及信息增益

从上述计算结果可知,“实验学时”属性具有最高的信息增益率,它被选择为测试属性。创建一个节点,用“实验学时”标记,并根据它的四个属性值,引出四个分枝,样本以此划分,如图1第一层所示。

然后再计算各个分枝节点的划分。以划分“实验学时”是“少”的所有可能性为例,接着进行决策树的建立。根据上面的介绍可知,对于“实验学时”=“少”,类Yes有25个样本,类No有7个样本,分别计算“是否重修”、“基础程度”、“性别”三个测试属性的信息增益率。

表5 各测试属性所划分的子集及信息增益

当实验学时=“少”时,信息增益率最大的属性是“性别”属性,它被选择为测试属性,在“实验学时”为“少”时的分枝下创建一个节点,用“性别”标记,引出两个分枝,其划分结果如图1第二层左侧所示。再在每个分枝下对“是否重修”和“基础程度”属性进行划分,例如,当实验学时=“少”并且性别=“女”时,对“是否重修”和“基础程度”属性进行划分,信息增益率最大的属性是“基础程度”属性,它被选择为测试属性,所以在“性别”为“女”时的分枝下创建一个节点,用“基础程度”标记,引出两个分枝,其划分结果如图1第三层左侧所示。再在每个分枝下对“是否重修”属性进行划分,如图1第四层所示。

由于所选取的属性较少,决策树划分至,已经没有其的属性可划分,则根据决策树的后剪枝算法对图1所示的决策树进行剪枝整理,得出图1左侧所示。

同理对“实验学时”为“中”和“很多”时的情况进行划分,得到如图1所示的决策树:

图1 决策树模型

五、采用决策树的最大优点是能直接提取分类规则,并以 IF…THEN 形式的分类规则表示

IF…THEN 规则易于理解,特别是当给定的决策树很大时很实用。提取 IF…THEN 规则的主要做法是:对从根到叶节点的每条路径创建一个规则,沿着给定路径上的每个属性-值对形成规则前件(IF 部分)的一个合取项。叶节点包含类预测,形成规则的后件(THEN 部分)。

IF实验学时= “少”AND性别=“女” AND 基础程度=“高”THEN及格=“yes”

IF实验学时= “少”AND性别=“女” AND 基础程度=“中”THEN及格=“yes”

IF实验学时= “少” AND性别=“女” AND 基础程度=“低”AND 是否重修=Y THEN 及格=“yes”

IF实验学时= “少”AND性别=“女” AND 基础程度=“低” AND 是否重修=N THEN 及格=“no”

IF实验学时= “少”AND性别=“男” AND 基础程度=“高”THEN及格=“yes”

……

六、结论

通过观察决策树模型,可以看出所选的四个属性可以影响成绩及格,但影响强度有所不同。对及格率影响最大的因素是“实验学时”,当实验学时在17~24学时之间时,及格率最高。说明实验学时安排适当,可以适当提高教学效果。而实验学时太多时并不一定代表教学效果会更好。

另外,“性别”属性可以看出大部分不及格的学生都是男生,从教学实践中可以得出,这部分男生大多学习态度较差,而女生的学习态度绝大多数都很认真,相对及格率就高,进一步说明,学习态度对学生及格率的影响也是很大的,一个班级如果学风较好,实验学时又能安排合理,及格率就会显著提升。

从挖掘结果来看,分类规则并非精确公式,但经过反复试验,可以从中找出影响教学的因素、影响能力及粗略的程度,符合以学生为主体、教师为主导的逻辑。

作者简介:赵书慧(1973-),女,辽宁锦州人,辽宁石化职业技术学院讲师。

上一篇:武汉长江隧道江北竖井深基坑降水方案研究 下一篇:电缆沟和电缆竖井内的电缆敷设初探