分析数据挖掘课程的教学思路和方法

时间:2022-08-24 06:21:07

分析数据挖掘课程的教学思路和方法

阐明了主成分分析在数据降维的同时能够保持原始数据的绝大部分能量信息没有损失,是一种最优的数据描述和表示方法。通过对主成份分析理论基础的讲述,让学生不仅掌握了主成分分析的内容和作用,搞清楚了相关的计算过程,这也对学生更好地实现主成分分析的程序设计和应用情况有了清楚的认识。对于教材中一些简单的内容,比如数据分箱、K近邻分类等,我们要求学生自己理解,然后随机抽取学生为其他同学讲授,这样可以提高学生的主动性,加深学生的理解。对于一些简单的问题,如K-means聚类的类别中心为各类样本的均值,我们可以让学生自己证明,提高他们的理解力。在讲授其他一些内容时,比如说聚类分析,我们可以将聚类分析的各个过程用图的形式表示出来,用空间中的点表示聚类样本,这样就大大增强了学生的理解。

我们在教学的过程中,也比较比较注重案例教学。例如,在讲授神经网络时,我们可以用上海证券交易所中股市中股票随时间变化的数据为例,让学生讨论如何应用神经网络对股票价格进行预测。人工神经网络是一种模仿自然界动物神经网络行为特征,进行分布式并行信息处理的算法数学模型,能够较好地处理具有一定复杂性的数据,在预测、拟合等方面取得了很好的应用效果。让学生采用神经网络进行实际数据分析和处理,可以增强他们学习的积极性,更主动地投入到学习中去。我们也要求他们使用回归分析的方法对股票价格进行预测,然后和神经网络预测的结果进行比较。通过这个过程,可以使学生们不但了解了神经网络与回归分析算法的异同,加深他们对神经网络的认识。

加强实验教学,增强学生动手能力

信息与计算科学专业是以信息领域为背景,数学与信息、管理相结合的交叉学科专业。该专业培养的学生具有良好的数学基础,能熟练地使用计算机,初步具备在信息与计算科学领域的某个方向上从事科学研究,解决实际问题,设计开发有关软件的能力。毕业生适合到企事业单位、高科技部门、高等院校、行政管理和经济管理部门,从事科研、教学和计算机应用软件的开发和管理工作,也可以继续攻读信息与计算科学及相关学科的硕士学位。从信息与计算科学专业的培养目标可以看出信息与计算科学专业的本科生不但需要掌握理论知识,还需要具有将所学知识用来解决实际问题的能力。数据挖掘作为一门应用性较强的课程,需要学生能够运用数据挖掘知识分析和解决实际问题,要求学生能够熟练掌握数据挖掘的程序设计,以便在将来的就业中具有更好的适应性,因此实验环节的教学有着其必要性。基于这些原因,我们在这门课中引入实验环节,并将其纳入考核要求。我们实验所用的基本软件是SAS统计分析软件。SAS软件是一个集统计分析、报表图形、信息系统开发和大型数据库管理等多种强大功能为一体的大型软件系统,是目前国际上主流的统计分析软件之一。我们信息专业在大三时开设这门课程,之前已经学过C语言和JAVA等程序设计方法,有了一定的编程基础,因此学习使用SAS软件并不是特别困难。而且,在SAS软件中,系统自带了许多数据挖掘函数,这方便了同学们的使用。我们在平时的学习中,将一些SAS软件的基本程序设计基础知识先发给同学们,让他们利用课后时间自己在个人电脑上进行熟悉,从而使得他们熟悉基本SAS程序设计方法,这样可以在实验课上直接运用SAS软件进行数据挖掘程序的编写。在实验课上,我们主要将要实验的内容和相关数据资料提供给同学,要求同学自己用数据挖掘的知识和SAS软件进行编程实现,并写出实验分析和小结。另外,在实验中,我们也要求学生尽可能将一些实验结果用图表的形式如崖底碎石图等表示出来,以利于进一步分析。对于少部分学有余力的同学,我们也引导他们自编相关的程序。比如说在SAS软件中进行K-均值聚类用fastclus这个函数就可以了,但是学生对程序具体实现过程可能不是很清楚。如果学生能够将程序K-均值聚类详细程序步骤自己编写出来,就可以表明学生对所K-均值聚类算法也有了较清楚的认识。另外,对于属于数学建模协会的同学,我们也引导他们将数据挖掘的知识和数学建模中某些问题相结合起来,对于以往出现的一些可以利用数据挖掘知识分析的问题让他们利用相关的数据挖掘知识对其进行分析和求解,通过这样的方式,可以这样拓展这些同学的思路,也为数学建模培养了人才。

灵活的课后作业形式,提高学生的综合能力

对于我们讲授的课题,每学完一个算法,我们要求学生在网络上搜索该方法的运用领域和技术要点,加深对该算法的理解。然后,我们让每一个同学自己挑选一个该算法可以解决的问题,在网上搜集相关数据,写出实现程序,并写出相应的小论文。这也可以锻炼学生的搜索、整理和分析处理数据的能力。对于课程中的某些案例,我们要求学生进行重新总结思考。比如在运用主成分分析进行入侵检测的这个案例,案例中的主要指标是运用两类样本协方差特征根的差异进行分析和比较。我们让学生思考该处理方法的优缺点,同时让学生思考有没有其他的思路,比如按照模式分类的思想来实现。即首先主成份分析进行降维,然后运用K-近邻分类方法进行分类。另外,也让学生思考有没有其他的思路,比如特征降维是否可以采用其他方法,如线性鉴别分析等;而分类方法是否可以采用BP神经网络等。进一步,我们可以让学生比较主成份分析和线性鉴别分析有什么异同之处;K-近邻分类和BP神经网络运用于分类时执行过程有什么异同之处。让学生对这些算法的理解更加透彻。另外,在课本的作业之外,我们也会自编一些题目,让学生自己进行思考分析。比如,对于图1双圈图,我们可以设置这样的问题:将图形的描点数据给大家,要求他们绘出图形,说明形状。然后要求他们运用K-means聚类聚为两类,并且根据聚类的结果画出图形。然后将所得的图形跟原始图形进行比较,说明差异之处。通过这样的问题,既可以使得学生对数据整理、画图等有一定的掌握,还使得他们熟悉了K-means聚类算法的编程过程。另外,使得他们不仅了解了K-means聚类算法的优点,也使得他们理解K-means聚类算法作为一种线性方法的局限之处。四、小结综上所述,“数据挖掘”课的教学既要注重基本理论与方法的讲解,使得学生能够掌握数据挖掘的基本理论和知识;又要培养学生的思考和分析能力,提高他们运用数据挖掘的相关程序解决实际问题的能力。从而使得所学的知识能够真正运用于实践中,提高学生的综合能力。本文尝试对本科数据挖掘教学做一些总结,如何更好地提高《数据挖掘》这门课的教学质量,期待更多的同行共同探讨。

作者:徐春明单位:盐城师范学院数学科学学院

上一篇:企业会计成本管制模式分析 下一篇:探索本科教学问题的文化解构