基于数据挖掘分析技术快速检索高校档案的有用信息

时间:2022-10-13 03:15:46

基于数据挖掘分析技术快速检索高校档案的有用信息

摘要:高校档案涉及方方面面工作的数据积累。时间漫长,数据积累越多越纷繁,面对庞大而广泛的数据信息,简单的汇总归类已经不能实现快速检索利用,也无法解决数据分析任务。随着计算机技术、互联网技术的高速发展,一种高端的、智能化的分析和处理大量数据信息的技术应运而生,这就是目前最热门的技术“数据挖掘”,本文将基于解析数据挖掘技术,并应用于快速检索高校档案的有用信息。

关键词:数据挖掘 关联分析 聚类分析

尽管目前的IT技术和网络应用发展迅猛,从网络获取包罗万象的资料已经几乎没有困难。然而目前从事档案工作的存放或利用纸质档案获取有用信息还有许多困惑。在不同的工作中积累起大量的数据信息,不同类别和科目,不同的承载体。面对这些有针对性庞大的数据或数据集,如何快速分类存放,如何从中快速检索有用的信息成为档案工作的当务之急。目前借助数据挖掘技术作为采集分析档案的工具是较为便捷的。所谓数据挖掘可以从浩瀚的数据中快速提取潜在有用的信息的过程,尽管这些数据潜隐在巨量纷繁、相互交叠、模糊随机且事先未知的档案事件中。利用这样一个有效的分析工具可以实现快速检索出高校档案中有用信息和相关知识。

本文分别简述各种数据挖掘方法,并举例学校档案管理加以说明,紧扣高校档案管理,叙述在档案管理中应用数据挖掘分析技术的一般步骤,再以三个实际案例来说明利用数据挖掘这个有效工具快速检索高校档案有用信息,最后明确结论数据挖掘作为数字化管理的先进便利高效的工具,在高校档案管理方面大有发展前景。

1、数据挖掘方法

数据挖掘(Data Mining,DM),从大量数据中抽取出有用的信息和知识,形象喻为在庞大数据山中挖掘出有用信息。挖掘数据加以分析的技术可以实现对档案信息在需求量、系统性、时效性和快速检索方面的要求。常用的数据挖掘方法有下列几种:

1.1 关联分析(Association analysis)

关联是反映两个或者两个以上事件之间存在某种依赖或联系规律性。设想在数据集中如果一

项事件或数据与多项数据之间的相关联系,那么其中一项的属性值就能够依据其相关项的关联属性值推测出来。关联可分为时序关联、因果关联和简单关联,利用关联分析的目的就是找出数据集中所有频繁相关属性项目集,这是数据挖掘中最成熟的技术之一。例如教师教学档案与科研档案的关联,可以发现与教师的成长和发展有很大关系;还可以发现学生的学籍档案与专业发展的关联,得出学生就业率的变化趋势。

1.2 聚类分析(Cluster analysis)

聚类是把数据按照标定距离d或相似度r划分成若干组别,“物以类聚”即同一组中的数据均在标定距离和划定的相似度以内,不同组中的数据之间则保持较大标定距离和相似各异。聚类之前不知道组别数和各组的相似特性,聚类分析可以根据标定距离d 或相似度r的取值不同可以将数据分成不同的组别数和共有的特性,从而可以发现数据的分布模式和频度。例如可通过标定分数线定量地将学生分为成绩优秀、良好和一般的几组;也可以通过档案的多种属性列成矩阵分析,定性地将高校档案聚类成不同类别的档案。

1.3 分类分析(Classification analysis)

分类就是按照数据集合的属性和典型特征表述,并利用这种表述构造区分模型,一般用规则或决策树模式表示分类,分类在于事先明确类别,适宜于决策划分大类,而聚类在于标定值的确定后才能明确组别数,可在事后先确定数据的分布模式,适宜于快速找出数据间的差异。例如学校可根据职称将教师分成不同的类别,就可以职称划分并结合工作积累来区分新老教师,以采取不同的待遇分配方案;也可以根据工作属性或评定因子来确定档案类别的划分。

1.4 预测分析(Predictive analysis)

研究历史和当前的数据呈现统计的变化规律,利用动态规律推测未来数据的种类及特征即为预测。通过预测可以对分类进行调整,对聚类进行相似度调适,同时提高快速检索的准确指向性。例如利用学校教职工各支队伍建设培养档案进行预测分析,从而对学校人力资源的配置优化有发展的判断;利用历届学生成绩考核档案的预测分析,可对当前的教学工作做一定的调整。

1.5 偏差分析(Variance analysis)

在数据集中的数据之间存在很多差异,而偏差是对差异和极端情况的数学表征,若发现数据集中数据有偏离异常的现象,偏差分析就可揭示内在原因并作出相应调控。例如在某次物理测试中有30%的同学不及格,为了提高教学质量,教师就要找出这30%不及格同学的动因,作出正确的分析和判断,提高下次测试的及格率。还可以根据历次档案的比对分析,找出数据信息出现偏差的工作原因或档案信息因存放粗忽的失真。

2、数据挖掘应用到高校档案管理中的技术步骤

数据挖掘分析技术要求对档案信息实现数字化管理。从完善高校档案资料的建档、备案、修改、备份、保存等各个环节开始,对档案信息进行录入和数据转换,以实现数字化管理。为提高档案检索和利用的效率,充分利用数据挖掘使查询检索变得更加便捷。数据挖掘分析技术促进了档案管理的科学规范化管理,提高服务效率,还能确保了数据的准确性,提高工作效率,缩短工作时间。

2.1 确立目标,划定需求

利用数据挖掘要避免盲目性,首先就必须清晰地明确要快速检索档案的业务问题,确立利用数据挖掘的目标和划定检索的需求。明确了档案数据挖掘的目标,才能确定检索的需求,制定数据挖掘的计划。

2.2 有效聚集,构建模型

(1)选择数据。在现存档案的庞大数据集和数据库中搜索相关的内、外部数据目标信息,提取适宜数据挖掘的数据信息;

(2)预测数据。分析研究和甄别档案数据信息,有必要进行数据的加工、集成等,剔除重复或异常的数据信息,选择规范的数据并定义数据类型;

(3)数据转换。这一步决定数据挖掘的关键,数据转换就是将档案信息数据转换成可利用的数据,再将数据集成为一个针对挖掘算法的模型。

2.3 筛选算法,实施操作

按照档案的功能、类型和事件转换的数据特性,筛选和优化适宜的算法,对所有经过转换的数据实施挖掘操作。若是良好的算法,其结果没必要完全符合已有数据,但所建模型对大量未知的数据集中的数据信息应有较好的预测。认真考察不同的模型以判断哪种模型对所需解决的问题最有效,这一步是数据挖掘的核心环节。如决策树模型、相似聚类模型都属分类模型,即将一个事件或对象归类;回归分析则是通过具有已知值的变量来预测其它变量的差异值。按时间序列排序即是用变量的过去值来预测未来值。

2.4 评估模型,分析结果

为验证模型的有效性、可信性和可用性,需要对模型进行评估。我们可以预测模型的准确性、运行速度、实现代价和效率精度等属性。分析模型的建立和检验是一个反复的过程,通过这个阶段的分析工作,能使档案检索以最优或较优的模型运行。

2.5 部署应用,快速检索

分析和评估数据挖掘的结果,最终转换成检索用户能够理解的档案事件信息和知识。须将挖掘得到的信息归档返馈给检索需求系统,对挖掘抽取的有用信息采取必要的修正措施,迅速消除与以前信息和知识可能存在的冲突,并将分析所得到结果集成到档案检索结构中去。在应用模型的过程中,还需要不断地对模型进行评估和检验,并采取适当的加工和调整,以适应不断变化的应用环境而实现快速检索。

3、数据挖掘在高校档案管理中的应用

3.1 聚类分析在高校教师教学质量评价中的应用

对高校教师的教学质量评价,办法很多,争议也很多。我们根据聚类分析原理,使用层次聚类分析法是比较科学的。若以分数来评价,教师之间的分数差异很小,水平差异不明显。因此不以分数排名而以分类为好,宜分为优秀、良好、合格和较差四个等级,等级不宜分得太多。

在进行等级分类前,设将教学质量评价指标体系中的十个指标评分,按ABCD四个等级分别记为4、3、2、1分。若有20位教师从事基础课程《大学外语》教学工作,让学生测评,以班为单位,每个学生对任课教师的各项指标打分评价。将20位教师的评价实测数据输入计算机测评系统进行数据处理,按数据挖掘处理要求计算平均得分,最高得分和最低得分,最后将20位教师的评分情况返馈输入计算机分析系统得到20×10矩阵表,再经快速聚类检索:

(1)如果聚成两类,则结果为:

I. 1,2, 4,5,6,7,8,9,10,11

II. 13,14, 3,15,17,12,16,18,19,20

(2)如果聚成三类,则结果为:

I. 1,2, 4,5,6,7,8,9,

II. 10,11, 13,

III. 14, 3,15,17,12,16,18,19,20

(3)如果聚成四类,则结果为:

I. 1,2, 4,5,6,7,8,9,

II. 10,11, 13,

III. 14, 3,15,17

IV. 12,16,18,19,20

这样分类按十项指标评分,再按20×10矩阵数据分堆成类,这比只按照分数累聚进行划分准确和人性化,使水平相近的教师处于同一层次。避免因差0.1分的僵硬因素,使水平相差不大的教师落入不同等级而造成人为矛盾,评价也不客观。其中因为使用了计算机分析处理系统,数据挖掘分析可以按需求迅速得到结果。

3.2 关联分析在高校档案个性化利用中的取向应用

利用数据挖掘算法的关联分析,广泛研究和运用的是决策树算法。以本校档案馆调研用户利用档案情况分析为例,可说明决策树算法在关联分析中的简单明了的作用。一般档案馆要求各用户查阅档案前要进行个人信息登记,用户可以方便的通过各种方式进行查询所需资料和信息。档案馆的工作人员通过信息关联到用户查询,从高校教师用户的查阅兴趣的情况进行关联,可以得到模型树1,其中清楚,年龄在20~30岁之间的年轻职工喜欢调阅成果影响档案,年龄在30~40岁之间的教师大部分是关心学校发展和激励机制档案。而年龄在40~50岁之间的则主要是调阅学校发展档案,很少查阅成果影响档案。再从用户身份关联档案类别得到决策树模型2,分析明确,学校机关人员调研档案的内容和偏好与教师科研人员有明显不同,学校机关人员主要偏重于激励机制的档案,查阅成果影响则主要是教师科研人员。通过关联分析可知,档案人员能够按照教职工的不同要求或习惯,能够有指向性地快速检索,同时为用户组织和提供更多、更好的高质量信息(图1)。

3.3 分类分析在高校新校区绿化建设中的应用[25,26]

分类分析以本校新校区绿化建设布局为例,设定校园绿化建设的定性评价因子,对校园分布的绿化景观建设图片档案进行筛评,最终可快速检索得到绿化景观建设的取向因子评价的分类。

具体作法是选取校园建设中某一绿化景区为研究区域,通过对研究区域的绿化景观设计展评,以500张设计效果为图片档案。其中精选20张具有代表性的设计图,并设定20对形容修饰辞,交由学校师生进行问卷调研。采用正负对称评定尺度,其排序为-2,-1,0,1,2,经整理得出真实的矩阵评价结果。其中列向量1~20分别代表20张设计图,代表校园建设中20个绿化景观。

然后行向量为对图片中景观描述的20对形容辞,1~20依次代表:空间、层次、体积、形体、韵律、幽静、熟悉、色彩、关联、变化、动感、连续、整齐、吸引力、光感、氛围、与主体建筑的协调、植被覆盖、生命力象征、美感。再使用Mathlab多元统计软件对上述的调查数据进行划分类别分析。

从矩阵分类结果看,16、20;12、13;5、9;10、17;2、4两两分别构成同类。

从分析层次图中明确,以d=0.35为界,可以修饰形容辞,把这些校园绿化景观分成4类;

若以d=0.28为界,可以修饰形容辞,把校园绿化景观分成5类:

其中16(氛围)、20(美感)、14(吸引力)、6(幽静)、12(连续)、13(整齐)、19(生命力)、7(熟悉),这些因子定义为氛围因子,它们代表了绿化景观的氛围;

3(层次)、5(韵律)、9(关联)、10(变化)、17(与主体建筑的协调度)、8(色彩丰富)、15(动感)、11(光感),故将这些因子定义为形式因子,它们代表了校园绿化景观的形式;

2(体积)、4(形体),故将这些因子定义为体量因子,它们代表了绿化景观的占有体量;

18(植被覆盖度),故将其定义为环境因子,它代表了校园绿化景观的植被覆盖状况;

1(空间),故将其定义为整体因子,它代表了校园绿化景观的空间感和整体性。通过分类划分可将校园绿化景观评价简化为氛围因子、形式因子、体量因子、环境因子和整体因子。此例通过设计图片档案和繁复的形容形容辞,利用分类分析可以快速检索到随机又能达到满意的权重较大的五因子评价体系。从而可以快速检索到校园绿化景观建设的分类信息。

4、结语

目前数据挖掘(DM)分析仍然是一个全新的研究领域,新的数据挖掘方法和模型在不断更新,随着计算机、网络和数据库等技术的发展,作为高新技术在不断提升和改进,其分析应用领域日趋广泛和深入。虽然这项技术的应用还存在许多待解决的问题,亟待提高的是超大规模数据信息的检索效率。本文通过本校实例说明对档案信息挖掘利用可以快速检索不同档案中的有用信息,使档案部门主动提供有效服务。

参考文献

[1]胡春红.数据挖掘技术在高校信息化管理中的应用[J].长江大学学报(自然科学版),2010,7(3):592-594.

[2]李雄飞,李军.Data Mining and Knowledge Discovery.数据挖掘与知识发现[M].北京高等教育出版社,2003.

[3]Jiawei Han,Micheline Kamber著,范明,孟小锋等译.数据挖掘概念与技术[M].机械工业出版社,2001.

[4]王玮,蔡莲红.关联规则的高效挖掘算法研究[J].小型微型计算机系统,2002,23(6):708-710.

[5]殷云霞,杨松涛.关联规则在图书管理中的应用[J].河南工程学院学报(自然科学版),2011, 23(1):67-71.

[6]许海洋,汪国安,王万森.模糊聚类分析在数据挖掘中的应用研究[J].计算机工程与应用,2005,(17):177-179.

[7]刘放,叶菲.改进的聚类分析算法在高校人力资源管理中的应用[J].皖西学院学报,2011,2011,27(2):39-41.

[8]肖明,李国俊,杨皓东.国内信息资源管理研究热点分析[J].情报科学,2011,29(4):535-540.

[9]崔玉华,李俊杰,刘国华,王东方.基于分类挖掘的企业定单分析系统[J].计算机系统应用,2007,(10):11-14.

[10]程兰芳,陆敏.我国高等教育投入的时序建模与预测分析[J].中国市场,2011,18(5):152-154.

[11]李阳生,未来档案开发利用趋势的预测分析[J].档案学通讯,2002,(2):34-35.

[12]胡小勇,教育信息化政策执行偏差分析与对策研究[J].中国电化教育,2011,(5):35-39.

[13]马秀麟,衷克定,张倩.学生评教偏差分析与控制模型研究[J].现代教育技术,2011,21(2):40-44.

[14]杨光.浅析数据挖掘在CRM中的应用[J].情报科学,2005,(02):119-121.

[15]张宜生,刘凡,梁书云.人力资源数据挖掘技术及其应用[J].计算机工程及应用,2002(6):187-189.

[16]罗艳,黄明初,陆旭安,潘雄伟.一个数字档案馆中的数据挖掘系统工作流程[J].广西科学院学报,2010,26(4):520~522.

上一篇:浅谈高性能混凝土施工的方法 下一篇:电力企业网络病毒防御方案分析