大数据技术在高校学生助学金评比中的应用

时间:2022-06-30 06:17:17

大数据技术在高校学生助学金评比中的应用

摘 要:高校助学金评比主要依据为学生家庭经济情况,如何通过学生档案数据、校内外兼职数据和校内一卡通使用相关数据真实反映学生经济状况是关键。文章针对这一问题提出使用PostgreSQL作为非关系型数据库,使用可编程统计分析软件R对存储流进行分析和建模后数据挖掘,通过对上述数据进行采集、数据提取和存储、数据计算和分析等过程,产生学生消费数据分析汇总表,作为学生助学金评比的重要依据。

关键词:大数据;助学金;PostgreSQL;统计分析软件R

文章编号:1672-5913(2017)05-0154-04

中图分类号:G642

1 大数据技术和高校学生行为活动中大数据的产生

1.1 大数据的产生

随着计算机相关信息技术和互联网技术的推广与发展,互联网根据应用协议在信息传输中大规模运用“请求”+“响应”模式。所有接入互联网的设备、软件等客户端通过发送数据主动提出服务请求,服务器端会根据指令发送相应的请求数据,用户在客户端上的每一次访问请求其实就是一次鼠标点击或键盘输入数据的操作,在服务器的操作日志中,会忠实地记录下每个人“访问的时间、请求的命令、访问的网址”[1]等数据。用户在网络上或各种应用系统操作中产生的各种数据就像生活中不经意间留下的各种各样痕迹一样,这些痕迹串连到一起,交织成了网民们在互联网上的各种行为轨迹。这些貌似杂乱无章的各种庞大数据,经过量的积累完成了质的飞跃,数据中蕴含着巨大的价值。

类似的数据之间“具有非关系型、无序”,被称为非结构化大数据,包含文字、图片、视频、音频等[2],过去几十年中已经积累了好多,未来还会有更多的数据呈几何级数增长,而云计算的产生和云技术的不断成熟,为大数据的存在提供了巨大的存储空间和合理的访问技术,为数据分类、查询和透视分析带来了可能,从而使得大数据技术成为信息技术发展到一定阶段后再次产生质的飞跃的必然产物。

1.2 高校学生活动中的大数据

高等学校是一个人员非常密集的生活教育场所,校内学生是信息技术的天然受众,学生的出行、购物、饮食起居、生活娱乐、接受教育等过程中,各种数据终端的使用和各种系统的应用,会在无形中产生巨大的数据量。如果对这些数据加以运用,可以更好地改善学生生活服务质量,提升服务水平。

(1)高校原始基本数据的产生。主要是指学生和学校原始基本数据的录入,如每年的“高等学校数据平台”和“高等学校基层统计报表”中学校相关数据的全方位输入、学校固定资产管理系统中资产增加或淘汰后的信息更新、高校实验室信息管理系统中实验实训设备数据的更新以及每年新生入学后所有新生基本数据的导入。

(2)应用系统中数据的产生。目前学校使用的各种信息化系统主要有进出校门的门禁系统、平时服务的校园一卡通系统、教学管理方面的教务管理系统和学工管理系统、学生学费管理方面的财务管理系统、图书借阅方面的图书管理系统、行政办公方面的OA办公系统、学生联系方面的校迅通、固定资产管理方面的资产设备管理系统,另外还有校园BBS和百度贴吧中的各种文本内容和视频监控系统中的各种数据。以上一系列信息设备的使用,不仅仅方便了高校管理,而且在系统使用过程中产生出大量的中间数据,这些来源广泛的数据,其类型呈现多样化的形式,有结构化数据、半结构化数据和视频、音频、图形等非结构化的数据。这些中间数据和互联网上相关的学生活动数据整合起来,和基础数据一起进行过滤、清洗与整合,共同组成能反映学生各方面生活学习细节的原始大数据。

2 学生助学金评比中涉及的相关数据

通过与学生资助管理部门工作人员、高校中各系分管学生工作人员和辅导员沟通交流,他们一致认为学生助学金和学生奖学金是有很大区别的,它存在的目的为资助家庭经济困难学生完成学业,因此评比标准中最重要的一条就是学生家庭经济情况。大数据技术使用的最终目的是如何真实反映学生家庭经济情况,数据的采集和整理可从以下几方面考虑。

(1)学生学籍档案中体现出的各种数据,如家庭年收入情况、父母居住地为农村或城市、是否为单亲或离异家庭、父母工作单位、主要社会关系、学生健康状况等各种数据,这些信息可以作为评定学生助学金的一个重要参考,但由于助学金评定范围广、参与学生多,对一些家庭经济情况不太明显的学生,参考价值就不是太大。

(2)学生校内外兼职数据。这个数据主要涉及两方面,一方面是兼职迟早问题,也就是大一就开始兼职,还是大二或大三才开始兼职,兼职越早从理论上来说,家庭经济情况可能更差;另一方面是兼职时间问题,每周多少小时,时间越长、权重越高,有的学生可能有几份兼职;最后是兼职地点问题,校外兼职还是校内兼职。

(3)学生在校内餐厅、小卖部等处刷卡消费数据。这个是学生助学金发放依据的主要数据,最能说明问题,由以下几点组成:①刷卡频次问题,因为学校餐厅的就餐费用相对来说比较低,所以频次太低的同学虽然每月刷卡金额总数少,但不能说明家庭经济情况差,频次太高的同学说明家庭经济情况相对较好,所以经过认真核对之后,把每月刷卡频次大于平均频次1/3的同学数据提取,其他淘汰;②刷卡金额问题,家庭经济情况不好的同学刷卡频次一般,就餐时可能以主食为主,中高价菜肴和小卖部较贵物品购买较少,每月平均单次刷卡金额一定不会太高;③刷卡时间问题,因涉及学生服务和利益因素,学生食堂开放时段很长,对单个学生来说如果长期刷卡时间和正常上课时间重复,说明该生学习态度和学习积极性有问题。

3 大数据技术的使用和解决方案

3.1 技术分析和工具的使用

由上文的大数据技术应用和学生助学金评定中大数据的产生可以看出,技术上问题的解决实际就是对产生的大数据进行恰当的采集、合理的分存储并最终正确计算分析的过程[3]。这个过程中涉及两个技术问题:一个是数据的分类存储过程中需要将原来的数据导入能够进行大数据技术应用的相关数据库中,如Hadoop++、HBase、HadoopDB、Hive等;另一个是导入过程和计算分析过程需要用到的工具,如OCTAVE、SCILAB、R软件等[4]。经过对数据库规模、计算速度、适用性、使用熟练程度等综合分析,我们决定在数据库方面使用PostgreSQL,在对存储流进行分析和建模后的数据挖掘过程中使用可编程统计分析软件R,理由有以下几点:①这两款软件都是开源的免费软件,从技术方面看成本特别低,有利于高校的开发和使用;②PostgreSQL 是一个对象―关系数据库服务器,涵盖极其丰富的数据类型支持和十几种平台支持,具备多版本并行控制系统(MVCC)、子查询、数据完整性检查等多种特性,虽然在数据库集群方面有所欠缺,但是正好适用于本系统的数据存取;③R软件能够进行制图、计算和数据处理,具备简洁高效的编程语言、完整的统计分析、强大的数组运算工具等功能。

上一篇:会计集中核算在水利财务管理中的实务研究 下一篇:稚化思维:小学数学教学调控的新视角