基于SAS的校园一卡通数据分析

时间:2022-08-10 11:34:52

基于SAS的校园一卡通数据分析

摘 要:基于SAS软件,文章针对校园一卡通消费数据进行了数据挖掘。文章首先对于此问题的总体目标及设计方案进行了统筹规划;对于原始数据进行了初步处理;采用k均值算法对消费数据进行聚类分析,对学生消费情况进行分类,从而掌握学生消费情况,了解学生的消费趋势。

关键词:数据挖掘;SAS;k均值算法;校园一卡通;消费分析

数据挖掘使用一定的算法从实际应用数据中挖掘出未知、有价值的模式或规律等知识,整个过程由数据准备、数据挖掘、模式评估、结果分析和运用知识等步骤组成[1]。随着信息化技术发展,校园一卡通系统中使用过程中产生了大量数据,但系统缺少相应的分析工具,无法从海量数据中获取有用的知识。因此,使用数据挖掘技术对数据进行分析,可以了解学生消费情况和消费行为,了解学生之间消费的差异性,为学校制定各种奖励政策提供依据。

1 目标与设计方案

1.1 设计目标

文章以山东某高校2014年4月校园一卡通消费数据为基础,利用SAS软件,采用聚类分析,对学生消费情况进行分析。

文章目标为通过对消费数据的聚类分析,学习学生的月消费金额、消费次数,掌握学生消费规律,了解学生之间消费的共性和差异性,总结学生的高、中、低消费情况,为学校制定各类政策提供依据。

1.2 k均值算法

根据给定的n个对象或者元组的数据集,构建k个划分聚类的方法。每个划分即为一个聚簇。该方法将数据划分为k个组,每个组至少包括一个对象,每个对象必须属于且只属于一个组[2]。

k均值算法[2]如下:

(1)将所有对象随机分配到 k个非空的簇中。

(2)计算每个簇的平均值,并用该平均值代表相应的值。

(3)根据每个对象与各个簇中心的距离,分配给最近的簇。

(4)转到2,重新计算每个簇的平均值。

这个过程不断重复直到满足某个准则函数或者终止条件。终止条件可以是以下任何一个:没有(或者最小数目)数据点被重新分配给不同的聚类;没有(或者最小数目)聚类中心再发生变化;误差平方和(SSE)局部最小。

1.3 方案设计

文章设计方案分为数据处理、数据挖掘、结果分析三部分。其中数据处理包括数据获取、数据探索、数据填缺。

2 数据处理

数据获取:

原始数据来自于校园一卡通2014年4月份数据。定义10:30之前为早餐时间,10:30-14:30为午餐时间,14:30以后为晚餐时间,在以上时间段内的消费行为视为1次消费,文章共获取35196条数据。数据属性包括:姓名、性别、学生所在院系、月消费总额、月消费次数、月消费平均额度、早餐消费总额、早餐消费次数、早餐平均消费额、午餐消费总额、午餐消费次数、午餐平均消费额、晚餐消费总额、晚餐消费次数、晚餐平均消费额,如表1所示。

3 数据探索

文章中用于聚类分析的消费属性包括:月消费总额、月消费次数、月消费平均额度、早餐消费总额、早餐消费次数、早餐平均消费额、午餐消费总额、午餐消费次数、午餐平均消费额、晚餐消费总额、晚餐消费次数、晚餐平均消费额,以上属性均属于连续变量。数据探索包括变量压缩、数据标准化。变量压缩是通过主成分分析法解决变量的共线性问题,数据标准化将花费等属性进行标准化,从而保证聚类过程的准确性。

3.1 变量压缩

变量压缩是通过主成分分析法解决变量的共线性问题,变量压缩结果如图1所示。

经过分析后,系统最终将变量分为5类,在每组中,我们使用1-R?鄢?鄢2Ration属性最小的值所对应的变量,所以最终决定使用午餐消费次数、午餐平均消费额、晚餐消费总额、早餐平均消费额、午餐平均消费额变量作为聚类属性。

3.2 数据标准化

数据标准化是解决变量之间不同单位、不同变异程度的问题,在文章中午餐消费次数单位为次数,午餐平均消费额、晚餐消费总额、早餐平均消费额、午餐平均消费额单位为元,所以在SAS软件中采用极差方法对午餐消费次数、午餐平均消费额、晚餐消费总额、早餐平均消费额、午餐平均消费额进行标准化。

4 聚类

采用SAS中两步聚类过程,首先采用快速聚类将数据聚类成50类,然后对50类进行聚类分析。根据业务分析,最终确定取聚类个数为5类。

5 结果分析

聚类结果后共将分为5类,图2为聚类后的各项数据指标,包括各个聚类的人数、均值花费、最大花费、最小花费等。从聚类中分析,人员主要集中在两类中,可以看到以下结论:

第一类聚类包括18650人,早餐、午餐、晚餐平均消费16、22、22次,平均消费5-6元。此聚类中人数占总人数的53%,消费情况适中,此类人员多在校内就餐,因此食堂在日常运营中保持目前的操作情况即可,另外可以推出5-6元套餐用来提高销售额;

第二类聚类包括512人,早餐、午餐、晚餐平均消费19、15、11次,平均消费7-8元。由于此类人员午餐晚餐消费次数较低,但平均消费额度较高,因此可以判断此类人员多数在校外就餐,因此食堂在日常运营中可以推出7-8元的套餐,提高食物质量,以吸引这部分学生;

第三类聚类包括16029人,早餐、午餐、晚餐平均消费7、10、7次,平均消费6-7元。此聚类中人员占45.5%,由于此类人员午餐晚餐消费次数较低,但平均消费额度较高,因此可以判断此类人员多数在校外就餐,因此食堂在日常运营中可以推出6-7元的套餐,提高食物质量,以吸引这部分学生;

第二、三类人员多在校外就餐,但第三类人数占有率较高,因此应针对这部分学生制定相关策略,提高校园内就餐率。

通过聚类发现学生的平均消费额度在5-7元之间,消费低于此额度的学生可视为低消费人员,学校可以针对此情况制定补助政策。

6 结束语

通过对学生的月消费信息进行聚类分析,我们可以了解学生的消费习惯、消费行为以及学生之间的消费差异,商户可以针对学生的消费额度制定相应的消费策略,为学校制定各种政策提供相应依据。

参考文献

[1]张佳.数据挖掘技术在校园一卡通系统中的应用研究[D].苏州大学,2013.

[2]黄雯.数据挖掘算法及其应用研究[D].南京邮电大学,2013.

[3]欧阳烽.基于SAS的Web使用日志用户聚类分析[J].电脑知识与技术,2013.

[4]王哲.数据挖掘技术在高校图书馆个性化服务中的应用研究[D].重庆大学,2012.

[5]乌文波.应用Apriori关联规则算法的数据挖掘技术挖掘电子商务潜在客户[D].浙江工业大学,2012.

作者简介:仲晓芳(1984-),女,山东省济南市,山东女子学院,助教,硕士研究生,数据挖掘研究与应用。

张义(1983-),女,山东省淄博市,山东理工大学,在校研究生,数据管理与数据安全。

庞胜楠(1987-),女,山东省济南市,山东女子学院,助教,硕士研究生,电视媒体与社交媒体互动研究。

韩士元(1985-),男,山东省济南市,济南大学,讲师,博士研究生,智能计算理论与应用。

王栋(1983-),男,山东省济南市,济南大学,讲师,博士研究生,智能计算理论与应用。

上一篇:一种基于FPGA的时序控制模块设计 下一篇:试论智能变电站功能架构及设计原则