基于Apriori关联规则的农民工信息行为模式分析

时间:2022-08-30 01:08:02

基于Apriori关联规则的农民工信息行为模式分析

摘要:农民工在城市中,边缘的生活水平很大部分体现在信息的边缘化和孤岛化,开展农民工信息行为与信息服务策略研究非常迫切。本文以抽样调查为基础,通过对广东农民工群体的实地调研,分析了农民工信息行为的现状。运用SPSS 17.0和SPSS Clementine 11.1软件,利用Apriori关联规则数据挖掘技术,对农民工信息行为调研结果进行了实证分析,发现农民工信息行为的偏好及其规律性,挖掘出农民工信息行为的模式。为发展完善农民工信息服务提出对策建议。

关键词:农民工;信息行为;Apriori;关联规则

中图分类号:TP311.13 文献标识码:A 文章编号:1007-9599 (2012) 20-0000-02

国家信息化专家咨询委员会常务副主任周宏仁在“首届中国农民工信息化论坛”上表述“政府的管理和服务必须关注农民工,关心农民工的公共服务需求,信息化也必须为农民工服务。”[1]随着社会信息化发展和信息社会的来临,信息己经成为一种重要的资源。运用数据挖掘方法研究农民工信息行为是定量与定性相结合的综合研究方法,从信息需求、信息查寻、信息获取动机、信息分析与比较、信息吸收与信息利用、信息评价、信息交流与沟通等七部分进行分析,以农民工信息行为历史数据来发现农民工信息行为的潜在模式,并为发展完善农民工信息服务提出建议,它有助于政府及相关部门对农民工信息鸿沟问题的妥善解决;有助于加深社会各方对农民工这一特殊群体的认识,改善农民工“信息弱势”的社会状况,帮助农民工科学、合理地融入城市,促进社会和谐与稳定。

1 Apriori关联规则算法

Apriori算法是关联规则中最著名的方法,1994年由R.Agrawal和R.Srikant提出,Apriori使用逐层搜索的迭代方法,首先找出频繁1-项集的集合L1,L1用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁K-项集,找每个LK需要一次数据库扫描。Apriori算法的核心部分是Apriori-gen(LK-1)函数。

Apriori-gen(LK-1)函数的参数为频繁(K-1)-项集的集合LK-1,输出结果为候选K-项集的集合CK,它通过两个步骤来完成[2]。

第一步、连接步。l1、l2是LK-1中的项集(已按字母次序排列),l1[j]表示l1的第j项,如果l1、l2的前K-2项相同,即:(l1[1]=l2[1])∧(l1[2]=l2[2])∧…(l1[K-2]=l2[K-2])∧(l1[K-1]

第二步、剪枝步。由Apriori性质:频繁项集的所有非空子集也是频繁的。知如果一个候选K-项集的(K-1)-子项集不在LK-1中,则该候选也不可能是频繁项集,从而可以从CK中剪掉,CK经压缩后,再进行CK中每个候选的支持计数,这样可以提高频繁项集逐层产生的效率。

一旦产生所有候选项集,就扫描数据库,对每个事务,使用subset函数找出该事务中是候选的所有子集,并对每个这样的候选累加计数。最后,所有满足最小支持度的候选形成频繁项集的集合L。

从L中产生强关联规则:对于每个频繁项集l,产生l的所有非空子集。对于l的每个非空子集,如果 ≥min_conf,则输出规则”s (l-s)”。其中,min_conf是最小置信度阈值。

2 农民工行为模式Apriori关联规则分析

本文以国家社会科学基金项目“农民工信息行为与信息服务策略研究”(项目编号:09BTQ008)为背景。项目组采用问卷调查方式对以广东为主辐射全国地区的农民工进行整群抽样和偶遇抽样,得到2930份有效问卷进行分析,通过Apriori方法挖掘出农民工信息行为的前项与后项,这对农民工的信息行为分析以及农民工的信息服务十分重要,本文作者对农民工的信息行为的问卷进行SPSS 17.0的编辑,再导入到Clementine 11.1中,在运用Apriori算法进行分析,通过作者多次分析对比,确定支持度为3%,置信度为40%,以农民工个人特征的基本情况为前项,以农民工信息需求、信息渠道、信息过程中遇到困难、信息获取动机、信息利用、信息评价分别为后项,最后以以上所有1-6的项为后项进行Apriori分析。如图1。

图1 Apriori关联规则建模及部分挖掘结果

由Clementine 11.1运算得出总共379规则,在进行比较与筛选,删除一些没有研究价值、不符合常识、琐碎或无意义的规则,如:A10=1:个人年收入7千元以内 A9=2:婚姻状况为已婚;需要政府政策(入户城镇、创业优惠)和来自本地农村的农民工则性别为女等等。在379条规则中,作者通过比较分析,提取出以下9条具有现实意义的规则。

(1)农民工非常需要生活文化(如文化娱乐、社会交往)一般同时非常需要政府政策(入户城镇、创业优惠)。

(2)根据获取信息顺利解决想要解的决问题和需要就业信息(招聘信息、求职指导)和社会保障的农民工倾向于希望获取职业培训。

(3)在制造业的同时希望获取就业信息和社会保障的农民工,希望获取就业培训,提高自己的技能。

(4)在年收入低于7000的农民工群体中,女性占大多数。

(5)在服务行业而且对服务信息非常需要的农民工,他们的性别女性占了大比例。

(6)来自本地农村的农民工,他们需要职业培训和就业信息,并且同时希望得到较好的社会保障。

(7)来自本地农村的农民工,他们可以根据获取信息顺利解决想要解的决问题,是源于他们能够获取需要的信息。

(8)女性农民工对生活文化、社会保障和权益保护的需要是非常高的。

(9)大专以上学历的农民工需要政府政策类信息,且倾向于使用互联网获取信息;

3 挖掘结果分析

通过上节的分析,作者根据不同规则,定制不同的政策帮助农民工信息获取与利用:

(1)根据第一个规则,可以根据在政府政策对农民工的生活文化要贯彻落实,因为这影响这农民工在城市里面的生活和发展,甚至影响这城市的安全,因为农民工的生活如果不够充实,政府政策没有落实,农民工非常可能回运用旁门左道进行获取财富。

(2)第二个和第三个规则,表明绝大多数农民工自己的技能是不够足以在大城市里面立足,他们需要相关的培训,通过培训,提高自己的技能,使自己能够获取更多的财富,这样政府在农民工培训方面需下功夫,如可以补贴培训机构,进行农民工的培训。

(3)从第四个规则可知,女性农民工的工资低,在城市属于非常底层的一部分群体,需要对女性农民工的信息获取以及利用多多关心,由于农民工的互联网运用比例相对较低,因此,我们需要通过农民工经常获取信息的渠道,如上一章中提到的:电视,报纸杂志,和农民工的朋友入手,使女性农民工可以及时获取就业等信息,提高自己的能力,获取更高的收入。

(4)从第五个规则可以知在服务行业,女性比例大,这说明女性农民工的就业职位集中,同时说明他们就业渠道少,信息少,不能获得和男性农民工同样的就业机会。这样将大大缩减农民工在城市发挥的作用,政府可以专门设立一些女性农民工的报刊、新闻、专题,利用女性农民工互助互利的特征,使他们能互相传播就业的渠道和方法,使他们就业分布更加广。

(5)第六条和第七条规则针对本地农民工,他们本身有较好的地理位置优势,能够很好的获取信息,对信息的利用也比较好,但是可能因为城市对农村不平等,在城市的生活由于没有好的保障导致就业困难,政府可以根据本地农村的地理情况,对本地农民的社会保障如医疗、工伤、养老、失业保险跟城市的市民同等待遇,对双方都有利。

(6)从第八条规则得知,女性农民工是一个特殊的群体,她们对生活文化、社会保障和权益保护要求高,是源于她们的特殊性,因此如果能够在这方面下功夫,女性农民工可以有男性农民工的学习和获取信息的积极性。

(7)从第九条规则,高学历的农民工,在互联网的应用比较普遍,因此,政府可以运用互联网手段,针对他们设立专门的信息服务网站,如新闻、就业、培训等等。

参考文献:

[1]本刊编辑部.信息化的知与行——周宏仁博士《信息化论》读书会纪实[J].电子政务,2009,Z1:19-38.

[2]Jiawei Han,MichelineKamber.数据挖掘概念与技术[M].北京:机械工业出版社,2001:152-157.

上一篇:数据挖掘概念及国内外现状 下一篇:信息技术对企业信息化的影响