基于LBS签到事件的数据挖掘研究

时间:2022-09-19 03:08:29

【前言】基于LBS签到事件的数据挖掘研究由文秘帮小编整理而成,但愿对你的学习工作带来帮助。3.2 统计用户的Check-in数的概率分布 数据集合的概率分布统计,可以更直观的了解整个数据大致分布和基本情况。先将所有的基本用户数和用户编号写入数据库的基本表,根据基本表统计签到的数量及其概率分布,进一步可以得到每个签到次数的分布。 根据数据的分布可以得到...

基于LBS签到事件的数据挖掘研究

摘 要:随着社会信息大爆炸和大量数据的产生,数据挖掘成了广泛关注的话题。本文从Check-in签到事件的数据出发,回顾

>> 基于lbs的数据挖掘技术在移动电子商务中的应用研究 基于数据挖掘的精确营销研究 基于数据挖掘医保系统的研究 基于云计算的数据挖掘研究 基于Web数据挖掘技术的研究 基于数据挖掘的书目推荐研究 基于数据挖掘的智能引擎研究 基于数据挖掘的舆情观点挖掘研究 基于数据挖掘的电网数据智能分析的研究 基于数据流的数据挖掘研究 高职院校基于基础数据建设的数据挖掘研究 基于大数据的空间数据挖掘研究 基于数据仓库的数据挖掘研究 基于CORS差分的LBS定位算法研究 基于本地商家开展LBS营销的研究 基于LBS下的移动广告发展研究 基于TAM的用户LBS团购接受意愿研究 基于数据挖掘的入侵检测系统的研究 基于数据挖掘的银行CRM系统的研究 基于XML的Web数据挖掘模型的设计研究 常见问题解答 当前所在位置:l,数据以txt文件格式存放。每个基本数据项包含用户ID,签到时间,签到经纬度,签到地点ID等数据项。

3.1 数据预处理

斯坦福大学公开的Gowalla数据集,文件较大,用MATLAB或者Java语言编程读取,存在内存溢出等问题。本文采用SQL语句读取数据记录存入MySQL数据库。首先,在数据读入后,删除极个别可能出现重大误差的数据。其次,根据预处理的数据,编写SQL语句命令进行分类统计,统计的结果导入Excel。然后,根据相关的数据分析结果和规律,可以进行相关的深度挖掘分析。

预处理后的数据,是对原数据的数据项进行了拆分,方便后期处理分析。数据包含字段:用户ID、签到时间、星期、时间点、纬度、经度和地点编号。

3.2 统计用户的Check-in数的概率分布

数据集合的概率分布统计,可以更直观的了解整个数据大致分布和基本情况。先将所有的基本用户数和用户编号写入数据库的基本表,根据基本表统计签到的数量及其概率分布,进一步可以得到每个签到次数的分布。

根据数据的分布可以得到散点图如图1所示。

根据平均签到次数对应的人数,可以计算出前面百分比量级的人平均Check-in次数,如图2所示。

3.3 统计用户在不同时段的签到习惯

通过统计用户在每个小时的时间段内的签到次数,如图3所示,可以初步了解用户的签到习惯。

从图4的结果分析,白天签到的地方有一定的聚集时间段,比如说黄昏的时候,签到的人数比较多,即大多数用户选择签到的时间。

签到高峰期在傍晚,可以推断大多数人是在下班时间进行工作签到,而签到低谷在早晨,这与现实生活情况比较吻合,在早上刚起床的时间段内签到人数比较少,随着时间推移,活动的人数逐渐增多,签到数量也在逐渐增大。

当然还可以按照月份统计,如图5和图6根据两年内(按照12个月统计)的签到次数大致可以看出签到次数在9月达到了签到的高峰期,金秋9月天气逐渐转凉,正是出行的绝佳时机,大部分人选择出行,并在出行的过程中签到。

3.4 根据签到的地理位置分析用户习惯

根据签到数据中的地理位置,按照地理的纬度将全球以南北回归线和南北极圈做分割。将签到地点大致分为三个板块,即南北极圈内,回归线到南北极圈之间,南北回归线之间。基本操作是选择签到地点在南极圈和北极圈内的签到用户(即Check-in纬度大于66.5度或者小于-66.5度),具体分布详见表格1。

从表1结果分析,有1%的用户在南北极圈里面进行过签到,2%的用户在南北回归线之间签过,说明这部分人具有探险精神,喜欢旅行与探险,并希望将自己独特的签到地点分享给他人,希望与周围人分享自己的旅行路线。

3.5 根据签到的时间段统计和分析

工作日和双休日的签到情况反映用户的作息规律。在周一到周五的11:00―13:00时间段,即中午午休时间段,分析公共交通场所的签到数据,可以推断出拥堵程度。根据统计的签到分布规律,可以找出的工作地点周围的交通枢纽地带。

因为周末可能有些人不上班,统计工作日比较有代表性。通过对排名的统计,可以推断出在哪些交通枢纽比较拥挤。排名靠前的前三位详见表2。

4 基于统计数据的挖掘与分析(Data mining and analysis on statistical data)

4.1 兴趣相同朋友发现

根据用户的签到地点的地理位置信息,分析地点的现实社会属性,可以发现具有相同兴趣的朋友。例如,在南极有签到信息的用户ID为117874,在2010-09-21T12:53:52Z到达某地(经纬度为-90,-139.266667),记录见下表3。

然后根据签到地点,查询ID为33843的用户在之前去过南极,他同用户117874可能具有诸多相同兴趣爱好,他们交流去南极的心得体会,并可以交朋友,分享经验等。

在他到达南极的时候,可以根据签到时间判断是否有人跟他在同一天签到的,如果有的话,且是同一天到达南极,可以联系另一个人,共同探险,使得在南极这个气候恶劣的地方能找到志趣相投的同伴。

4.2 根据星期来推断工作地点和休闲地点

根据原始数据将签到时间映射到的具体星期值,通过分析每个星期的签到数,结合相应的信息,可以得出一个人基本的活动规律和生活圈子,以ID编号0的用户为例。

可以看到用户0在地点420315(506 Congress Avenue、Austin、TX78701美国)签到最多,然后根据地点编号420315找出所有在此处签到的人。

经过对于之后的数据进行验证,同样在位置420315(506 Congress Avenue、Austin、TX78701美国)签到的人有7、31、52、103749、10290、10300等。

然而10152在420315处只签到了1次,可以判断出,0上班的公司的地点编号为420315,但是用户10152到0的公司交流过,并在公司使用Gowalla签到。

而用户66在420315处签到次数为47次,并且是66签到最多的地方,所以可以初步断定用户66和用户0在同一栋办公楼上班,极有可能就是同事,并且之间认识的可能性很大。

5 结论(Conclusion)

本文通过对签到信息的分析,从数据上得到一些常规的统计信息,例如查看用户签到最多的地方,用户签到的时间、地点、频率的统计,这些基本的统计有助于了解数据的总体分布情况。根据对Check-in的时间戳进行分析,发现签到信息体现了人们的工作和休闲活动的规律特点。从多个用户的共同签到地点,可以推断他们之间可能存在着共同的兴趣和爱好。这些分析结果,可以为将来的用户在指定旅行规划路线时,进行个性化推荐奠定基础。例如,在旅游出发前,查询某旅游地点A信息,根据已有的好友中哪些已经在A签到过,从而进行推荐。还可以根据签到的地点,得出可能的工作地点和家庭地点,从而推荐周边餐厅或休闲场所等一系列信息。

参考文献(References)

[1] 石安.切客盛行,谁将畅享LBS大餐?[J].软件工程师,2010,(11):34-35.

[2] 周永杰.LBS签到服务中隐私关注及影响因素研究[D].大连海事大学,2013:2-9.

[3] 徐国虎,孙凌,许芳.网络用户移动签到服务持续使用意愿研究[J].中南财经政法大学学报,2013,(4):131-138.

[4] 阴红志.社会化媒体中若干时空相关的推荐问题研究[D].北京大学,2014:6-12.

[5] 曹劲舟,武红宇.基于微博位置签到数据的POI更新方法[J].地理空间信息,2013,11(2):15-18.

[6] 王明,等.基于位置签到数据的城市分层地标提取[J].计算机学报,2014,37(123):1-11.

[7] 胡庆武,王明,李清泉.利用位置签到数据探索城市热点与商圈[J].测绘学报,2014,(3):314-321.

[8] 刘乾.基于社交网络和地理位置信息的好友推荐方法研究[D].浙江大学,2013:16-21.

作者简介:

黄喜发(1994-),男,本科生.研究领域:Web数据挖掘.

刘兴旺(1991-),男,硕士生.研究领域:机器学习.

孙 媛(1984-),女,硕士,实习研究员.研究领域:计算机辅助语料库分析.

徐 科(1981-),男,博士,讲师.研究领域:机器学习,社交网络.

上一篇:地方高校计算机师范专业中教法课程问题研究 下一篇:信息化技术下构建高职课堂教学模式的研究