基于LBS签到事件的数据挖掘研究

时间：2022-09-19 03:08:29

【前言】基于LBS签到事件的数据挖掘研究由文秘帮小编整理而成，但愿对你的学习工作带来帮助。3.2 统计用户的Check-in数的概率分布数据集合的概率分布统计，可以更直观的了解整个数据大致分布和基本情况。先将所有的基本用户数和用户编号写入数据库的基本表，根据基本表统计签到的数量及其概率分布，进一步可以得到每个签到次数的分布。根据数据的分布可以得到...

基于LBS签到事件的数据挖掘研究

摘要：随着社会信息大爆炸和大量数据的产生，数据挖掘成了广泛关注的话题。本文从Check-in签到事件的数据出发，回顾

>> 基于 lbs的数据挖掘技术在移动电子商务中的应用研究基于数据挖掘的精确营销研究基于数据挖掘医保系统的研究基于云计算的数据挖掘研究基于Web数据挖掘技术的研究基于数据挖掘的书目推荐研究基于数据挖掘的智能引擎研究基于数据挖掘的舆情观点挖掘研究基于数据挖掘的电网数据智能分析的研究基于数据流的数据挖掘研究高职院校基于基础数据建设的数据挖掘研究基于大数据的空间数据挖掘研究基于数据仓库的数据挖掘研究基于CORS差分的LBS定位算法研究基于本地商家开展LBS营销的研究基于LBS下的移动广告发展研究基于TAM的用户LBS团购接受意愿研究基于数据挖掘的入侵检测系统的研究基于数据挖掘的银行CRM系统的研究基于XML的Web数据挖掘模型的设计研究常见问题解答当前所在位置：l，数据以txt文件格式存放。每个基本数据项包含用户ID，签到时间，签到经纬度，签到地点ID等数据项。

3.1 数据预处理

斯坦福大学公开的Gowalla数据集，文件较大，用MATLAB或者Java语言编程读取，存在内存溢出等问题。本文采用SQL语句读取数据记录存入MySQL数据库。首先，在数据读入后，删除极个别可能出现重大误差的数据。其次，根据预处理的数据，编写SQL语句命令进行分类统计，统计的结果导入Excel。然后，根据相关的数据分析结果和规律，可以进行相关的深度挖掘分析。

预处理后的数据，是对原数据的数据项进行了拆分，方便后期处理分析。数据包含字段：用户ID、签到时间、星期、时间点、纬度、经度和地点编号。

3.2 统计用户的Check-in数的概率分布

数据集合的概率分布统计，可以更直观的了解整个数据大致分布和基本情况。先将所有的基本用户数和用户编号写入数据库的基本表，根据基本表统计签到的数量及其概率分布，进一步可以得到每个签到次数的分布。

根据数据的分布可以得到散点图如图1所示。

根据平均签到次数对应的人数，可以计算出前面百分比量级的人平均Check-in次数，如图2所示。

3.3 统计用户在不同时段的签到习惯

通过统计用户在每个小时的时间段内的签到次数，如图3所示，可以初步了解用户的签到习惯。

从图4的结果分析，白天签到的地方有一定的聚集时间段，比如说黄昏的时候，签到的人数比较多，即大多数用户选择签到的时间。

签到高峰期在傍晚，可以推断大多数人是在下班时间进行工作签到，而签到低谷在早晨，这与现实生活情况比较吻合，在早上刚起床的时间段内签到人数比较少，随着时间推移，活动的人数逐渐增多，签到数量也在逐渐增大。

当然还可以按照月份统计，如图5和图6根据两年内（按照12个月统计）的签到次数大致可以看出签到次数在9月达到了签到的高峰期，金秋9月天气逐渐转凉，正是出行的绝佳时机，大部分人选择出行，并在出行的过程中签到。

3.4 根据签到的地理位置分析用户习惯

根据签到数据中的地理位置，按照地理的纬度将全球以南北回归线和南北极圈做分割。将签到地点大致分为三个板块，即南北极圈内，回归线到南北极圈之间，南北回归线之间。基本操作是选择签到地点在南极圈和北极圈内的签到用户（即Check-in纬度大于66.5度或者小于-66.5度），具体分布详见表格1。

从表1结果分析，有1%的用户在南北极圈里面进行过签到，2%的用户在南北回归线之间签过，说明这部分人具有探险精神，喜欢旅行与探险，并希望将自己独特的签到地点分享给他人，希望与周围人分享自己的旅行路线。

3.5 根据签到的时间段统计和分析

工作日和双休日的签到情况反映用户的作息规律。在周一到周五的11：00―13：00时间段，即中午午休时间段，分析公共交通场所的签到数据，可以推断出拥堵程度。根据统计的签到分布规律，可以找出的工作地点周围的交通枢纽地带。

因为周末可能有些人不上班，统计工作日比较有代表性。通过对排名的统计，可以推断出在哪些交通枢纽比较拥挤。排名靠前的前三位详见表2。

4 基于统计数据的挖掘与分析（Data mining and analysis on statistical data）

4.1 兴趣相同朋友发现

根据用户的签到地点的地理位置信息，分析地点的现实社会属性，可以发现具有相同兴趣的朋友。例如，在南极有签到信息的用户ID为117874，在2010-09-21T12：53：52Z到达某地（经纬度为-90，-139.266667），记录见下表3。

然后根据签到地点，查询ID为33843的用户在之前去过南极，他同用户117874可能具有诸多相同兴趣爱好，他们交流去南极的心得体会，并可以交朋友，分享经验等。

在他到达南极的时候，可以根据签到时间判断是否有人跟他在同一天签到的，如果有的话，且是同一天到达南极，可以联系另一个人，共同探险，使得在南极这个气候恶劣的地方能找到志趣相投的同伴。

4.2 根据星期来推断工作地点和休闲地点

根据原始数据将签到时间映射到的具体星期值，通过分析每个星期的签到数，结合相应的信息，可以得出一个人基本的活动规律和生活圈子，以ID编号0的用户为例。

可以看到用户0在地点420315（506 Congress Avenue、Austin、TX78701美国）签到最多，然后根据地点编号420315找出所有在此处签到的人。

经过对于之后的数据进行验证，同样在位置420315（506 Congress Avenue、Austin、TX78701美国）签到的人有7、31、52、103749、10290、10300等。

然而10152在420315处只签到了1次，可以判断出，0上班的公司的地点编号为420315，但是用户10152到0的公司交流过，并在公司使用Gowalla签到。

而用户66在420315处签到次数为47次，并且是66签到最多的地方，所以可以初步断定用户66和用户0在同一栋办公楼上班，极有可能就是同事，并且之间认识的可能性很大。

5 结论（Conclusion）

本文通过对签到信息的分析，从数据上得到一些常规的统计信息，例如查看用户签到最多的地方，用户签到的时间、地点、频率的统计，这些基本的统计有助于了解数据的总体分布情况。根据对Check-in的时间戳进行分析，发现签到信息体现了人们的工作和休闲活动的规律特点。从多个用户的共同签到地点，可以推断他们之间可能存在着共同的兴趣和爱好。这些分析结果，可以为将来的用户在指定旅行规划路线时，进行个性化推荐奠定基础。例如，在旅游出发前，查询某旅游地点A信息，根据已有的好友中哪些已经在A签到过，从而进行推荐。还可以根据签到的地点，得出可能的工作地点和家庭地点，从而推荐周边餐厅或休闲场所等一系列信息。

参考文献（References）

[1] 石安.切客盛行，谁将畅享LBS大餐？[J].软件工程师，2010，（11）：34-35.

[2] 周永杰.LBS签到服务中隐私关注及影响因素研究[D].大连海事大学，2013：2-9.

[3] 徐国虎，孙凌，许芳.网络用户移动签到服务持续使用意愿研究[J].中南财经政法大学学报，2013，（4）：131-138.

[4] 阴红志.社会化媒体中若干时空相关的推荐问题研究[D].北京大学，2014：6-12.

[5] 曹劲舟，武红宇.基于微博位置签到数据的POI更新方法[J].地理空间信息，2013，11（2）：15-18.

[6] 王明，等.基于位置签到数据的城市分层地标提取[J].计算机学报，2014，37（123）：1-11.

[7] 胡庆武，王明，李清泉.利用位置签到数据探索城市热点与商圈[J].测绘学报，2014，（3）：314-321.

[8] 刘乾.基于社交网络和地理位置信息的好友推荐方法研究[D].浙江大学，2013：16-21.

作者简介：

黄喜发（1994-），男，本科生.研究领域：Web数据挖掘.

刘兴旺（1991-），男，硕士生.研究领域：机器学习.

孙媛（1984-），女，硕士，实习研究员.研究领域：计算机辅助语料库分析.

徐科（1981-），男，博士，讲师.研究领域：机器学习，社交网络.

基于LBS签到事件的数据挖掘研究

文档上传者

热门推荐更多>

精品范文更多>

基于LBS签到事件的数据挖掘研究

文档上传者

热门推荐 更多>

精品范文更多>

热门推荐更多>