基于信任关系的微博信息个性化推荐算法

时间:2022-05-10 08:02:18

基于信任关系的微博信息个性化推荐算法

摘 要 微博巨大的用户数量和飞速增长的海量信息带来了微博“信息过载”问题。而目前多数研究主要是解决微博用户关系网络中的用户推荐问题,对于微博信息的推荐还没有行之有效的解决方法。针对上述问题,提出了一种基于微博用户信任关系的微博信息推荐算法,将微博用户关系数据结构化处理并计算用户间信任程度,基于TF-IDF计算微博信息与用户的话题相关度,结合上述因素对用户的微博信息列表进行TopN推荐。实验表明,该方法能够有效解决微博中的“信息过载”问题,提高用户的信息获取效率。

【关键词】微博信息推荐 信任度 话题相关度 信息过载

微博的兴起,成为Web2.0 时代一个具有代表性的网络现象,它让人们通过虚拟的网络来获取海量实时的信息,但正是由于用户获取的信息是海量的,从而出现了一个很严重的问题,就是 “信息过载”问题。“信息过载”是指过量信息同时呈现使用户很难从中获取对自己有用的部分,使得信息使用效率降低。推荐系统作为解决信息过载问题的重要手段,是当前解决社交媒体中信息超载问题的最有效的方法之一[1]。

本文的主要工作如下:

(1)利用微博中的社会化标注计算用户相似度,并计算用户信任度。

(2)针对微博特点,提出了MB-StreamRank算法,结合用户信任度、微博信息与用户的话题相关度、用户对微博的操作权重以及时间衰减因素,对用户微博信息进行个性化排序,给出TopN推荐结果。

(3)通过在腾讯微博实际数据集上进行实验,MB-StreamRank算法显示出较好的微博信息推荐性能。

1 微博数据特征描述

微博结构信息是指用户关系结构信息,包括用户关注和粉丝信息,如图1所示。

定义1:使用有向图定义微博中的用户关系,其中是顶点集合,代表所有用户,是边集合,中任一有向边表示用户关注,而定义了边的权重,用来表示对的信任程度。

定义2:对于任意节点,定义为顶点指向的顶点集合,即用户关注的用户集合;定义为指向顶点的顶点集合,即用户的粉丝集合。

定义3:定义带权重的有向图为转发关系图,集合中的任一边表示用户转发了的微博信息,其权重定义了用户转发用户的微博的次数。定义有向图为关系图,集合中的任一边表示用户了,其权重定义了用户用户的微博信息数目。

2 MB-StreamRank微博信息推荐算法

2.1 基于TF-IDF的话题相关性计算

Term Frequency-Inverse Document Frequency(TF-IDF)权重[2]是一种广泛使用的对于简单TF值进行改进的权重值。IDF是它的改进部分。TF-IDF在简单的TF值上,乘上一个项目文档频度的倒数,作为向量的权重。TF-IDF降低了那些停顿词对权重的影响。

2.2 用户行为时间衰减

2.3 结果

基于微博用户信任关系的MB-StreamRank算法是通过对用户信任程度、用户相似度和时间衰减等因素的考量,从而获得对用户微博信息的个性化排序,得到其TopN推荐结果。

3 实验与分析

3.1 数据集及预处理

本文以腾讯微博为实验平台,利用其开放平台提供的API,采集了以2012年10月18日为起点的三个月的的数据,并将采集到的数据分为4类:

(l)用户信息,包括用户ID、昵称、地址等;

(2)微博结构信息,即用户的关系数据,包括用户的关注列表和粉丝列表;

(3)微博信息,即用户的微博信息列表;

(4)转发及评论列表,即采集到的微博信息的转发及评论列表。共采集了1251个用户的关注结构信息以及约合625541条微博。

3.2 推荐算法评价方法

实验一:确定用户信任度的加权系数

为了确定用户信任度的加权系数,分别对且(精度为0.1)的84种可能取值情况对算法进行测试(时间衰减因子取值0.5)。为了更好地进行测试,本文从采集到的微博结构信息中人工筛选了100位用户及其关注和粉丝信息。以9:1的比例进行训练和测试,并反复进行7次,测试信任度计算结果的值。其中为给用户提供的推荐信息,是测试集中的真实数据,即用户微博列表中用户感兴趣的信息(用户已转发或评论的微博信息)。

3.3 实验三:时间衰减因子

为了确定时间衰减因素中的衰减因子,本文从采集到的微博信息中人工筛选了50位用户及其能够获取到的微博信息中的20000条数据,反复7次以9:1的比例进行训练和测试,计算推荐结果的值。实验结果表明,当衰减因子=0.6时,取得最大值0.0586。因此,针对本文的数据集,衰减因子取值为0.6。

4 结束语

通过在采集到的腾讯微博数据集上进行实验,验证了算法效果。但由于算法部分内容复杂度较高,所以算法还未能做到海量信息实时推荐。目前采取的是定周期离线推荐,这也是下一步要研究的一个重要问题。

参考文献

[1]P.Resnick,H.R.Varian.Recommender systems,Commun.ACM,vol.40,iss.3, pp.56-58,1997.

作者单位

陕西省咸阳市渭城区清泰街邮局 陕西省咸阳市 712000

上一篇:电力通信多网管通道融合技术研究 下一篇:仓库温湿度无线监控网络研究