基于个性化混合推荐算法的网络推荐系统

时间:2022-09-11 01:48:23

基于个性化混合推荐算法的网络推荐系统

提要:在最近的工作中,提出个性化推荐算法,它在准确性和多样性两个方面有很高的绩效。该方法是基于两个单算法概率扩散和热传导的杂交,它们分别是倾向于推荐受欢迎和不受欢迎的产品。凭着可调参数,可以在系统层面实现这两种算法之间的最佳平衡。该文中,在个人层面应用这种混合方法,即每个用户都可以调整他/她自己的个性化的混合参数。有趣的是,笔者发现用户在个性化混合参数和推荐绩效方面相当的不同。如果给每个用户分配最佳的个性化混合参数,那么推荐绩效就会有显著的提高。此外,在收集的项目中笔者发现用户的个性化参数与用户个人等级呈负相关,但是与用户的平均等级呈正相关。根据对这些的理解,该文提出了一个分配给用户合适的个性化参数的策略,它使原来的混合方法得到进一步的改善。最后,该工作突出考虑推荐用户多样性的重要性。

关键词:个性化推荐算法;个性化混合参数

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)10-0192-02

最近几年我们见证了信息爆炸的严重问题。信息的数量,尤其是网络信息,增长量远远超过了我们处理信息的能力。随着网络资源的快速膨胀,极大地增加了对大量信息进行有效过滤的必要性。在这种情况下,推荐系统应运而生。推荐系统根据用户在互联网上活动的历史记录发现他们的潜在兴趣而不是根据用户所提供的指定关键字。到目前为止,基于不同的想法和概念,大量的推荐算法已经被提出,包括:协同过滤算法,基于内容的方法,频谱分析,潜在语义模型和狄利克雷分配,迭代自洽细化以及拓扑适配方法等。而本文我们所研究的内容是基于个性化混合推荐方法(HHP)的进一步改善。

1 个性化混合推荐概述

最近,一些基于扩散推荐算法,如热传导和概率扩散,已经应用于个性化推荐。概率扩散方法倾向于为个性化目标用户推荐受欢迎的产品,然而热传导方法倾向于推荐冷门的产品。不久之后,提出用混合方法(HHP)与热传导算法和概率扩散算法相结合获得更高的推荐绩效。凭借着可调整的混合参数,为HHP方法提供了流畅的从一个方法到另一个方法的过渡。每个真实系统被视为具有其最佳混合参数,同时,通过最近提出的优先选择扩散过程,偏热传导和网络操作,基于扩散推荐算法的性能已经得到增强。

原HHP最优的混合参数具有普遍价值,系统实现了对冷门项目和受欢迎项目的推荐的最佳平衡。那就是说,系统中的所有用户都采用相同的混合参数。然而,HHP方法不考虑实际用户的多样性。事实上,混合算法可以在各体级别上应用,可以调整每个用户他/她自己的个性化混合参数。明确地说,如果用户喜欢收集受欢迎的产品,混合方法应该给予扩散算法更多的权重,因为扩散算法擅长推荐受欢迎的产品,反之亦然。

在这种动机下,在这一篇文章中我们对关于用户的最佳个性化混合参数做了仔细的研究。我们设置两个参照数据(电影推荐和美食推荐),并发现如果分配给所有用户最佳的混合参数,那么,推荐后的绩效就会显著增强。我们也发现每个用户都会有各自不同的最佳个性化混合参数。同时,我们发现用户的个性化参数与用户个人等级呈负相关,但是与用户的平均等级呈正相关。最后,我们提出一个面向用户的HHP(UHHP)算法,在这个算法中,根据每个用户的水平,分配给他们个性化混合参数。模型表明UHHP能进一步提高原HHP算法的绩效。最后,我们的工作突出考虑推荐用户多样性的重要性。

2 数据和指标

我们设置电影推荐和美食推荐两个参数来进行分析。电影推荐数据包含10万条真实的评级数据,这些数据来自于943个用户、1682部电影。然后,用一个粗粒化进程将这些评级转化为一元形式:只有评级为3及3以上才被认为是通过用户收集的,其中,5是最高评级。粗粒化进程之后,仍存在943个用户和1574项与85250边缘(稀疏度是5.20・10-2)。美食推荐数据本质上是一元的,表明用户是否已经收集到任何的网页链接。它包含9998个用户和232657项与1,233,995边缘(稀疏度是5.30・10-4)。为了检测推荐算法,数据被分为两部分:训练集Et和探针集Ep,比例为9:1。训练集被视为已知的信息,而探针集用于预测未知的信息。

该推荐算法可以为每个用户提供属于他/她自己的未收集项目的有序列表。好的算法是能给出准确的推荐,即在探针集中在推荐列表的顶部放置更多的项目。我们先用秩得分衡量推荐算法产生与用户喜好相匹配的良好有序项目的能力。因此真实用户通常只考虑推荐列表顶部的物品,也可以使用两种比较实用的方法,即精确度和召回率。

秩得分:该推荐算法可以为每个用户提供属于他/她自己的未收集项目的有序列表。对于目标用户i,我们计算他/她在探针集中的链接位置。例如,如果i有1000个未收集的项目,α项是有序列表的前30,我们说α的位置是30/1000,因此秩得分RSiα = 0.03。平均秩得分超过所有的探头对,从整个系统中我们获得了最终的秩得分RS。好的算法,预计将会得到一个小的RS。除了整个系统的整体RS,我们只考虑局部秩得分,该秩得分仅考虑冷门项目(i.e.items with small degree)。由于它们的信息很少,难以准确地推荐是正常的。这就是众所周知的冷启动问题。我们用RSk

精确度:对于一个目标用户i,推荐的精度Pi(L)被定义为Pi(L)=hi(L)/L,其中hi(L)代表热门项目的数量(即相同的项目存在于探针集和推荐列表的前L的位置)。求所有用户准确性的平均数,我们得到整个系统的平均准确性P(L)。在本文中L=20。

召回率:用相同的方法,用户i的召回率为Ri(L),它被定义为Ri(L)=Hi(l)/Li,其中hi(L)表示热门项目的数量,Li是用户i在探针集中收集到的项目的数量。求所有用户召回率的平均值,我们得到整个系统中的平均召回率R(L),再次设置L=20。

3 用户多样性和个性化参数

目前,网路环境日趋多样化和复杂化,其中最主要的原因就是用户的多样化。我们通过研究用户的多样性,了解群体行为,从而可以设计出更人性化的个性化推荐算法。事实上,在线个性化推荐系统中,了解用户的个人需求和兴趣爱好显得尤为重要。根据研究发现,用户在选择产品时都是有目的的选取,而不是随机发生,在结合心理学原理,用户做出的选择往往是无意识的,因此用户的行为在很大程度上取决于用户的需求和个人兴趣。对此,一些研究者提出用集聚系数C4来衡量用户的兴趣,C4值越高,说明用户对某方面的兴趣越专一。另外,香农提出的信息熵也可以作为一项个性化混合参数。他提出用信息熵衡量用户信息量的多少,用户的信息越多,用户信息越偏向于多样化,信息熵的数值就越大。因此在设计给予用户的个性化混合推荐算法时,可以考虑这些数值的影响,使系统获得的更高的绩效。

4 思考

我们评论当前估计用户个性化混合参数的方法不是最佳的,例如用时间信息计算用户的历史活动记录将会更加深刻的理解用户的行为模型,而且对他们的个性化混合参数有更好的预测。同时,在真实系统中用户的最佳个性化混合参数将会随着时间而改变。某些时候,一个用户可能喜欢受欢迎的产品,在另外一些时候,他可能喜欢相关的但是不那么流行的产品。在这种情况下,这种方法也应该考虑到用户的时间行为模式。这些问题需要将来进一步的探究。

5 结束语

推荐系统是一个解决信息过度问题非常有潜力的技术。最近,提出用混合方法(HHP)与热传导算法和概率扩散算法相结合获得更高的推荐绩效。概率扩散方法主要推荐受欢迎的产品因此推荐准确度高。相反热传导方法倾向于推荐小众化产品并享受多样性推荐。凭着可调参数,混合算法实现在推荐准确度和多样性方面有较高的绩效。在本文中,我们在个体层面运用原始的混合方法,以至于可以调节每个用户的个性化混合参数。我们发现如果给每个用户分配最佳的个性化混合参数,所有的推荐准确度将会明显的增加。同时,我们还发现真实用户有各自不同的最佳个性化混合参数。另外,我们发现用户的个性化参数与用户的水平呈负相关,但是与用户的平均学历呈正相关。

此外,我们提出了基于用户的混合方法UHHP。在这个算法中,根据每个用户的平均水平,分配给他们个性化混合参数。我们用两个参照数据(电影推荐和美食推荐)测试UHHP方法,发现我们的方法比HHP算法可以进一步提高推荐正确性(尤其是准确度和召回)。然后,怎样在推荐系统中进一步的准确估计最佳可调参数仍然是一个挑战。到目前为止,解决问题的通常方法是基于对历史数据的计算。通常,历史数据被分为训练集和探针集。当算法在训练集和探针集部分获得最高的绩效时进一步推荐的参数被确定,在工作中,我们也采用这种方法估计最佳的伽玛值。

参考文献:

[1] 陈洁敏, 汤庸, 李建国, 等. 个性化推荐算法研究[J]. 华南师范大学学报:自然科学版, 2014 (5).

[2] Yuan Guan,Dandan Zhao,An Zeng,et al.Contents list available at SciVerse Science Direct[J].Physica A,2013,392:3417-3423.

[3] 曾春, 邢春晓, 周立柱. 个性化服务技术综述[J]. 软件学报, 2002(10).

上一篇:基于SOC的智能野外目标监视和记录系统设计与实... 下一篇:基于ArcEngine的控制点管理系统设计与实现