刍议基于用户聚类的协同过滤推荐算法

时间：2022-09-19 01:51:47

刍议基于用户聚类的协同过滤推荐算法

引言：在电子商务推荐系统中，协同过滤推荐算法在个性化的推荐系统中得到广泛应用，随着其应用的深入，协同过滤推荐算法也存在着一些问题，如“冷启动”问题、“数据稀疏性”问题等，于是人们开始对协同过滤推荐算法不断的加以改进。本文就基于用户聚类的协同过滤推荐算法进行了浅显的探讨。

随着网络技术的发展，电子商务推荐系统已经成为很多企业进行广告宣传和商品销售的重要平台。在电子商务推荐系统中，协同过滤推荐算法在个性化的推荐系统中得到广泛应用。协同过滤推荐（Collaborative Filtering recommendation）是在信息过滤和信息系统中应用的一种技术。协同过滤推荐能对用户的兴趣进行分析，并在用户群中找到指定用户的类似兴趣用户，通过分析相似兴趣用户对某一信息的评价，从而形成系统对该指定用户对此信息的喜好程度预测。随着其应用的深入，协同过滤推荐算法也出现了一些问题，如“冷启动”问题、“数据稀疏性”等，于是基于用户聚类的协同过滤推荐算法开始逐渐得到应用[1]。

1.电子商务个性化推荐简述

随着我国电子商务的飞速发展，面对大量的信息资源，消费者不知道该如何选择。为了彻底解决这一问题，运营商提出了制作个性化推荐系统（Personalized recommendation system）[1]的设想。电子商务个性化推荐系统主要是使用电子商务网站，为用户提供商品的信息并提出购买意见，帮助客户选择商品或者信息。一般的个性化推荐系统主要有三个模块构成：行为记录模块、处理模块和推荐模块[2] 。行为记录模块用来记录用户的各种操作，例如收藏、购买、下载、评分等，然后对这些操作进行有效的汇总和处理。处理模块是个性化推荐系统的核心，它实现了对用户操作记录的分析，并采用不同算法建立起模型来描述用户的喜好档案。最后，通过推荐模块，形成适当的分析结果推荐给用户，其形式包括预测评分、购买建议、文本评价等。推荐方法是推荐系统的中心，直接决定了推荐系统的效果[3]。

2.传统协同过滤推荐算法存在的问题

协同过滤算法是个性化推荐中应用最广泛的一种方法。这种技术是基于邻居用户的兴趣爱好来对目标用户的兴趣爱好进行预测。通过统计技术，将与目标用户有相同兴趣的邻居用户寻找出来，进而根据目标用户的邻居用户的偏好形成推荐。该种算法，主要是由数据表示、形成邻居、产生推荐三个阶段构成。协同过滤推荐算法虽然具有一定的优势，但是也有鲜明的缺点，主要表现出“冷启动”问题和“数据稀疏性”问题[4]。首先，“数据稀疏性”问题是很多推荐技术面临的重要问题之一。稀疏性（Sparsity）主要是由于推荐系统中用户信息有限，用户评价或所购买的产品的数量在总数中所占的比例较小，使得某一项目的偏好矩阵中数据较为稀疏，这样找到相似用户就很不容易，使得系统的推荐性能表现很差。冷启动（cold-start）问题主要表现为新项目问题和新用户问题。新项目问题就是没有人评价或购买过的某一项目，其相应推荐也没有，新用户问题就是没有购买或评价过任何产品的新用户得不到任何推荐。传统协同过滤推荐在单一内容项目推荐上具有一定的适用性，但是现实生活中，项目多内容个性推荐情况较多，其准确率较低。

3.基于用户聚类的协同过滤推荐算法

3.1用户聚类

用户聚类就是试图找到具有共同喜好的用户组，将用户聚集成不同的簇，同一簇内的用户具有较高的相似性，而不同簇中的用户则具有较低的相似性。通过对用户的聚类，可以发现群体用户的兴趣所在，以提高处理海量增长的数据集的效率。

根据用户的特征相似性，采用蚂蚁自组织聚类的思想对用户进行类聚。先从n个数据对象中设定聚类数目k和k个聚类的初始聚类中心，计算出用户与聚类中心的特征相似性[5]，逐个将需聚类的用户样本按最小距离准则分配给K个聚类中心中的某一个聚类中心。计算各个聚类中心的新的向量值，求各聚类簇中所包含用户的均值向量。并以均值向量作为新的聚类中心。不断重复这一过程直到标准测度函数开始收敛为止，最后生成聚类簇。由于该算法能有效辨识用户之间的特征相似性，因此聚类结果较为合理。

3.2查找邻居用户

邻居用户的查找是在各个聚类簇中进行的，因此，首先，根据用户的基本特征数据，综合计算相似性，之后以聚类用户的基本特征数据和聚类用户对项目的评分数据，计算出目标用户与其余所有用户两两之间的综合相似性。其次，邻居用户的选取采用k均值算法来进行，通过用户之间综合相似性排序，选择相似性值最大的k个用户作为目标用户的邻居用户。

3.3预测目标用户项目评分并得出推荐

在得到邻居用户之后，可以根据邻居用户对项目的评分来预测目标用户对项目的评分。在对目标用户的预测评分过程中，其计算方法与传统协同过滤算法具有一定的相似性，但基于用户聚类的协同过滤推荐算法中的目标用户的预测评分计算公式有所变化，主要用综合相似度将用户对项目偏好的相似性进行替换。基于用户聚类的协同过滤推荐算法，由于考虑了用户对项目的偏好以及用户之间的特征性，而对于新注册的用户，可以通过注册信息对其进行聚类，同时在聚类簇中计算其他用户特征的相似性，从而得到推荐，使传统协同过滤推荐算法中的“冷启动”问题得到解决。此外，通过用户聚类，在用户所属聚类簇中查找邻居用户，降低了邻居用户查找计算量，同时具有相似特征的用户评分对于目标用户具有更大的重要性，使协同过滤推荐更加准确，解决了传统协同过滤推荐中的数据稀疏性问题。

4.结语

个性化推荐系统经过20多年的改进取得了长足的发展。随着应用领域的不断拓展，将其他领域技术与推荐技术相结合逐渐成为一个研究热点，并且应用前景十分广阔。不管从研究方面，还是在应用方面，相对于发达国家而言，我国的电子商务推荐系统都存在较大差距。本文简要论述了基于用户聚类的协同过滤推荐算法，其中尚有很多函待进一步研究的问题，限于篇幅就不一一赘述。相信在未来个性化推荐研究中，我国的个性化推荐必将取得更大的发展。

参考文献

[1]余力，刘鲁.电子商务个性化推荐研究[J].计算机集成制造系统，2012，10（10）：1306-1312.

[2]刘建国，周涛，汪秉宏.个性化推荐系统的研究进展[J].自然科学进展.2009，19（l）：1-15.

[3]王宏超，陈未如，刘俊.基于客户聚类的商品推荐方法的研究[J].计算机技术与发展，2011，18（7）：212-214.

[4]程岩，肖小云，吴洁倩.基于聚类分析的电子商务推荐系统[J].计算机工程与应用，2012（24）：175-177.

[5]张娜，何健民.基于项目与客户聚类的协同过滤推荐方法[J].合肥工业大学学报：自然科学版，2011，30（9）：1159-1162.

（作者单位：1.河北大学数学与计算机学院；2.石油物探学校）

刍议基于用户聚类的协同过滤推荐算法

文档上传者

热门推荐更多>

刍议基于用户聚类的协同过滤推荐算法

文档上传者

热门推荐 更多>

热门推荐更多>