基于广义内容概率潜在语义分析模型的推荐

时间:2022-09-13 03:38:09

基于广义内容概率潜在语义分析模型的推荐

摘要:

针对推荐系统中存在新项目及准确性难以把握等问题,提出一种基于广义内容概率潜在语义模型的推荐方法。该方法以概率潜在语义模型为基础,引入两组潜在变量及项目特征来建立广义内容概率潜在语义模型。该模型中两组潜在变量分别表示用户群体和项目群体,项目特征根据实际情况以特征词的形式进行表示,且通过不对称学习算法完成未知参数的训练及预测。利用三个不同的数据集对所提方法进行实验验证,结果表明该方法具有良好的项目推荐品质。

关键词:

概率潜在语义;项目特征;最大期望算法;潜在变量;项目推荐

0引言

随着互联网技术的发展及普及,如何根据需求特征将符合消费期望的信息自动推荐给用户,并为其提供中长期的意向资讯,已成为基于互联网应用的重要技术发展方向之一。信息推荐技术的本质在一定程度上可理解为信息的主动协同过滤技术,该技术可以分为基于内存的协同过滤和基于模型的协同过滤。在基于内存的协同过滤技术方面,其主要研究内容集中于基于用户的协同过滤和基于项目的协同过滤。例如,Kim等[1]提出了基于协同标签的协同过滤方法来增强推荐的质量;Lee等[2]提出了两种方法共同预测的协同过滤技术提高了推荐的准确性,并且该方法对稀疏的数据具有鲁棒性。在基于模型的协同过滤研究方面,其模型主要包括贝叶斯网络[3]、奇异值分解[4]、潜在语义分析(Latent Semantic Analysis, LSA)以及概率潜在语义分析(Probabilitistic Latent Semantic Analysis, PLSA)[5-6]等。其中,PLSA作为协同过滤的方法[6]不仅具有LSA方法的优良品性,同时具有良好的概率理论基础,因此能较好满足项目推荐的信息过滤要求,但仍然存在某些不足,如在噪声干扰或在小训练样本的情况下,PLSA可能出现过拟合[7],从而影响项目推荐的准确性,并同时存在不能对新项目进行预测推荐的问题。

基于PLSA方法存在的问题,提出了基于广义内容PLSA模型的推荐方法。该方法以PLSA模型为基础,引入两个潜在变量,即用户群体和项目群体,同时引入项目的特征。广义内容PLSA模型的训练采用不对称学习的方法。实验分别利用三个不同的数据集进行,并与其他方法进行实验对比。结果表明,所提方法具有良好的项目推荐品质。

4结语

针对PLSA模型中存在的新项目难以推荐及推荐准确性较低等问题,引入了用户组和项目组两个潜在变量以及项目的特征,提出一种基于广义内容的推荐方法GCPLSA,并通过实验与GPLSA、IBCF等方法进行了对比,分别从新项目和准确性两个方面说明该方法具有良好的物品推荐品质。

参考文献:

[1]

KIM HN, JI AT, HA I, et al. Collaborative filtering based on collaborative tagging for enhancing the quality of recommendation[J]. Electronic Commerce Research and Applications, 2010,9(1):73-83.

[2]

LEE JS, OLAFSSON S. Twoway cooperative prediction for collaborative filtering recommendations[J]. Expert Systems with Applications, 2009,36(3):5353-5361.

[3]

WANG K B, TAN Y. A new collaborative filtering recommendation approach based on naive Bayesian method[C]// Proceedings of the Second International Conference on Advances in Swarm Intelligence. Berlin:Springer,2011:218-227.

[4]

杨阳,向阳,熊磊.基于矩阵分解与用户近邻模型的协同过滤推荐算法[J].计算机应用,2012,32(2):395-398.

[5]

宋晓雷,王素格,李红霞.基于概率潜在语义分析的词汇情感倾向判别[J].中文信息学报,2011,25(2):89-93.

[6]

HOFMANN T. Collaborative filtering via Gaussion problistic lantent semantic analysis [C] // Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York:ACM,2003: 259-266

[7]

张玉芳,朱俊,熊忠阳.改进的概率潜在语义分析下的文本聚类算法[J].计算机应用,2011,31(3):674-676.

[8]

MONAY F, GATICAPEREZ D. Modeling semantic aspects for crossmedia image indexing [J]. IEEE Transactions on Pattern Anglysis and Machine Intelligence, 2007, 29(10):1802-1817.

[9]

WANG X, JIN X M. Understanding and enhancing the foldingin method in latent semantic indexing[C] // Proceedings of the 17th International Conference on Database and Expert Systems Applications,LNCS 4080. Berlin:Springer, 2006:104-113.

[10]

BLEI D M, LAFFERTY J D. Dynamic topic models[C]//ICML06: Proceedings of the 23rd International Conference on Machine Learning. Washington, DC: IEEE Computer Society,2006:113-120.

[11]

FENG S L, MANMATHA R, LAVRENKO V. Multiple Bernoulli relevance models for image and video annotation[C] // Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society,2004:1002-1009.

[12]

HUANG J, KUMAR S R, MITRA M. Spatial color indexing and applications[J]. International Journal of Computer Vision, 1999,35(3):245-268.

[13]

MANJUNATH B S, MA W Y. Texture features for browsing and retrieval of image data[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1996,18(8):837-842.

[14]

LOWE D G. Distinctive image features from scaleinvariant keypoints[J]. International Journal of Computer Vision,2004, 60(2):91-110.

[15]

MIRANDA C, JORGE A M. Itembased and userbased incremental collaborative filtering for Web recommendations[C]// Proceedings of the 14th Portuguese Conference on Artificial Intelligence. Berlin:SpringerVerlag, 2009:673-684.

上一篇:电力系统经济运行分析及措施分析 下一篇:改进的混合高斯模型及阴影消除方法