基于改进用户浏览行为个性化搜索引擎系统研究

时间:2022-06-03 07:30:18

基于改进用户浏览行为个性化搜索引擎系统研究

摘要:提出了一种改进用户浏览行为的用户兴趣模型,该模型综合考虑了用户对页面的浏览行为、用户的长期兴趣和短期兴趣。将这种改进的用户兴趣模型应用于个性化搜索引擎系统中,详述了系统的基本框架、系统基本功能模块,开发了一个演示系统IUBPSES。模拟实验显示:利用该改进用户兴趣模型的搜索引擎系统进行关键词搜索,其搜索效果优于当前主流搜索引擎系统。最后,指出了需要改进和进一步研究方向。

关键词:用户浏览行为;个性化服务;搜索引擎;用户兴趣模型;IUBPSES系统

中图分类号:TP311文献标识码:A文章编号文章编号:16727800(2013)0010008903

基金项目:河南省基础与前沿技术研究计划项目(112300410304)

作者简介:张宏亮(1978-),男,硕士,郑州航空工业管理学院讲师,研究方向为电子信息与网络通信技术;王海燕(1987-),女,硕士,郑州航空工业管理学院助教,研究方向为智能数据分析与数据挖掘。

0引言

用户兴趣模型是存储用户的兴趣偏好、存储和管理用户的行为历史、存储学习用户行为的知识和进行相关推导知识的功能集合[1]。近年来学者对个性化搜索引擎系统中的用户兴趣模型进行了广泛深入的研究,林国[2]分析了现有用户兴趣模型的不足,指出了用户兴趣模型的基本结构,提出了个性化搜索引擎中用户兴趣模型的工作过程。刘东飞[3]提出了一种基于群用户兴趣模型的加权全局相关度查询排序算法,改进了搜索引擎的排序结果,为用户提供了较准确的搜索服务。王微微[4]提出了一种基于用户行为的兴趣度模型,分析了用户的行为模式,结合用户的浏览内容发现用户兴趣。刘文杏[5]根据用户的兴趣和喜好提出了一种挖掘用户兴趣的路径浏览模型和算法,使Web服务器能更快地反馈信息,能够为用户提供更好的信息服务。郝水龙[6]提出一种基于层次向量空间模型(VSM)的用户兴趣模型表示及更新处理机制,采用基于用户浏览行为来计算用户对网页的兴趣度,快速估计网页兴趣度。郭力军[7]改进了基于RSS数据源的用户兴趣模型,模拟实验表明该改进的用户兴趣模型个性化程度较高,对用户兴趣更新及时、准确。

1改进用户浏览行为的用户兴趣模型

基于用户浏览行为的用户兴趣模型综合考虑了用户对页面的感兴趣程度和关键词在页面中的权重,充分地反映了用户的个性化特点,能够满足用户的实际需求[8]。然而,用户的兴趣偏好是经常变换的,不同时期内用户的兴趣点是各异的,笔者在本文中建立的用户兴趣模型则全面考虑了用户对页面关键词感兴趣程度和对页面感兴趣的程度,并同时兼顾到用户的长期和短期兴趣。

一般来说,用户访问的页面都是自己感兴趣的页面,用户可能在短期内对某些领域感兴趣而忽略了长期感兴趣的领域,这样势必在一段时间内会影响到用户搜索的质量和效率[910]。因此,在构建用户兴趣模型时,需综合考虑到用户的长期和短期兴趣。

2基于改进用户兴趣模型的个性化搜索引擎

用户兴趣模型通过用户的交互过程中不断获取用户的兴趣偏好,然后通过构建用户兴趣模型,对用户兴趣模型进行更新优化,将用户兴趣模型得到的信息传送给搜索引擎使搜索引擎能检索出用户感兴趣的信息,同时通过对检索到的信息与用户兴趣模型进行对比,来获取用户感兴趣页面的排名,并按照用户对页面感兴趣的程度进行排序,将页面个性化地显示出来[11]。

2.1系统基本框架

基于用户兴趣模型的个性化搜索引擎的系统框架结构如图1所示,该系统工作流程如下:首先访问用户接口模块,当用户输入检索关键词后,就进入检索模块;个性化用户兴趣模型会从用户接口模块中对用户个性化信息进行搜集;在检索模块用户可以直接输入需要检索的关键词进行查询,同时检索模块会记录下用户检索历史;个性化用户模型会从检索模块中提取用户的检索历史,然后通过对用户个性化信息的处理,反馈到检索模块,检索模块则搜索出用户感兴趣的网页文档,同时过滤掉用户不感兴趣的网页文档或者和用户行为不相关的网页文档,按相关度大小对搜索出的结果进行排序;最后将最终处理后的检索结果提交给用户。

从图1中可以看到,用户兴趣模型的信息来源于两个方面:用户的浏览行为和用户的搜索历史。根据用户浏览行为和搜索历史,来研究构建用户的短期兴趣模型和长期兴趣模型。通过建立动态用户兴趣模型,将用户感兴趣的内容快速的检索出来,同时过滤掉对用户无用的信息。把检索到的结果文档按相关度大小进行排序,将用户最感兴趣的信息反馈给用户,实现智能化、个性化的信息搜索。

2.2系统基本功能模块

(1)用户接口模块。用户接口模块提供用户注册/登录接口界面,用户输入个人信息,这些信息可以组成用户兴趣模型的默认信息,即用户初始的用户兴趣向量。用户兴趣模型可以通过用户的浏览行为和用户在一段时间内的搜索历史来建立。

(2)检索模块。用户在检索模块可以直接输入需要检索的关键词进行查询,同时用户接口模块会记录用户的检索历史,如检索关键词、访问的网址、用户的操作等。检索模块工作时首先从本地信息库中搜索用户的检索关键词,如果本地信息库中没有相关信息,则调用爬虫程序从互联网中搜集,对搜集到的相关Web网页进行相关处理,并把处理过的网页加入到本地信息库。另外检索模块根据用户的兴趣模型,对搜索到的结果进行过滤,对于用户感兴趣的文档页面,与用户兴趣模型一起计算其相关度,按照相关度大小排序后显示给用户。

(3) 用户兴趣模型模块。用户兴趣模型模块包括3个方面:搜集并记录用户的兴趣需求、建立个性化的用户兴趣模型、对检索到的结果进行过滤和排序并反馈给用户。用户兴趣模型主要用于搜集、记录、管理用户的兴趣偏好,描述用户潜在兴趣需求。

(4)本地信息收集模块。本地信息库的建立对于提高个性化搜索引擎的检索速度有极大的现实意义。当用户利用传统的搜索引擎进行检索时,提交检索关键词后,由搜索引擎的爬虫程序立即从Internet上进行Web信息搜集,或者利用元搜索引擎的同时调用多个专业搜索引擎在Internet上进行搜索,搜索到符合条件的记录后,进行相关处理并把结果反馈给用户。

本地信息库建立后,当用户利用该个性化系统进行信息检索时,检索模块首先从本地信息库中进行查询,这样查询范围大大减少,检索速度也有了很大提高。当本地信息库中没有用户所检索的关键词信息时,立即调用爬虫程序在互联网上进行搜索,并把搜索结果放到本地信息库中,检索模块对搜索到的结果进行相关处理并反馈给用户。如果本地信息库中没有用户所搜索的关键词信息,就对本地信息库进行实时更新,保证本地信息库中信息的完整性。为了保证用户搜索到时新性的信息,还要定期利用爬虫程序对用户兴趣库中已存在的关键词库所对应的Web网页信息进行更新,一般设定的更新频率为7天。

为简化算法,文中的爬虫程序直接调用了Google的爬虫程序,也就是说,用户搜索个性化是在Google搜索引擎所搜索结果的基础上,利用用户兴趣模型和用户兴趣挖掘算法进行个性化服务。

3个性化搜索引擎实验

为了验证本文所建立的改进的用户兴趣模型的有效性,我们在.NET平台下开发了一个个性化搜索引擎系统(IUBPSES),我们把改进的用户兴趣模型嵌入该IUBPSES系统中。

同时,我们还把本文改进的IUBPSES系统的检索结果与周晓兰[11]的检索结果、刘建波[11]的检索结果以及Google搜索引擎的检索结果进行了比较分析。我们把8个关键词利用上述4种系统分别进行实验对比分析,对每个关键词的检索结果均取前20个Web页面进行分析,并分别计算8个关键词在各个系统下所对应的查准率,图2是本文基于改进用户浏览行为的IUBPSES系统与文献[11]、文献[12]和Google搜索引擎的关键词查准率对比图。

从模拟实验结果来看,使用IUBPSES系统进行信息搜索,其检索效果明显优于上述提到的其它的搜索引擎系统。如图2所示,当用户兴趣存在偏好时,采用IUBPSES系统进行信息检索,其搜索效率高于未采用IUBPSES系统的其它文献中的系统。

4结语

虽然本文中实现的IUBPSES系统能够较准确地描述

用户的兴趣偏好,模拟实验结果也证实其搜索效果明显优于目前主流的搜索引擎,但本文还有很多值得改进和进一步研究的地方。

(1)在改进用户兴趣模型的基础上,使用更有效的用户兴趣挖掘算法,能够在用户兴趣挖掘更快、更准确,从而建立更符合用户兴趣偏好和用户特征的用户兴趣模型。

(2)在IUBPSES系统检索结果页面的个性化显示方面,不仅考虑Web页面和用户兴趣模型的相似度,而且可以引入更多的参数来综合考虑检索结果页面的排序,从而能让检索结果更符合用户的需求。

(3)IUBPSES系统没有对用户进行聚类和分类,对用户进行聚类和分类将会使需求相同或相似的用户划分到同一个类别里,对于相同或相近的关键词检索可推荐其他用户的检索结果,会更利于用户发现感兴趣的信息,也利于提高信息的查全率和查准率。

参考文献:

[1]MARTIN BAUTISTA M J,KRAFT D H,VILA M A.User profiles and fuzzy logic for web retrieval issues[J].Soft Computing,2003(6):365372.

[2]林国,李伟超.个性化搜索引擎中用户兴趣模型研究[J].软件导刊,2012(8):2628.

[3]刘东飞,白瑾.基于群用户兴趣模型的搜索结果排序研究[J].武汉理工大学学报,2011(6).

[4]王微微,夏秀峰,李晓明.一种基于用户行为的兴趣度模型[J].计算机工程与应用,2012(8):148151.

[5]刘文杏,张彬连.基于用户兴趣的路径发现模型的探究[J].信息系统工程,2012(6):132133.

[6]郝水龙,吴共庆,胡学钢.基于层次向量空间模型的用户兴趣表示及更新[J].南京大学学报,2012(2):190197.

[7]郭力军,朱群雄.基于RSS数据源的用户兴趣模型改进及应用[J].北京化工大学学报,2011(1):125129.

[8]李伟超,付永华.一种改进的基于浏览行为的用户兴趣模型[J].电信科学,2011(5):7781.

[9]单蓉.一种基于用户浏览行为更新的兴趣模型[J].电子设计工程,2010,18(4):6162.

[10]李峰,裴军,游之洋.基于隐式反馈的自适应用户兴趣模型[J].计算机工程与应用,2008,44(9):7679.

[11]周晓兰.Web数据挖掘中用户兴趣模型设计[J].湘潭师范学院学报,2009,31(2):5558.

[12]刘建波.基于Agent的用户兴趣模型的研究[D].沈阳:沈阳工业大学,2005.

上一篇:文本分类算法研究 下一篇:基于UML模型的选课系统设计