基于检索日志的检索词推荐研究

时间:2022-09-01 05:33:44

基于检索日志的检索词推荐研究

[摘要]为了满足检索用户对推荐服务日益迫切的需求,结合检索词推荐需求研究推荐理论。基于三种典型推荐方法:基于内容的过滤、基于规则的过滤和基于协作的过滤,提出一种检索词的混合推荐方法,并基于检索日志构建一种“脱机预处理和挖掘、联机推荐”的检索词推荐模型。最后,在NSTL嵌入式系统上进行实证研究。基于检索日志数据,以简单检索方式下的检索词推荐为突破口,设计一套原型系统,验证检索词的推荐效果并在原型系统上检验一种改进的BWP方法的效果。

[关键词]Web日志挖掘 推荐系统 个性化 最佳聚类数

[分类号]TP311 G350

1 引言

为了满足用户对信息检索的推荐服务的迫切需求,本文基于三种典型推荐方法——基于内容的过滤、基于规则的过滤和基于协作的过滤,提出一种检索词的混合推荐方法,并从用户体验角度出发,针对现有研究的不足,构建一套基于检索日志的检索词推荐模型,以NSTL(National Science and Technology Library)嵌入式系统为实验平台,设计一套推荐效率较高、推荐效果较好的原型系统,提供相似检索词推荐、关联检索词推荐、同类用户检索词推荐三大功能,通过实验检验原型系统。

2 检索词推荐方法研究

推荐所依据的原理是数据挖掘理论。通常,推荐分为基于规则过滤、基于内容过滤、基于协作过滤以及两种方法混合的推荐方法。根据不同的个性化推荐方法,采用的挖掘算法也各不相同。本文以检索词作为推荐对象,同时考虑三种推荐方法,以满足信息检索系统用户丰富的个性化信息服务需求。

2.1基于内容的过滤

基于内容的过滤推荐技术的特点是:根据用户过去选择项目的特点,系统地为其推荐相似的项目。基于内容的过滤系统的最大缺点是用户模型的建立过度依赖于用户以前选择和点击的具体项目。研究显示,在线推荐系统对用户最有用的价值是为其推荐意想不到的项目,但是,如果只是采用内容相似性方法可能会丢失一些重要实用的关系,这些关系存在于Web对象之间,例如特定环境下上下文中常用Web对象关系发现对象之间存在的关联。

2.2基于规则的过滤

Forsati等人提出一种基于权重的关联规则算法,该算法是对传统的关联规则算法的扩展,允许交易中的每一个项目分配一个权重以反映用户对该项目的兴趣度。在结果关联规则集里,每一个项目都对应一个权重参数,根据用户的兴趣程度,为每个用户访问的Web页面分配一个时间权重和访问频率权重。实验结果表明,与传统的关联规则方法相比较,这种方法能够客观、有效地表示预测结果,对推荐系统效率有很大改进。但基于关联规则的过滤在挖掘稀有信息方面效率不高。

2.3基于协作的过滤

基于内容过滤的推荐系统根据商品内容的相似性进行推荐,而协作过滤推荐系统利用了用户的相似性进行推荐。但是,协作过滤技术也有其潜在的严重不足,最大的缺点是缺乏可伸缩性。

2.4 当前检索词推荐研究的不足

当前解决推荐方法不足的研究热点是采用混合推荐算法,目的是提高推荐的精度。Burke提出的方法是混合基于内容和基于协作两种过滤技术,通过丰富变量的方法生成推荐系统,旨在提高推荐的质量。有的混合推荐系统,例如Ardissono等人提出的用户建模和个性化推荐技术,通过收集多种用户偏好的信息,采用多种异构推荐技术予以实现。这种方法越来越多地被用于各种个性化服务研究中,例如,Nima等人关于Q-learning的Web推荐系统研究,Chen等人的混合手机新闻推荐系统的普适访问研究,李秦等人的混合基于内容和基于规则的检索推荐系统研究。但是,仅采用上述一种或两种方式的推荐无法满足用户日益增长的个性化信息服务需求。

2.5 一种同时采用上述三种方法的混合推荐方法

考虑到上述三种推荐方法各自存在一定的局限性,为了使信息检索系统的个性化推荐更加有效,尽可能向用户提供丰富的个性化服务,本文提出一种同时采用上述三种推荐方法的混合方法。在用户检索时,信息检索系统同时向用户推荐基于内容的、基于规则的、基于协作的三种过滤结果,即相似检索词、关联检索词、同类用户检索词。

对于信息检索系统用户而言,基于内容的检索词过滤是指用户在使用检索服务时,输入各种感兴趣的检索词,这些检索词中彼此有些是相似度较高的,可以推荐给用户。涉及到的技术包括数据预处理、聚类和推荐。首先要将检索词从服务器日志中清洗出来,进行中英文分词后,得到检索词的最小词集合,停用其中的英文小品词(如:at,in,on)、标点符号等无用的词,得到有效的词集合。为了方便聚类,还需要将有效词集合转化成文本向量,这样就将字符串数据转化成了实数数据。然后,对向量进行聚类,将聚类的结果与原始的检索词对应起来存到数据库中。当用户所输入的检索词与数据库中某类检索词相同时,就向该用户推荐该类检索词中出现频率最高的其他检索词。

基于规则的检索词过滤是指同一用户在使用检索服务时,输入的检索词可能具有内在联系,当用户再输入某个检索词时,可以推荐同时出现频率较高的其他检索词,涉及到的技术包括数据预处理、关联规则和推荐。注册用户使用检索服务时,登录后其用户身份可以被识别,然后再检索,数据的预处理对象选择用户登录日志,这就需要对日志依次进行清洗、用户识别、会话识别,处理成关联规则可以操作的字符串(检索词)集合。其中,用户识别采用了用户ID作为标识,会话识别采用通用的30分钟。然后,用关联规则分析会话,挖掘出强关联规则存入数据库。当用户输入的检索词与数据库中某条规则中的检索词相同时,就向该用户推荐该条规则中其他检索词。

基于内容的检索词过滤是指用户在使用检索服务时,根据其检索词分析用户的兴趣,建立用户模型,并将相似用户聚类。一旦用户登录,可以向用户推荐同类用户感兴趣的其他检索词。涉及到的技术包括数据预处理、聚类和推荐。首先,从服务器日志中将检索词按照注册用户ID(作为索引)清洗出来,以,形成用户向量。在聚类后,将聚类结果以存储到数据库中。当注册用户登录时,用该用户ID到数据库去匹配已经完成聚类建模的用户模型库,推荐相似的其他用户使用的频繁检索词。

3 基于检索日志的检索词推荐模型研究

本文讨论的检索词推荐基于数据挖掘技术,着眼于用户在使用信息检索服务时记录在服务器日志中的检索信息。然而,目前的检索词推荐模型在用户使用效率上还存在改进空间。

文献[11]采用的检索推荐是基于用户一段时期内的检索请求形成的,虽然在一定程度上可以减轻用户的负担,但向用户推荐时的算法需要匹配的信息较多,耗时较长。Cyrus Shahabi和Yi—Shin Chen设

上一篇:永远的海雷吴海燕 下一篇:基于数据的中医药知识服务研究