我的搜索听我的

时间:2022-08-21 04:25:03

我的搜索听我的

[摘 要]提出一种基于用户兴趣的个性化检索方法,结合分类法的思想,用“分类”代替“关键词”表示用户兴趣,改进信息过滤的方法,优化检索结果,使其更加符合用户的需要,实现基于用户兴趣的个性化信息检索。此外,开发基于用户兴趣的个性化检索系统,并进行相关实验,验证该方法确可明显改善检索效果。

[关键词]个性化检索 用户兴趣 检索系统

[分类号]TP391

1 引 言

传统信息检索技术满足了人们一定的检索需要,但受通用性限制,无法满足用户一些复杂的查询需求。随着信息爆炸出现,人们对检索系统的功能、智能化程度以及检索效果有了更高的要求,希望能提供更准确、更精炼和更符合个人需要的检索结果。

个性化检索是一种新的检索思想,它不同于传统的检索方法,而是真正以用户为中心,以用户的实时需求为出发点,以用户的个性化特征为参照,以个性化的手段和方式来服务,并提供个性化的检索结果。其特点是将“个性化”这一理念贯穿整个检索过程,并以用户的反馈来调整检索服务的手段和方式。个性化检索系统需要收集并分析用户信息,学习用户的兴趣,进而更准确地理解用户的检索需求,实现主动推荐,为用户提供更加优质的服务。

基于用户兴趣的个性化检索系统的研究和实现,已经成为检索系统发展的迫切要求和必然趋势。

2 研究现状

目前,个性化检索是信息检索领域的热点和难点。这一领域的研究范围很广,涉及到的问题也很多。许多学者从不同的角度,提出多种技术方法,主要有:①网络数据库技术(Web Database),构建用户等相关数据库;②过程跟踪技术(Process Tracking),如Cookies技术等;③技术(Agent),指在分布式系统中持续自主地发挥作用的计算实体,它具有独立性、自主性和交互性等特性,借助,可以很好的完成用户与系统的交互;④数据挖掘技术(DataMining),从海量数据中采掘出隐含的、先前未知的、对决策有潜在价值的知识和规则,并根据这些规则,预测用户即将发生的行为;⑤推送技术(Push),根据用户定义的准则,自动搜索用户感兴趣的信息,并主动传递至用户指定“地点”;⑥信息过滤技术(Information Filtering),信息过滤是一种用来过滤大量信息流,为用户提供相关信息子集的技术。信息过滤可以分为:基于规则的过滤、基于协作的过滤、基于内容的过滤,它们的目标都是根据用户模型将最有价值的信息自动推荐给用户,并最大限度地节省用户的阅读时间。

3 用户兴趣模型

本文在向量空间模型的框架下探索基于用户兴趣的个性化信息检索方法。

假设文档集合D中的文档总数为N,任一文档∈D,都可以表示为t-维向量的形式:

dj=(w1j,2j,wtj)

其中,t是索引词的个数,向量分量wij代表第i个索引词Ki在文档dj中所具有的权重。

3.1用户兴趣获取

用户兴趣信息的获取,是指采用特定的方法获取能够反映用户兴趣的信息,以生成能表示用户兴趣的特征文件,即用户兴趣剖像。如果用户经常访问某一页面或文档,或者用户在某一页面或文档上停留较长的时间,则说明用户对该页面或该文档感兴趣。这表明,用户对检索结果的访问情况等用户行为能够反映用户的兴趣。为了学习用户的兴趣,可以使用计算机对这些访问信息进行跟踪和记录并进行挖掘,从中抽取出能反映用户兴趣的信息,进而生成用户兴趣剖像。

3.2用户兴趣表示

将获取到的用户兴趣信息用向量或图形的方法进行形式化的表示,即形成用户兴趣剖像。它存储在计算机上,是高度结构化的,并且能够自动生成和动态更新。本文提到的用户兴趣剖像或兴趣剖像均指用户个人兴趣剖像。建立用户兴趣剖像是实现个性化检索的基础和关键。

3.2.1用户兴趣树在多数检索中,用户其实是对某一主题感兴趣。如果用户对检出的某篇文档感兴趣,则他对同一主题的其它文档应当有相同的兴趣。而分类法中同一类目下的文档拥有相同的主题,因此借助分类目录来表示用户兴趣,并将其映射为树状结构,即用户兴趣树(见图1)。用户兴趣树中的节点表示类目。在实际检索中,用户对每个分类的兴趣并不相同,因此在兴趣树中,代表用户兴趣度的节点权值也不同。

对语料库中的文档进行分类,则每篇文档均包含在兴趣树的某一节点中;相应地,兴趣树中每篇文档都有其“兴趣路径”。如图1的兴趣树中,文档《姚明伤愈复出重返火箭》的兴趣路径是:体育-篮球-NBA。

文档的兴趣相关因子表示用户对这篇文档的偏好程度,

h1是生命周期参数,这里选取的是6,d表示计算衰减的日期,dpre表示最后一次访问结点的日期。当该结点再次被访问时,周期重新开始计算,即被访问的这一天为第一天。这样避免了过去兴趣对当前兴趣的误导。

3.5个性化检索流程

当用户提出检索请求时,系统将首先提炼出用户的提问向量q,并计算用户的提问向量q与倒排文档中的文档向量dj之间的相似度,记做文档相关因子I,并取出I值最高的前m篇文档;接着,系统从用户兴趣剖像库ui中提取出该用户的兴趣剖像ui,并计算相关文档的兴趣相关因子JI根据已经得到的文档相关因子I和兴趣相关因子J,系统将得出文档dj与提问向量q的兴趣相似度:

SCOREi=(1-α)*I+α*J

其中,α叫做兴趣权数,α∈[0,1],反映了文档的兴趣相关因子对结果的影响程度;然后,系统按计算出的SCOREi的大小对这m篇文档进行排序,然后在界面上显示出来,并优先推荐这m篇文章中与用户兴趣相关的文档;最后,系统跟踪和记录用户对检索结果的访问情况,并更新该用户的兴趣剖像(见图2)。

4 实验与分析

上述模型的理论分析说明,基于用户兴趣的个性化检索系统能够有效的提高检索效率。为了验证这一推论,本文开发了一个基于用户兴趣的小型个性化检索系统――P-Search新闻检索系统。系统测试语料库从新华网、新浪新闻、搜狐新闻、网易新闻等新闻源随机采集了1000条新闻,并且将这些新闻语料按照预先定义好的分类体系进行了分类。开发中简化了用户兴趣迁移的计算,只跟踪用户最新的访问记录,并依此生成兴趣树,计算兴趣相关因子。该系统在普通PC机上WindowsXP环境下运行,具备普通检索和兴趣检索两种功能。

・实验原理不同的用户有不同的兴趣,即使使用同一检索词进行检索,结果也应该有所不同。这些检索结果的差异,

应该恰好反映用户的兴趣。

・实验步骤用户1、用户2和用户3有不同的兴趣:用户1偏好于NBA比赛,用户2关注CBA比赛,用户3则更关心奥运比赛。三个用户分别使用“姚明”做检索词进行三组检索实验,同时,使用“姚明”做检索词进行普通检索,作为对照实验。

・实验结果各组实验检出的前15篇文档在相关类中的分布情况如图3所示:

・分析不难看出,普通检索对于相同的检索词,无论检索用户是谁,都只能得出相同的检索结果。不同于传统的检索系统,兴趣检索时,不同的用户使用相同的检索词进行检索,结果呈现出差异。用户1对NBA感兴趣,他的检索结果前15条记录中,体育一篮球一NBA类目下的记录条数为7,明显高于用户2、用户3以及无兴趣影响时的记录数。对CBA感兴趣的用户2,在检索中得到了5条关于CBA的新闻,而用户1和用户3却只得到2条。关心奥运的用户3得到了5条关于奥运的新闻,明显多于用户1的1条和用户2的2条。

显然,用户兴趣影响了检索结果的优先推荐,导致了不同用户最终检索结果的差异。这种差异恰好与他们的兴趣一致,这说明,检索结果的差异恰好反映了用户的兴趣。

系统会自动跟踪和记录每个用户对这些检索结果的访问情况,以此为依据更新每个用户的兴趣剖像。如果每个用户都只访问他们感兴趣的新闻条目,他们的兴趣取向就会更加明确。重复这个检索实验时,普通检索只能返回与本次相同的检索结果,可是兴趣检索时用户1、用户2和用户3的检索结果差异却会更加明显。可见,跟踪的检索记录越多,用户兴趣积累越充分,用户兴趣对检索结果的影响就越明显。

5 结语

本文结合信息分类的思想,用“分类”代替“检索词”表示用户兴趣,改进了信息过滤的方法,优化了检索结果,使其更加符合用户的需要,实现了基于用户兴趣的个性化信息检索。

此外,本文还开发了基于用户兴趣的个性化检索系统――P-Search新闻检索系统,并进行了相关实验,证明这种检索方法确实明显的改善了检索效果。

所提出的信息检索方法借鉴了相关研究的优点,同时也弥补了一些不足,主要体现在以下两个方面:

・分类体系与人类的知识体系非常相近。将同一主题的文档聚集在一起成为一个类,并使用“类”代替“检索词”表示用户的兴趣,一方面能够解决“一词多义”的问题,更加准确的把握用户的兴趣,使检索结果更加符合用户的需要;另一方面,“类”的数目远远小于“检索词”的数目,也大大压缩了用户兴趣向量的维数,降低了检索算法中时间和空间的复杂度,明显的提高了检索效率。

・使用兴趣路径上各节点权值的和作为兴趣相关因子,可以保证下级类目的兴趣相关因子的值总是不小于上级类目的兴趣相关因子,使专指度高的文档更容易被检索出。兴趣相关因子的这种构造还考虑到了相关类目在知识体系上的联系。用户访问某一节点后,此类目以及相关类目的兴趣相关因子的值都会增加。这照顾到了用户兴趣在知识体系中的关联性,更加符合用户的思维习惯。

同时,本文对分类体系的建立、文档相关因子与兴趣相关因子的拟合、用户兴趣的迁移函数等问题的研究还不够充分,这些问题仍值得进行深入的思考。

上一篇:图书馆用户满意度测评流程与技术分析 下一篇:积极心理学与图书馆