一种基于词间关联规则挖掘的查询扩展方法

时间:2022-10-07 04:34:28

一种基于词间关联规则挖掘的查询扩展方法

[摘 要]针对现有信息检索系统中存在的词不匹配问题,提出一种基于词间关联规则的查询扩展算法,该算法利用现有挖掘算法自动对前列初检文档进行词间关联挖掘,提取含有原查询词的词间关联规则,从中提取扩展词,实现查询扩展。实验结果表明,该算法能改善和提高信息检索系统性能,具有很高的应用价值。

[关键词]查询扩展 关联规则 局部反馈 信息检索

[分类号]TP391

1 引 言

查询扩展是提高和改善信息检索性能的核心技术之一,指的是利用计算机语言学、信息学等多种技术,把与原查询相关的词或者词组添加到原查询,得到比原查询更长的新查询,然后再次检索文档,以改善检索系统的查全率和查准率,弥补用户查询信息不足的缺陷。传统的查询扩展技术主要有全局分析的、局部分析的查询扩展。全局分析的查询扩展是对全部文献中的词或词组进行相关分析,计算每对词或词组间的关联程度,将与用户查询关联程度较高的词或者词组加入原查询生成新查询,其主要技术有全局聚类算法、潜在语义索引(LSI)和相似性词典等。基于局部分析的查询扩展主要是利用初检文档中与原查询最相关的n篇文档作为扩展词的来源,主要有局部反馈的、用户相关反馈的和基于局部上下文分析的查询扩展等。

本文从数据挖掘的角度研究查询扩展,提出一种基于词间关联规则挖掘的查询扩展算法,该算法自动对前列初检文档进行词间关联挖掘,提取含有原查询词的词间关联规则,从中提取扩展词,实现查询扩展。实验结果表明,该算法能改善和提高信息检索的查全率和查准率,与未进行查询扩展时比较,采用本文查询扩展算法后,平均准确率提高了13.34%,与传统的局部上下文分析查询扩展算法比较,其平均准确率提高了4.87%。

2 基于词间关联规则的查询扩展算法

2.1算法基本思想

首先对用户查询采用传统的向量空间模型检索算法(即tf*idf算法)对文档集初检,然后,对局部前列初检文档进行词间关联规则挖掘,提取含有原查询项的关联规则构建规则库,从库中提取扩展词添加到原查询中构建新查询,实现查询扩展。

2.2 面向查询扩展的词间关联挖掘及其剪枝策略

在向量空间模型中,将文档视为事务,将语词看作是事物项,即特征项,则可以运用关联规则挖掘算法对基于向量空间模型的文本数据库进行词间关联规则挖掘。查询扩展的核心问题是如何找到与原查询相关的扩展词。针对查询扩展的特点,我们在文献的关联规则挖掘算法基础上给出了面向查询扩展的词间关联规则挖掘的基本思想,即:用文献的挖掘算法对文本数据库只挖掘含有原查询项的词间关联规则,让候选项集减少到最低程度,提高挖掘效率。为此,在原算法的剪枝策略基础上,增加两种剪枝策略:一是将频度为O的候选项集剪掉,因为频度为O的候选项集不可能成为频繁项集,二是从候选2_项集开始,将剪掉不含原查询项的候选项集,只保留含有原查询项的候选项集。

2. 3扩展模型和扩展词权重的计算方法

本文采用的查询扩展模型为:原查询词扩展词(sup,conf)。即规则前件是查询项集合,后件是扩展项集合。sup是关联规则支持度,conf是关联规则置信度。在查询扩展中,原查询项永远是最重要的,是最能反映用户查询意图的,应该具有最高的权重。扩展词的重要性不会高于原查询语词。为了体现这种思想,在进行查询扩展时,本文将原查询项语词的权重设置为2(设置为2的原因主要是和文献的算法进行实验比较),扩展词的权重置为0到l之间的值(包括0和1),即扩展词权重计算公式如下:

原查询相关的扩展词,计算其权重,实现查询扩展,进行第二次检索,并返回结果。

3.3实验结果及其分析

将本文查询扩展算法(即BARBTQE算法)和基于局部上下文分析的查询扩展算法(即LCA-Based QE)进行检索性能比较。两种算法分别对所设计的10个查询在相同的测试文档集中进行检索,统计这10个查询的平均准确率(MAP)。表l表示分别采用BARBTQE和LCA-Based QE两种扩展方法后的检索性能。其中“No Expansion”列表示不进行查询扩展时的检索性能(即初始检索结果的检索性能),其他两列表示相应扩展方法的检索性能以及与“No Expansion”相比时改进的百分比。

从表1中可以看出,与未进行查询扩展时相比,两种查询扩展方法的检索性能都有显著的提高,然而,本文BARBTQE算法的提高幅度最为明显,其平均准确率(MAP)比传统的向量空间模型tf*idf算法(No Expansion)的提高了13.34%,而比LCA-Based QE算法的提高了4.87%。实验结果表明,本文算法的检索性能确实获得了明显的提高,比传统的查询扩展效果好。主要原因是本文算法引入了查询扩展机制后,具有明显歧义性的短查询词通过扩展词可以达到消歧作用,同时还能检索到原始短查询中所不能检索到的文档。

4 结论

在信息检索中,查询扩展是改善和提高其检索性能的关键技术之一。本文提出了一种基于词间关联规则的查询扩展算法,该算法利用现有挖掘算法自动对前列初检文档进行词间关联挖掘,提取含有原查询词的词间关联规则,从中提取扩展词,实现查询扩展。实验结果表明,该算法能有效地改善和提高信息检索系统的查全率和查准率,具有很高的推广应用价值。

上一篇:关于做好图书馆细节服务的思考 下一篇:国家科技图书文献中心美国Syracuse大学联合举...