中文网页信息检索测试集的构建、分析及应用

时间:2022-08-02 09:48:30

中文网页信息检索测试集的构建、分析及应用

摘要:随着www的迅速发展,Web信息检索技术成为研究者广泛关注的话题,但缺少合适的测试评测机制制约了中文网页信息检索技术的发展。参考国外测试集的构建经验,我们构建了大规模中文网页信息检索测试集CWT,并组织了SEWM中文网页检索评测,希望在国内外各个研究小组的共同参与下建立并完善CWT,一起推动中文网页信息检索技术的发展。本文在调研和分析国内外现有研究进展的基础土,详细介绍了CWT的构建原则和方法,并对CWT进行了有效的统计分析和实验研究。本文提出的构建测试集的方法为以后的研究提供了参考。

关键词:计算机应用;中文信息处理;CWT;信息检索;评测;测试集;文档集

中图分类号:TP391

文献标识码:A

1 引言

信息检索评测对系统的研究、设计与发展一直有着显著的影响力。早期检索系统评测最著名的研究是Cleverdon在20世纪50年代末期开始进行的Cranfield实验,它开创了以测试集及评测指标来评测系统的模式。目前国际上比较著名的TREC会议在信息检索评测领域起到很好的示范作用,跨语言评测论坛CLEF、NTCIR会议等都是专注于信息检索评测的。

缺乏大规模的中文网页测试集制约了中文检索技术的发展,为了改变这种局面,参考TREC多年的成功经验,我们构建了大规模中文网页信息检索测试集CWT(Chinese web Test collection),从2004年开始在全国搜索引擎和网上信息挖掘学术研讨会(Symposium of search Engine and web Mining,简称SEWM)上,举办了中文网页检索评测项目,即SEWM中文网页检索评测,主要目的是通过网页测试集研究各种检索技术的优劣,以改进检索系统在真实网页环境下的性能。评测有两个任务:TD任务(Topic Distmation,主题提取任务)和HPNP任务(Home Page finding task/Named Page finding task,导航搜索任务)。这两个任务能够较好地反映网页检索中的用户需求。HPNP任务混合了主页查询(HP)和指定页面查询(NP)两个子任务。

本文共五节,第二节介绍CWT的构建方法、过程及构建结果;第三节对CWT的三个组成部分分别进行了分析;第四节简单介绍了SEWM评测情况;最后是本文的总结和工作展望。

2 CWT的构建

CWT测试集包括文档集、查询主题集和相关文档集三个部分。测试集的构建遵循的原则是:CWT的文档集是整个Web的一个子集,由于Web的复杂性,文档集不可能具有真实Web的所有特点,但是应根据需要在较多的方面模拟真实Web,要求文档集应该具有广泛的主题内容,同时具有较大的规模;在构建主题集时,应该构建足够数量的主题,这些主题涉及的领域尽可能全面,且难易度比较均匀;相关文档集在测试集中是比较重要的环节,应该具有较高的质量,才能使评测具有较高的可靠性。

2.1 文档集的构建

为了构建一个高质量的网页测试集,文档集应该能很好的体现真实Web环境的特点,应该具有广泛的主题内容,并且具有较大的规模。Kennedy和Huang等人对文档集的代表性提出了三个问题:1)文档集应该静态采集还是动态采集?2)文档集相对于文集的代表性有多大?3)能够满足一般和特殊信息检索研究的文档集应该多大?

对于第一个问题,我们采用静态采集方法来构建。对于搜索引擎,动态采集可能更好一些,但是对于测试集来说,动态采集策略会给信息检索系统的评测带来很多的不便。

对于第二个问题,要使文档集具有代表性,首先要让文档集具有一定规模,能够容纳相当数量的网页;其次,文档集要覆盖尽可能多的主题,保持内容上的多样性。另一方面,如果一味增大测试集的规模,将会使相关判断工作耗费非常大的人力。因此我们必须在代表性和规模之间做出权衡。

对于第三个问题,CWT文档集大小的设定,更多的是考虑到数据易用性。考虑到2004年到2007年间,IDE硬盘的价格可接受的范围,我们将数据集的规模分别设定为100GB和200GB。

CWT100g文档集的大致构建过程如下:以天网搜索引擎截至2004年2月1日发现的中国范围内提供Web服务的1 000 614个主机为基础,经过无效站点过滤、消除垃圾网站和消除重复网站等步骤后,得到一个新站点列表,根据Zipf法则从中采样17683个站点,然后到Internet上去抓取这些站点上的网页,抓取时没有限制单个网站的抓取容量。抓取某个网站时如果生成的日志文件超过2G,就不再抓取该站点的网页。在2004年6月搜集获得5712710个网页,包括网页内容和Web服务器返回的信息,容量为90GB。

CWT200g文档集是在CWT100g构建经验的基础上,针对CWT100g中所存在的问题进行改进并构建的新文档集。CWT100g和CWT200g在抓取程序和抓取策略、消重环节、站点采样时机及数据保存格式等方面略有不同。

我们还构建了CWT20g,它是CWT200g文档集的一个子集。文档集中每个网页对应的服务器返回信息中的MIME类型都是“text/html”或者“text/plain”。表1给出了CWT文档集的构建结果,包括文档集的时间、容量、覆盖的网站数、网页数及网站平均网页数。

2.2 查询主题集的构建

SEWM评测每年都会构建一些新主题,包括约70个TD主题和300个HPNP主题,为了使主题的描述方式等方面具有一定程度的一致性,主题集每年由2~3位专门的构建人员来构建。历年构建的TD主题按顺序编号,从1开始,至今已经编号到285。HPNP主题也是从1开始编号,至今已经编号到1185,其中NP、HP主题约各占一半。

通过四年组织SEWM评测的实践经验,形成了构建主题的一般流程,介绍如下:

1)分工。首先确定计划构建主题数,将其平均分配给两个或三个人来构建。将主题划分成多个领域类别,每人负责其中若干类别的主题。

2)统一工作进度,确定主题选取尺度及主题格式。

3)各构建人员构建主题。根据自己认为的主题好坏程度排序主题,较好的主题排在前面。

4)集中统一主题。构建人员一起整理由步骤3)得到的主题,得到最终的主题集。

下面将分别介绍TD主题和HPNP主题的具体构建方法。

2.2.1 TD主题的构建

TD主题格式示例如图1,其中,“TD”表示TD任务主题,hum域表示主题编号,title域表示查询主题的标题,description域是对主题作的尽可能全面的简短解释,指出了可能与该主题相关网页的内 容有哪些,同时作为后续相关判断的参考。

TD主题的选取尺度和方法如下:

1.构建人员从天网搜索引擎提供的查询日志中选取属于所分配类别的主题,或者自己根据已有的知识来构建主题。由于查询日志比较大,对日志中的每个条目进行查看比较费时;根据自己的知识来构建则受到知识水平的限制。因此采用了一些辅助方法:

1)借助搜索引擎的网页分类目录功能,在各子目录或网站的描述中选取符合要求的主题。

2)让搜索引擎用户贡献查询主题,构建人员从中选择。

2.为了使构建的主题难易适中,需要根据主题在检索系统中的返回结果数作为选择主题的参考。我们对CWT数据建立了索引并提供检索服务,可以查看某个查询词的检索结果的数目,过多或过少都不合适。根据TD任务的特点,要求返回结果应该有一定数量的主题网站。

3.对选定的主题按照已定的格式组织。对主题构建恰当的描述,以一句话或两句话为宜。

4.构建若干英文主题。考虑到是在中文文档集下的搜索,所以用到的英文主题应该是已经融入生活中的常见概念,而不是生僻的词汇和概念,所以选取了“GRE”、“Delphi”等词。

2.2.2 HPNP主题的构建

HPNP主题格式示例如图2,其中,图(a)是HP主题,图(b)是NP主题。num域是主题编号,HP和NP主题编号前统一用NP来表示。title是查询主题,表示了用户的查询需求。

一般情况下,一个HPNP主题的相关文档是唯一的。在构建HP查询主题时,通过CWT文档集的辅助浏览工具随机生成个页面。对随机产生的页面,首先判断它是否是一个真正的主页,如果它是一个主页,就要对该网页进行恰当的描述,这样就构建了一个HP查询主题,如果不能很好地描述则舍弃该主题。而对于NP查询主题,也要先找到一个合适的主页,然后顺着该主页上有意义的超链接访问CWT中的网页,直到找到一个合适的网页,对该网页进行描述后构建一个NP主题。如果网页的内容过于普遍化,则舍弃该网页。

主题构建好后,需要到CWT检索系统中进行测试,保证该主题对应的答案网页能被检索到,并检查检索返回结果中可能相关的网页有多少。如果存在多个URL指向同一个网页,则根据规定多个URL都是正确答案;如果多个URL指向相同内容的不同网页,则该主题不是恰当的主题,应该舍弃。

2.3 相关文档集的构建

HPNP任务的相关文档集在构建主题时就已经构建好,因此只需要对TD任务构建相关文档集。为了减少相关判断人员的工作量,采用了Pooling方法来辅助构建,对每个主题得到一个特定大小的Pool。Pool中的网页在排列时是根据网站排列的,同一站点的网页排列在一起,这样评测人员就不知道待相关判断网页被多少个系统检索到,也不知道网页在检索结果中的排序,在进行判断时可以不受检索结果的影响,同时由于TD任务的特点,同网站的排列在一起可以适当减少相关判断的工作量。

如果参加者提交的检索结果太少,Pooling方法构建得到的Pool可能就不够具有代表性,为了弥补这个缺陷,在SEWM-2004相关判断时采用了Pool-ing plus的方法,即将搜索引擎转换为虚拟参赛队,参与结果集合成。

相关判断的质量在测试集的构建中起着很重要的作用,为了保证相关判断的质量,在人工相关判断时采用了初步评测和检查两个阶段。初步评测通过招募人员的方式完成,“检查”环节主要目的是修正初步评测中的错误情况,主要是招募天网组内有经验的同学来完成。

3 CWT分析

为了考查CWT测试集的质量,本节分别对CWT测试集的三个部分进行了分析。首先考查了文档集的网页规模分布、网页出度分布;然后分析了TD主题长度及主题难易度;最后对相关文档集的质量进行了分析。

3.1 文档集分析

网站规模服从Zipf分布。图3给出了CWT文档集的网站规模分布对数图,横轴是网站拥有的网页数,即网站规模,纵轴是网站数。从图(a)中可以看出,CWT100g中规模较小的网站较少,去除这部分站点后的分布是服从Zipf分布的;从图(b)中类似直线的分布可知,CWT200g是服从Zipf分布的。

中国Web上网页出度分布服从幂级数规律。图4给出了CWTl00g和CWT200g上的网页出度分布对数图,其中,横轴表示网页出度,纵轴表示网页数。从类似直线的分布可知,CWT文档集的网页出度近似服从幂级数规律。

3.2 主题集分析

本文主要从主题长度及主题难易度两个方面对TD主题的代表性进行了分析。

3.2.1 TD主题长度

我们从字数、词数及词性的角度对TD主题的长度进行了分析。在分析时去除了全部由英文单词构成的主题。分词时采用的是中科院中文分词系统ICTCLAS,版本0.9。对历年构建的主题进行分析,参与分析的主题数分别是47566555个。

图5给出了SEWM四年评测中TD主题字数的统计结果,横轴表示主题字数,纵轴表示主题占总主题数的百分比。从图中可以看出,字数为4的主题最多,约占总主题数的60%~75%,字数为2、3和5的主题占的比例差不多,字数为6和7的主题数最少。主题平均字数为3.92。

图6给出了SEWM四年评测中TD主题词数的统计结果,横轴表示主题词数,纵轴表示主题占总主题数的百分比。从图中可以看出,由2个词组成的主题最多,约占总主题数的70%左右,其次是由1个词组成的主题,3个词组成的主题最少。主题平均词数为1.89个。

从词性的角度对主题进行统计分析发现,中文主题大部分都是名词或名词词组。

从上面的统计分析可以看出,TD任务的主题主要是由4个汉字、2个词构成的名词或名词词组。构建的主题比较规范,因此不存在查询日志中那些比较繁杂的查询词。考虑查询日志中去除繁杂的查询词后查询词的长度统计规律,我们构建的主题集与其相似。这个特点对以后构建主题有指导意义:对查询日志进行预处理,保留3~5个汉字且由2个词构成的主题,从这些主题中构建主题可以提高构建效率,再适当构建其他个数汉字组成的主题即可。

3.2.2 TD主题难易度 本节对SEWM三届评测中TD主题难易度进行了分析。对于一个主题,用所有提交结果在该主题上AP得分的最大值来衡量该主题难易度。AP越大,主题越简单;反之,主题越难。

图7给出了三年评测中的TD主题难易度,横轴表示TD主题排序后的序号,按照主题在测试集上的难易度排序,纵轴表示主题的AP得分最大值。从图中可以看出历年AP得分的变化,除了SEWM一2006中CWT20g上两个最大值为1的主题,其他主 题在SEWM-2005、SEWM一2006和SEWM-2007的得分区间分别为:0.07~0.67、0~0.64和0.02~0.52。

从图中类似直线的分布可以看出,主题难易度是均匀分布的,兼顾了难、中、易三类主题,查询主题集是具有可用性的。

3.3 相关文档集分析

由于相关判断在测试集的构建中起着极为重要的作用,因此对相关判断质量的评测也是必要的,评测指标一般采用的是完整性和一致性。完整性是指测试集中的所有相关文档被找到的程度。一致性是指不同的相关判断人员相关判断结果的一致程度。

这里只对TD任务的相关判断进行分析,HPNP任务不需要进行分析。

3.3.1 相关文档集完整性 在构建Pool时,考虑两个大小分别为p1和p2的Pool,其中p1<p2,大小为p2的Pool得到的相关文档集包含从大小为p1的Pool得到的相关文档集,那些在第二个相关文档集中且不在第一个中的n个相关文档为新发现的相关文档。为了考查Pool大小增加时新发现的相关文档出现的速率,分别对SEWM-2006和SEWM-2007的数据进行了分析,见图8。从图中可以看出,随着Pool大小的增加,新发现的相关文档数逐渐减少。

对图8中的值进行函数拟合,并将Pool大小外推到无限大,然后计算曲线下的面积,从而可以估计总相关文档数。采用的函数是:

n=aebp+cedp

其中,a、b、c和d是常数,p是Pool大小,n为新的相关文档数。对SEWM-2006拟合得到的结果是:a=165.7;b=-0.002 848;c=509.9;d=0.033 02。对SEWM-2007拟合得到的结果是:a=603.9;b=-0.016 83;c=113.3;d=-0.000 932 4。拟合曲线见图8。对总相关文档数估计的结果是:SEWM-2006总相关文档数是2 738个,SEWM-2007总相关文档数是2 805个。

可见,SEWM评测能够发现大部分的相关文档,SEWM-2006和SEWM-2007的相关判断完整性分别约为80%和66%;SEWM-2006中的Pool比SEWM-2007中的小,但是相关判断完整性较高,说明相关判断完整性除了受Pool大小的影响外,也与参与Pooling的检索系统性能有关。

3.3.2 相关文档集一致性

采用SEWM-2005中的数据来考查一致性。两个不同的相关文档集的一致性可以用它们之间的重叠度来衡量。重叠度定义为两个相关文档集的交集与并集的比值。

从2.3节我们知道,相关文档集的构建有两个步骤,这样可以得到“初步结果”和“检查结果”两个相关文档集。我们考查了这两个不同相关文档集的重叠度,并用它们分别来评测12个提交结果,考查了评测结果的相关性。两个评测结果序列之间的相关性采用Kendall值来衡量,一般认为相关性在0.9以上的评测结果是等价的,而相关性小于0.8时评测结果存在显著的不同。结果见表2,从表中可以看出,相关判断的“检查”环节是必要的。

4 SEWM、中文网页检索评测

参考TREC多年的成功经验,SEWM会议从2004年开始包含了一个中文网页检索评测项目。这个评测给国内的信息检索研究者提供了一个标准的评测平台,在该项评测中,使用的测试集是中文网页测试集CWT100g,CWT 200g和CWT20g。中文网页检索评测至今已经连续举办了四届,参加评测的单位有数十家。历年评测的数据都放在评测网站/上,包括历届的评测通知、评测指南、查询主题集、相关文档集、参加评测单位提交的检索结果及评测大会上的技术报告等,另外我们还提供了链接提取等工具。为了减少参加者的工作量,降低数据处理的难度,还提供了一些常用的辅助工具,比如有顺序读取CWT中网页数据的程序、从CWT中提取链接和超文本的程序以及评分程序等。

我们对TD任务和HPNP任务的历届评测结果进行了统计分析。在TD任务中,SEWM-2007与前三年相比评测指标的得分比较低,原因可能是SEWM-2007中TD主题的难度较大;R-Precision的最大值为0.225,P@10最大值为0.351,MAP最大值仅有为0.193,从这些得分可以看出,针对TD评测任务的检索技术还有很大的改进空间。在HPNP任务中,SEWM-2004中MRR得分最低,最大值仅为0.486,后三年的得分变化不大,最大值都在0.8左右,主要原因是第一年在构建HPNP主题词时,对网页的title和正文的标题改动较大;从后三年的得分可以看出,针对HPNP任务的技术相对TD任务较成熟。

5 结论

本文的工作和结论总结如下:1)构建了大规模中文网页信息检索测试集CWT,介绍了测试集的三个组成部分文档集、查询主题集和相关文档集的构建过程,实施过程致力于使得测试集具有较高的质量。本文提出的构建测试集的方法为以后的研究提供了参考。2)考查了测试集的质量,研究结果表明CWT测试集具有可用性,能作为进一步信息检索与评测研究的基础。3)组织了SEWM中文网页检索评测,将CWT测试集应用于评测中。

SEWM评测举办四年来,受到了国内研究者的关注。但是,每年参加评测的队伍数量偏少。希望能通过不断改进测试集质量和评测机制,吸引更多的研究机构参与评测,共同推进中文信息检索技术的发展。

上一篇:SSL VPN 强化运营内功 下一篇:HP Compaq dx2358 经得起实践考验的网吧机