面向主题的信息检索

时间:2022-09-07 10:24:02

面向主题的信息检索

摘 要:随着互联网业务的蓬勃发展,互联网上的信息也随之迅速膨胀。在这纷繁的数据海洋中,如何准确而有效地检索用户想要的有用的信息成为当今研究的热点。为解决通用搜索引擎存在的一些不足,设计了面向主题的信息检索系统。此系统能高效地检索并返回主题信息,帮助用户更精确、更快速地找到有用信息。

关键词:信息检索;爬行器;主题

中图分类号:TP393.094 文献标识码:A DOI:10.3969/j.issn.1003-6970.2013.06.046

0 引言

随着互联网的发展,网上的信息越来越丰富,互联网成为人们获取相关信息的主要途径之一。但是,随着应用的深入,一些问题也暴露出来,当前的搜索引擎都是通用的搜索引擎,就是说基本上都是面向所有用户的。无法满足用户的个性化需求,面向主题的搜索应运而生,逐渐成为信息检索的研究重点领域。

主题爬行最早由De.Bra[1]提出的,研究者通过分类的方法来判断网页的相关性。M.Hersovici等人[2]在此方法的基础上进行了扩展,综合计算网页以及锚文本的相关度。同时,对页面中的URLs依据优先权进行排序,然后乘上一个系数以平衡上级页面的相关性。与De.Bra的研究相比,这个方面通过SVM模型实现,向量的分量的取值在0和1之间,同时,在计算相关度是考虑了锚文本和上下文的信息。J.Cho[3]等人在爬行策略宽度优先算法上进行了优化,虽然改进不大,但是这个研究在度量URLs的分值时引入了PageRank[4]方法。

1 实验系统的结构

实验系统主要功能是提供网页信息的采集、解析、检索功能。该系统对解析后的文本信息进行处理,建立文本信息的主题概念索引用于检索,实验系统的总体功能框架是建立在主题网络爬虫从网络上采集并进行初步分类的网页数据库基础上。

2 验结果与分析

本研究采用检索结果与百度的搜索结果来进行比较。把查询输入到百度中来检索,把百度的检索结果的前50个链接下载下来,以此作为系统的数据集。然后把本系统的检索结果与百度的前10个结果或前20个结果进行比较。由于这里是进行实验分析,在结果显示中url用网页的DocId表示。

从图1的检索结果看,检索花费了16毫秒。在百度的检索结果中,排在第4和第6的结果与主题关联性不好。由于本研究引入了主题信息,因此在检索结果中与主题高度相关的链接都排在了前面。

通过对实验结果的分析表明通过引入主题信息的爬行器与通用爬行器相比,相关网页的数量有了显著的提高,从而提高的检索的效果。

3 结束语

本章介绍了面向主题的信息检索系统的检索部分的设计和实现。在实验中以通用搜索引擎作为对比。通过实验结果可以看出,面向主题的检索系统能够得到更相关的检索结果。

参考文献

[1] P. D. Bra, G. Houben, Y. Kornatzky, et al. Information Retrieval in Distributed Hypertexts. In Procs. of the 4th RIAO Conference. New York, 1994:481-491

[2] M. Hersovici, M. Jacovi, Y. S.Maarek, et al. The Shark-search Algorithm. an Application: Tailored Web Site Mapping. Proceedings of the 7th International World-wide Web Conference. 1998:317-326

[3] J. Cho. Efficient Crawling Through URL Ordering. Computer Networks and ISDN Systems. 1998, 30(1-7):161-172

[4] L. Page, S.Brin, R. Motwani, et al. The Pagerank Citation Ranking:bringing Order to the Web. Stanford digital library technologies project, 1998

上一篇:动态 32期 下一篇:互联网金融勿忘草根性