中文信息检索关键技术分析

时间:2022-08-18 07:23:02

中文信息检索关键技术分析

摘要:本文对Web中文信息检索进行了简介,分析了Web中文信息检索的几个关键技术,总结时下流行的中文搜索引擎技术。笔者还提出了一些心得、体会和设想,最后对智能中文搜索引擎进行了展望。

关键词:信息检索;搜索引擎;网络爬虫;中文分词;排序

中图分类号:TP391文献标识码:A文章编号:1009-3044(2007)17-31309-02

Analysis of the Key Technology of Chinese Information Retrieval

WANG Dong1,2, ZHANG Yun-bo2, HUANG Ying-hong2

(1. Hainan University, Haikou 570028, China; 2. Qiongzhou College, Wuzhishan 572200, China)

Abstract:The paper makes a brief introduction on the Web Chinese Information Retrieval, and analyses some key technology on it. And the Chinese search engine technology popularly at present has been turned out. The author proposed some ideas, the experiences and the tentative plans, and eventually carried on the forecast on the intelligent Chinese search engine technology.

Key words:Information Retrieval;Search Engine;Web Crawler;Chinese Participle;Arrangement

1 引言

近年来,Internet迅速发展成为一个分布于全球的混合信息空间。为了帮助用户获得网络上的丰富信息,Web信息检索系统应运而生,其最新发展趋势是检索的智能化和垂直化。人们在享受信息检索工具带来方便的同时,“忠实表达”和“表达差异”等问题日益突显出来。随着人工智能、机器学习、语义Web等技术的快速发展,人们提出了智能化搜索引擎来解决传统搜索存在的弊端。下面笔者就Web中文信息检索的智能化技术提出自己的一些看法。

2 Web中文信息检索概述

WWW上的信息检索主要研究对整个HTML文档信息的表示、存储、组织和访问,即根据用户查询要求,从信息数据库中检索出相关信息资料,以文本数据为主要处理对象,提供根据数据资料的内容而不是外在特征来实现的信息检索手段。[1]

在Web信息检索技术领域,英文信息检索发展得较为完善,如信息的表示采用向量空间方法,基于内容相关性的查询反馈等。Web信息检索的发展是一个不断探索的过程,如今它己向第二展,功能也越来越强大[2]。然而,目前中文网络信息检索还存在着许多问题:(1)查询方式单一,查准率和查全率不高。中文搜索引擎一般只有分类目录浏览和简单的关键词检索,缺乏高级的查询方式。但是中文是一种存在着大量音、形、义相近词汇的复杂语言,单一的检索方式经常会使得使用者得不到想要的结果;(2)中英文混合检索问题。如:当你输入“MP3”时,有些网站会认为你在查找英文网页,进而自动将你送到一个英文搜索引擎上;(3)专业的网络信息检索引擎较少;(4)中文网络检索的相关性无法与英文媲美,检索字串与网页中文字的简单匹配并不见得就是语义上的匹配。

3 Web中文信息检索的关键技术

3.1 网络爬虫

网络爬虫(Crawler)是通过网页的链接地址来寻找网页的程序,它从网站的某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。网络爬虫一般有两种策略:深度优先和广度优先[3-4]。深度优先是指网络爬虫会从起始页开始,逐个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。广度优先是指网络爬虫会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。第二种方式可以让网络爬虫并行处理,提高其抓取速度。网络爬虫抓取HTML文档时,需要把HTML标识符过滤掉,同时记录页面的版式信息,例如文字的大小、是否标题等,这些信息有助于计算单词在网页中的重要程度。

3.2 中文自动分词技术

对中文来讲,自动识别汉语文献中词的边界,将书面汉字序列切分成正确的词串,是理解自然语言的第一步,分词质量的好坏将直接影响到主题抽取的质量。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

本文主要说明一下基于统计的分词方法,此方法一般不依赖于词典,因此也称为无词典分词法。该方法根据计算字与字相邻共现的频率来确定是否成词,共现信息体现了汉字之间结合关系的紧密程度,当紧密程度高于某一个阈值时,便认为此字组可能构成一个词。这种方法只需对语料的字组频度进行统计,不需要分词词典。但它也不足,比如说像“之一”、“有的”等词它们尽管不是词组,但一起出现的概率也很大,这样就会对词组分词产生一些偏差[5]。改进的方法是:先使用一部基本的分词字典进行关键词分词,同时使用统计方法识别一些新的词组,即把词频统计和字典方法结合起来,这样两者可以相得益彰,效果更好。此外,还可以把得到的搜索结果进行动态的归类,有条理地给出搜索结果,这样可以让用户清楚地寻找自己的搜索内容属于哪个类,节省用户在大量的搜索结果中查找所需信息的时间。

很多搜索引擎对中文的“一词多义”都束手无策。在这种情况下,我们可以采用系统和手工干预相结合的办法来解决这个问题。首先,系统查找知识库并得到搜索词的所有含义,同时进行相应的排序,而后系统把搜索词的各个含义以网页的形式呈现给用户。用户就可以选择自己感兴趣的含义。该方法避免了对关键词的曲解,同时避免了大量垃圾信息产生,因此极大地提高了查找效率。特别是在个性化搜索引擎方面,系统可以增加用户对个性数据库反馈的功能,这样当该关键词下一次出现的时候系统就会把用户的这次选择作为其默认选项。

3.3 搜索结果排序

传统的PageRank算法的工作机理是:若一个页面被多个页面引用,则这个页面可能是重要页面;一个页面尽管没有被多个页面引用,但被一个重要页面引用,那么这个页面也可能是重要的。在此基础上,我们可以进一步提出一些设想:(1)某位用户所搜索的信息可能只涉及的某个领域,因此在使用PageRank算法时,可以考虑用户感兴趣的领域。例如,如果网站是介绍“电器”的,有10个链接都是从“电器”相关的网站链接过来,那这10个链接比另外10个从“体育”相关网站链接过来的贡献要大;(2)网页设计者经常会根据强调内容的不同,给网页的不同部分加上不同的标记或用不同的字体等。因此,我们就可以根据页面版式信息来确定所搜索的结果和搜索词的相关程度;(3)我们发现,当用户打开搜索结果中的某个页面,如果发现该页面没有他想要的内容,他就会立刻关闭;而如果有他要查找的内容,他则会驻留比较长的时间。因此可以采用用户在某页面的停留时间,作为搜索结果排序的参考之一。

目前的搜索引擎排序算法上还存在两大不足:(1)正解相关性。相关性是指搜索词和页面的相关程度。仅仅通过链接、字体、位置等表面特征,并不能真正判断搜索关键词与文章的相关性。另外,很多文章尽管没有出现搜索词,但是文章表达的意思却与搜索词相关,这时搜索引擎将无法搜到这些相关网页。可见,表面特征搜索只能治标,而不能治本。解决问题的关键在于增加语义理解,让机器明白人的意图;(2)搜索结果的单一化。在搜索引擎中,任何人搜索同一个词都会得到同样的结果。比如说用户输入搜索词“苹果”,如果用户是一个IT工作者,他也许想找到的是苹果计算机;而对于一个农民而言,他也许想找到的是如何栽培优质苹果的方法。而当前的搜索引擎尽管在个性化方面有了一些尝试,但距离人们想要的真正意义上的“个性化”还有很大的差距。

综上所述,搜索引擎的排序技术将会向两个方向发展,即:语义相关性和排序个性化。如果一个搜索引擎能从根本上解决这些问题,它将成为搜索领域的霸主。

4 Web中文信息检索的发展趋势

近年来,信息检索技术开始注重网页质量与相关性的结合,这主要是通过三种手段:(1)对网上的超文本链接结构进行分析,如Infoseek和Google;(2)对用户的点击行为进行分析,如Directhit;(3)与网站目录相结合。信息检索最新的趋势是智能化(包括个性化),智能信息检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索。搜索引擎的智能化还表现在用自然语言与用户交流的能力,对知识的理解和处理能力。目前Internet上的人工智能产品越来越多,如:智能搜索引擎、智能浏览器、学习智能体、知识共享智能体等已经从实验室进入市场[6]。

5 结束语

本文介绍了Web中文信息检索技术的基本理论,在此基础上,分析和研究了中文搜索引擎的三大关键技术:网络爬虫、中文分词、搜索结果排序,并就中文分词和搜索结果排序提出了一些设想。我们深信:随着互联网技术的不断发展,搜索引擎也将迎来革命性的变革,人们将在这个信息爆炸的年代里获得越来越精确和及时的信息。

参考文献:

[1]Venkat N Gudivada. Information Retrieval on the World Wide Web[J]. IEEE Internet Coputing,1997,(4):58-68.

[2]翁惠玉,马范援,朱义军,杨传厚. 网络搜索引擎的现状分析[J]. 情报学报,1999,18:100-102.

[3]李学勇,欧阳柳波,李国徽,钟敏娟.搜索引擎中网络蜘蛛搜索策略比较研究[J]. 计算机技术与自动化,2003,22(4):63-67.

[4]李学勇,欧阳柳波,李国徽,王鑫.专业搜索引擎搜索策略综述[J]. 计算机工程,2004,30(13):32-33.

[5]唐培丽,胡明,张勇. 基于中文文本主题提取的分词方法研究[J]. 吉林工程技术师范学院学报,2005,21(2):34-36.

[6]金芳. 浅谈信息检索与信息检索技术[J]. 晋图学刊,2001,(3):22-24.

注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。

上一篇:防火墙也能做兼职:拦截QQ广告 下一篇:巧用“画图”制作歌曲简谱