基于搜索引擎的公开情报自动化搜集模型

时间:2022-09-26 11:30:04

基于搜索引擎的公开情报自动化搜集模型

摘要:随着计算机和网络技术的发展,互联网公开情报搜集已经成为一种重要的情报搜集手段。网络信息的爆炸式增长,使得通用搜索引擎工具用于公开情报搜集的缺陷越来越凸显。在通用搜索引擎的基础上,对查询输入利用语义词典进行查询扩展和检索结果聚类处理,能有效地提高检索的精度和有效性,利用智能实现互联网公开情报的自动化搜集,加快了情报搜集的速度和工作效率。

关键词:互联网;公开情报;搜索引擎;查询扩展;聚类

中图分类号:TP393文献标识码:A文章编号:1009-3044(2008)26-1654-03

Automatic Open Intelligence Collection Module Based on Search-engine

ZOU Liang-qun, ZHOU Chun-lei

(PLA University of International Studies,Nanjing 210039,China)

Abstract: With the development of the computer and network technology, to collect the open intelligence on the internet has become a vital way of intelligence collection. The explosive growth of the network information increasingly magnifies the limitations of using the universal search-engine to collect the open intelligence. On the basis of the universal search engine, the use of the semantic dictionary to expand the query input and cluster the search results can effectively improve the search precision and validity. Furthermore, the realization of the automatic collection of the open intelligence on the internet via the intelligent agent quickens the intelligence collection and improves work efficiency.

Key words: internet; open intelligence; search-engine; query expansion;clustering

1 引言

互联网以及计算机技术和信息技术的迅猛发展为公开情报研究提供了大量便利条件,互联网公开情报搜集已经发展成为一种重要的公开情报的搜集手段,其地位和作用也进一步提高。美国等一些西方发达国家对于互联网公开情报搜集的技术研究较早,他们成立专门的研究机构或依托大型软件公司共同开发自动化的互联网公开情报的搜集系统,能够对互联网公开情报进行自动化的搜集和分析。而我国由于起步较晚,自动化的程度不高,主要利用一些信息检索工具(如搜索引擎等)进行搜索,然后在结果中进行人工筛选。这种搜集方式由于目前搜索引擎的缺陷,使得其搜集的效率不高。近年来由于信息检索、人工智能、数据挖掘等技术的发展,对搜索引擎的优化和改进成为研究的热点,但大部分都还处于理论阶段。利用这些研究的理论基础,在现有搜索引擎的基础上,对查询输入和检索结果进行处理,能有效的提高检索的精度和效率。

2 搜索引擎

互联网公开情报是从互联网公开来源获取和收集的情报。互联网公开情报具有时效性强、更经济、更全面、来源更广泛的特点。同时通过互联网获取情报不受时间和空间的限制,具有高度的灵活性。80年代后,网络公开情报的优点越来越突出,并越来越受到各国情报部门的重视,已经发展成为情报机构获取情报资料的一种重要手段。

随着网络的普及和网络带宽的增加,越来越多的个人和组织把网络当作一种与外界交流的工具,互联网已经迅速地发展成为继报纸、电台和电视之后的“第四媒体”。在网络这个高度开放的世界里,充满着各种信息,有发生在世界各地的新闻,有各国政府的各种法律和规章制度,有科研机构公布的最新研究成果,又对竞争有利的各种经济情报,有个人通过博客、论坛等发表的各种思想,还有恐怖组织和反政府组织为了宣传和联络所建立的网站等等。据报道,“流亡政府”已将互联网当作了一个“强有力的吸引藏人对抗中国的武器”,报道说,所谓的“流亡政府”建立了自己的网站,而其它一些“”组织也非常倚重互联网。不仅如此,达赖喇嘛等“”头目也建立了自己的个人网站。某些网站还专门提供这些“”组织的网络链接地址。

从1995年开始出现的搜索引擎,因其能帮助人们在浩瀚的信息海洋中方便、快速地找到自己所需的信息,已经成为人们网上冲浪的常用工具,同时也成为情报人员在互联网上搜集情报的常用工具。其工作原理是:首先执行信息采集模块,通过人工或自动采集,定期在网上收集相关的新网页;然后利用自动标引模块,对网页进行标引,建立索引数据库;信息检索模块执行检索操作,根据检索提问式,对检索词与索引词进行匹配运算,检索出包含检索词的网页,进行相关排序,然后呈现给用户。

随着互联网上数据量的迅速增加,利用搜索引擎工具进行情报搜集的缺陷已经越来越突出,其主要缺陷有:1) 现有搜索引擎单纯考虑表达查询的关键字和网页文本的匹配性,不能根据情报人员查询目的进行查询内容的扩展,忽略了用户需求的语义,导致搜索引擎往往不能得到满意的检索结果;2) 返回的结果根据搜索引擎所规定的排序方式按相关度从高到低分页呈现,结果中包含了大量与查询无关的信息,情报人员必须逐个点击浏览才能确定是否是自己需要的,这种方式大大地限制了情报搜集的效率 [1]。有调查表明:71%的用户在使用搜索引擎的时候遇到过麻烦,平均搜索12分钟后发现搜索受挫;86%的互联网用户告倒应当出现更有效的、准确的信息搜索技术解决查询结果[2]。

3 相关改进技术

3.1 查询扩展技术

查询扩展技术是改善信息检索中查全率和查准率的关键技术之一,并成为近年来研究的热点。查询扩展指的是利用计算机语言学、信息学等多种技术,把与原查询相关的词语或者语言查询语义相关的概念添加的原查询,得到比原查询更长的新查询,然后检索文档,以改善信息检索的查全率和查准率。

McCune最先开始在关键字检索的基础上引入基于概念的检索。基于概念的检索也称为基于语义的检索,利用关键词在概念上的同义性和相关性,进一步扩展查询请求,检索结果将同时包含查询关键词同义词的文档。即把用户提交的关键词通过语义理解和计算转换成语义概念,检索出与此概念有关的、用户真正想要的信息,而不只是字面上想要的,提高查全率。目前常见的做法是,通过对用户的查询条件进行概念/词条扩展,从而转化为关键字检索。

语义资源的开发和应用是语义处理的基础问题。近几年来,国内外研究人员通过人工总结或人机辅助处理,开发出许多大规模的语义计算资源,在英语方面有WordNet、FrameNet、MindNet等,在汉语方面有知网HowNet、同义词词林等。

3.2 文本聚类技术

文本聚类就是完全根据文本文档的内容相关性来组织文档集合,将整个集合聚集成若干各类,并使得属于同一类的文档尽量相似,属于不同类的文档差别明显。由于事先没有关于这些文本信息的分类知识或可以使用的分类表,所以,文本聚类处理被看作是一种“无监督的学习”,他的特点可以概括为“先有文档后有类”。聚类方法不象分类方法那样需要预先定义类别,因此文本聚类多用于检索系统中对检索结果的后处理,即通过将检索结果集合进行联机实时聚类,以帮助用户迅速提出自己不需要的文档,同时还可以帮助他们发现单纯使用输出结果是很难发现的有用文档。这样,将大大缩小用户所需浏览的结果数量,缩短用户查询所需要的时间。

目前针对文本聚类算法的研究也很多,但是常用于文本聚类的算法还是K-Means、SingleLink、DBSCAM和SOM算法,这些算法同时也是划分聚类算法、层次聚类算法、基于密度和基于模型的聚类算法的典型代表[3]。

3.3 智能技术

智能技术是代表一切具有智能的实体的一个抽象名词,它具有自治性、社会性、反应性和能动性的特性,与用户有灵活的相互作用,在相互作用中能智能地协助用户完成琐碎的工作[4]。

4 互联网多语种公开军事情报自动化搜集系统模型设计

4.1 设计思想

本系统针对搜索引擎的在情报搜集上的缺陷,以及情报搜集工作的特点,依托商用搜索引擎Google强大的信息检索功能,在Google的基础上,利用语义词典对查询的输入进行语义扩展,并对结果进行聚类处理,提高搜索的精度和效率,提高情报搜集的自动化处理程度。

在Google的基础上改进的好处是:

1) Google作为全球最大的搜索引擎是最受欢迎的商用搜索引擎之一。其收录的网页达到20多亿,网址达到10亿,而且搜索时间通常不到半秒;

2) 避免了不必要的重复开发,节约了研究开发经费;

3) 能够提供多种语言的搜索。

4.2 系统体系结构

根据系统的设计思想,本系统采用目前流行的浏览器/服务器模式,可以分为浏览层、中间层和数据层三层,如图1所示。浏览层主要提供人机交互的接口,如查询要求的提出、查询结果的可视化显示等。中间层主要是对查询的整个过程进行处理,包括查询前的语义和跨语言的扩展处理、查询的调用以及查询后对结果的聚类等。数据层存储知识库和中间层所需的数据库。各层之间利用智能进行相互通信,实现系统的自动化。

4.3 系统各模块及功能

本系统按照功能可分为四个模块:查询扩展模块、搜索引擎检索模块、结果聚类模块和可视化结果模块,系统整体模型如图2所示。下面就各子模块进行一定的说明和分析。

4.3.1查询扩展模块

查询扩展模块的功能主要是对用户输入的查询串利用语义词典进行查询扩展,其工作的流程图如图3所示。

在查询扩展中需要对同义词的词语相似度进行计算。词语相似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度。两个词语,如果在不同的上下文中可以互相替换且不改变文本的句法语义结构的可能性越大,二者的相似度就越高,否则相似度就越低。相似度是一个数值,一般取值范围在[0,1]之间。一个词语与其本身的语义相似度为1。如果两个词语在任何上下文中都不可替换,那么其相似度为0。

查询扩展的算法为:

1) 利用语义词典对用户提交的查询串进行同义词查询,如果有同义词则转步骤2),没有则转步骤3);

2) 计算每个同义词与其词语本身之间的词语相似度,并按相似度大小进行排序,然后转步骤4);

3) 利用分词词典对输入的查询串进行分词,如果分词后词语数>=2,则对分词后的每一个词转步骤1)进行同义词查询,否则转步骤5);

4) 根据词语相似度阈值,对同义词进行选择,一般不超过两个;

5) 使用扩展后的词利用搜索引擎进行检索。

本模块中所用到的是通用的语义词典,中文语义词典为知网HowNet,英文的语义词典为WordNet。在实际的应用中将通用词典与领域知识库相结合[5],能使扩展的同义词更符合用户的语义要求,但领域知识库的建立是一项庞大而繁琐的工程,需要由领域专家来完成。因此我们可以使用智能跟踪用户的检索行为,建立个性化的用户数据库,通过多次的反馈来逐步求精。

4.3.2 搜索引擎检索模块

搜索引擎模块的功能是对经过语义扩展词利用布尔表达式进行查询串扩展,将扩展后的查询串提交搜索引擎进行检索。

设原始查询串为q,扩展后的查询串为Q,经分词处理后原始查询串q划分成n个关键词,每个词的同义词个数为m1,m2,…,mn。

则扩展后的词为:q11,…,q1m1,q21,…,q2m2,…,qn1,…,qnmn。

扩展查询子串的个数为:k=m1×m2×…×mn+1,则各查询子串为:

q1=q,

q2=q11 and q21 and…qn1,

qk=q1m1 and q2m2 and…qnmn

扩展后的查询串为:Q=q1 or q2 or…qk

4.3.3 结果聚类模块

为了方便用户浏览和选取网页,搜索引擎返回的检索结果通常包括标题、网页链接地址、摘要和网页快照等内容,标题和摘要能代表与网页最相关的内容。大多数传统的聚类算法是处理查询结果的网页内容,根据内容的相似性将文档分成相关的组,但是下载原文要耗费很多时间,因此为了提高处理的速度,本系统只将标题和摘要作为处理的对象[6]。

本模块用改进的K-Means方法进行聚类,步骤为:

1) 因为查询串与标题相匹配的命中率高于摘要,即如果查询串与标题相匹配,则该网页通常就是所查询的目标,因此赋予标题比摘要高的权值。选取与查询子串完全匹配或匹配程度最高的文档作为每个类的凝聚点;

2) 将经过查询扩展后的查询子串作为聚类的类名,类的个数k由查询子串的个数决定;

3) 设定阈值dr作为文档与各类凝聚点之间的最大距离;

4) 按照距离最近原则,将剩余n-k文档逐个并入最近凝聚点所代表的类。每引入一个文档,要计算它与各凝聚点的距离,当文档与所有凝聚点的距离大于阈值dr则丢弃,否则将文档合并进入最近的凝聚点所在的那一类。

该算法结合了语义扩展的特点,对搜索引擎返回的结果进行处理和筛选,使得处理后的结果在最大程度上符合查询需求,提高了查询精度。

4.3.4 可视化结果模块

该模块的功能主要是把最后的结果用分类列表的形式呈现给用户,为用户提供良好的、便于浏览的浏览界面。

5 结束语

本系统的设计是在现有资源的基础上,本着实现互联网公开情报怎样实现自动化、智能化搜集的目的,力争改变当前互联网情报搜集严重依赖人工、处理速度低、成效差的现状,为情报自动化处理探索一条新的途径。

参考文献:

[1] 高少琛.基于查询拓展和聚类技术的资源检索系统的研究与应用[D].上海交通大学共学硕士论文,2007.

[2] 苏新宁.信息检索理论与技术[M].北京:科学技术文献出版社,2004:372.

[3] 余洋.聚类在信息检索领域中的应用研究[J].信息系统,2007,30(3):405-408.

[4] 王汝传,徐小龙,黄海平.智能Agent及其在信息网络中的应用[M].北京:北京邮电大学出版社,2006.

[5] 梅翔.语义检索中若干关键问题的研究[D].北京邮电大学博士研究生学位论文,2007.

[6] Zeng H J,He Q C,Chen Z,et al.Learning to Cluster Web Search Results[A].In:Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval[C].New York:ACM Press,2004.210-217.

上一篇:汽车制造企业实施PLM系统的信息建模 下一篇:基于GPRS技术的热网监控软件系统的设计