时间:2022-08-19 07:02:44
[摘要] 本文首先从起源,概念,影响范围,中西文信息检索之比较及检索模型几个方面总体介绍了信息检索。继而引入基于向量模型的信息检索方法,从它的相关概念包括向量、权值、相似度等到它的实现方法。在此基础上以经济类文档信息检索为例详细解释了向量空间模型的实际应用。最后总结此算法的不足之处及其对传统检索方法的改良。
[关键词] 向量空间 中文 信息检索 经济
信息检索( Information Retrieval) 是一个古老而又全新的话题。说它古老,因为自从有了文献便有了信息检索。当人们从中查找所需信息时,信息检索也就应运而生。只不过那时可检索的对象较少,因而检索是一个不自觉的过程。早期的信息检索主要是手工检索,人们通过“心想――手翻――眼看”的方式进行。随着社会的发展和信息量的增加,人们逐渐认识到信息检索的必要性与重要性,信息检索逐渐作为一门新兴的学科发展起来。现代信息检索是以计算机科学与技术、网络技术、光盘技术、通信技术等现代信息技术在信息存储与检索中的应用为基础发展起来的。
一、信息检索简介
1.概念
广义的信息检索范围很大,可以说从书本、报纸以及其他的各种媒体中查找人们需要的信息都可以称为信息检索。
狭义的信息检索是特指利用计算机这个高效的工具对各种信息进行检索的技术。信息检索的内容包括文本、图像、视频和音频等多种,但本文只讨论文本信息的检索技术,特别是中文信息的检索技术。
信息检索是一门研究从一定规模的文档库(Document Collection)中找出满足用户提出的信息需求(User Information Need)的技术。
2.Web信息检索
Web的出现大大地促进了信息检索技术的发展。Web上有异常丰富但又十分混乱的信息资源,其中绝大部分有用的信息还没有挖掘出来。这是因为目前还没有特别好的信息处理和检索工具。这一领域的开发仍然处于初级阶段。
3.中西文信息检索比较
在文本信息检索领域,西文信息检索的发展较为迅速。西文信息检索系统可以利用向量空间表示检索信息内容,并将自然语言处理应用于信息检索,大大提高了信息检索的准确性。中文信息的检索和英文信息的检索在很多地方是一致的,但也有一些不同。比如中文词语之间没有空格,因此在索引前需要进行词语切分。此外,与英文相比,汉语句法分析和语义理解更为困难。
4.信息检索的模型
一般有两种信息检索模型:基于统计的模型和基于语义的模型。基于统计的模型是应用某些统计的手段从被检索文档和高标注等级文档中查询与用户需求匹配程度最好的文档;而基于语义的模型则尝试对需求实现一定程度语法语义分析,即对自然语言文本进行一定程度的理解并重新生成查询。
基于统计的模型主要有:布尔模型(Boolean Model)、扩展布尔模型(Extended Boolean Model)、向量空间模型(Vector Space Model)以及概率模型(Probabilistic Model)等。
二、向量模型
向量模型是重要的检索模型,其主要优点在于:a、通过对特征项的加权改进了模型的检索效果;b.模型的部分匹配策略允许检索出与查询条件相接近的文献;c.相似度的引进使得能够对查询结果进行排序,以倒排文档方式提交结果。
1.文档和项的向量空间表示
首先把一个文档进行分词处理,并去除那些停用词,如“我”、“的”、“人们”等。然后对剩余的词进行合并处理。
在一个给定的集合中先对每个文档进行以上的操作,获得每个文档索引项的集合。再把所有文档的索引项进行合并,形成了一个代表整个文档集合的索引项集合,整个索引项集合表示了一个“空间”。在一个文档空间中,可以给每个索引项赋一个权值,代表这个索引项在这个文档中的地位。如表1所示,文档1的向量空间是(3,4,5),文档2的向量空间是(2,3,3)。
与文档空间相对应的一个概念是“项空间”,它是指一个索引项在文档集合中的各个文档权值的集合。如表1所示,索引项“经济”的向量空间是(4,3,0,0),索引项“金融”的向量空间是(5,3,0,5)。
于是文献和查询均可用由项构成的向量来表示:d=(t1,t2, ……,tn) 。项的权重(term weight) :对于有n 个不同的项的系统,文献D=(t1,t2,……,tn)。
2.项权值
项t k(1≤k≤n)常常被赋予一个数值Wk,表示它在文献中的重要程度,称为项t k 的权重。因此,我们一般用D=(w1,w2,…,wn)的形式表示文献。特征项的权重计算,是人为赋予的,因此主观性较强,但比较权威的确定权重的方法是运用TF - IDF 公式,即Wik = tfik/dfk=tfik ×idfk,其中tfik为特征项Tk在文档Di中的出现频率,称为项频率(term frequency);dfk则是文档集D中出现特征项Tk的文档的数量,称为文档频率;idfk为dfk的倒数,称为反转文档频率(inverteddocument frequency)。另外,还应考虑到文档的长度,否则长文档易被检出,而短文档会被漏检,所以通常还要对上面公式进行标准化处理。
假设有三个项:“经济”、“金融”和“计算机”,它们在不同文档中的权值如表1所示。
根据这个表,可以画出权值和文档的三维向量空间。
3.计算向量之间的相似程度
相似度S(Similarity):指两个文档内容相关程度的大小,当文档以向量来表示时,可以使用向量文档向量间的距离来衡量,一般使用内积或夹角θ的余弦来计算,两者夹角越小说明相似度越高。由于查询也可以在同一空间里表示为一个查询向量(见图1),可以通过相似度计算公式计算出每个文档向量与查询向量的相似度,排序这个结果后与设立的阈值进行比较。如果大于阈值则页面与查询相关,保留该页面查询结果;如果小于则不相关,过滤此页。这样就可以控制查询结果的数量,加快查询速度。
三、以经济信息检索为例的实例分析
经济发展依赖于自然资源的开发与利用,也离不开经济信息资源的开发和利用。开发经济信息资源,实际上是对人类智力的开发,是一种知识和科学技术的开发,一种生产技能和管理技能的开发。现在,经济信息已经渗透到现代生活的各个领域,有效地地开发和利用经济信息,提高经济信息的传播速度已经成为现代经济发展的一种推动力,能够大大提高劳动者的智力水平,从而促进经济的发展。因此,在以经济建设为中心、大力发展社会主义经济的过程中,必须不断地开发和利用经济信息资源。
经济信息是一种社会资源,作用于经济活动过程,已经成为现代社会经济发展的一个先决条件。现代经济建设是一个庞大而复杂的系统,需要依据大量的经济信息去控制、指挥、协调和组织系统的内部关系,系统和系统之间也需要靠经济信息去联系,才能使经济活动达到人们预期的目标。在科学技术迅猛发展的社会里,经济信息资源显得更加重要。
假设现有一个包含4篇经济金融类相关信息文档的集合,这4篇文档如下:
D1:金融投资的对象是金融资产……
D2:金融资产是获得投资收益的资产……
D3:证券投资、基金投资和期权投资组成金融投资……
D4:获得投资收益是证券性金融投资的主要目的……
检索表达式Q为:金融投资的资产收益。
首先,需要对文档和检索表达式进行分词处理,其结果如下:
D1:金融/投资/的/对象/是/金融/资产/……
D2:金融/资产/是/获得/投资/收益/的/资产/……
D3:证券/投资/、/基金/投资/和/期权/投资/组成/金融/投资/……
D4:获得/投资/收益/是/证券/性/金融/投资/的/主要/目的/……
Q:金融/投资/的/资产/收益/。
然后除去停用词,去除后的文档如下:
D1:金融/投资/对象/金融/资产/……
D2:金融/资产/获得/投资/收益/资产/……
D3:证券/投资/基金/投资/期权/投资/组成/金融/投资/……
D4:获得/投资/收益/证券/金融/投资/主要/目的/……
Q:金融/投资/资产/收益/。
计算项的权值根据公式
各个索引项的df和idf值如表2所示
各个索引项在文档中的频度如表3所示
则各个索引项在文档中的权值如表4所示
检索表达式的权值很简单,如表5所示
采用内积法计算向量的相似度,则可以看出,文档D3与检索表达式的相似度最高,D1、D2、D4相同且低于D3。
四、算法分析总结
算法的计算复杂程度还需要进一步探讨,目前这些研究都还不够深入,许多问题还有待于进一步探讨;同时由于自然语言的复杂性,新查询向量的查全率和查准率虽然有所提高向量模型是以假设向量空间的各维之间相互正交(即各关键字之间相互独立) 为前提的,因而不可避免地存在由此带来的损失关键字间的相关性的缺点,可它把对文档内容和查询要求的处理简化为向量空间中向量的运算,克服了布尔模型的二值评价的缺点,可以计算出文档与查询式的相关程度,因而可以很容易地进行输出结果的排序,用户相关性反馈机制也很容易实现,尤其是具有对处理海量数据的适应性等种种优点使得它自诞生以来,至今都有很强的生命力。
参考文献:
[1]雷景生林冬雪符浅浅:基于改进向量空间模型的Web信息检索技术研究[J].计算机工程, 2005, 1: 14~16
[2]王晓黎王文杰:基于向量空间模型的文本检索系统 [J].微电子学与计算机, 2006, 23: 188~190
[3]包金龙:基于向量空间模型的信息检索系统的设计 [J].情报检索, 2005, 7:44~45
[4]安茹娜:浅析经济文献信息的开发和利用[J].科技情报开发与经济,2007,12:54~55
[5]刘海峰王元元:基于向量模型的文本检索若干问题研究 [J].情报杂志,2006,10:57~59
[6]齐继国高埃汪东升:基于多用户协同反馈的信息检索模型[J].小型微型计算机系统,2003,7:1152~1155