基于文本空间表示模型的文本相似度计算研究

时间:2022-10-13 11:05:14

基于文本空间表示模型的文本相似度计算研究

〔摘要〕在分析现有文本表示法的基础之处,提出一种以段落、语句、词语为层次结构的文本表示方法——文本空间表示模型,并在此模型基础上探讨一种以文本段落为基本单位的相似文本计算算法,以实现相似文本检测目标。最后建立测试集并在测试集上执行检测实验,结果表明此方具有较好的相似文本发现效果。

〔关键词〕文本相似度;文本空间表示模型;段落;算法

〔中图分类号〕TP391.1〔文献标识码〕A〔文章编号〕1008-0821(2013)02-0021-03

文本相似计算具有重要作用和广泛应用,它主要应用于基于著作权保护的文本相似检测、信息检索以及自动文本摘要等领域。在文本复制检测方面,相似文本的检测可保护创作者的合法权益免受他人侵犯;在信息检索领域,相似文本的检测可以略去大量冗余信息;在自动文本摘要领域,主要为web页面自动生成摘要,便于web信息检索[1-2]。目前文本相似计算在信息检索以及自动文本摘要领域应用较为普及,在文本复制检测领域的主要实现方法是对整个文本进行词汇抽取,利用关键词顺序匹配的方法实现相似文本的检测[3-4]。

对于一个大型数据集,当给定任意一个待检测文本,相似文本计算算法应该能够以较短的计算时间完成相似性检测任务,即:发现与该文本在语言表达上有一定相似度的文本,如果系统中事先存在这样的文本的话。基于算法执行时间和执行效率的考虑,本研究将文本分解为段落,进一步将段落分解为语句,语句又分解为若干词语的集合,以此构成三维的文本空间表示模型。只要在语句和段落维度上发现被检测的两个文本存在相似处,则判定被检测对象存在相似之处。最后利用已有的测试集检测算法执行结果。

1相似度判定的层次分析

从文本属性这个角度来看,文本相似检测可以从两个层面进行:内容相似和语言表达相似。对于任意一个文本而言,内容与语言表达并非相互独立的两个方面[5]。内容相似的文本,其语言表达形式并不一定就相似,例如以下两个例句:“大年三十晚上,街上冷冷清清,看不见一个人影”,“除夕夜晚,马路上空空荡荡,一片寂静的景象”,二者要表达的内容是一样的,但表达所使用的语言词汇却又很大的不同;而语言表达相似的文本——包括词汇以及词汇间的相对次序相似,其内容在很大程度上则是相似的。现今搜索引擎采用同义词技术,如:“大年三十”和“除夕”、“夜晚”和“晚上”等,能将包含检索词的同义词或近义词的文本搜索出来,所以信息检索更多的是从内容相似这个角度进行相似文本计算;而基于著作权保护的文本相似检测则是从表达相似这个角度进行文本相似计算[6]。现今的著作权法只保护作者思想的外在表达形式,并不保护作品反映的思想或观点,因而本文将从表达相似这个角度探讨文本相似检测的思想和算法。

从文本结构这个角度来看,相似文本检测可以从多个层次进行:全文、段落、语句、词语。不同层次上的相似度检测可用于不同的研究领域,如:判定词语间的相似度计算可用于机器翻译领域[7];判定词语与句子或段落之间,或者句子与段落之间的相似度计算可用于信息检索领域,例如:我们在检索信息时,通常输入的是若干个词语或者是一个句子,其将作为查询向量输入检索系统,并与文本库中的文本向量进行距离计算;段落与段落之间、全文与全文之间的相似度计算则主要应用于基于著作权保护的文本相似检测领域。上述3个检测层次的对象粒度依次递增,而处于较高粒度层次的相似度检测是建立在较低粒度层次相似度检测基础之上的。本研究对于文本相似的计算建立在段落与段落间的相似度计算基础之上。之所以选择段落为计算单位,除了上述因素外,还因为发生全文相似的概率相比较发生段落相似的概率小得多,并且段落相似的计算结果完全能够包含全文相似的计算结果。而语句相似多数情况下则包含了正常的文献引用情况。

2013年2月11第33卷第2期11现?代?情?报11Journal of Modern Information11Feb.,201311Vol.33No.22013年2月11第33卷第2期11基于文本空间表示模型的文本相似度计算研究11Feb.,201311Vol.33No.22文本的结构化表示法

2.1现有的文本表示法

在探讨文本相似性计算方法之前,首先回顾现有的文本表示方法。在信息检索领域内,文本的表示主要是采用向量空间模型表示法[8]。其思想是:将某个搜索系统中索引项的集合T表示为:T={t0,t1,…ti,…tn-1},n为索引项的数目;文本集合D表示为:D={d0,d1,…,dm-1},m为文本的数目,di是文本集合D中的一个文本;则di可表示为:di={di,0,di,1,…,di,j,…di,n-1},其中文本向量中每个分量di,j为索引项tj在文本di中的权重。di,j的值由相应索引项tj是否在文本中出现以及它在文本中的词频tf与逆文本频率idf决定。该表示法运用于相似性计算中存在的问题是:一是文本向量的维度过高,且包含大量值为0的分量;二是文本向量中不包含与文本段落结构相关的任何信息。基于上述问题,本研究提出三维的文本空间表示模型法。

2.2文本的空间表示模型

通过分析文本的组成结构,我们可以知道文本的基本组成单位是段落,而段落的组成单位是句子,句子的组成单位则是词语,如图1所示。

从图2中可以看出:一个文本可以表示为一个三维空间模型,三维空间中的每一个结点在文本中均有一个词语与之对应,结点在空间中的位置其实包含了相应词语在文本中的位置信息,即:该词语在文本中所处的段落、句子,以及在句子中的位置。每个段落可表示为一个二维向量平面pi,i∈{1,m};平面中的每一个列向量si,i∈{1,n},对应于该段中相应的一个句子;句子si中包含若干个词语ti,i∈{1,k}。由此可见,组成三维空间模型的3个分量分别是:段落(P)、句子(S)和词语(T)。

3文本的相似度计算算法

3.1算法描述

现有任意两个文本d1、d2,其表示如下:

矩阵的每一个列向量就是段落p1i中的一个句子si,si中元素t1i是该句中的一个词语,同样段落p2i也可表示成上述形式,这里就不再列出。矩阵中元素t1i的取值方式与信息检索系统中有所不同,信息检索系统为每个索引词取一个与词频相关的量化值,这里将t1i的值设定如下:该词语在索引系统中的索引号,能够唯一标识该词语的一个编号或标识符。

令(3)式中任意一项p1ip2i=(p1i)T×p2i,则由式(4)、(5)可以得到表达式(7):

当s11s21的值为0,则认定s11与s21相似,当值为1,则认定s11与s21不相似。设ζ为语句相似度阈值,ζ∈(0,1),ζ的取值因判定相似的严格程度而定,这里不再赘述。回到表达式(7)中来,矩阵中元素的值或者为0,或者为1,计算出其中值为0的元素所占比例r,则r是衡量两个段落相似程度的关键因素。当r≥δ,认定两个段落相似,δ是段落相似度阈值,其值的选取同表达式(12)中的ζ一样,视应用环境和要求而定。有关相似度阈值设定的方法请参考文献[9-10]。

表达式(3)中,文本d1、d2的相似矩阵d12中任一元素的计算值如果能认定相应的两个段落相似,则认为d1、d2之间存在文本相似之处。

3.2实验计算结果

实验步骤如下:在某个期刊检索系统中,用“文本”和“相似”这两个检索词检索出同一领域的若干篇论文,从中挑出部分文本构成实验测试文本集T。T中包含50个文本,另外选择其中两个文本作为被检测对象d1,d2,分别进行两次实验。实验目的是:在T中分别查找与d1,d2至少存在段落相似的文本。当然以先验信息可知:T中同时存在与d1,d2相似以及不相似的文本。

设ζ=0.7,δ=0.7,采用上述算法将T中每一个文本逐个与d1,d2进行相似度计算。首先选用文本处理工具对测试集中每个文本以及d1,d2进行词汇抽取,对每个词语建立数字化的索引项,并以段落为单位建立索引矩阵,如表达式(6),这样每个文本将包含多个段落索引矩阵。运用Matlab将文本d1逐一与T中文本di进行相似度计算,可得出T中与文本d1的段落pi相似的段落数目。同样的计算过程在d2与测试集文本之间再次执行。计算结果如表1所示,由于篇幅所限,这里只列出文本d1,d2中的部分段落,并且相似段落所在文本这里不再列出。从实验中可知:ζ和δ的取值至关重要,适当减小二者的值,表1中相似段落数目可能会增加;如果适当增大其值,表中相似段落数目则会相应减少。表1T中与文本d1,d2的段落pi相似的段落数目

本文介绍了一种以段落、语句、词语为层次结构的文本表示法——文本空间表示模型,并在此基础上研究以文本段落为单位的文本相似计算算法。文中涉及到文本分词及建立索引等技术均采用现有成熟技术,故而不再详述。将文本分解为文本空间表示模型中的段落、语句、词语的思路较为直观,易于计算实现,为相似文本检测系统的设计和实现提供了方法支持。文章不足之处在于实验文本集的覆盖面较小,被测试文本的选择随机性不强,这些不足之处有待于进一步改进;另外相似度阈值的选择对计算结果的影响程度的研究也没有涉及,这些都将是下一步研究工作的重点所在。

参考文献

[1]Yatsko V.A.,Vishnyakov T.N.A method for evaluating modern systems of automatic text summarization[J].In:Automatic Documentation and Mathematical Linguistics,2007,41(3):93-103.

[2]金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-296.

[3]Mihalcea R.,Tarau P.TextRank:Bringing Order into Texts[M].Department of Computer Science University of North Texas,2004.

[4]Ozlem Uzuner,Randall Davis,Boris Katz.Using empirical methods for evaluation expression and content similarity[J].Proceeding of the 37th Hawaii International Conference on System Sciences,2004.

[5]Sun Z,Errami M,Long T,Renard C,Choradia N,et al.Systematic Characterizations of Text Similarity in Full Text Biomedical Publications[J].(2010)PLoS ONE 5(9):e12704.

[6]Ladekar A.,Mujumdar A.et al.Automatic text summarization using:fuzzy GA-GP[J].International Journal of Engineering Research and Application,2012,2(2):1551-1555.

[7]Islam A.,Inkpen D.Semantic text similarity using corpus-based word similarity and string similarity[J].ACM Trans.Knowl.Discov.Data.July 2008.

[8]Salton G.,Wong A.,Yang C.S..A vector space model for automatic indexing[J].Communication of the ACM,1975,18(11):613-620.

[9]刁力力,王丽坤,陆玉昌,等.计算文本相似度阈值的方法[J].清华大学学报:自然科学版,2003,43(1):108-111.

[10]宋韶旭,李春平.基于非对称相似度的文本聚类方法[J].清华大学学报:自然科学版,2006,(46)7:1325-1328.

上一篇:国际系统动力学研究文献的可视化分析 下一篇:抢占“汽车屏幕”,准备好了吗?