基于显式语义分析的本体概念匹配算法

时间:2022-04-10 02:44:18

基于显式语义分析的本体概念匹配算法

摘 要 本体相似度计算是本体领域的研究热点。本体相似度计算可以利用本体概念匹配算法进行衡量。本文针对本体合并工具prompt中本体概念匹配算法在计算本体概念相似度方面的不足,将基于维基百科的显式语义分析方法应用于本体概念相似度计算中,有效提升本体相似度计算的准确性和效率。

【关键词】本体 概念匹配 Prompt 显式语义分析 维基百科

近年来,本体已经被广泛的应用到知识工程、语义Web、人工智能、数据集成、信息检索等研究领域。关于本体相似度计算也随之成为了研究热点。为了计算本体之间的相似度,可以利用本体概念匹配算法进行衡量。通过本体概念的相似度描述本体之间的相似度,进而完成本体映射和本体其他相关计算。

本文首先分析了当前主要的本体合并工具中的本体概念匹配算法,针对本体概念匹配算法在计算本体概念相似度方面的不足,将基于维基百科的显式语义分析方法应用于本体概念相似度计算中,以此来有效的提升本体相似度计算的准确性和效率。

1 显式语义分析

为了克服本体合并工具prompt在本体概念匹配中忽略了概念的语义信息这个缺陷,采用显式语义分析取代字符匹配来提高本体概念匹配的准确性和效率。

显式语义分析(Explicit Semantic Analysis,简称ESA) 是一种类似于广泛应用与信息获取领域的向量空间模型的方法。Evgeniy Gabrilovich 和Shaul Markovitch提出了基于维基百科的ESA 算法,它不是通过比较词的权重向量来比较查询的词和文档之间的相关性,而是通过比较与词相关的维基文档的权重向量来计算相似度。每个维基概念都是由出现在这个文章中的词向量来表示,向量的矢量是通过 TFIDF 模型得出的权值,这些权值表明了词和概念之间联系的紧密度。由于这个方法使用的维基概念都是人们所认识的、所熟知的概念,而不是像LSA 方法中通过纯粹的统计方法得出来的潜在概念,所以被称为显示语义分析。

基于维基百科的ESA算法相对于其它语义分析方法取得了更好的性能表现,表3给出了不同计算方法间的性能比较。

基于维基百科的ESA 算法将维基百科数据集中每篇文档对应于一个词条,利用文档中的词语解释词条的语义内涵,词语的权值通过TFIDF 计算,每个词条就表示为一个带权向量。然后按照词语建立倒排索引,每个词语可以表示为词条集对应多维空间中的向量,词语之间的语义相关性就可以通过向量距离进行计算,见表3。

文档T={wi}表示输入文档,表示与{wi}相对应的TF》IDF向量;用表示词语wi的倒排索引向量,其中kj为词语wi相对于词条cj(cj∈{c1,c2,…,cN})的倒排权值,N为维基百科中所有词条的数目;文档T对应为长度为N的语义解释向量V,其第i纬度词条cj对应的词条权重为∑wi∈Tvi·kj;文档Ti和Tj之间的语义相似度可以用其对应向量Vi和Vj夹角的余弦值表示,词语wi和wj之间的语义相似度可以用对应向量Ki和Kj夹角的余弦值表示:

Evgeniy Gabrilovich 和Shaul Markovitch提出的基于维基百科的ESA 算法是针对西文文本的,中文文本与西文文本相比,词与词之间并非用空格分开,需要借助相关技术将词从词条的正文中抽取出来,这一过程称为分词。本文使用的是中科院的ictclas 分词工具,在此向作者表示感谢。由于中科院的分词工具分词粒度过细,造成中文词语间相似度没有预期理想,对基于维基百科的ESA算法进行了改进,在分词的基础上加入了维基百科词条的正文中词条链接信息,以提高中文词语间相似度的准确性。

2 实验研究

基于维基百科的ESA算法的编程实现分为两部分:预处理中文维基百科数据生成词向量和根据词向量对两个中文词语语义相似度进行计算。预处理的具体步骤为:先解析2.9G的中文维基百科的XML文件,对解析后的内容进行繁体转简体处理、分词处理和链接信息提取,然后建立每个条目的属性向量,共有800751个词条,接下来对属性向量进行倒排索引建立词向量,共2239226个词向量,最后进行压缩词向量和标准化词向量。

改进后的基于维基百科的ESA算法在中文词语语义相似度计算上准确性接近了ESA算法在西文词语语义相似度计算上的准确率,计算效率4ms左右,相比传统的潜在语义分析方法在准确性和效率上都有显著提高。

将改进后的基于维基百科的ESA算法替代Prompt的原有本体概念匹配算法, 即用基于维基百科的ESA算法的计算部分代码替换Prompt中进行概念匹配的源代码。基于维基百科的ESA算法的计算部分代码如下:

protected static double ComputeSemanticRelatedness(string FirstText, string SecondText, CompressedTVectorList TVList)

{

CompressedTVector FirstVector, SecondVector;

double SemRel ;

FirstVector = WikipediaESA.GetVectorForText(TVList, FirstText);

SecondVector = WikipediaESA.GetVectorForText(TVList, SecondText);

SemRel = puteSemanticRelatedness(FirstVector, SecondVector);

return SemRel;

}

表4:为使用两种算法对一些常用的同义词的语义相似度进行判断得出的结果比较。表4中第2列为使用Prompt检验得到的结果,第3列为使用改进后的算法得出的结果。

由表可以看出,将改进后的基于维基百科的显式语义分析方法替换Prompt的原有的本体概念相似度计算方法提高了本体概念匹配算法的准确性和效率,有效的提升了本体相似度计算的准确性和效率

3 结论

本文使用改进后的基于维基百科的显式语义分析算法对斯坦福大学开发的本体合并工具Prompt中的本体概念匹配算法进行改进,弥补了其本体概念相似度计算缺少语义信息的缺点,很好地提高了本体概念匹配算法的准确性和效率,以此有效的提升了本体相似度计算的准确性和效率。在未来的工作中,还需要对该算法进行改进,使其能更好地识别动词同义词和形容词同义词。

参考文献

[1] Gabrilovich E. and S. Markovitch. Computing semantic relatedness using Wikipedia-based explicit semantic analysis. Proceedings of IJCAI, 2007.

[2] Noy N F,Musen M A. An algorithm for merging and aligning Ontologies: automation and t ool support[C] / /Proceedings of the Workshop on Ontology Management at the Sixteenth Nati onal Conference on Artificial Intelligence(AAA I2 99) ,Orlando, 1999 .

[3] Noy N F,Musen M A. S MART: automated support for Ontology merging and alignment [C] / /Proceedings of the Twelveth Workshop on Knowledge Acquisition, Modeling, and Management, Canada, 1999 .

[4] Noy N F,Musen M A. PROMPT: algorithm and tool for automated Ontology merging and alignment[ C ] / /Proceedings of the Seventeenth National Conference on Artificial Intelligence (AAA I2 2000) , Austin, 2000 .

[5] Noy N F, Musen M A. The PROMPT Suite: Interactive Tools for Ontology Merging and Mapp ing [ R ]. Technical report, SMI , Stanford University,US A, 2002 .

[7] DAVID puting semantic relatedness using Wikipe-dia link structure. Proceedings of the New ZealandComputer Science Research Student Conference . 2007.

作者单位

中国电子科技集团公司第二十八研究所 江苏省南京市 210007

上一篇:基于射频识别技术的粮油食品溯源信息系统 下一篇:水轮发电机定子绕组绝缘及电晕防护系统的应用