基于免疫原理词表示的词相似度计算

时间:2022-09-30 10:37:45

基于免疫原理词表示的词相似度计算

摘 要:词相似度计算在自然语言处理、信息抽取等研究中发挥重要作用。基于语料的词相似度计算是一类重要方法,其基本思路是从语料中学习词的向量表示,基于向量余弦相似度值作为词的语义相似度。本文提出一种新的基于免疫原理词表示的词相似度计算方法,并在SemEval 2012 Task 4数据上进行了验证并和其他方法进行比较,实验表明本文的方法是有效的,并且优于大多数比较系统。

关键词:词相似度;词表示;免疫原理;分布式语义假设

中图分类号:TP391.41 文献标识号:A 文章编号:2095-2163(2014)02-

Word Similarity Measure based on Immune Principles Inspired Word Representation

YANG Jinfeng, GUAN Yi

(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)

Abstract: Word similarity measure is important to researches on natural language processing, information extraction, etc. Corpus based similarity computing is a most important type of methods for the task, by which word vector-representations are learnt from corpuses and are applied for word similarity measure with a cosine function. This research proposes a new method for word similarity computing based on immune principles inspired word representations. The proposed method is validated on the data set of SemEval 2012 Task 4 and is compared with other published researches. Experimental results show that the proposed method is effective and outperforms most other published researches.

Keywords: Word Similarity; Word Representation; Immune Principle; Distributional Hypothesis

0 引 言

面向词的语义相似度问题主要体现在两个方面的研究,一个是基于属性相似的词语义相似度,一个是基于模式相似的词关系相似度[1]。本研究主要关注基于属性相似的词语义相似度计算。如果两个词之间有较高的属性相似度,那么称这两个词为义词。词相似度计算是为了挖掘语义相似的词或者相关的词,用于缓解数据稀疏的问题,因而在自然语言处理、信息抽取、信息检索等任务中发挥重要作用,比如特征抽取、查询扩展、问句匹配等。词语义相似度计算方法主要有两类,一类是基于词典或叙词表的方法,这类方法的典型特点是通过计算词典中与两个词相关联的边的数量计算词的相似度;另一类方法是基于语料的方法,这类方法的典型特点是获取词的上下文信息,处于相似上下文的词具有一定的相似度[2]。第二类方法不受限于词典的规模,可扩展性好,逐渐成为主流方法。本研究采用第二类方法,从语料中学习词的向量表示,并基于词表示计算词的相似度。现有的词表示方法研究都不具备持续学习能力,无法适应新的语料或者新的领域。为此,一种新的基于适应性免疫原理的多词主体自治学习模型[3]和基于免疫原理的词表示方法[4]被提出来。基于免疫原理的词表示实际上也是从词所在的语句中获取与该词相关的上下文信息,因而基于免疫原理的词表示用于词相似度计算是很自然的应用点。本文提出一种新的基于免疫原理词表示的词相似度计算方法,并在SemEval 2012 Task 4数据上进行了验证。通过对比实验证明,本文提出的词相似度计算方法不仅可行、而且有效。

1 相关工作

词相似度计算在应用中具有非常重要的意义,因而该研究一直备受关注。基于词典的方法简单易行,并且准确率较高,但是受限于词典的规模。在开放领域,常用的词典有:英文词典是WordNet,中文词典是Hownet、同义词词林(扩展版)等。在其他特定领域,为了能准确判断两个词的语义相同,不惜花费大量人力维护一个庞大的知识库,比如医疗领域中的UMLS。知识库如此重要,以至于需要采用基于语料的方法计算词的相似度来挖掘同义词或相关词,完善知识库。

在各类互联网应用蓬勃发展的时代,获得海量的文本数据变得很便捷,因而基于语料的词相似度计算能自动挖掘出更多的同义词(或候选)。本文主要关注基于普通文本语料的词相似度计算研究。这类研究最常见的思路是学习每个词的向量表示,基于词的向量表示,计算词的相似度,一般采用余弦相似度方法作为相似度值的度量。Baroni[5]等对语料进行依存分析后构建分布式词表示,在RG-65[6]评价数据上取得评价结果仅次于最好的系统。Turney[9]突破了常规思路,把词表示成两个向量,一个向量表示词的领域属性,其维度由当前词上下文中的名词组成,一个向量表示词的功能属性,其维度由当前词上下文中的动词组成,基于词的功能属性计算算词之间的语义相似度,基于词的领域属性,计算词之间的语义相关度,该方法在Chiarello等[7]构建的评价集上对相关度和相似度有较好的区分能力。Mikolov等[8]首次将词嵌入(由神经网络学习到的分布式词表示)成功应用于词相似度计算,并开发了开源工具word2vec,使词嵌入研究迅速成为自然语言研究中的热点之一。Levy等[9]则是先对语料进行依存分析后,把词所处的依存弧也作为神经网络的输入学习词嵌入,在WS-353[10]评价数据上取得结果要优于上下文特征抽取算法Skip-gram。Levy等[11]比较了词嵌入和分布式词表示在词相似度计算任务上的表现,词嵌入并不总是优于分布式词表示,而且认为在词嵌入上的成功经验也能迁移到分布式词表示上,并通过实验验证。Yih等[12]整合语料库、搜索日志和词典构造混合分布式词表示,计算词的相似度,该方法在多种评价数据上(WS-353[10],WS-sim和WS-rel[13],RG-65[6],MC-30[14],Mturk-287[15])都取得了最好的结果。

在中文方面,基于语料的词相似度计算研究也开始引起研究者的关注,但是中文词相似度评价数据比较缺乏,有些研究采用同义词词林(扩展版)进行评价,或者参照英文的评价数据自行构建中文的评价数据。石静等[16]在新华社新闻语料和搜狗网络语料分别基于窗口上下文特征和基于依存关系构建词的向量表示,用余弦相似度方法计算词的相似度,根据词语在语料中出现的频次,选择一批出现在同义词词林(扩展版)中的高频词,进行评价。这类方法可以比较系统在不同词性上的评价值,但是不便于客观公正地和其他研究对比。王石等[17]采用词在二词名词短语中的搭配词作为其上下文抽取特征构造词的向量表示,在自行构建的评价数据上进行了评价。而且,同时又参照英文同义词评价集MC-30[14]构建了包含70个词对的评价集,词性包括名词、动词和形容词三类。在该评价数据的名词、动词和形容词中,这一方法分别取得了0.703、0,50.9和0.700的相关系数。目前公开并且可获取到的中文词相似度评价数据是SemEval-2012 Task 4的数据,该评价数据参照WS-353[10]构建,包含348个词对,50个词对用于开发。在评测提交的结果中,最好的结果达到0.05的相关系数[18]。本文实验采用这个评价数据。

2 基于免疫原理词表示的词相似度计算

2.1 词的表示

文献[4]提出了基于免疫原理的词表示和学习模型,该词表示受B细胞和词的一致性启发。在语句的依存结构中,一个词既处于支配的上下文中,又处于依赖的上下文中,因此基于免疫原理的词表示是把词表示成两个向量,一个向量表示词的支配属性,另一个向量表示词的依赖属性。词表示方法如图1所示。

图1 基于免疫原理的词表示

Fig.1 Immune principles inspired word representation

词 的形式化表示如式(1)和式(2)所示,互补位 表示词 的支配属性及对应的权重,独特性 表示词 的依赖属性及对应的权重。

(1)

(2)

2.2词相似度计算

分布语义假设(Distributional Hypothesis)认为出现在相似上下文的词具有相似的语义[19-20]。在本研究中,有关词的上下文分开为支配上下文和依赖上下文,因此,可把分布语义假设扩展为:如果两个词具有相似的支配上下文和相似的依赖上下文,那么两个词具有相似的语义。基于该假设,词 和词 的相似度计算公式如式(3)所示。

(3)

在式(3)中, 是余弦相似度函数, 和 分别表示词的支配属性向量和依赖属性向量。余弦相似度函数的值域为[-1,1],式(3)要求相似度值不能小于0,否则就改变了函数值的正负号,在计算式(3)之前,需要把余弦相似度函数值通过函数 转换到[0, 1]区间。

3 实验结果与分析

SemEval-2012第4个任务了一套标准的中文词相似度评价数据,该数据能客观公平地评价词相似度计算模型的准确率。本文接下来介绍基于免疫原理的词表示在该数据上的实验和评价结果。

3.1 评价数据和评价指标

评价数据包含347个词对,其中50个词对用于开发,297个词对用于评价。每一个词对由20位母语为中文的标注者赋予一个相似度值,相似度值范围取值是[0,5],赋予的值越大,两个词的语义相似度越大,5意味着两个词的语义完全相同,0意味着两个词没有任何关系。每一个词对赋予的相似度值的平均值作为该词对的相似度值。根据相似度值,将这些词对按照相似度值降序排序,此顺序作为评价数据的黄金标准。词相似度计算模型计算每个词对的相似度值,并且按照相似度值排序,模型给出的词对排序与评价数据的排序进行比较,计算两个排序的相关度,相关度计算采用肯德尔系数[21]。肯德尔系数计算公式如式(4)所示。

(4)

其中,N是词对的总数, 和 是对词对的两个排序, 是保证 和 排序相同而需要相邻交换的最小次数。 的意义可解释为排序一致的词对百分比减去排序不一致的词对百分比。 的取值范围是[-1,1], 的值越大,表明两个排序一致性越高,-1意味着两个排序完全相反,1意味着两个排序完全一致。

3.2 词表示学习语料和实验过程

多词主体自治学习模型的训练语料采用中文滨州树库转换的依存树库[22, 23],一共18 602句,在该树库上学习特征的权重。词表示学习语料为中文Gigaword第5版,选用了光明日报(gmw_cmn)和新华社(xin_cmn)新闻语料。由于词表示构建需要抽取词在语句中依存结构的上下文特征,所以需要对语料进行分词和词性标注和依存分析。在实验中,分词和词性标注均采用斯坦福的模型[24-25],依存分析采用目前速度最快的模型EasyFirst[26]。词表示构建流程如下:

(1)从中文Gigaword语料中抽取正文

(2)按照句号、问号等规则进行句子切分

(3)对语句依次进行分词、词性标注和依存分析

(4)抽取语句依存结构中依存对的特征,把依存对的上下文特征分别作为依赖词的依赖上下文特征和支配词的支配上下文特征。

(5)合并语料中相同词的依赖上下文特征和支配上下文特征,形成词的两支向量表示,特征的权重从多词主体自治学习模型中获取。

基于该词表示,计算评价数据中每个词对的相似度值并排序。

3.3实验结果

实验在两组数据上展开,一组实验室采用的语料是光明日报语料,另一组实验室采用的语料是光明日报语料和新华社语料,对比试验是为了比较不同语料规模对词表示学习的影响。为了验证本文对分布式语义假设扩展的必要性,研究把词的支配向量和依赖向量合并为一个向量,用余弦相似度函数计算词之间的相似度,并进行比较。

对比实验结果如表1所示。对比实验说明扩大语料规模能学习到更好的词表示,其原因是从更大规模的语料能获取到更多的词上下文信息,这一点对低频词更为重要。如表1所示,合并后的单一向量词表示的评价结果相较于两支向量词表示的评价结果要低,这一比较结果证明了基于免疫原理词表示的词相似度计算方法具有一定的优越性,也说明本文对分布式语义假设的扩展是有效的。

表1 不同语料上词相似度评结果

Tab.1 Evaluations for word similarity on different corpuses

语料集 词表示方式 相似度排序相关性( )

光明日报 两支 0.1997

光明日报+新华社 两支 0.2223

光明日报+新华社 合并为一支 0.1910

表2列出了其他研究在该数据集上的实验结果。表中前4个是SemEval-2012在该数据集上的评测结果[18], 第五个是Peng Jin等[27]在该数据上的进一步研究结果,最后一个是开源工具word2vec在该数据上的结果呈现。运行word2vec的参数为:抽取上下文的算法是skip-gram、输出向两维度是200、窗口最大值5、训练算法是分层softmax,训练语料是光明日报语料和新华社语料。这6个研究都采用基于语料的词相似度计算方法,并且采用的语料都是中文Gigaword,因而和本文的研究具有可比性。

表2其他研究的评价结果

Tab.2 Evaluation results of other researches

对比系统 词对相似度排序相关性( )

MIXCC 0.050

MIXCD 0.040

Guo-ngram 0.007

Guo-words -0.011

Peng Jin 2012[27]

0.023

word2vec 0.3405

从表1和表2对比结果可以看出,本文的实验结果明显优于其他研究的结果,但是和word2vec的评价结果有一定的差距。对比结果证明了本研究提出的基于免疫原理的类B细胞词表示以及相似度计算方法在中文词相似度计算这一任务上是有效的,并且有较大的优势和潜力。

4 结束语

本文主要是把基于免疫原理的词表示应用到中文词相似度计算任务上,并提出新的词相似度计算方法,以验证词表示的有效性。本文实验从中文Gigaword新闻语料中构建词表示,在SemEval-2012第四个任务的数据上进行了评价,评价结果明显优于该数据上其他研究结果。实验结果证明了词表示的有效性。词相似度计算是词表示的直接应用,因此提高此相似度计算方法的性能关键在于进一步改善词表示的学习方法。后续工作将继续围绕词表示构建和学习展开,使学习到的词表示能表达出更多的句法和语义信息。

参考文献:

[1] BARONI M, LENCI A.Distributional memory: A general framework for Corpus-Based Semantics [J]. Comput. Linguist., Dec. 2010, 36(4): 673C721.

[2] LI Y, BANDAR Z A, MCLEAN D.An approach for measuring semantic similarity between Words using multiple information sources [J]. IEEE Trans. Knowl. Data Eng., 2003, 15(4): 871C882.

[3] JINFENG Y, YI G, XISHUANG D.Multi-word-agent autonomous learning model for regulating Word combination strength [J]. Int. J. Multimed. Ubiquitous Eng., 2015, 10(4).

[4] YANG J, GUAN Y, DONG X, et al. Representing words as lymphocytes [C]//Twenty-Eighth AAAI Conference on Artificial Intelligence, Quebec, Canada:AAAI,2014: 3146C3147.

[5] BARONI M, LENCI A.Distributional memory: A general framework for Corpus-Based Semantics [J]. Comput. Linguist., Dec. 2010, 36(4): 673C721.

[6] RUBENSTEIN H, GOODENOUGH J B.Contextual correlates of synonymy [J]. Commun. ACM, 1965, 8(10): 627C633.

[7] CHIARELLO C, BURGESS C, RICHARDS L, et al. Semantic and associative priming in the cerebral hemispheres: some words do, some words don’t ... sometimes, some places [J]. Brain Lang., 1990, 38(1): 75C104.

[8] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of Word representations in Vector Space [J]. arXiv Prepr., Jan. 2013.

[9] LEVY O, GOLDBERG Y. Dependency-based word embeddings [C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), Battimore,Maryland:Association for Computational Linguistics,2014: 302C308.

[10] FINKELSTEIN L, GABRILOVICH E, MATIAS Y, et al.Placing search in context: The concept revisited [J]. ACM Trans. Inf. Syst., 2002, 20(1): 116C131.

[11] LEVY O, GOLDBERG Y, DAGAN I. Improving distributional similarity with lessons learned from word embeddings [J]. Trans. Assoc. Comput. Linguist., 2015.

[12] YIH W, QAZVINIAN V. Measuring word relatedness using heterogeneous vector space models [C]// Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Montr,Canada:June, 2012:616C620.

[13] AGIRRE E, ALFONSECA E, HALL K, et al. A study on similarity and relatedness using distributional and WordNet-based approaches [C]//Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Boulder, Colorado, USA: Springer2009, 19C27.

[14] MILLER G A, CHARLES W G. Contextual correlates of semantic similarity [J]. Lang. Cogn. Process., 1991, 6(1): 1C28.

[15] RADINSKY K, AGICHTEIN E, GABRILOVICH E, et al. A word at a time: computing word relatedness using temporal semantic analysis [C]//Proceedings of the 20th International Conference on World Wide Web, New York, NY, USA:ACM,2011:337C346.

[16] 石静, 吴云芳, 邱立坤, 吕学强.基于大规模语料库的汉语词义相似度计算方法[J]. 中文信息学报, 2013, 27(1): 1C6.

[17] 王石, 曹存根, 裴亚军, 等. 一种基于搭配的中文词汇语义相似度计算方法[J]. 中文信息学报, 2013, 27(1): 7C14.

[18] JIN P, WU Y. SemEval-2012 Task 4: Evaluating Chinese word similarity [C]//Proceedings of the First Joint Conference on Lexical and Computational Semantics - Volume 1: Proceedings of the Main Conference and the Shared Task, and Volume 2: Proceedings of the Sixth International Workshop on Semantic Evaluation, Montr\’eal, Canada:Association for Computational Linguistics,2012: 374C377.

[19] HARRIS Z. Distributional structure [J]. Word, 1954, 10(23): 146C162.

[20] FIRTH J . A synopsis of linguistic theory 1930-1955 [J]. Stud. Linguist. Anal., 1957: 1C32.

[21] LAPATA M. Automatic evaluation of information ordering: Kendall’s Tau [J]. Comput. Linguist., 2006, 32(4): 471C484.

[22] NIVRE J, HALL J, NILSSON J. MaltParser: A data-driven parser-generator for dependency parsing [C]// Proceedings of LREC, Genoa, Italy:[s.n.],2006, 6:2216C2219.

[23] ZHANG Y, CLARK S. A tale of two parsers: investigating and combining graph-based and transition-based dependency parsing using beam-search [C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing, Stroudsburg,PA,USA:Association for computational Linguistics,2008: 562C571.

[24] TSENG H, CHANG P, ANDREW G, et al. A conditional random field word segmenter for Sighan Bakeoff 2005 [C]//Proceedings of the Fourth SIGHAN Workshop on Chinese Language Processing,Jeju Island, Korea:ACL-SIGHAN, 2005.

[25] TOUTANOVA K, MANNING C D. Enriching the knowledge sources used in a maximum entropy part-of-speech tagger [C]//Proceedings of the 2000 Joint SIGDAT conference on Empirical methods in natural language processing and very large corpora held in conjunction with the 38th Annual Meeting of the Association for Computational Linguistics -, Hong Kong,China:[s.n.],2000, 13: 63C70.

[26] GOLDBERG Y, NIVRE J.Training deterministic Parsers with non-deterministic oracles [J]. Trans. Assoc. Comput. Linguist., 2013, 1: 403C414.

[27] JIN P, CARROLL J, WU Y, et al. Distributional similarity for Chinese: Exploiting characters and radicals [J]. Math. Probl. Eng., 2012, 2012: 1C11.

上一篇:基于支持向量机的基因组拼接分叉结构处理方法 下一篇:基于Matlab的非均匀介质静电特性分析