一种体现长距离依赖关系的语言模型

时间:2022-09-28 08:10:44

一种体现长距离依赖关系的语言模型

【摘 要】基于N-gram的语言模型广泛应用于语音识别、机器翻译等众多自然语言处理相关领域,捕获的主要是词之间的局部依赖关系,但其本身存在一定的局限性。依存句法树能够反映出句子中各成分之间的语义修饰关系,显式地对词之间的长距离搭配关系进行建模。本文利用最大熵方法整合句子的局部依赖关系和长距离搭配关系,构建一种包含长距离依赖关系的语言模型。

【关键词】语言模型;长距离依赖;依存句法树;最大熵方法

【Abstract】The N-gram language model which can capture local dependency relationship between words, is widely used in speech recognition, machine translation and some other fields of nature language process, but there is still the limitation in capturing long distance relations. A dependency syntax tree can reflect semantic relation between the components of a sentence which means it can model the long distance collocations explicitly. Based on the max entropy method, the paper constructs a new language model which can capture the long distance dependency relation between words.

【Key words】Language model;Long distance dependency;Dependency syntax tree;Max entropy method

0 引言

统计语言模型可以分为生成模型和判别模型两大类:N-gram语言模型是生成模型的典型代表,为了直接估计一个句子的概率,它将句子的生成过程假设为一个马尔可夫过程。即假定当前词的出现概率是由该词前面的N-1个单词所决定的,前N-1个词对当前词的转移概率可以采用极大似然估计来获得,基于这些转移概率,利用链式法则就可以直接估计一个句子的概率。最大熵模型[1]是判别模型的代表,基本假设是:在用有限知识预测未知假设时,应该选取符合这些知识条件下具有最大熵的概率分布作为预测模型,它将统计语言问题看作为一个求解受限概率分布问题,能够较好地包容各种约束信息。

现有语言模型虽然在很多应用领域都取得了比较成功的应用,但是还是存在着一些不足。主要表现为:只能建模短距离的词之间的转移关系,无法体现长距离的词之间的依赖关系,描述能力较差,不能很好的反映真实的概率分布。

目前对语言模型的改进主要集中在以下几个方面:

(1)在现有N-gram的基础上,建立大规模高阶的语言模型[2-3],试图从一定程度上体现长距离依赖关系,但取得的效果并不明显。随着训练语料的不断增加,模型的规模会变得非常庞大,数据稀疏问题会更加严重。

(2)利用浅层语法、语义信息的语言模型。如基于词类的语言模型[4]、基于Trigger的语言模型[5]、Skipping语言模型[6]、基于神经网络的语言模型[7-8]等。

(3)基于语言结构的语言模型,这类模型从分析句子语法、语义结构入手构建语言模型,它们更多地利用了语言的结构信息,如结构语言模型[9-10]、基于自上而下句法分析器的语言模型[11]、无监督学习的依存结构模型[12]等。

1 相关工作

语言中长距相依的现象非常普遍,某些词或词类对在句子中往往搭配出现,它们是具有一定的内聚性、能够结合在一起承担某种句法功能的词或词性标记的序列,从而形成一个比较固定的框架结构,这些词或词类对就可能会产生长距离依存现象;同时,句子的不同成分,如主语、谓语、状语、宾语、补语的核心词之间,也存在着一定的相依关系,但它们通常在句子中并不是相邻出现的,而是相距一定的距离内。语言模型的长距相依问题己经成为影响语言模型性能的重要问题和瓶颈。

1.1 基于数据聚类的语言模型

IBM的Brown等人提出了互信息语言模型,该模型使用词类的转移概率来替代词的转移概率,与基于词的N元语法模型相比较,基于类的语言模型参数小,对未知事件的预测较优,使得模型的鲁棒性更强。但是降低了模型对己知事件的区分能力。所以在实际系统中,基于类的语言模型常与基于词的N元语法模型做线性插值联合使用。

基于类的语言模型使用一个映射函数G,把所有的词分到不同的类中去,然后使用类之间的条件概率以及词和词类之间的关系来预测词序列的概率。

在这种模型中,如何从语料中抽取适当的trigger对是一个关键的问题。一种最简单的方法是限制Trigger对的最长约束距离,如限制为20,即只考虑当前词的前20个词作为历史,按这种方法抽取的Trigger对数量是非常大的。文献[5]将Trigger对作为约束成功地纳入到最大熵模型的框架中,但该方法不能克服最大熵模型计算量大、存储量大的问题。利用Trigger对描述长距离的约束关系,可以在一定程度上弥补传统的N元语言模型描述距离小于N的缺点。如何更有效地利用Trigger对提供的信息,以及更一般地推广到词序列的长距离约束等,需要今后进一步的研究和探索。

1.3 Skipping语言模型

基于跳跃单元的方法是指通过一些规则和预处理,将对连续文本的建模改变为对非连续文本的建模。例如,有的语言模型利用对文本进行的分词和词性标注结果,只对句子中的名词、动词等有实际意义的词进行建模,而不考虑句子中的虚词。文献[6]把词分为功能词与非功能词两大类,并建立以中心词为对象的语言模型。

这种方法能在一定程度上提高语言模型的长距离相依的能力。但是,其参数估计都要考虑到预测词wi的前一个词wi-1的类别。如果对wi-1的类别判断有误,则会影响wi的概率估计结果。

2 长距离依存的语言模型

句子的各种成分的核心词之间的长距离依存关系是语言中的一种普遍现象,但它们通常在句子中并不是相邻出现的,而是相距一定的距离,如何对这种长距离依存关系进行建模,是一个很值得研究的问题。依存句法结构可以反映出句子各成分之间的语义修饰关系,它可以获得长距离的搭配信息,并与句子成分的物理位置无关。本文在具体分析依存句法中各种依存关系的基础上,从句子的依存结构树中提取特定的长距离依赖关系并形式化为约束,最后通过最大熵模型整合这些长距离依赖关系和局部的N-gram约束关系,并建立一种体现长距离依赖关系的语言模型。

2.1 从依存树中获取长距离依赖关系

LTP的依存关系包括24种,其中有多种依存关系可以体现词之间长距离的依赖,如果能在构建语言模型的过程中体现这些依赖关系,将有利于改善语言模型的性能。如句子“我刚吃了一个很新鲜的奇特的水果”是汉语中一个常见的例子,如果使用N-gram语言模型的情况下,句子主语/谓语、谓语/宾语、量词/名词之间的依赖关系无法体现。依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构,上述句子的依存句法结构如图1所示:

通过对上述句子的依存结构进行分析,可以获取多种长距离依赖关系,如SBV关系“我/吃”,VOB关系“吃/水果”,QUN关系“一个/水果”,DE+ATT关系“新鲜的/水果”等。通过对依存关系的仔细分析,可能体现长距离依存关系的主要有以下一些,如表1所示:

2.2 最大熵模型

最大熵模型已经成为近年来自然语言处理领域最成功的机器学习方法之一,其原理是当需要对一个随机事件的概率分布进行预测时,预测的结果应当满足全部已知的条件,而对未知的情况不要做任何主观假设。最大熵模型的优点是可以将各种信息综合在一起,因此,在对具体问题建模时,只需要集中精力选择合适的特征,而不需要花费精力考虑如何使用这些特征。

假设分类任务或者预测任务的类别为y∈Y,而能够依据的上下文信息记为x,x∈X。希望对于不同的给定的上下文x条件下,统计模型能够给出判为不同类别y的概率值P(yx) 。因此,希望能够建立一种区分性的条件概率模型P(yx) 用p来表示所有这种条件概率模型的集合,而期望得到的模型就是p中的一种,就是在p中满足一定约束下条件熵最大的模型。

所谓的约束,也就是已知的信息,可以认为期望模型在这些信息上能和训练数据匹配。而熵最大,则表明除约束外,不再做未知的假设,在条件最大熵模型中,约束是通过特征的形式来体现的,在自然语言处理领域一般表示为0-1的指示函数的形式。

观察训练语料,通过简单的统计可以知道任意一个特征(x,y)组合的联合概率。。

3 小结

目前,在自然语言处理领域使用最广泛的仍然是N-gram语言模型,但其对当前词的预测仅依赖前面的N-1个词,具有一定的局限性。语言中的长距离依赖现象大量存在,蕴含了大量的语言信息,在语言模型中体现这些信息可以获得更好的性能表现。本文首先从句子的依存树中提取长距离依赖关系,并形式化为约束关系,通过最大熵模型整合长距离约束关系和N-gram语言模型中体现的局部约束关系,实现一种体现长距离依赖关系的语言模型。该模型既具有N-gram语言模型的优势,又包含了大量长距离依赖关系。

【参考文献】

[1]S. Della Pietra, V. Della Pietra, R.L. Mercer, and S. Roukos. Adaptive language modeling using minimum discriminant estimation[C]//Proceedings of the Speech and Natural Language DARPA Workshop,February 1992.

[2]Thorsten Brants, Ashok C. Popat, Peng Xu , Franz J. Och , Jeffrey Dean. Large Language Models in Machine Translation[C]. 2007EMNLP, pp.858-867.

[3]Ahmad Emami, Kishore Papineni, and Jeffrey Sorensen. Large-scale distributed language modeling[C]// Proceedings of ICASSP-2007, Honolulu, HI, USA. 2007.

[4]Brown PF, DellaPietra VJ, DeSouza PV, Lai JC, Mercer RL. Class-Based n-gram models of natural language[J]. Computational Linguistics,1992,18(4):467, 479.

[5]Lau R, Rosenfeld R, Roukos S. Trigger-Based language models: A maximum entropy approach[M]//Sullivan BJ, ed. Proc. of the Int’l Conf. on Acoustics, Speech, and Signal Processing(ICASSP), Vol II. 1993:45,48.

[6]Gao JF, Suzuki H, Wen Y. Exploring headword dependency and predictive clustering for language modeling[M]//Hajic J, Matsumoto Y, eds. Proc. of the Empirical Methods in Natural Language Processing (EMNLP),2002:248,256.

[7]Yoshua Bengio, Rejean Ducharme, Pascal Vincent, and Christian Jauvin. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003,3:1137-1155.

[8]Ahmad Emami.A neural syntactic languagemodel[D]. Johns Hopkins University, Baltimore, MD, USA. 2006.

[9]Chelba C. Exploiting syntactic structure for natural language modeling[D]. Johns Hopkins University,2000.

[10]Xu P, Chelba C, Jelinek F. A study on rich syntactic dependencies for structured language modeling[C]//Proc. of the 40th Annual Meeting of the Association for Computational Linguistics (ACL). ACL,2002:191,199.

[11]Roark B. Probabilistic top- down parsing and language modeling[J]. Computational Linguistics, 2001,27(2):249,276.

[12]Gao JF, Suzuki H. Unsupervised learning of dependency structure for language modeling[C]//Proc. of the 41st Annual Meeting of the Association for Computational Linguistics (ACL). ACL,2003.

上一篇:电子类专业实践教学改革的探索 下一篇:浅谈宁南山区马铃薯脱毒种薯繁育技术