引入韵律结构信息的层次短语模型改进研究

时间:2022-06-09 09:04:09

引入韵律结构信息的层次短语模型改进研究

摘要:随着自然语言处理研究的不断深入,人们不但迫切需要挖掘文本更多的潜在语言学信息,而且还力图通过机器学习预测这些潜在的语言学知识,以便更加有效地提高机器翻译的性能,同时为计算语言学服务。韵律作为语音学方面的知识,已经广泛用于到语音合成、文音转换、语音翻译各个语音方面,对基于语音的自然语言处理起到不可替代的作用。该文对韵律信息如何,并以何种方式改进机器翻译进行了介绍,并通过实验验证韵律信息对层次短语模型有改进。

关键词: 统计机器翻译;层次短语模型;韵律结构信息;计算语言学;语音学

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2013)12-2860-04

随着统计机器翻译的不断发展,翻译模型经历了从最初的基于词的翻译模型,到基于短语的翻译模型,一直到基于句法甚至语义的翻译模型的演变。其中层次短语模型[1][2]是当今最好的基于句法的模型之一。层次短语模型脱胎于传统的短语模型[3],继承了短语模型鲁棒的优点,同时又具备较强的长距离重排序能力。然而,现有的层次短语模型存在严重的规则冗余问题。例如,给定汉英句对如下:

这星期它特价一百二十美元。

it's on sale this week for one hundred twenty dollars.

句对对齐结果由GIZA++从语料库训练得到。现给出平行句对的对齐矩阵,如图1所示:

根据该对齐矩阵,我们可以得到初始短语(为简洁,此处省略了对齐信息,下同),根据蒋伟的层次抽取算法,我们可以进一步得到如下含变量的规则集:

1.X

2.X < X1 二 十 美元,X1 twenty dollars>

3.X < X1 美元,X1 dollars>

4.X

5.X

6.X

7.X

8.X

9.X

10.X < X1 百 二 十 X2,X1 hundred twenty X2>

11.X < X1 百 X2,X1 hundred X2>

12.X < X1 百 X2 美元,X1 hundred X2 dollars>

13.X < X1 二 十 X2,X1 twenty X2>

14.X

通过对上述规则集进行分析,我们发现规则集中存在大量冗余。冗余规则的的形式如下:

X < X1 美元,X1 dollars>

X

X < X1 百 X2,X1 hundred X2>

X < X1 百 二 十 X2,X1 hundred twenty X2>

为什么这些规则是不合理的?如果我们把原句的韵律结构信息考虑近来就比较清楚了。假设现有句对源端的韵律结构,如下所示:

这 y 星期 y 它 y 特价 y 一 n 百 n 二 n 十 y 美元 y 。y

可以看到这些不合理的规则绝大多数其规则变量与两边终结符的边界,并不是韵律切分边界。可见韵律结构信息将可能对层次规则泛化通过指导性信息。

为此,该文将研究利用韵律信息对层次短语模型的改进。本章将从两个角度改进层次短语模型。首先利用韵律结构边界信息约束层次短语模型的抽取。另一种角度,增加模型的特征函数[5],利用韵律信息,改进层次短语模型的翻译模型,生成最优的译文。

1 层次短语模型

在层次短语模型中,对任意给定的源语言句子f,一般会存在多个推导得到f,从而得到许多可能的翻译候选项e。层次短语翻译模型通过计算推导过程的概率值确定最终的翻译结果,使用对数线性模型来进行推导,模型如下:

[P(D)∝i?i(D)λi] (1)

这里,[?i]是定义在推导的特征值,[λi]为这些特征值的权重。除了m元语言模型P(m),剩余的特征定义为上下文无关文法的推导过程中使用的规则的特征上:

[?i(D)=(X)∈D?i(X)] (2)

进一步地,可以推导出[P(D)]:

[P(D)∝PLM(e)λLMi≠LM(X)∈D?i(X)λi] (3)

除了语言模型,将其他因子放在一起表示,如下表示:

[W(D)=(X)∈DW(X)] (4)

且定义:

[W(X)=i≠LM?i(X)λi] (5)

由以上公式,可以得到模型的最后表示:

[P(D)∝PLM(e)λLM×W(D)] (6)

而层次短语模型的规则集D是在训练过程中,从对齐的平行句对中抽取出来的,规则形式如下:

X

其中,X是N集合中的某个非终结符;γ, α分别为源语言端、目标语言端的终结符与N中的非终结符组成的串;~为γ, α中非终结符之间的对齐关系,在实际规则中可以通过变量的下标表示;w为规则的权值。

且短语规则利用了类似于Pharaoh的默认特征集相似的特征:目标语言与源语言之间的双向短语翻译概率、短语规则中词相互翻译的贴切度、每个短语规则的惩罚、胶水规则惩罚以及词惩罚。使用最小错误率对对数线性模型各特征的权值调整,并通过对数线性模型把上述特征组合起来。

层次翻译模型的解码器是一个CKY句法分析器,用CKY形式的算法使用学习得到的同步上下文无关文法的源端,对目标端进行同步句法分析,同时生成译文。

2 基于韵律的层次翻译模型改进

因改进需要用到韵律边界信息,因此本节首先介绍韵律边界的预测。然后根据概述,分析有效的韵律约束。本节最后一部分介绍韵律信息以特征的方式改进机器翻译模型。

2.1韵律边界预测

韵律层次结构主要分为三个基本层级:韵律词、韵律短语和语调短语。从形式句法来看,语调短语往往可以被认为是由标点符号分开,比较容易识别。因此对韵律结构的预测问题可以认为是对韵律词和韵律短语的预测。而韵律层次的预测主要有两类[6],一类是基于规则的方法,另一类是基于统计学习的方法。因此韵律边界的预测可以利用韵律层次结构的预测方法。该文采用基于CRF的方法[7],预测韵律边界。

实验工具为CRF++工具包[8],实验的训练集和测试集来自于TH-CoSS[9],其中随机抽取80%为训练集,剩余20%为测试集。TH-CoSS为清华的语音合成语料,TH-CoSS包含韵律标记。训练数据格式如下:

其中第一列为语法词,第二列表示语法词的词长,第三列其词性,最后一列为韵律边界标识。所采用的特征模板是“4+1”的模板,即选取当前词的词性,当前词前面的两个词和后面两个词作为特征。因此特征模板的个数有15个一元特征和31个一元组合特征,共46个特征,详细特征列表请参考文献[4]。

韵律边界预测为分类问题,对其评价,不仅仅考虑精确率和召回率,还要考虑F值,通过CRF++训练,得到预测模型,再由测试集测试,测试结果为:准确率95.04%、召回率94.97%以及F值为95.00%。

2.2基于韵律边界的规则抽取约束

与传统的短语模型相比,层次短语模型保留了传统的短语模型优势,又克服了传统短语模型的调序问题。但是层次短语模型带来了很大的计算代价,存在大量的冗余。对于解决规则冗余,其主要方法是利用语言知识约束规则抽取,比如利用浅层句法分析[10]的结果作为规则抽取的出发点、利用高频词短语搭配[11]约束规则抽取等。

由概述分析可知,韵律层次结构会对规则抽取起到约束作用,进而能解决层次短语模型的冗余问题。根据概述所发现的、不好的规则,与其变量的位置、韵律边界存在一定的关系。因此,利用变量的位置和韵律边界信息,制定如下约束策略:

1)规则含一个变量,考虑两边有终结符,若都不在韵律边界处,过滤此规则。

2)规则含一个变量,且位于末端,且变量前面的终结符不在韵律边界处,则过滤规则。

3)规则含一个变量,且位于首端,且变量后面终的结符不在韵律边界处,则过滤规则。

4)规则含两个变量,若变量位于规则的两端,过滤规则。

5)规则含两个变量,两个变量规则两边的非终结符都不在韵律边界处,则过滤规则;

其中约束2、3和4用于约束概述所总结的规则;而约束1和5,用于约束韵律切分比较严重的规则,因为这些规则的概率比较低、泛化能力不强,但又有可能过滤掉好的规则。

通过对上述五种约束的分析,从理论上来讲,约束2、3,和4会对规则过滤起到优化作用;而约束1和5需要通过实验证明;

2.3基于韵律切分惩罚的机器翻译模型改进

文章2.2采用规则过滤的方式改进基于层次短语模型的翻译系统,这种方式是存在一定的风险,因此本节考虑增加特征函数的方式,将韵律信息添加到翻译模型中。现考虑对每条规则增加特征,惩罚规则中韵律切分的程度。而基本的层次短语模型使用了Pharaoh的默认特征集相似的特征。从双语训练语料中抽取到的规则有如下特征形式:

1)[P(γ|α)]和[P(α|γ)]是目标语言到源语言和源语言到目标语言的短语翻译概率。

2)[Pw(γ|α)]和[Pw(α|γ)]这两个特征是估计[γ]和[α]中词相互翻译的贴切度。

3)对每个抽取的短语规则的惩罚exp(-1),与Koehn's短语惩罚相似,可以使得模型学 习到是长的推导还是短的推导。

4)对胶水规则的惩罚exp(-1),使模型学习到使用是使用传统的短语的顺序组合还是层 次短语的顺序组合。

5)对每一个短语规则进行词惩罚exp(-#T(a)),其中#T(a)是对规则中的终结符的计数, 这个特征来指导模型选择短的翻译还是长的翻译,控制翻译的长度。

增加特征-韵律切分惩罚,特征函数形式如下:

[Fp=#TS(X)] (7)

函数#TS表示规则[X]中的源端变量与其两边非终结符之间的韵律切分次数,比如本文示例的规则表中的一条规则:

X < X1 百 X2,X1 hundred X2>

因变量X1和X2抽取时,与“百”之间的分割不在韵律边界处,因此规则的韵律切分次数为2。因增加特征方式引入韵律信息,同样也可用于传统的短语模型,所以这里同时给出基于韵律特征的短语模型改进。

3 实验与分析

3.1实验设置

本节实验主要用到的语料来自IWSLT2006中的数据和2005年863评测任务的数据,其中IWSLT2006中的训练集和开发集(Dev1到Dev3)来自于BTEC。BTEC(the Basic Travel Expression Corpus)是多语言的平行语料,并且是旅游领域的对话语料。

其中训练集以IWSLT2006的训练集和从2005年 863 MT评测中选取的100425句对作为实验的训练集,该数据共140378句对;以IWSLT2006中的测试集与开发集4分别为实验的测试集和开发集。所有数据的汉语句子经厦大自然语言处理实验室的分词工具分词,训练集的英语部分由moses自带的工具进行tokenize,大小写转换,最后再过滤长句;开发集合的英文部分需要tokenize,大小写转换;测试集英语部分tokenize。

使用开源工具IRSTLM工具训练5元的语言模型,使用改进的Kneser-Ney平滑策略;使用开源工具GIZA++工具训练处双语的词对齐,并采用“grow-diag-final-and”的启发式策略获得词对齐;翻译模型的权重参数使用moses自带的工具进行自动调参;评测方法使用moses自带的评测工具multi-bleu.perl进行Blue计算。

3.2实验结果与分析

本节的实验主要是针对训练时加入韵律约束对规则规模的影响和对翻译性能的影响。文章所涉及的翻译模型有基本的短语翻译模型(PBTM)、层次短语翻译模型(HPBTM)、基于韵律约束策略2、3和4的层次翻译模型(HPBTM1)、基于韵律约束策略1、2、3、4和5的层次翻译模型(HPBTM2),添加韵律切分惩罚的短语翻译模型(PBTM+)和层次短语翻译模型(HPBTM+)。其中基本的短语翻译系统和层次短语翻译系统作为baseline。两个baseline系统即开源的moses系统,其余系统是在开源的moses系统上的改进。

表2给出加入韵律约束前后的短语表规模的对比;表3给出各个模型系统对翻译的质量进行了对比。

从表2、表3可以看出:加入限制2、3和4之后的层次短语模型,抽取到的规则表规模降低了40%多,但是Blue值相对于baseline2,降低了0.36个点;加入限制1、2、3、4和5之后,规则表规模大幅度降低50%多,同时Blue值相对于basline2降低了0.59.然而,加入韵律切分惩罚的短语模型和层次短语模型,相对于baseline1、baseline2,Blue值分别提高了0.23和0.19个点。

由此可以得出:虽然采用韵律信息约束层次短语模型的规则抽取,存在一定的风险,但是从运行代价上来讲,降低了层次短语模型的冗余问题;若在翻译模型中引入韵律信息特征,模型的翻译质量有一定的提高。因此从总体上来讲,引入韵律信息是有助于提高系统的翻译性能。

4 总结

本文针对韵律边界与句法边界之间的关系,通过理论和实验分析讨论了韵律的结构与层次短语模型规则之间的关系。实验证明,该文在只对翻译质量做了稍微牺牲的情况下,大幅度降低了层次短语模型的规则数,因此韵律信息有益于解决层次短语模型的冗余问题;而且以韵律切分惩罚的方式,增加规则的特征,模型的翻译质量得到了提升。该文最为重要的意义是,在现有的比较有限的语言学知识下,利用语言学知识,并且是语音学的韵律知识,改善翻译系统的性能。

因此本文的内容仅仅说明韵律对非语音领域的自然语言处理有一定的作用,迈出了第一步,还有很多不足和探讨的地方,比如韵律边界预测的准确率还有待改进;翻译模型中的韵律特征函数考虑的比较粗糙,是否可以根据具体的韵律层次结构类型,选择相应的特征函数;甚至研究利用韵律结构信息来指导机器翻译的解码过程。

参考文献:

[1] Chiang D. A hierarchical phrase-based model for statistic machine translation[J]. In Proceedings of ACL 2005: 263-270.

[2] Chiang D. Hierarchical phrase-based translation[J]. Computational Linguistics,2007,33(2): 201-228.

[3] Koelhn P. Statistical Phrase-Based Translation[C]. In Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics(HLT/NAACL), Edmonton, Canada, 2003:127-133.

[4] 方李成. 基于层次短语的统计翻译系统中规则冗余的高效约束方法[C]. 西安: 2008: 303-309.

[5] Richard Zens. Improvements in phrase-based statistical machine translation[J]. In Proceedings of HLT-NAACL 2004: 257–264.

[6 ] 包森成. 基于统计模型的韵律结构预测研究[D]. 北京:北京邮电大学, 2009.

[7] Lafferty. Conditional Random Field: Probabilistic Models for Segmenting and Labeling Sequence Data. In ICML 18. 2001.

[8] http:///projects/crfpp/.

[9] 蔡连红. 汉语普通话语音合成语料库TH-CoSS的建设和分析[J]. 中文信息学报, 2007(2).

[10] W. Wei. Hierarchical chunking phrase based translation. Natural Language Processing and Knowledge Engineering, 2007. NLP-KE 2007. International Conference on, pages 268-273.

[11] 苏劲松. 一种基于短语搭配和高频骨干词的层次短语约束抽取方法[J]. 中文信息学报, 2011(3):118-122.

上一篇:基于改进的全局阈值的唇部提取方法 下一篇:基于WebGIS的郑州市旅游资源信息系统设计