哈柯双语语料库加工系统句子对齐技术的研究

时间:2022-08-13 01:01:17

哈柯双语语料库加工系统句子对齐技术的研究

摘要:在自然语言处理的研究和开发中,双语平行语料库的作用日益突显出来,平行语料库的建设对于机器翻译、双语词典编纂、词义消歧和跨语言信息检索具有重要的价值。因此,设计了高效实用的哈柯双语语料库加工系统。该系统将文档对齐、句子对齐以及词语对齐技术有机地融合为一体,具有高效、方便、快捷和可扩充等特点。该文着重介绍句子对齐技术。

关键词:双语语料;平行语料库;句子对齐

中图分类号:TP391文献标识码:A文章编号:1009-3044(2011)28-6797-03

Study on Sentence Alignment Technology of Chinese-Uygur Kazak Kirgiz Bilingual Corpus Processing and Programming System

TAN Xun, TURGUN Ibrahim, AISHAN Wumaier, Aishan Molniyaz

(College of Information Science and Engineering, Xinjiang University, Urumqi 830046, China)

Abstract: In the research and development of natural language, bilingual parallel corpus show their impact gradually. The construction of the parallel corpus is valuable and beneficial for machine translation, bilingual dictionary compilation, meaning disambiguation and crossing-language information retrieval. As a result, the author designs the bilingual corpus processing system, which is very efficient and practical for the switch from Chinese to Uygur, Uygur to Kazak and Kazak to Kirgiz. This processing system blends the technology for document alignment, sentence alignment and word alignment together, which makes it efficient, convenient, speedily and extending. The thesis focuses on the technology for sentence alignment.

Key words: bilingual corpora; parallel corpus; sentence alignment

语料库顾名思义就是存放语言材料的仓库或数据库。语料库是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段,而建成的具有一定容量的大型电子文库。

近些年来,双语语料库成为工作在多种自然语言平台系统上的基本资源,包括机器翻译,自动翻译校对,翻译知识的自动获取,跨语言信息检索等[1]。因此,双语语料库的建设至关重要。快速、方便、准确的建设双语语料库的问题日趋突出[3-7]。双语语料库的建设正在趋于快速和准确,双语语料库加工系统不仅可以解决建设语料库的速度问题,而且还可以提高对齐的准确性。这就要求把文档对齐、句子对齐、词语对齐三个重要组成部分组合到一个系统中,先利用机器自动对齐然后再人工干预调整提高准确性。

1 系统的整体架构和功能模块

1.1 系统的整体架构

哈柯双语语料库加工系统是C#和Sql Server2005开发实现的,从层次架构来看,可将系统分为分为两个模块:文件管理模块和对齐管理模块。整体结构如图1所示。

系统首先使用文档管理系统对文档进行导入、编辑和审核,然后通过对齐管理系统进行文档对齐、句子对齐和词语对齐。用户可以通过客户端来对分配的任务进行对齐。

1.2 系统的功能模块

1.2.1 文档管理模块

文档管理模块包括文档导入、文档编辑和文档审核三个部分。

1)文档导入。负责已导入服务器的文档的基本信息的管理,并向管理人员提供查看文档详细信息的服务。

2)文档编辑。负责对文档的校对,并实现了维文的自动校对,向服务器提供准确的双语语料。

3)文档的审核。管理员进一步确定文档的准确性,并向服务器提交校对之后的文档。

1.2.2 对齐管理模块

1)文档对齐。负责对两个不同语种文档进行自动对齐,亦可手工干预并向服务器提供对齐的文档。

2)句子对齐。对文档对齐的语料进行句子自动对齐,手动修改错误的对齐提交到服务器。

3)词语对齐。负责维吾尔语(哈萨克语、柯尔克孜语)和汉语之间的词语自动对齐,并可手工干预对齐并提交到服务器。

2 句子对齐

2.1 句子对齐问题概述

对齐指的是,将平行语料库中两种(或多种)语言之间的互译片段或单元建立映射。由于在双语语料的形成过程中,翻译人员并不总是一句一句地对译过来,所以双语文本中并非都是一句源文对应一句译文,还存在大量的一句对应多句、或者多句对应一句,甚至多句对应多句的情况。因此,句子对齐是双语语料库走向实用的首要环节,是利用双语句对进行知识获取的基础,其研究具有十分重要的应用价值。

由于对齐是在不同语言之间进行的,因此不同语言之间不同的语法规则、文化传统、表达方式、习惯用法甚至字符编码方式都会加大对齐的困难程度。这种差异对于汉语和维吾尔语这两种分别属于汉藏语系和阿勒泰语系的语言来说则更为明显[8]。

目前对于双语语料的系统的,深度的加工研究还比较少,而双语句子对齐几乎也是处于刚起步阶段,我们必须借鉴较为成熟的其他语言的双语句子加工研究并且考虑汉语和维吾尔语的各自的语言特点和其特殊性,从而选择出更适合句子对齐的方法。

2.2 句子对齐原理

句子对齐之前对语料进行分段,属性para_id表示段落的编号,取值范围为1……n,n是文件的总段数,属性sent_id表示段内句子的编号,取值范围为1……n,n是段内句子数。

句子对齐是双语语料库建设的一个重要组成部分,是短语、词语对齐的基础,也是机器翻译的基础。迄今,句子对齐的方法主要有3种:基于长度的方法、基于词汇的方法和混合的方法。基于长度的方法依据是:长句子的译文也是长句子,短句子译文也是短句子,它们的长度满足一定的比例关系,该方法适用于同一语系的句子对齐,如:印欧语系。基于词汇的方法通常利用双语词典和词汇信息来对齐句子。混合方法则同时使用包含前两种方法的多种方法,利用各方法的优越性,既提高了鲁棒性,又降低了计算复杂度[9-12]。

句子对齐就是对给定的双语语料,在所有可能的对齐中找出概率最大的对齐,公式表示:arg max P(A/C,U)其中A是对齐文本,C和U分别是汉语和维吾尔语文本。

假设汉语文本C和对应的维语译文文本U的一个长度为k的对齐A={A1,A2,A3……Ak},Ai=(i=1,2,……,k)。如果每个CiS、UiT分别包含汉语文本和维语文本的零个、一个或多个句子,则A成为C、U的一个句子对齐。每个|CiS|:|UiT|称为句子的匹配模式。获得句子对齐A的概率为Prob(A|C,U),则所要寻求的最佳句子对齐为:arg max P(A/C,U)。如果假定各翻译对之间独立并且不依赖上下文,上式转化为:

A=arg max ΠAProb(A|C,U)=arg max ΠAProb(Ai|CiS,UiT)

假设Ai的概率只依赖于有限个属性α1,α2,……αm的取值,则有Prob(Ai|CiS,UiT)=Prob(Ai|α1(CiS,UiT),……αm(CiS,UiT)) 。

一个句子对齐的例子如表1。

原文C={C1,C2},译文U={U1,U2,U3},对齐结果形式化表示为AR={,},对齐长度|AR|=2,两个双语片段,的对齐模式分别是1:2和1:1。

2.3 句子对齐实现

在分段落页面将需要对齐的任务导入进来,然后添加分段,并自动加载到句子对齐页面的相应列表框内,然后根据任务的不同,执行不同的对齐,有一般对齐、精确对齐和空对齐三种类型。最后,是任务的保存和提交,等待审核者的审核。

句子对齐的流程如图2所示。

3 结束语

针对维吾尔语(哈萨克语、柯尔克孜语)的特点,设计了哈柯双语语料库加工系统方案。该方案将文件管理、文档对齐、句子对齐、词语对齐技术有机地融合为一体,可以快速的建设语料库,实用价值高,建设语料库的准确性高。目前本系统已在新疆大学多语种信息处理实验室进入实用阶段,收到良好的效果。

参考文献:

[1] Dolan W B,Pinkham J,Richardson S D.MSR-MT, the micro-soft research machine translation system[C]//LNCS 2499,AM-TA,2002:237-239.

[2] Wu D,Xia X.Large-scale automatic extraction of all English-Chinese translation lexicon[J].Machine Translation,1995,9(3/4):285-313.

[3] Fattah M A,Ren F,Shingo K.Adaptive threshold parameters for bilingual dictionary extraction from the interact archive[J].International Journal Information,2005,8(1):165-175.

[4]Dejean H,Gaussier E,Sadat F.Bilingual terminology extraction:An approach based on a multilingual thesaurus applicable to comparable corpora[C]//Proeeedings of the 19th International Conference on Computational Linguistics,COLING 2002.Taipei,2002:218-224.

[5]Chuang T C,Ych K C.Aligning parallel bilingual corpora staffstically with punctuation criteria[J].Computational Linguistics and Chinese Language Processing,2005,10(1):95-122.

[6] 钱丽萍,赵铁军,杨沫昀.基于译文的英汉双语句子的自动对齐[J].计算机工程与应用,2000(12).

[7] 淑琴,那顺乌日图.面向EBMT系统的汉蒙双语语料库的构建[J].内蒙古社会科学:汉文版,2006,27(1):140-144.

[8] 田生伟,吐尔根・依布拉音,禹龙.混合策略的句子对齐[J].计算机工程与应用,2010,46(34):143-145.

[9] Brown P F,Della Pietra V J,Della Pietra S A,et al.The mathematics of Statistical Machine Translation: Parameter Estimation[J].Computational Linguistics,1993,19(2):263-311.

[10] Church K W.Char align: A program for aligning parallel texts at the character level[C]//Proceedings of the 31st Annual Meeting of the Association for Computational Linguistics.Columbus,Ohio,1993:1-8.

[11] 王斌.汉英双语语料库自动对齐研究[D].北京:中国科学院计算技术研究所,1999.

[12] Huang Jin Xia,Choi Key Sun.Chinese-Korean word alignment based on linguistic comparison[C]//Annual Meeting of the Association for Computational Linguistics,2000:392-399.

上一篇:语义Web下大数据量模糊聚类分析 下一篇:民航气象设备常见故障分析