哈柯双语语料库加工系统词对齐技术的研究

时间:2022-06-25 03:58:05

哈柯双语语料库加工系统词对齐技术的研究

摘要:在自然语言处理领域,以双语平行语料库为基础的应用日益增多,平行语料库的建设对于机器翻译、双语词典编纂、词义消歧和跨语言信息检索具有重要的价值。因此,设计了高效实用的哈柯双语语料库加工系统。该系统将文档对齐、句子对齐以及词语对齐技术有机地融合为一体,具有高效、方便、快捷和可扩充等特点。

关键词:双语语料;平行语料库;词语对齐

中图分类号:TP393文献标识码:A文章编号:1009-3044(2011)28-6895-02

Study on Word Alignment Technology of Chinese-Uygur Kazak Kirgiz Bilingual Corpus Processing and Programming System

AISHAN Molniyaz, TAN Xun, TURGUN Ibrahim, AISHAN Wumaier

(College of Information Science and Engineering, Xinjiang University, Urumqi 830046, China)

Abstract: In the field of naturallanguage processing, applications based on mandarin-to-ethnic language parallel corpara have been increasing. The building of parallel corpara is of vital importance to machine translation, mandarin-to-ethnic language lecicography, disambiguity and interlanguage concordance. In the current paper, an efficient system for processing Mandarin-Uygur, Mandarin-Kazak and Mandarin-Kirghiz parallel corpa is established. The intergrated text alignment, sentence alignment and word alignment in this system make it highly efficient, convenient and expandable.

Key words: bilingual corpora; parallel corpus; word alignment

近年来,双语语料库的研究和建设蓬勃发展。双语语料库由于含有两种语言的对应信息,广泛用于机器翻译[1]、汉语词典的编纂[2]、自动问答、信息检索、信息抽取等领域[3-5]。因此,双语语料库的建设至关重要。

文档对齐、句子对齐以及词对齐是建设语料库的重要组成部分。快速、方便、准确的建设双语语料库的问题日趋突出。双语语料库的建设正在趋于快速和准确,双语语料库加工系统不仅可以解决建设语料库的速度问题,而且还可以提高对齐的准确性[6-8]。这就要求我们把三个重要组成部分组合到一个系统中,先利用机器自动对齐然后再进行人工对齐提高准确性。根据汉语和维吾尔语(哈萨克语、柯尔克孜语)的特点合理进行算法设计。如何提高对齐的准确性、加快语料库的建设速度、降低语料库建设的成本就显得非常重要了,而哈柯双语语料库加工系统正解决了这些问题。

1 哈柯双语语料库加工系统的设计

1.1 系统框架

该系统主要有文件管理和对齐管理两部分组成。具体结构如图1所示。

文件管理系统包括文档导入、文档编辑和文档审核三个子系统。文档导入系统负责已经导入服务器的文档的基本信息的管理,并向管理人员提供查看文档详细信息的服务。文档编辑系统负责对文档的校对,并实现了维文的自动校对,向服务器提供准确的双语语料。文档的审核系统是管理员进一步确定文档的准确性,并向服务器提交校对之后的文档。

对齐管理系统包括文档对齐、句子对齐和词语对齐三个子系统。文档对齐系统负责对两个不同语种文档进行自动对齐,亦可手动对齐并向服务器提供对齐的文档。句子对齐系统负责对文档对齐的语料进行句子自动对齐,手动修改错误的对齐提交到服务器。词语对齐系统负责维吾尔语(哈萨克语、柯尔克孜语)和汉语之间的词语自动对齐,并可手动对齐并提交到服务器。

1.2 系统工作原理

1.2.1 词语对齐原理

词语对齐是在互译的文本上寻找以词为单位的翻译对应。词语是双语语料库的自然语言处理任务都需要词语级的对齐。目前词语对齐的方法主要有4种:基于统计的方法[9]、基于字符的方法[10]、基于语言学知识的方法[11]和混合方法[12]。基于统计的方法是通过对大规模双语语料库的统计训练,获得双语对译词的同现概率以此作为对齐的基础。基于字符的方法是以两种语言含有的同源词在词性上面的共同之处进行词对齐。基于语言学知识的方法是以双语词典和同义词词典等语言学知识作为对齐的基础。混合方法同时使用了包含上三种方法的多种方法。

形式地,假设汉语句子C=C1C2......Cm和维语句子U=U1U2......Um互为翻译,m和n是C和U的长度。

SetC={,……}

SetU={,……}>

Set={|∈SetC&SetU}

SetA={|∈Set&和在C和U中有互译关系}

称作一个连接。SetA是C,U词语对齐的结果。

一个词语对齐的例子:

其中,

SetC={,,,,,,,}

词语对齐之前:

SetA=Φ

词语对齐以后:

2 系统实现

用户登录系统之后向服务器导入文档并对有错误的文档进行编辑然后提交给服务器,等待管理员的审核。管理员审核通过之后分配给用户对齐任务,用户对文档进行对齐工作,包括文档对齐、句子对齐以及词语对齐。

根据维吾尔语(哈萨克语、柯尔克孜语)的特点对应汉语的句子会出现一对一、一对多、多对一以及多对多四种情况。在词语对齐会出现一对一、一对多、多对一、多对多以及空对齐的情况。另外在管理员分给用户的词语对齐任务里面根据维吾尔语(哈萨克语、柯尔克孜语)的特点需要对维吾尔语(哈萨克语、柯尔克孜语)分词或者是合词。词语对齐流程图如图2所示。

3 结束语

针对维吾尔语(哈萨克语、柯尔克孜语)的特点,设计了哈柯双语语料库加工系统方案。该方案将文件管理、文档对齐、句子对齐、词语对齐技术有机地融合为一体,可以快速的建设语料库,实用价值高,语料库的准确性高。

参考文献:

[1] Dolan W B,Pinkham J,Richardson S D.MSR-MT, the micro-soft research machine translation system[C]//LNCS 2499,AM-TA,2002:237-239.

[2] Wu D,Xia X.Large-scale automatic extraction of all English-Chinese translation lexicon[J].Machine Translation,1995,9(3/4):285-313.

[3] Fattah M A,Ren F,Shingo K.Adaptive threshold parameters for bilingual dictionary extraction from the interact archive[J].International Journal Information,2005,8(1):165-175.

[4] Dejean H,Gaussier E,Sadat F.Bilingual terminology extraction: An approach based on a multilingual thesaurus applicable to comparable corpora[C]//Proceedings of the 19th International Conference on Computational Linguistics, COLING 2002.Taipei,2002:218-224.

[5] Chuang T C,Ych K C.Aligning parallel bilingual corpora staffstically with punctuation criteria[J].Computational Linguistics and Chinese Language Processing,2005,10(1):95-122.

[6] 钱丽萍,赵铁军,杨沫昀.基于译文的英汉双语句子的自动对齐[J].计算机工程与应用,2000(12).

[7] 淑琴,那顺乌日图.面向EBMT系统的汉蒙双语语料库的构建[J].内蒙古社会科学:汉文版,2006,27(1):140-144.

[8] 田生伟,吐尔根・依布拉音,禹龙.混合策略的句子对齐[J].计算机工程与应用,2010,46(34):143-145.

[9] Brown P F,Della Pietra V J,Della Pietra S A,et al.The mathematics of Statistical Machine Translation: Parameter Estimation[J].Computational Linguistics,1993,19(2):263-311.

[10] Church K W.Char align: A program for aligning parallel texts at the character level[C]//Proceedings of the 31st Annual Meeting of the Association for Computational Linguistics.Columbus,Ohio,1993:1-8.

[11] 王斌.汉英双语语料库自动对齐研究[D].北京:中国科学院计算技术研究所,1999.

[12] Huang Jin Xia,Choi Key Sun.Chinese-Korean word alignment based on linguistic comparison[C]//Annual Meeting of the Association for Computational Linguistics,2000:392-399.

上一篇:基于SOAP安全的Web Service设计 下一篇:计算机硬件常见故障及维修方法探析