越南语分词软件及其应用

时间:2022-10-04 10:19:03

越南语分词软件及其应用

摘 要:越南语是一门重要的东方语言,由于其书写形式及本身的词汇构成与英语及汉语呈现相似的一面又具有自己的特点,使得越南语的词汇界定变得较为复杂。分词在越南语的语言研究与语言教学中是必不可少的重要环节。但长期一来,越南语分词的研究与介绍相对滞后。本文梳理了分词软件的分类,在此基础上介绍了越南语分词软件,并阐述了分词语料的应用。

关键词:越南语;语料库;分词软件

中图分类号:TP391.1

包括越南国家本身,世界上约有九千万人讲越南语;按世界母语使用人数排行,越南语列第十六位,显然,越南语已经不是真正意义上的小语种,而是一门重要的语言。尽管越南语的语系归属尚未确定,有语言学者认为越南语是一种孤立语言;较多的学者则认为越南语属于南亚语系的孟-高棉语族,但无容置疑的是越南语与印欧语言密切相关。在书写形式上,现代越南语采用的是扩展的拉丁符号;在组成上,越南语单音节词居多;在形态上,语法意义是通过语法词等词来实现。以上特点使得越南语与西方语言与东方语言既有相似之处,又有区别。实际上,一般认为,在越南语中,词汇是由"ti?ng"(字)构成。目前,越南语共有字八千左右。有的字本身就是一个词,有的由二个字构成,有的由三个字构成,甚至有的由四、五个字构成。因此越南语的词汇构成比较复杂,具体来讲就是复合词多,但由于在书写上字与字之间有空格(有的字本身就是词,也就是词与词之间有空格),这与英语等西方语言相似,而英语等书写时空格是词的天然分隔界线;越南语则需要判断词的构成。其实,汉语由汉字组成,有的汉字本身就是一个词,有的则不是,是由两个或两个以上的汉字构成。在这一点上,越南语与汉语呈现出较强的相似性。在自然语言处理、语言研究等领域,词汇划界是第一步,也是最关键的一步。在分词的实践过程中,少量的语料可通过人工来完成,但大批量的语料通过人工来做显然不可能。因此开发计算机程序来进行自动分词并进行自动词性标注成为趋势。以汉语为例,现在比较成熟的分词软件比较多,典型的有中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS,该系统分词正确率高达97.58%,已被日本、新加坡、韩国、美国以及其他国家和地区的人员使用。(见刘克强,2009);此外,教育部语言文字应用研究所计算语言学研究室研制的CorpusWordParser也被广大用户使用。越南语分词与标注软件发展相对缓慢,但近几年来也有相当不错的几件产品问世,促进了越南语自然语言处理及越南语研究的发展。下面首先回顾下分词软件的发展与历史,然后介绍越南语分词软件,最后说明分词后的语料的作用。

1 分词软件的类型及特点

分词软件顾名思义一般是指给文本进行分词并标注词类的计算机程序。分词软件的研制始于英语语料。自从世界上第一个电子语料库Brown语料库于1964年问世,学者们经过十年左右的努力,终于推出了第一个词性标注版的Brown语料库。可以说,Brown语料库无论是在语料库建设方面还是在计算机自动词性标注方面都是开拓性的。Brown语料库的标注程序名为TAGGIT,是基于英语语言规则设计的,该程序工作分两个阶段:第一阶段先给每个词指定一个或几个初始词性,如“like”给出介词、动词、名词、形容词、连词及副词共六种初始词性;第二阶段运用“上下文框架规则”进行词性排歧,尽可能地获得唯一的词性。程序使用的上下文框架规则多达3300条,标注的准确率为77%(Greene&Rubin,1971),该系统采用86种词性标记。尽管现在看来准确率较低,但当时已为词性自动标注的一大突破,此后问世的其它类型的标注软件很多是在标注后的Brown语料库训练基础上研制的。

根据程序所使用的原理,可将软件分成三类:基于语法规则;基于概率;基于神经网络/基于转换(模板)。上述的TAGGIT是典型的基于语法规则的词性标注系统,应该说对于特定的语料,使用限于一定的范围内,基于规则的错误率较低,但由于语言规则的不可穷尽性和语言的复杂性,特殊是语料容量庞大时,这种方法的局限性就明显出来,准确率会大打折扣。

基于概率的方法,就是利用统计的方法,通过概率确定词的具体词性。LOB语料库首先采用此方法。在英国兰卡斯特(Lancaster)大学由著名语言学家Leech的领导下,研究小组根据LOB语料库提供的133×133个标注过渡矩阵研制了CLAWS(the Constituent Likelihood Automatic Word-tagging System)程序,使用133种词性标记,标注准确率达96-97%。此后不断改进,目前推出CLAWS 4.0版,词性标记多达170个。基于概率的方法是准确率高,能处理“不规范”的表达,但由于使用的矩阵概率的方法,缺少语言学信息,不能处理相距较远的附码。

基于神经网络/基于转换(模板)的方法,目前介绍较少,因此往往将基于转换的方法称为词性标注的第三种方法。该方法也使用概率统计原则,但与概率方法不同的是,在词类最可能的概率获得后,编制一套转换规则的模板,用这模板重新标注语料,再次产生新的规则,如此周而复始,直到没有新的规则。此方法总体正确率高,效率也高,但缺点是如果标注语料与训练语料语域类型不同时,则准确率明显下降,呈现不稳定性。

2 越南语词性标注软件

越南语的词性标注软件发展相对滞后,据可获得的文献,这些软件基本都是在本世纪初近更近的时间研制的,目前可以下载共享的有VLSP(Vietnamese Language and Speech Processing),即越南越南语语言及言语处理项目组成员开发的系列软件,其中包括分词软件,如VietTagger,JVnTagger及JVnTextPro。其中,后者两者为前者的升级版,目前版本分别为JVnTagger 1.0.0,JVnTextPro 2.0;另一个就是越南河内国家大学Lê H?ng Ph??ng博士开发的越南语文本处理工具包vnToolkit 3.0,其中含括分词软件vnTokenizer、词性标注软件vnTagger以及分句软件vnSentDetector。据Lê H?ng Ph??ng个人主页介绍,vnTokenizer 的准确率和召回率介于96%―98%之间,而vnTagger的准确率达到96%左右,目前vnTagger的最新版本为4.2.0。

软件VietTagger,JVnTagger及JVnTextPro依据最大熵原理和条件随机场开发,属于概率型分词软件,软件按输入文本、断句、切句、分词、标注及输出六个步骤进行,用户可在此基础上进行二次开发;vnTagger可在Unix/Linux和Windows操作系统下运行。下表以JVnTagge 1.0.0和vnTagger 4.2.0版本为例,列出两款软件的特点:

表1 JVnTagge 1.0.0和vnTagger4.2..0特点

开发者 准确率 语言 赋码集 处理对象 输出格式

JVnTagger 1.0.0 Phan Xu?n Hi?u 93% Java 17 文件夹 txt

vnTagger 4.2.0 Lê H?ng Ph??ng 96% Java 17 单文本 Txt,xml

从上表可发现,JVnTagge 1.0.0的最大特点是可进行批量标注,效率高;vnTagger 4.2.0的优势在于准确率高,而且输出文件格式除.txt文件外,还可以生成.xml文件,便于文件及数据间的传输。

3 分词标注文本的应用

Leech(2005)认为语料进行词性标注后就成为“增值”了的文本,也就是说相对于原始文本,其利用价值会更高。一般语料库检索软件都可以实现词表功能、描述搭配功能等。

经过词性标注后的文本,任何一词的词性十分清楚。下图是笔者建立的一个微型越南语语料库,该库经vnTagger 4.2.0进行标注,利用AntConc的词表功能的一个截图。

图1

从上图可发现“nh?t”一词有三种词性,分别标注为nh?t/a,nh?t/m及nh?t/r。其中前者为形容词、中间为数词,后者为副词。这此语料库中形容词及副词的频率分别为24及时10,而数词仅出现一词。此外,nh?n_m?nh/V表示字nh?n与m?nh组成词nh?n m?nh,这个复合词为动词,中间符号“_”将两个字合二为一,这就是分词的结果。如果不进行词性标注,不但这三种词性区分不清楚,而且由于此词与其它词组成的复合词也未能区分,造成混乱,不利于越南语言研究和学习。

词的搭配是语言研究和语言教学中的重点内容。尤其是对越南语这种复合词占多数的语言来说,分词后才能对词的搭配进行较为准确的研究。值得注意的是,由于该语料库主要收集的是有关电脑及网络方面的语篇,上述的结果中有很多名词与电脑及网络有关。此外,分词在自然语言处理中对句法标注也起关键的作用,句法标注的基础是词性标注。这里从略。

4 结束语

上面分别介绍了越南语的一些特点,针对越南语单词的界线不明确,需要进行分词才能划出词的界线,将语料中的单词清晰地给出。越南语的分词软件JVnTagger及vnTagger是常见的两款免费共享软件,功能相对强大,分别有各自己的特点,可满足不同用户的需要。最后说明了分词后的文本的应用,强调分词词表及搭配词表的意义,对越南语的研究及教学必将产生有益的作用。

参考文献:

[1]Greene B.B.,Rubin G.M..Automatic grammatical tagging of English,Department of Linguistics.Brown University,Providence,RI,USA,1971.

[2]Leech,G.‘Adding Linguistic Annotation’,in M.Wynne,Developing Linguistic Corpora:a Guide to Good Practice.Oxford:Oxbrow Books,2005:17-29.

[3]Quan Vu,Trung Pham,Ha Nguyen."Toward a Multi-Objective Corpus for Vietnamese Language",PROC.COCOSDA2003,Singapore,2003.

[4]刘克强.2009共享版ICTCLAS的分析与使用[J].科教文汇(上旬刊),2009(08).

[5]王建新.计算机语料库的建设与应用[M].北京:清华大学出版社,2005.

作者简介:刘克强(1971.06-),男,陕西西安人,教授,硕士,研究方向:语料库语言学及文学。

作者单位:红河学院 外国语学院,云南蒙自 661199

基金项目:红河学院校长基金项目“基于语料库的新闻越南语特征研究”。

上一篇:基于质量管理体系和CMMI的气象水文软件质量控... 下一篇:计算机操作系统中死锁问题研究