藏语语素库的构造及其内容

时间:2022-09-01 06:11:24

藏语语素库的构造及其内容

[摘 要]在藏语当中语法单位最小的认为是音素,而语素没有给予一个特定的答案。没有分析也没有表明,大量认知研究发现语素存在独立的心理表征,语素意识以及分类在语法单位或教学上占重要地位。因此在论述“语素库”构造结构的基础上,探讨了设计现代藏文语法信息词典的理念及“语素库”在语法研究和语言信息处理研究中的应用。

[关键词]语素 语素库 藏语 信息词典

中图分类号:C829.2 文献标识码:A 文章编号:1009-914X(2015)45-0274-02

一、引言。

语素(Morpheme)作为最小的形、音、义的结合单位,在言语交流或阅读中传达语义或者句法的信息。汉语语素与藏语语素差别迥异;在拼音文字语素为词性和语义两部分组成,藏文中语素有着英语和汉语类似的划分部位,也有着自己独有的构词组合位置。

为研究文本信息处理中未登录词的识别问题,为研究现代藏语合成词的构造规律问题,为设计一个“现代藏语语法信息词典”提供一可用资源。相应《新编藏文字典》所包含的全部藏字建立了一个单音节的“语素库”。这个“语素库”共有6800个记录。每个记录也包含相当丰富的语法属性信息。

二、语素的概念及其在藏语中的分类。

语素是语言学范畴术语。语法单位有大有小,最大的语法单位是句子,比句子小的语法单位,依次是短语、词、语素。藏语传统语法将语言单位分为四级:音素、词、句、和句群。语素作为语言中最小的语义和语音结合体。在不同语言体系中,语素的表达形式也各不相同。因此在这里按照汉文和英语中怎样划分语素为按例;在藏文中慢慢找出适合自己的语法和构词能力的语素分类为如下图(1):

藏文中“?”隔开符来划分为单音节和多音节(单字、单词等),也可按音节划分为单音节语素和多音节语素。分类时跟着相似的英语规划并给于适合藏文语法的分类方式;在汉文中构造的语素库也为单音节的语素,成词的语素都纳入了《现代汉语语法信息词典》范围内,不成词的单音节语素才作为语素登录项。因藏文没有这样规划明确数据库庞大的词典,从而先不把语素按其自身能否构成词可划分为成词语素和不成词语素,单纯词和不成词都先纳入为单音节的语素库,把单音节作为着重点成立语素库。

三、 语素作为语素库的一个登录项。

按藏文语素的划分为结构上的划分和语义上的划分、构词能力,只要是一个语素组成的词都是单纯词。既然没有语法信息词典构建一个词语及语法属性的词库框架,只能按照上述的划分方法在藏文字典的目录下面,把目录下面的每个字所构成的字或词为一个登录项。

一个藏字可以代表若干个语素,说“”是单纯词,或许是指藏文字母的“”(字母的顺序或辅音字母),又可能指器官的为人或动物的嘴唇,还指谈话内容为“”,指边缘等为“”,指上方或上面为“”等不成词的语素。同样,说“”指触觉问题时是粗糙的反义词,而性格上或语气为温和的(),味觉等其他上指舒服的、温和的。但它还有一个意思,指为“”(意为水里生长的草类),代表另一个语素,也不是单纯词,通常只用于构成合成词。像上述中的这样的语素怎么划分呢。因此,确立语素库登录项的第一件事,就是要把用一个字表记的若干语素区分开。如果某个语素是单纯词,则划为语素;如果不是单纯词,则划为语素登录项。使用汉语中的“语素登录项”这个术语指称作为不成词的登录项的语素,就不会同成词的语素相混淆。

由于语素登录项通常不独立使用,其语法功能的含义需重新考虑。主要是看它在合成词中的作用,如读“”的“”在“”中,是指人名词后缀,起自由虚词作用;“”在“”等词语中终结词,起不自由虚词性作用。语素在复合词中的作用可用“替换法”进行检测。“”“”在前面的字替换掉用“-疾换岣谋溆镆宸冻搿R虼斯娑ㄓ锼睾陀锼氐锹枷畲胧恰K”,语素库对语素登录项和语素的语法功能分类是在此基础上进一步作子类的划分,此后起自由虚词性作用的就叫“实语素”,“类别”字段填“Sk”,而自由虚词里面的连词、语气助词、指示代词、疑问代词、否定词、指人名词后缀等又划为一个子类按照上述填段类别。

为了区分同字同子类不同义项的语素登录项。同一个字的(处于同一条目中的)不同义项也可能分属不同的语素子类,如“”的“ ”,在该条目下,是属格助词义,如“”,是名语素。如藏文中的像辅音字母的语素,分别为名语素Nk、形容语素Ak、数词Numk。为了区分它们,也仿照《现代汉语语法信息词典》的办法,语素库设立“同形”字段。在语素库中有多记录登录“”,在“同形”字段分别填“A”,“B”等。

在构造语素库时,不对方言的语素义项用法录入库内。收入了非语素字,大部分为格助词就像上面所述那样,切分为,不过“”也可以用来构成“”,因此,语素字和非语素字的界限也不是绝对的。

四、确定语素库的各个属性字段的含义。

现在语素库共有6800个记录,记录字段为:

单字:不同的单字一定是不同的记录。

类别:规定了语素字的代码是“k”,非语素字的代语码是“x”。语素除填“k外,还在“k”的前面加一个大写字母,表示语素的子类。名语素填“Nk”,时间语素填“Tk”,动语素填“Vk”,形容语素填“Ak”,如此等等。

同形:为了区分同音同字不同语素的登录项。

组合:藏字组合成的词,有格助词或辅音字母作为前缀或后缀的。比如“”同“”组合成“”,此字段填“~”,反之“*~”。

位置:指这字在组合中的位置。如上述“”为例,把恒前置的“”填为“前”,反之为后,位置不确定的不填。

姓:现在藏族人的姓普遍不使用了,不过不常用也应作语素来研究,在古文或历史当中有很多的人名是姓开头的。不像汉字那样有百家姓,只有早初的四大姓氏和个别的姓氏,如:“”。字段填为“1”,该子类的语素为“Nk”。

地名:如通常构造地名的词的特征此为填“1”,“”。

水名:如“”(湟水河),填为“1”。

五、语素库的应用及模型。

在藏文当中词库的分类是还没有统一并精细的划分,因此存在着大量的歧义和难处,尽管如此,吉太加老师写的《藏语语法研究》和传统和本身所有的语言学知识结合起来而构造一个语素库。充而分析和规划词类及语法属性拥有一个藏字词库。对单字词的选取比较模糊一点,但这不阻碍语素库的构造,因在这基础上可建立集成的语法信息词典,到时可一一划分注释。

对于如何在此基础上建立集成词典呢?藏语“语素库”也可称为“现代藏语字词语法知识库”,每个记录的各个字段的内容以及词性语法属性都有着自己的条目和分类。

下面的图(2)是建立起的语素库的模型和划分项,在各别的条目和语素的词性趋向还划分为A或B的条目和注释;趋向有实语素,实语素还分为子类下有连词、叹词、副词、代词等多个词性,还有名语素和动语素、形容语素等上述所说这儿就不一一划分了。

有了这个字词库,就得到了藏语构词能力的大部分知识,这些知识对于识别未定义词是

有价值的。在句子切分当中把一个藏字由它合成的词恒处于前端的字时左侧无歧义切分,反之则右侧,这样句子的复杂度相对来说降低一点。

利用从字词库中得到的合成词知识,不仅可以估计这个字构成合成词的概率,还可以估计该合成词属于某个词类,甚至可以猜测该合成词的意义。计算机的这种潜在的“智能”对句法分析、文本检索、信息提取等领域都是很有应用价值的。

参考文献

[1]李怡.英汉语言语素分类研究[J].安康学院学报.2008年12月第20卷第6期。

[2胡坦.藏语的语素变异和语言变迁。

[3]俞士汶.朱学锋.王惠.张芸芸.现代汉语语法信息词典详解[M].北京:清华大学出版社,1998

年4月,第1版。

[4]熙.《语法讲义》.商务印书馆,1984年,第1版。

[5] 俞士汶.朱学锋.李峰.现代汉语语素库的开发及应用,1999年,第二期。

[6]吉太加.藏语语法研究[M].青海民族出版社,2008年第一版。

上一篇:水利工程施工管理中存在的问题与解决办法 下一篇:探讨如何做好电器产品质量检验管理