词典释义解释标注新方法

时间:2022-10-15 07:14:00

词典释义解释标注新方法

释义从一定意义上说是词典编纂的中心工作。一部词典的质量高低很大程度上决定于释义的质量(胡明扬1982)。加之词义概括、多义词义项划分、释义几个过程都比较复杂,处置不当容易导致诸如“肢解词的完整理性意义”(邹酆2003)、“义项关系不当”(吴云芳,俞士汶2006)等问题。胡明扬等(1982)指出:“词义概括是否得当,义项划分是否合理等问题,其实是可以通过语料检验的方法来发现并加以改进的。”然而词典释义检验有多大必要性、检验方法应如何设计、通过检验可以解决哪些问题等,尚少细致的讨论。我们在完成课题“基于国家语委‘通用语料库’之上的汉语义频词库的开发(SCT)”过程中发现,对词典释义的检验不仅必要,而且不能随意为之。课题的核心是计算机词义自动标注,也就是使计算机根据词典的义项设置,给使用中的多义词自动标注一个合适的义项。课题使用的词典是《现代汉语词典》(1996年修订版,以下简称《现汉》),目前已经完成了对3771个高频、双音节多义词的研究。

作为课题的一个子项目,我们研制了“验证库”,即首先从大规模语料库中为每个多义词抽取一定量的句子形成语料库,然后由人模拟计算机标注一个义项,再由计算机自动标注义项,两相对照以检验计算机标注的正确率。在这个过程中发现部分句子难以标注,原因有多种:有的是仅凭句内上下文的确无法判断词义;有的是机用词典与普通语文词典的性质与功能不同所致;也有的表现为语文词典原有义项设置不合理。在涉及词典义项设置的问题上,课题中对《现汉》调整有百余处,当然这些调整主要缘于机用义项库有着不同的性质与功能,调整的类型、原则、方法在《机用义项库在词义标注中的作用及其完善》一文中做了介绍(苏新春等2010),然而其中也不乏传统词典本身可做改进之处,从这个角度来说,我们认为词义标注正是实践了从词典释义回到言语实际的检验过程,对词义标注的结果及其困难进行深入分析就可以发现词典存在的不当之处。本文把词义标注相关课题中与语文词典释义相关的部分提取出来,设计了一种词典释义的封闭式检验方法,希望对一般词典编纂中义项的设立和释义有所帮助。下文就介绍这种检验方法的详细步骤,并举例分析课题中发现的词典释义不当之处。

二、检验方法———封闭式检验的三个步骤封闭式检验旨在于一个封闭的语料库中,通过词义标注考察词典义项设置是否合理,重点考察一个“词形”所对应的意义的整体范围、义项关系、义项与语料的对应关系,进而分析词典中义项的概括模式、粒度是否与语料契合,个体义项是否恰当。有三个基本步骤:

(一)建立大规模平衡语料库建立大规模平衡语料库作为基础语料库,要能覆盖一般语文词典的基本范围,语料构成要与词典的性质、定位相对应。我们的课题以现代汉语为研究对象,要求语料能反映现代汉语的基本状况。研制的平衡语料库有2亿多字,主要包括三个部分:(1)国家语委研制的“现代汉语语料库”;(2)部分人民日报语料(2001年后的若干月份);(3)文学作品及部分教材语料。“‘国家语委现代汉语语料库’是一个大型的通用语料库。该语料库以语言文字的信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务对象……选材有足够的时间跨度,语料抽样合理、分布均匀、比例适当,能够比较科学地反映现代汉语全貌。”(靳光瑾等2005)“国家语委现代汉语语料库”设计比较合理,我们采用了它的基本结构和内容,但其字数略少,语料稍嫌陈旧,因而做了些补充。

(二)随机抽取一定规模的语料作为检验库随机抽样检验是指从大规模基础语料库中随机抽取一定量的句子组成检验语料库。在SCT课题中确定抽样句子数时考虑到了词频高低、词义标注规则复杂程度(一般标注规则复杂的,其用法也就复杂,就需要更多的语料)、人工标注任务量三个因素。对3771个多义词,抽取的总句子数达493369个,一个词最多有233个句子,最少有100个句子。如此规模的语料量虽很难完全覆盖生僻义、方言义、行业义等不常用的义项,但覆盖词的常用义、较常用义,反映其基本面貌,则是没有问题的。随机抽取步骤主要从检验方法的可行性方面考虑。在总语料库中检索3771个词总共得到245万个句子,即便有计算机辅助也难以细致分析。检验库规模仅为原来的20%,既能保证充分反映原来大规模基础语料库的特征,又大大减轻了检验的工作量。

(三)对抽样语料做完全性标注是这一方法的核心完全标注是指在一个封闭的验证语料库中,给每个例词都标注唯一的义项,并保证标注结果的一致性。如不能顺利完成标注,或者标注结果不统一,则分析其根源,检查是否为词典词义归纳、义项设置不当所致。

三、方法的运用———对现有义项存在问题的分析封闭式检验中对语料进行义项标注的过程,既是对使用中的多义词义域规模、结构进行调查的过程,也是将词典释义与言语实际进行对照,考察每个义项的义域在整体义域中的地位、比例以及与相邻义项关系的过程。其核心意义在于把词的实际义域、词典释义的义域、个体义项义域、个体义项间的关系这几个要素综合起来,做定量考察。不仅可以检验个别义项是否合理,是否有新义、漏收义,更可以从深层次发现词典释义中的义项粒度、义项关系等方面存在的不合理之处。下面举例着重说明在义项粒度、义项关系方面发现的问题。

(一)部分语料无法标注,反映词典中义项粒度过小的问题多数情况下义项粒度与词典规模、用途有关,在词的整体义域一定的情况下,大型词典义项粒度小,义项数多;小型词典义项粒度大,义项数少,这种义项粒度大小不一的现象是合理的。但是如果义项粒度过小则会导致词典释义覆盖力不足,造成一定数量的语料无法标注,这时就是不合理的。如在《现汉》中:“出场①演员登台(表演)。②运动员进入场地(参加竞赛或表演)。”我们从大规模语料库中随机抽取了73个含“出场”的句子做测试,超过20%的句子无法标注义项,如:(1)有人怕闹事,开始退场,剧团的领导出场,恳求大家安静。(2)新式战机隆重出场。词典以动作发出者区别两个义项,而例句中“剧团的领导”、“新式战机”既不能归入“演员”或“运动员”,也很难确定与哪个义项在语义上更相近,因而无法标注。再如:“过道①新式房子由大门通向各房间的走道。②旧式房子连通各个院子的走道,特指大门所在的一间或半间屋子。”在有些句子里无法标注,如:(3)草地的两边种了几排桑树,中间露出一条宽的过道。例句(3)里的“过道”既不属于“新式房子”,也不属于“旧式房子”,类似的还有“车厢过道”、“剧场过道”等都不在词典释义范围内,也无法判断这些义项与哪个更相近,因而无法标注。义项粒度过小还有一种表现,即难以涵盖词义发生的一些新变化。如:“封面①线装书指书皮里面印着书名和刻书者的名称等的一页。②新式装订的书刊指最外面的一层,用厚纸、布、皮等做成。③特指新式装订的书刊印着书刊名称等的第一面。也叫封一。”尽管以上三个义项释义详尽具体,然而不能覆盖“专辑封面”、“相册封面”、“简历封面”等“新事物”。以上几个词条的相同之处在于:(1)词典释义中每个义项都是完整的,都对应一定量的语料。(2)词典释义不能覆盖全部语料,很多语料的意思与相邻的两个义项都有相似之处,但是难以确定属于哪个义项。(3)词典释义中每个义项的义域都十分狭窄,所指的动作或事物都十分具体。(4)如果在原有义项粒度基础上用增设义项的方式覆盖所有语料,义项设置将十分繁杂。因此,这类词的根本问题不是漏收词义,而是义项粒度过小,概括性不足。“义项的概括性要求这个义项具有普遍意义,即通过这个义项来解释一系列相类似有时又有细微差别的语义现象,人们在阅读过程中遇到与此义有关的语义,都应从这个义项得到满意的解释,或者从这个义项中受到启示,去求得这个词的最确切的含义。”(汪耀楠1990)如果适当“合并”义项,增加概括度,释义将更具解释力,也更加简洁。

(二)标注结果不唯一,反映义项间存在交叉覆盖标注结果不唯一是指在同一具体语境下,一个多义词可以标注为相邻的两个或多个义项。造成这种现象的原因有很多,如语境不充足等。但有时语境充足,仍然难以标注唯一义项,往往就反映出义项交叉覆盖的问题。如:“发表①向集体或社会表达(意见);宣布:~谈话丨~声明丨代表团成员已经确定,名单尚未正式~。②在刊物上登载(文章、绘画、歌曲等):~论文。”下面的句子中“发表”同时符合义项①②:(4)阎世铎在人民网发表谈话勇敢面对中国足球前进中的问题。句(4)既符合“向集体或社会表达”的特征,又是“以文章形式”“在刊物上登载”。进一步分析发现造成这种状况的原因是两个义项意义相近却没有对立的区别性义素,如表1所示:动作对象方面,义项②虽未做说明,实际与义项①是一样的;动作方面,义项②的义素“登载”是义项①“表达”的一种形式;动作内容方面,义项①“意见”是从内容方面说的,义项②“文章”等是从载体方面说的,“意见”也可以以“文章”的形式发表;动作方式上,义项②说明通过刊物,义项①没有说明。总之,义项②的释义比较明确地指出通过刊物“发表”,义项①却不设范围,大致包含了义项②的内容。那么原有的释义能不能让它形成具有区别特征的对立性释义呢?应该是可以的,如可在“发表”的方式上加以区别,义项①改为“口头表达(意见)”即可。其他原因也可能造成义项间的交叉覆盖,如“出门”有三个义项:“①(~儿)外出。②(~儿)离家远行。③〈方〉出嫁。”义项①的释义词“外出”在同一词典中的释义为“到外面去,特指因事到外地去”。“到外面去”与“出门①”对应,“因事到外地去”与“出门②”对应,这样实际上是导致了“出门①”同时包含义项①②的意思。如此,所有可标为义项②的句子都可以标为义项①,如:(5)他想,出门一个多月,究竟发生了什么事呢?以上两词出现的问题比较隐蔽,在检验中如果仅仅寻找典型例子很容易错过,而唯有在一定量的语料的词义标注中,在人、机标注结果的对比中才能发现问题。

四、结论

本文根据“基于国家语委‘通用语料库’之上的汉语义频词库的开发”课题的词义标注了区域地理的观念。“政治因素影响行政区划的性质和系统,影响行政区划的层次和幅度,影响行政区划的撤并和区域界线,此外还影响行政区划等级的确定等。”(《说文》中出现的郡国级政区主要分布在中原地区、政治中心、经济发达地区正体现了行政区划的政治性原则与经济性原则,尤其是政治性原则在汉代的区划中起着决定性的作用。

上一篇:动脉粥心血管疾病研讨 下一篇:先秦时期的崇玉文化