中医药古文献语料库设计与开发研究

时间:2022-10-27 11:19:18

中医药古文献语料库设计与开发研究

摘要:专业领域语料库是对专业领域文献进行自然语言处理的重要的不可或缺的基础,是对专业文本内容与意图进行深层把握的必由之路。通过对研究背景的分析,进一步明析了专业文献进行自然语言处理的必要性,并在对专业文献语料库的研究特点进行分析的基础上,深入探讨了专业语料库的设计思想及原理,同时,对语料库词类的标注信息进行了深入研究。成功地开发了针对专业领域语料库的辅助加工系统,为专业领域语料库建设提供了理论指导和技术支撑。

关键词:计算机应用;中文信息处理;自然语言处理;语料库;中医药古文献;知识工程

中图分类号:TP391 文献标识码:A

自然语言处理(Natural Language Processing,NLP)是一种对自然语言信息进行处理的技术,从语言学角度来说,自然语言处理也叫计算语言学(Computational Ling uistics)。自然语言处理包括自然语言理解(Natural Language Understanding,NLU)和自然语言生成(Natural Language Generation,NLG)两部分。自然语言理解是指对自然语言的内容和意图的深层把握。自然语言生成是指从非自然语言输入到自然语言输出的处理。自然语言理解与自然语言生成互为逆过程。如何将自然语言技术引入到中医药古文献的处理中来,是我们多年从事的研究课题之一。

1 研究背景

中医学理论体系带有浓厚的自然哲学色彩,表现为长期的、非常稳定的形态,形成了以《内经》、《伤寒杂病论》为主体的相对封闭的框架。现代中医基础学科的分化,基本上是从原著派生出来的,因此,难以超越原著所固有的架构体系。中医基础学科奠基于《内经》学术体系,临床课程则与当时的中医医疗分科相对应。作为学科建设的主要标志,是各科教材的编写基础。特别是一版教材,扎扎实实地从文献研究人手,在前人的理论建树和实践基础上梳理出已经分化明显的学科,正如二版教材“前言”所说,是“把祖国医学系统地画了一个前所未能画出的轮廓,对提高教学质量起到了积极的作用”,使中医学理论向规范化迈进了一大步。在短时间内,从浩瀚的文献中由博返约,提纲挈领地构筑起了现代中医药学的基本框架,满足了当时高等中医药教育的需要。但是,在上述规范化过程中,受到近代科学思想,特别是近代西方医学的影响,同时也受当时教育模式的制约,在学科学术体系的架构过程中,许多重要的、有价值的理论与方法被忽略了。例如中医“证”的规范化是多年来的重点研究课题。但是,由于文献的覆盖面有限,大量证型被遗漏。在未能对全部古代文献进行梳理,并对“证”的文献做出系统分析和归纳的情况下,简单地或者人为地分型有可能掩盖疾病的复杂性、多变性,引导医者的思维趋向单一和片面,即病-证-方的线性模式,并妨碍中医临床疗效地提高,以至于中医药界在建国五十多年内无重大发展。究其原因,中医学固有的理论与思想体系由于近代科学与教育模式等原因而被忽视;当代中医工作者文献研究不足,未能进一步深入挖掘古代文献中的学说、思想与理论,未对中医基础学科群的理论框架与学科体系进行充实、完善。

另一方面,中医古籍文献整理研究,是必不可缺的,并且人们企盼着能从古籍文献整理研究人手,起到保持中医学术特色的作用,认为这是按着中医学固有规律向前发展的最佳选择。因此,如何利用现代化手段,对中医药古文献进行深入加工,从而为智能检索和知识挖掘打开方便之门,也就成为当前中医药古文献的研究前沿问题,也是中医药信息化迫切需要解决的重要问题。经过多年的研究,作者认为建立针对中医药古文献的语言知识库,可以有效地解决这一难题。

2 中医药古文献语料库的构建意义

语言知识库(如:语料库、机器词典、句法规则库等)是自然语言处理系统不可或缺的组成部分,语言知识库的规模和质量在很大程度上决定了自然语言处理系统的成败。这已经是计算语言学研究者和自然语言处理系统开发者的共识。特别是中文信息处理尤其需要重视知识库的建设。这其中更以语料库与词典的建设为重中之重。基于语料库的研究具有以下特点:

(1)基于语料库的研究是实证性的,能够用来分析自然环境下的实际模式;

(2)能以大量收集起来的自然文本作为语料库研究的基础;

(3)能大量使用计算机作为分析工具;

(4)能同时使用定性和定量分析手段。

我国古代医家善于从前人的文献出发研究医理,探索规律。他们往往通过博览群书,凭借笔记与大脑记忆来搜集资料和积累经验。这种实证的经验主义方法在计算机技术出现之后得到了强化,日益发展的计算机技术既增强了个人搜集医学资料的能力,又提供了处理资料的强大工具。建立中医古籍语料库的目的,就是要运用计算机技术通过语料库来研究古代医学文献。与传统的医家相比,用语料库来研究古代医学文献主要有两个特点:

一是突破了材料的限制,计算机强大的搜索能力使古代文献研究从过去的重在材料的搜集转变为重在对材料的处理和对医学规律的总结;

二是突破了个人的因素,穷尽式地搜索保证了医学资料的完整性,能够最大限度地避免由片面的材料得出片面的结论,增强了研究结论的普遍性和科学性。

语料库是贮存和处理语言材料的仓库,但它并不是语言材料的简单堆积;由于中医药古籍的特殊性,古籍语料库跟其他的语料库又有所不同。在对语料库进行规划时,必须根据中医药古籍语料自身的特点来确立建库原则。

3 语料库设计思想与原理

一般而言,一个计算机语料库的功能主要和下面三种因素密切相关,即语料库的规模、语料的分布和语料的加工深度。因为语料库容量的大小直接影响到统计结果的可靠性,语料分布的考虑则关系到统计结果的适用范围,而加工深度则决定了该语料库能为自然语言处理提供什么样的知识。

在建立语料库之前,首先必须要弄清楚建立该语料库的目的和组建原理。目前的语料库主要是针对语言学研究而建立的,包括:方言研究语料库、对比研究语料库、平行语料库、多语言语料库等。针对专业知识进行语料库的建设,目前鲜有人尝试,因此,中医药古文献语料库建立的原理也就成了我们首要解决的问题。

中医药古文献语料库的建设和研究对中医药术语规范化研究,词的切分和属性研究,术语语义研究,字频、词频统计和词典编纂等方面具有重要的意义。在中医药语料自动标注生成的整个过程中,分析其过程就显得极为重要。从分析过程看,首先是词类分析,其次是语料的标注,语法信息分析及专业属性的层次越深,则语料标注就会越准确,其中语法信息包括词类信息、子类信息、语义信息、格助词添加等信息,专业属性又包括专业分类体系与知识结构,语料中每个词条的语法信息及专业属性需要同 语法规则和相应的子类相结合,以实现由词项来自动标注,这是中医药语料库建设的核心技术之一。由于中医药古籍的数量有限,所以,我们希望穷尽中医药古文献,另外,由于采取的是自动标注,必须进行机器学习,建库之初,应注意文献题材的多样性。

另外,词汇经过语义标记之后,需要建立符合医学知识结构及医学知识体系的知识架构,建立知识连接的轨迹,使全文检索从“索引式”提升为“思维联系式”的检索,进而达到对中医药文献所包含的医理进行分析与研究的目的,因此,我们首先对词类的标注信息进行了深入研究。

4 词类信息的分类与标记

词语的分类既是任何一个自然语言处理系统的基础也是语法信息词典开发的基础。因为语法词典既要描述每类词都有的共同的语法属性,又要分别描述各类词特有的语法属性,只有这样,语法信息才会充分、完备,而又不致过于冗余。

4.1 通用词语的分类

在通用词汇方面,我们采用了北京大学计算语言学研究所俞士汶教授的《现代汉语语法信息词典》的分类体系,该语法词典的词类体系是在熙先生的语法理论指导下,依据词的语法功能建立的。该词性标注使用的是小标记集。它除了《现代汉语语法信息词典》中的26个词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,增加了以下3类标记:

①专有名词的分类标记,即人名nr,地名ns,机关团体单位名称nt,其他专有名词nz;

②语素的子类标记,即名语素Ng,动语素Vg,形容语素Ag,时间语素Tg,副语素Dg等;

③动词和形容词的名词用法标记vn,an和副词用法标记vd,ad。合计约40个左右。

同汉语信息处理学界的某些研究相比,这是一个小标记集。尽管使用的是小标记集,但由于规范及据此加工的语料库同《现代汉语语法信息词典》是紧密联系的,当这些基础研究成果同应用研究(中文信息检索、中文信息提取、汉外机器翻译等)相衔接时,以语料中的词语及词性为人口,可以快速、准确地检索到词典中词语丰富的语法属性信息。

4.2 专业词汇

根据中医药语料库建设的实际需要,依照“功能分类”思想,提出了信息处理用中医药的分类方案,同时,为了尽可能避免产生交叉,我们采用了尽量减少类的数量,从而加强属性的描述,进行进一步区分的原则,因此,对于中医药专业术语,全部标记为名词的下位类。分为:中医基础理论、藏象学说、气血津液、经络腧穴、病因病机、诊断、中药、方剂、伤寒与温病、症状、病证、治疗方法、中医药器械设备、体质、著作等33类。

中医药术语的语义类型命名原则为:“n_+语义类型的汉字简拼+阿拉伯数字”的方式进行命名。如:“病名”这一语义类型,标注为:/n_bm;“症状”这一语义类型标注为:/n_zz等。在同级内出现重复者可用阿拉伯数字来进一步区分,其命名规则与词的标记如下:

(1)首选命名规则:取名词术语中每一个字的拼音首字母,为该术语命名。如:整体观念(zhengti guan nian)命名为ztgn。

(2)若有重复,则取术语中最后一个字的拼音第二个字母。以此类推,取第三个、第四个。如:整体观念(zheng ti guan nian)命名为ztgn,若有重复命名,则标为ztgi、ztga、ztgn。

(3)再有重复,则取术语中倒数第二个字的拼音首字母。以此类推,取第二个、第三个。如:整体观念(zheng ti guan nian)命名为ztun、ztan、ztnn。

(4)仍有重复,依(2)、(3)法类推,取术语中倒数第三个字中的拼音。整体观念(zheng ti guannian)命名为zign。

例:辩证论治(bian zheng Iun zhi)若已有术语标为bzli,则可以根据其重复出现的顺序依次标为:bzlh、bzli、bzuz、bznz、bhlz、belz、bnlz、bglz,

5 中医药古文献语料加工系统的开发与实现

从1992年起,北大计算语言学研究所就开始了语料库多级自动加工的研究。从1993年开始开发基于《现代汉语语法信息词典》的“词语切分与词性标注”软件,经多年的改进与发展,现在已相当成熟,无论是切分还是标注,其精度都已经达到了国内领先水平。但是,语言信息处理系统也需要专业知识的配合。特别是实现中医药古文献有效切分与标注,必须在构建大型中医药专业词典的同时,再根据中医药古文献的不同类型的行文风格进行提取归纳,对软件结构及部分规则加以修改。因此,这是一个反复叠加的过程。即:切分-提取-再切分-再提取。其示意图如图1所示。

5.1 功能设计

该系统以北京大学计算语言学研究所自动切分与标注软件为基础,对语料加工所需的多种软件进行了开发与集成,形成了集加工、辅助修改及词典生成为一体的专业语料加工系统,主要有文件、编辑、检索、切分程序、词表替换、整理词典、抽词程序、环境设置、帮助等主要功能,如图2所示,现分别介绍如下:

(1)切分功能:自动切分标注,生成语料。是系统的主体程序之一。采用的是北大计算语言学研究所开发的自动切分与标注系统,该词语切分系统的抽取方法采用隐马尔可夫模型。

设文本s由单词串W=w1,w2,…,wn和标记集T=t1,f2,…,tn组成,汉语的词切分就是求使单词串和表记集的联合概率P(W,T)为最大的词切分和词性标注的组合。P(W,T)可由如下隐马尔可夫模型近似求得。

在切分句子时,首先切出所有可能的切法,再用词典中单词出现的概率和语法规则中词性和词性的连接概率,计算所有切法的概率总值,取其概率值最大的为第一候选。

(2)词表替换功能:

将切分标注软件中产生的错误改正,修改后的切分标注词语将自动复制到“新词文件”中,利用该功能便可实现词表的自动替换,将错误的切分全部自动替换成正确的切分。

实现本功能需要术语词典支持,“中医收词程序\文件目录\新词文件,txt”,待其中的术语以及“切分词典格式”输出的术语经验证确定无歧义后,方可导人“中医收词程序\可执行程序\SegTag,Lin\bin\lexicons\UsrLex6”(用户词典,收入用户定义的任意词或者词组)中。因为,这时提取出的只是术语的候选。在这些候选中,有些是术语,而有些不是术语,有些只是长术语的一个片段,还有一些在特定上下文中出现时才是术语,而在其他语言环境下出现 时则不是术语。这些提取出的术语候选在脱离上下文后,即使人工校对也很难判断。因此,对于这些术语候选,必须进一步利用它们在特定文本中的上下文信息以及篇章结构信息进行确认。

(3)收词功能:生成三种形式的词典,并自动保存在指定文件夹中,如图3所示。

切分词典格式:升降浮沉n(升降浮沉/n_zh.sq)

接语义词典格式:升降浮沉,zh.sq

语料标注格式:升降浮沉/n zh.sq

并同时抽取例句显示,在词语前标有*号:升降浮沉/n_zh.sq,酒,则浮而上至巅顶。又一物之中,有根升稍降,生升熟降,是升降在物,亦在人也。经云:*升降浮沉顺之,寒热温凉则逆之。如春夏宜加轻宣升浮之药,秋冬宜加重涩降沉之药,以顺春升。

①“切分词典格式”决定了词典的性质与格式,即,切分词典的结果针对于切分软件(现用的切分词典是北大计算语言所建立的通用词典),它与“词表替换”功能相结合,经过大量切分验证后,确定中医药切分词典,导入“中医收词程序\可执行程序\SegTag.Lin\bin\lexicons\UsrLex6”(用户词典,收入用户定义的任意词或者词组)中。

②“接语义词典格式”:建语义词典。

③“语料标注格式”这个决定了标注的深度――上位、层次和语料的可用性。包含一部分词法,比如词性等,也可以用于运算统计处理。

(4)检索功能

该功能不仅能够进行多种形式的检索,同时,也可实现KWIC(Key Word In:Context关键词)方式检索,将同一词汇的所有标注以高亮的形式显示在同一界面下,并支持同一界面下的修改与校对,不仅大大提高了人工辅助校对的速度,而且也确保了标注结果的一致性,如图4所示。

(5)环境设置与词典整理功能

用户可以利用该功能对词典分类体系进行各种操作。详见图5所示。

另外,系统还包括文件、编辑、输出保存、无词典自动抽词功能等功能,在此不再赘述。

5.2 工作流程及结果

在以上工具的有效支持下,我们进行了大规模中医药古文献语料库的标注工作。其工作流程及结果示例如下:

a、生语料(原文):

活血通窍法

用于瘀血阻络之头痛。症见头痛如锥如刺,痛有定处,头胀而痛剧,时轻时重,日久不愈,舌质暗,或有瘀斑、瘀点,脉涩。

b、汉语文本切分与词性标注工具标注后的语料:

原始语料经过基本加工之后,文本由汉字串变成了“切分单位”的序列。“切分单位”基本是词,即语言学家所指的“句法词”。斜杠后的字母是根据该词语所表现的句法特性而加的标记。

经验表明,进行语料库标注,采取基于规则的方法与基于统计的方法相结合的策略是恰当的(特别是对于专业语料库),并且切分与标注同步进行是合理的。在进行这种标注时,语法词典可以发挥重要的作用。词典中的数以万计的词都已经划好了类,对标注的正确性与一致性可以起到基本的保证作用。标注程序只需集中力量解决兼类词的歧义消解及未登录词的确认与词性判定。

6 结论

中医药古文献极为丰富,记载了大量方药疗疾防病的理论与经验,是巨大而宝贵的信息资源,中医药古文献语料库的建设和研究对中医药术语规范化研究,词的切分和属性研究,术语语义研究,字频、词频统计和词典编纂、信息检索、知识挖掘等都具有重要的意义,不仅是当前中医药古文献研究的前沿问题,同时也是中医药信息化迫切需要解决的问题。但专业语料库的建设并非一件简单的事情,经验表明,建库之初,应该注意以下几个问题:

(1)对于专业语料库进行语料库标注,采取基于规则的方法与基于统计的方法相结合的策略比较恰当,这样可以充分利用专业词典,词典中的数以万计的词都已经划好了类,对标注的正确性与一致性可以起到基本的保证作用。

(2)语料标注时,应尽量减少大类的数量,进而加强属性的描述,这样可以有效避免类别的交叉,同时,也可以将专业术语与通用词汇进行有效的区分,有利于领域知识的发现与理解。

(3)专业词汇要依据领域固有知识结构及体系进行描述,这样不仅可以有效地建立知识连接的轨迹,而且还可以建立该领域的知识架构,更加有效地进行专业领域的知识发现与挖掘。

上一篇:基于加权二部图的汉日词对齐 下一篇:基于音素及其特征参数的维吾尔语音合成技术