语料库与《黄帝内经》研究的一项实例报道

时间:2022-10-16 07:37:02

【摘要】【Abstract】 “Sheng (prosperous)”, a Chinese character and also a word, is retrieved from a specially established Corpus of Huangdi’s Internal Medicine and the meani...

语料库与《黄帝内经》研究的一项实例报道

【摘要】运用语料库语言学的研究方法与技术研究《黄帝内经》中“盛”字的用法、意义和搭配模式,从中医学的角度归纳总结其搭配词的语义类型以及两者线性组合的语义模式,以实例研究的方式论证语料库研究方法在中医古典文献研究中的应用问题。

【关键词】语料库,搜索词检索,黄帝内经,语义类型

A Corpus-based Research to Huangdi’s Internal Medicine

WEN Yongyi, XING Yurui

Shaanxi University of Chinese Medicine, Xianyang, Shaanxi

【Abstract】 “Sheng (prosperous)”, a Chinese character and also a word, is retrieved from a specially established Corpus of Huangdi’s Internal Medicine and the meaning as well as the usage is thereby discussed with the help of tools developed by corpus linguistics. The semantic categorization of Sheng and the summarization gained from the perspectives of traditional Chinese medicine may be an evidence suggesting that corpus-based approach can be of significance to the documentation research of traditional Chinese medicine.

【Key Words】 corpus, search word, Huangdi’s Internal Medicine, semantic category

运用语料库语言学的研究方法探讨中医古典文献中的词义方面,闻永毅对《黄帝内经》中的“心”字的研究,付伟对其中的“络”字的研究,显示理论上具有可行性,因为两者具有相同的研究对象――语义问题。但是,具体研究活动如何组织、实施,研究结果在中医古典文献研究中是否具有价值等等问题,却需要实际研究项目的验证。本文尝试运用初步建立的《黄帝内经》模型库对其中的“盛”字进行定量研究,以实例研究的方式论证语料库研究方法在中医古典文献研究中的应用问题。

1研究对象的组织方式与索引要求

语料库研究方法的基本技术之一就是按行分列地组织研究对象,即运用索引技术把研究对象连同一定范围的上下文一起从语料库中索引出来,然后再以研究对象为参照点逐行分列地排列,形成1个词占据1个网格的格式,从而达到统计分析的目的。语料库语言学把如此索引、组织、分析研究对象的方法称为搜索词检索法(Concordance),研究对象被称为搜索词(Search Word)。

本项研究以自建《黄帝内经》模型库中的“盛”字为研究对象,搜索词检索结果的组织方式以表1为模板。

表1显示,模型库文件经过了分词处理,“脉气”被定性为词,所以只能拥有一个网格,也就是说,词可以由一个字或多个字组成,因此索引模型库中全部“盛”字的时候,根据检索工具对词的定义的差别,可能需要采用“通配符+盛”的索引方式。

搜索词左右两侧有空格,按行观察,可以看出研究将以句子为单位,一行只允许列举一个句子,而且还可以看到,标点符号和空格符也被视为词而占据网格。

2研究工具与研究范围

能够满足以上研究要求的语料库检索工具很多。本项研究选用Wordsmith作为主要检索工具,因为它的搜索词检索模块携带着搭配表(Collocates)与模式表(Patterns)两种统计工具,能够提供搜索词左右两侧各列中的词语列表、词频、词语总数等,极大的方便本项研究。研究范围将限制在左右各5列(R5-L5);但是在语义分类研究时,需要扩大研究范围,而且还会使用其它检索工具,后文不再说明。

3检索结果

搜索词检索结果显示,《黄帝内经》中“盛”字总计使用了370次。排列成表1格式后则R5-L5范围内的最大容量为:总容量=总行数×总列数=371×11=4081(个词)。

L5-R5范围内的词汇列表和词频见程序运行截图,各列中词语总数见表2。*

截图显示的是各列中前9个高频次词语,具体次数没有直接显示,其中的DH、JH等指代标点符号,搜索词列中的“盛经”等出现次数很低,统计过程中可以忽略不计。需要特别说明的是,统计过程中我们不严格区分词的形符(Tokens)与类符(Types)。

4检索结果分析

根据表1规定可知,表2各列的最大值均为370。假如某列的值是最大值,则表示该列中出现了370个互不相同的词,并且每个词都只出现了1次。如果列中数值低于最大值,或者更低,则说明列中有词语重复出现,不过重复出现的有可能只是某些词,其它词可能依然是1或者只是2次。当列中某些词的出现次数显著性偏高时,就可以认定它(它们)跟搜索词相关,或者说,是搜索词的搭配词(准确的结论需要相关性检测)[1]。这个列中“词频显著性偏高原理”可以使我们很方便地从截图所示的词语列表中,依据词的出现次数,筛选出“盛”字的搭配词。然后再利用“左侧搭配词+盛+右侧搭配词”的线性序列归纳总结“盛”字的用法、语义等问题。

表2中最为注目的是R1列的词语总数显著性偏低,只有64个。查看R1列中各个词的词频发现(截图中未显示),标点符号逗号出现了99次,其它几个高频词依序为:则81次、而34次、者34次,不18次,于10次,仅仅6种形式出现的次数累计高达276次,如此之高的次数使我们有理由认定这6种形式与“盛”字密切相关,即它们是紧邻“盛”字右侧的搭配词。这些搭配词有一个共同特点:都没有实际所指对象,只表达因果、递进、转折等逻辑语义关系,而逗号更具分隔前后语义的作用。再观察L1列,“不21”似乎与R1中的“不”相呼应,其它高频词主要为名词。综合以上数据分析,我们可以把《黄帝内经》中“盛”字的用法归纳成以下几种线性组合和两个固定形式:

a) X+盛 b) X+盛+关系符+其它,c) 盛+Y+其它

固定形式:不盛不虚,以经取之(17次)/为此诸病,盛则泻之,虚则补之(12次)

三种组合中的X、Y指邻近列中任意一个名词性的搭配词,语法上充当主语,语义上是“盛”的主体;“关系符”指刚刚讨论过的R1列中的搭配词。a与b序列的实际小句如“肾气盛则毛美”,c)的实际句子如“盛者泻之”。以此为理解语义的基本框架,下文将把研究视角从词频研究转向语义类型研究,从中医学的角度确定X、Y的具体所指对象,归纳a、b、c三种线性组合的具体语义类型与相应的病理机制。

5基于语义分类的研究

确定X、Y的具体所指对象,也就是给X、Y赋值,需要考察邻近搜索词各列中的每一个词,涉及到的可变因素很多,限于篇幅,我们只详细报告X的研究过程,关于Y的研究本文中将不再讨论,需要时直接引用研究结果。

5.1程度类词语

上文定义的X,理想状态下,其取值范围应该为L1列,且列中的每一个词都是名词。浏览L1列中的112个词语可见(见表2及截图),该列中除名词外,还有众多表达程度或状态意义的词语,例如“俱、未、太、皆、独、一、二、三、四、躁、满、坚”等等,总计25个,出现71次。在上文基于统计数据的研究中,因为词频不显著而被忽视,但是,从充当X语义上的主体的角度考察,它们虽然不能担任此角色,却占据着L1中的位置,导致X的取值范围被迫顺延到L2列中。此处,为了方便讨论,我们把L1列中的非名词一并归入程度语义类,作为在L2中取值的理论依据。

5.2盛之主体

L1和L2列中能够担任X角色的词语经过整理,在中医学理论指导下语义分类的结果如下:

表3显示,本项研究把能够担任X角色的词语分为8种类型,能够组合成两个层面的语义理解模式,即:“类名+盛”,具有归纳总结性质,如“阴阳盛、脉位盛”;“X+盛”,与现实文本直接相连,如“阴盛、阳盛、阴阳俱盛、阴气始盛”(由“L1+盛”和“L2+非名词+盛”线性组合而成)。最后一行的统计数据仅供参考。

表中的分类类型可能仁者见仁。但是,就文献研究的特点而言,最具价值、最具创造性的工作却正是源自对检索结果的不同分类。表3的价值主要体现在能够为中医文献研究人员提供一份完整有效的、跟搜索词密切相关的词语集合和相应的语义理解框架,具体的分类以及“类名”的命名则留给文献研究人员,为他们提供一个按需分类而非迁就分类结果的平台。表中的分类结果只是一种默认值,是语料库开发者分类观点的体现,语料库使用人员可以接受,也可以自由调整以适合自己的分类标准。从语料库开发技术而言,自动实现表3所示功能以及下文中涉及的索引方法则需要程序开发、语法分析、语义分类等多学科的共同努力。

5.3盛则如何

按照表3的语义分类,下一步我们将采用“X值+盛”和“X值+程度词+盛”为搜索词的检索模式逐类索引《黄帝内经》模型库。主要语义类的检索结果以简约的形式报告如下,“”内为搜索词,是具体内容的代码,例如是“阳盛、阳气盛、阳始盛”等等的代称,“则/且”为语义理解方式,检索范围L10-R10。

I.阴阳语义类

则:目、阳跷陷、寤、关、格、热、外热、妄言、梦、四肢实、耳鸣、、阴虚。

则:内寒,寒栗、恐惧、梦、噫、唏、目瞑、腰肿、心胁痛、阴跷满、阳虚、汗出而濡

则:梦相杀、脉满、关格

II 血气语义类

则:充肤热内、多须、(眉、髯)美长、面多肉、跟肉满、掌肉满、生毫毛

则:(七岁)齿更发长、(二八)天癸至。则(肾)能泻

则:脉大而不得偃卧。则梦

III 经络/脉位语义类

则:病在(某经);则泻(某经);则关格、溢阴、阴阳俱溢。

且喘息,为有余;且大且数,为溢阳。

且大/滑/躁/涩/坚,则(某某)反、逆、出等。

则入客于经。上下则不仁。则:伤于食;则当泻之。

阳气满则;则月事以时下;且坚而血者,皆取之。

IV 环境类

则生热;则实;则藏于皮肤之内;六月,,地气高;且剽悍;则气盛。

5.4各个语义类型的分析结果

以上语义类型检索结果显示,血气语义类中,除肾气盛与五脏盛指身体的正常生理变化之外,血气盛则身体发育的多、美、满,(五脏)气盛所导致的梦都表明“盛”是一种超过常态的生长或心理状态。

经络和脉位语义类中,脉盛是诊断病位(病在某经)、理解病机(溢阳/阴、有余、伤于食)、确定治疗方法(当泻)、预测疾病的转归(不仁)等等的依据,说明经或脉盛是判断机体处于疾病状态的一种客观标准。

阴阳语义类中,与中的词语语义上形成鲜明的对照关系,反映了对立统一思维方式的深刻影响。总体而言,与“关、格、寤、、噫、唏”等抽象意义词语的搭配使用说明主要用于解释疾病的证侯、症状或病理过程。“盛”字的意义因此可表述为阴阳平衡状态中超过对立面或稳定状态的发展状态。

综合以上分析并结合5.1所述的“程度语义类”,我们认为《黄帝内经》中的“盛”字隐含着粗浅的数据化观念,“盛”的“超过”之义均隐含着“常态”作为基点,其前面的修饰语“一、二、始、未、太”等等则是参照这个基点的大概数值。由于技术水平的限制,古代医家无法准确把握“常态”,只能以“盛”概括“常态”之上的各种状态。因此,《黄帝内经》中的“盛”字在本质上不同于《古代汉语字典》[2]、《古汉语常用字字典》[3]中的释义“兴旺,旺盛”,它的意义具有客观化、精确化的特点和内涵,可以表述为:

以X为变量的超过常态的病理性状态

常态可以指身体、脏器的正常功能,也可以指动态过程中某个特定阶段的相对稳定状态,其具体所指可以从相关论述的上下文中得到确认。关于“外因”类中的各种用法,以及“肾气盛”与“五脏盛”指身体的正常生理变化而非病理性状态的情况,应该属于“盛”字在古汉语中常规意义的延续用例,具有描述“常态”的特征。

6结论

本项研究旨在以实例研究的方式证明,语料库语言学的研究方法与技术能够应用到中医古典文献研究领域,能够在此领域发挥应有的作用。研究过程中所获得的各种汇总性的列表,所得出的结论等等可以为《黄帝内经》的深入研究提供帮助。关于“盛”字用法的归纳还不够完善、其意义的结论或许偏颇,有待更深入的探讨。

参考文献

[1]杨慧中.语料库语言学导论[M].上海:上海外语教育出版社,2002.182-187

[2]《古代汉语字典》编委会,古代汉语字典[M].北京,商务印书馆,2005

[3]王力等,古汉语常用字字典[M].北京:北京,商务印书馆,2005

作者简介:闻永毅(1966-),男,陕西省乾县人,副教授,学士,主要研究方向为认知语言学与语料库语言学。

注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文

上一篇:74例胫骨Pilon骨折疗效观察 下一篇:奥平栓治疗慢性宫颈炎临床分析