建设中医双语小型语料库的探索

时间:2022-03-20 12:50:08

建设中医双语小型语料库的探索

摘要:随着语料库的普及与发展,专门用途语料库已经成为外语教育与翻译的重要工具。中医双语小型语料库的建立为本校中医教学与中医的对外交流提供一个重要平台。中医英语语料库的建立要从语料库的目标入手,确定其规模与用途、进行初步的设计和规划以及解决相关技术问题。

关键词:中医英语;双语语料库;中医英语教学;中医翻译

在高度信息化的当今世界,翻译已成为了解全球信息、扩大对外交流、获取国际资源的重要手段。双语平行语料库,则为外语教学、翻译研究、跨语言信息检索、词典编撰等提供了最好的平台,具有广阔的应前景。

近十多年来,国内双语平行语料库的建设取得了很大进步,如汉英平行语料库(北京大学计算语言学研究所)、英汉双语语料库(哈尔滨工业大学)。国内近年来也建成些专用语料库,如莎士比亚戏剧英汉平行语料库(上海交通大学)、《红楼梦》译本平行语料库(燕山大学)等,这些语料库规模小但是各有特色各有重点。

一、中医英语语料库建设的意义

1.1 在中医英语教学方面的意义

中医英语语料库在中医英语教学的师资培训、教材建设等方面都可以发挥充分作用。通过双语平行语料库,可以对中医英语教学中的常用语言结构、教学中的难点、对难点的分级排列(gradation)等问题做出梳理和判断。

1.2在中医英语翻译研究方面的意义

1.2.1语料库不仅为翻译批评研究提供了新的工具,而且扩展了翻译批评的研究范围,提出了新的研究思路。

1.2.2中医双语语料库为中医英译翻译批评提供了诸多可能性,对这些可能性予以充分开发利用,有助于翻译批评的“审美评价”和“科学判断”跳出经验和直觉的内省栓桔,达到有机的统一。

1.2.3基于语料库的中医翻译研究以哲学上的经验主义和理性主义为认识论基础,把经验主义的量化描写和理性主义的推理解释相结合,以客观的语言现象为依据,揭示语言内在的本质和规律。

二、语料库的设计与建立

2.1 语料库的设计

语料库的设计与规划是直接影响语料库质量和功能的重大环节,在此阶段,设计者需要考虑建库的规模、语料选择等方面。

2.1.1 就本语料库的规模而言,需要考虑建库目的能否实现及语料是否容易获得等,并不是越大越好。一般来说,专门语料库要比通用语料库的规模要小。根据本库自身的特点,50万字左右的规模即可满足教学与翻译的需要,但是语料的筛选很重要,要求建库者和管理员有较高的专业知识,并且熟悉中医医学相关领域。

2.1.2本库中医英语的语料可以从可靠的网站、电子扫描仪、现有的中医英语语料库(如:《新编使用中医文库》)等途径收集。中医英语语料库的收集以医学教材和医学论文为主,文本选用的标准为国外权威出版机构出版的英语医学教材或国内影印的英语医学教材,论文从国际流行的一流期刊中收集。中医英语语料库的文本收集按学科、的种类等进行,涵盖中医基础理论、中医诊断学、中药学、方剂学、中医内科学、中医外科学、中医儿科学、中医针灸、中医推拿等学科。参照《新编实用中医文库》建设的平行语料库,在建库过程中参考 T.McEneryA.Hardie(2012)的做法,收集的数据主要用于科学研究,要防止语料泄露和侵权现象出现。

2.2语料库的建立

2.2.1语料处理

在选取了合适的语料后,要将语料转化为TXT文档保存,本库由英汉两个句级对齐文本组成,分别命名为“中医.EN.txt”和“中医.CH.txt”。期间要审核并修改原始文档中存在的一些错误与冗余信息,以免影响随后标注和检索的准确性。我们使用PowerGREP为检索软件,运用文本整理器对单个文本进行整理。

2.2.2标注

标注指对语料进行分类与词类划分,分为词性标注与篇头标注。英语文本可以通过CLAWS软件完成,中文文本则通过中科院计算所的ICTCLAS软件完成。篇头标注能够提供文本的基本信息。本库中,篇头标注包含出版信息、译者信息、文本字数和所属等内容。

2.2.3 对齐

在完成对语料的数字化、中文文本的分词、去噪等相关整理后,可用Paraconc软件实现汉英文本的句级粗略对齐,然后再进行人工检查调整对齐,最后确定并保存。

三、双语语料库建设中碰到的困难与对策

3.1.国内英语语料与西方英语语料的选择问题。中医英语资料包括西方英语语料与国内英语语料,两种语料各有不足与优势。结合本语料库的功能与特点,本库应该从中国国内英语语料与西方英语语料分界,其比例各为百分之五十。只有如此,中

医英语在中西方的差异点及差异的规律性才有可能反映出来。

此外,为了对比分析具有统一的基础,中西方资料应尽量做到一致,也就是说,同一中医资料,在中西方各具备一份英语语料,此时从理论上讲,中西语料应该在数量上相等、结构上相同。

3.2平行语料库的建立可能非常耗时耗力。在标注的过程中,受研究者的主观影响比较多, 甚至可能会出现标注错误, 从而影响到语料库的统计分析结果。为了弥补这些不足,需要研究者不断探索努力,统一语料库的标注, 提高语料库的通用性以节省重新建库的时间和精力。

[参考文献]

[1]Koehn,P.Europarl:Aparallel corpus for statistical machine translation [A]. MT Summit 2005.

[2]Lüdeling, A. & M. Kyt. Corpus linguistics :An International Handbook [C]. New York:Walter deGruyter, 2008.

[3]德超, 王克非. 新型双语旅游语料库的研制和运用 [J]. 现代外语,2010(1): 46-54.

[4]秦洪武, 王克非. 基于语料的翻译语言考察 [J].现代外语, 2004(1):44-52.

[5〕桂诗春. 发展我国应用语言学的几点想法[J].语言文字应用,1998,(7)4-6.

[6]李文中. 语料库索引工具[A].杨慧中语料库语言学导论[C].上海:上海外语教育出版社,2002,67-68.

上一篇:福州市温泉公园绿地的景观韵律与实用性调查报... 下一篇:浅析养老服务问题与政策