小型英汉双语语料库的建设和应用研究

时间:2022-10-08 03:48:15

小型英汉双语语料库的建设和应用研究

摘要:语料库是语言知识的宝库,是重要的语言资源。语料库中蕴藏着丰富的语言知识,包括词汇知识、句法知识、语义知识、语篇知识等。本文旨在通过介绍小型英汉双语语料库建设和应用的研究,揭示语料库建设的方法和意义,为语言研究者提供新的思路和方法。

关键词:语料库 建设 应用

语料库语言学的发展迄今已三十年余。语料库语言学以真实语言使用中的语言事实为基本依据,凭借现代计算机技术,采用数据驱动的实证主义研究方法,对语言、语言交际和语言学习的行为规律进行多层面和全方位的研究,从而给语言学工作者带来了一种新的理念,揭示了一种新的研究方法,开辟了一个新的研究领域。

一、目前国内外研究的现状和趋势

利用语料库进行翻译研究在我国起步较晚,但是发展很快,目前国内最热门的大型双语语料库是北外的通用英汉对应语料库,这是一个汉英双语平行语料库,搜索量大,包括小说等各种题材,能够很好地为翻译教学提供大量真实的翻译对照材料。在国内,越来越多的高校逐步意识到语料库的应用对翻译的重要性,相继开设了相关课程,为译员的培训提供了新的手段和方法,为他们更好地胜任实际的翻译工作做出了准备和铺垫。

目前,国外也已建成有许多这样的双语平行对应语料库,如兰卡斯特大学的英汉平行语料库(The Babel English-Chinese Parallel Corpus),通过在线检索,可以得到相应的检索内容。与此同时,国内有许多高校在本科阶段的翻译课程中,已经将双语语料库作为一种辅助手段引进了课堂。双语语料库与翻译实践相结合,尤其是和计算机辅助翻译实践的紧密结合,将会大大提高学习者的翻译技能。然而,对于很多高校学生而言,语料库仍然是个新名词,很多人都没有听说过,更别说利用它来服务于翻译了。此外,传统的语言研究依靠直觉选取自认为合理的解释理由,而基于语料库的翻译研究可以更好地从定量的数据出发,结合内省的理解,最终得出科学可靠的定性分析。不管是对单个语体的话语特征的分析,还是跨语体、跨语域、跨语言的话语特征比较,话语研究都试图寻求词汇语法形式及其语用功能,语言形式与主观情态和社会文化内涵之间的关联。这其中,语料库的主要作用是借助计算机手段发现和提取相应的话语特征,并提供频率数据和话语特征的分布情况。

然而,国内外开发的大多数大型语料库都不是完全开放的,这一方面为我们的研究带来了限制,一方面我们在研究某个具体的领域时也无法依赖已有的语料库。小型语料库的建设和应用在国内有为数不多的研究,同时,研究者也提出了一些相应的方法,然而,随着语料库应用的进一步深入,小型语料库的研究和应用有待于进一步探索和发展。

二、小型语料库建设的意义

研究不同的问题常常需要使用不同的语料库,比如研究中国英语学习者的语言问题就需要使用中国英语学习者语料库,描述英国英语可以使用英国国家语料库,研究美国学术口语则可以使用MICASE语料库。视研究目的的不同,我们有时可以使用一些公开出版的语料库,但有时却需要创建自己的语料库。然而,建立以上这种大型语料库是既费时又耗力的,这就对我们个人的研究起到了一定程度的限制。因此,学习者根据自己的研究需要进行小型语料库的建设能够很好地从实际的应用出发,从客观的角度进行分析,做到数据驱动分析和研究(data-driven analysis and study),增强研究的说服力。我们可以利用语料库研究译文风格,通过分析所得的数据探讨不同作家的翻译风格,这种方法把定量研究与定性研究相结合,从而可以使人客观把握原文风格,科学地分析译文风格。这种研究方法更系统,更有针对性,可比性更强,为翻译研究提供可靠的量化依据,具有很强的客观性和说服力。由于建立一个大型的语料库存在着一定的难度,但个人建设小型语料库是可行的,只要懂得一些文本编辑、格式转换、内码转换等基本计算机知识就可以为我们的研究服务。所以,研究如何建设小型语料库以及如何将小型语料库应用于我们的研究就得尤为重要。

三、小型语料库建设的实际应用价值

通常,我们借助内省式的模式来研究一个译者的风格,这难免会产生许多主观的认识。随着科学技术的发展,计算机的应用为我们对语言进行客观的分析提供了可能,基于语料库的计算文体学研究正是利用计算机的这种强大的功能,对数据加以客观分析,为研究者和学习者提供真实、客观的数据,从而得到理性的研究结果。计算机可以被用来研究某一文本、作者、作品所处的时代特点等。所以,对于译者的风格或者译文的特点等,就可以借助语料库的手段进行科学的研究。除此之外,由于语料库是语言事实的采样,这就为语言教学提供了真实的语言材料,学生可以自己到语料库中查询翻译中相应的词的用法、词的搭配、词义的细微差别等,这就是所谓的数据驱动学习(data-driven learning)。数据驱动学习不但为学生提供了真实的语境,而且为学生提供了一种探索语言的手段,学生可以像语言学家研究语言一样,对语言进行主动的探索。小型语料库建设只要目标明确,规范统一,就能够很好地服务于我们对特定目标的研究。组织学生收集整理语料既培养了学生建立语料库的能力,又加深了其对语料库的认识和兴趣。通过语料库,学生或研究人员可以对真实语言的各个层面进行深入的探讨和全面的研究。任何语篇都是在一定的语境下产生的,相同或相似的语境下使用的语言有许多共同特征,这些特征的总和定义了该语境下所用语言的语体,并使这一语体明显的不同于其他语境中使用语言的语体。研究者可以根据实际需要建立一个小型语料库,然后进行相应的计算文体学分析,便可以科学客观的数据定量定性地对语体特征加以研究。语体研究是极富有实用价值的,除了能使语言使用者更加灵活、有效地运用语言外,由于其注重文本特征研究和描述,还常被用来确定文学作品的归属,确定作品的写作时间等。

四、如何建设小型双语语料库

语料库建设的工作量极大。一个有实际应用价值的语料库绝不是任意文本的任意集合,其文本类型、大小以及语料的构成都必须依据应用需求,经过仔细的设计,只有这样才能保证语料库的实用性和针对性。我认为,设计一个双语语料库,首先应该考虑语料库的应用目标。语料的收集、构成以及对语料的加工应该紧紧围绕语料库的应用目标进行。我们不强调语料库中的语料对汉语文本的覆盖性。在对语料的内容、语料库中的文本类型、文本的创作时间、语料库的结构进行选择时,我们应以是否有助于面向新闻领域的汉英机器翻译为准则进行。结合上述理论思考以及现实条件下的电子文本的实际情况,我确定了下面的语料收集原则。

1.双语材料最好以汉语作为源语言,因为语料库的服务对象是汉英机器翻译系统,但也酌情收集了一些具有非常流畅的中文翻译的英语材料。

2.文本应以全文形式收入语料库,这将有益于篇章知识的获取和学习,一个实用的机器翻译系统最终必须面对全文的翻译。

3.就创作时间而言,所有收入的文本应当是最近几年的文本,这样才能够反映当下语言的实际使用情况。

五、总结

掌握一定的语料库知识能够帮助学生在学习翻译的过程中更加得心应手。同时,教师在教学的过程中,借助语料库的辅助,可以更加有针对性地通过语料库的资料对学生进行教授,真正实现“student-centered”的教学模式和“task-based”的课堂实践,因此,掌握一定的语料库建设知识显得尤为重要。

参考文献:

[1]钱多秀.计算机辅助翻译[M].北京:外语教学与研究出版社,2011.

[2]杨慧中.语料库语言学导论[M].上海:上海外语教育出版社,2004(2).

[3]张文.计算机辅助翻译技术在笔译教学中的应用[J].中国翻译,2010.(责编 张亚欣)

上一篇:地方公安高校实验室建设存在的问题与对策研究 下一篇:影响农村教师队伍稳定性的因素调查分析