论中国英语语料库的建设

时间:2022-05-22 03:56:47

论中国英语语料库的建设

摘 要:截至目前,中国英语语料库还未在中国语言学界的语料库中建立,这在一定程度上阻碍了中国英语的发展与进步。中国英语语料库的建设可以根据中国的具体发展国情,积极参考国际英语语料库的分库建设经验,逐步构建具有中国特色的中国英语语料库。基于此,本文拟从中国英语语料库建设的必要性出发,分析中国英语语料库建设存在的问题,探讨中国英语语料库的建设路径,旨在推动中国英语语料库的建设,提高中国英语的国际地位与影响力。

关键词:中国;英语语料库;建设;英语语言;中国英语

中图分类号:H310.1 文献标识码:A 文章编号:1673-2596(2016)10-0207-03

随着英语语言的国际化发展,英语的中国本土化趋势也在不断加深。世界学术领域越来越开始关注与世界英语联系紧密的中国英语,其中相当一部分学者对中国英语的客观存在事实进行了论证,并深入讨论了中国英语的理论意义、社会价值以及教学启示,即中国英语不但有助于中国文化的传播,以及弥补汉语语言在全球领域影响广度有限这一缺憾,而且还有助于提升社团成员的作用与功能,具有十分重要的社会意义。近些年来,针对中国英语本土化的语音、词汇、语篇与语法等描述颇多,但在论述过程中总是无法提供具有说服力的数据,也难以探究产生各种问题的深层原因。然而,语料库的迅速发展为中国英语语料库的研究提供了更为有力的工具,有效促进了中国英语语料库的建设,最大化的填补了中国英语领域的研究空白。

一、中国英语语料库建设的必要性

(一)促进中国英语语言研究的需要

中国英语语料库具有反映真实英语语言数据的功能,通过分析大规模的中国英语语言资料,从中总结出中国英语语言的应用规律,属于一种全新的中国英语语言研究模式。中国英语语料库的建设为中国英语语言的研究提供了丰富的英语语言资料,涉及到英语语言的各个领域与各个方面。中国英语语料库的建设,能够为中国英语语言研究发挥重要的积极作用,有效促进中国英语语言研究的思维方式与研究手段,可以最大程度满足相关研究者的语料需求,而且能够促进研究手段的灵活化与方便化[1]。

(二)强化中国英语语言发展的需要

中国英语语料库的建设有助于中国英语词典的编撰,词典编撰人员可以根据中国英语语料库中的统计结果,给出相关词条的实际频率信息,以及对排列顺序与狭义定义进行取舍等。同时,中国英语语料库建设还可以为词汇搭配方面的研究提供帮助,为英语语言学习者提供更加权威与地道的词汇搭配方式,进而促使学习者对词汇搭配的习惯、用法、文化、词义等因素有更为深入的了解。另外,中国英语语料库的建设还对英语语言的教学具有重要的推动作用,即广大学生可以通过中国英语语料库对英语语言在中国的具体应用有更为全面深刻的认知,从而提升学生的英语语言应用技能。

(三)提升中国英语国际地位的需要

随着全球经济一体化的飞速发展,世界各国之间的相互联系日益频繁,语言作为一国对外开展交流的重要工具,对国家的国际影响力具有重要的影响意义。英语作为国际通用语言之一,加强英语的中国本土化发展对于增强中国的对外贸易,以及提升国际社会对中国的认知与了解具有不可替代的意义。而中国英语语料库的建设,作为提升中国英语研究与发展的重要途径,更是增强中国英语国际地位的关键举措[2]。

二、中国英语语料库建设存在的问题

(一)语料库的基础建设较为滞后

中国英语语料库的起步时间较晚,从一些研究论文中所采用的英语语料库可以发现,采用国际大型语料库的研究较少,以中国自主研究与开发的英语语料库应用居多。然而,作为我国最具代表性的学习者英语语料库“CLEC”,其词级规模只有百万,只包括头标注与错误类型标注两种[3]。从中可以看出,与世界数以亿计的词级规模语料库相比,中国的英语语料库基础建设还有相当大的差距。世界著名语言学家约翰・辛克莱曾指出,只有大型的语料库才有可能推动语言理论的进步与发展,小型的语料库只能位居语言学领域的边缘。所以,大力改变中国英语语料库基础建设的滞后问题,提高中国英语语料库的规模是当前的重要任务之一。

(二)语料库的技术水平相对薄弱

语料库建设中的赋码和各种标注可以为相关研究提供更为丰富的信息,而人工标注则难免会出现主观性等问题,且速度比较缓慢,对大型语料库的标注而言,人工标注技术是行不通的。目前,中国在英语词类方面的自动赋码技术已经相当成熟,几乎可以达到精准的水平,但在语义、句法等方面的自动分析水平还不够成熟。一些语言专家建议使用句法赋码技术,即首先通过计算机对词类进行自动标记,用人工校对予以辅助,然后再通过计算机帮助人工分析语料的方式对语法进行标记。这种技术虽然具有一定的可行性,但依然无法满足语料库快速的发展规模需求。人工标注技术终将会被淘汰,特别是目前北京语言大学语言研究所新研制出的CCRL检索系统,可以对30G以上的生语料进行实时检索、分词与词性标注,这一技术发现使得中国英语语料库建设突破了技术薄弱的瓶颈局限,并使得语料库建设步入自动化处理阶段变得指日可待。

(三)语料库的专业设计不够精细

当前中国英语语料库的建设工作还处于初级阶段,各方面的发展还不够成熟与完善,尤其是英语语料库的专业化建设还未引起足够的重视。与普通语料库有所差别,专业化的英语语料库会涉及到计算机、语言学、专业英语等更多的专业化知识。这就使得在对专业化英语语料库进行设计的过程中,需要进行更深入、更全面的考虑,比如语料筛选标准、语料功能、语料代表性等等。同时,专门化的英语语料库由于往往涉及到多个专业的子语料库,所以,如何对英语语料库实施分类,如何对英语语料库加以编码等都是需要考虑到的设计细节。然而,目前中国针对专业化的英语语料库设计还存在不够精细的问题,只是简单的、未加分类的对英语语料进行堆积,这不仅使更为符合要求的语料获取难度加大,而且严重降低了英语语料的实用性与代表性[4]。

三、中国英语语料库的建设路径

(一)明确语料库的设计思路

中国英语语料库的建设工作需要制定明确的设计思路,具体包括四个方面:一是明确中国英语语料库的建设目的。即建设中国英语语料库的根本目的在于满足中国英语的应用、语言研究以及教学等需要。二是明确中国英语语料库的构成方向。通过明确中国英语语料库建设是应用于研究领域还是实用领域,然后对其构成方向进行确定。诸如,实用领域要以语言运用、英语理论与英语基础知识作为主要结构。三是明确中国英语语料库的建设规模。比如,依据取样分析对取样的时间跨度进行明确,定位英语语料库建设是否归属于开放性的语料库,初步设计包含多少词汇量的规模等等。四是明确中国英语语料库的采集范围。英语视频、英语书籍、英语杂质、英语广播等都是英语语料的采集资源,对各个范围的英语语料的组成结构与限制性条件进行明确,对填充英语语料库的内容具有至关重要的意义。

(二)重视语料库的网络建设

随着互联网科学技术的迅猛推进,计算机网络已经渗入到了现代社会的方方面面。近年来,网络语言对语言演化的影响愈来愈多,而要想收集那些日新月异的网络语言资源,就必须构建科学合理的网络语料库对之进行储存。中国英语同样如此,只有积极建设网络化的中国英语语料库,才能最大化中国英语语料库的规模。同时,网络化的英语语料库还可以实现中国英语语料库的自动化发展,即语料资源的选取将突破传统的人工操作,通过计算机网络便可以自动完成。网络中国英语语料库作为虚拟英语语料库的一种形式,可以使整个网络变成重要的英语语料库资源,通过百度、搜狗、谷歌等搜索引擎对相关网页的搜索,然后再应用相关软件对各种英语信息进行筛选[5]。在新世纪初期由伯明翰大学牵头建设的“WebCorp”(网络语料库)是最具代表性的网络语料库,通过网络该语料库搜集到的语料已经达50亿规模,每日更新的语料网页可达200万,同时支持十几种语言的检索。因此,建设网络化的中国英语语料库是未来必然的发展趋势。

(三)推动语料库的智能发展

智能化的语料库形式是新时代语料库的新兴形式,主要以“Monitor corpus”(监控语料库)形式为主,该语料库具备自动监控与及时更新的功能,可以自动更新语料、发现新语料、报告新语料以及淘汰过时语料。其中,及时发现语言应用中的新变化与新现象是“Monitor corpus”的重要功能之一,比如COCA语料库作为监控语料库的一种形式,其加入了一个动态性元素,致使新文本可以被持续不断的加入进去,然后通过相应的软件分析,对新词汇或者新词的用法进行发现与识别[6]。全球英语语言监控语料库项目建设自2001年底正式启动,其研究目标是让该语料库具备报告专有名词与术语在现阶段意义的功能,以及对世界各国的英语发展趋势可以进行及时报告,通过现阶段英语语言的应用与以前英语语言的应用比较,对英语语言的最新变化进行报告。所以,大力推进中国英语语料库的智能化发展,是建设中国英语语料库的重要构成部分,而走智能化的英语语料发展之路,是实现中国英语与国际接轨的重要路径。

(四)强化语料库的专业功能

与大规模的通用英语语料库建设相比,当前中国的专业英语语料库建设少之又少,这在很大程度上限制了中国英语语料库的功能发挥。所以,积极促进中国英语语料库的专业化建设已成为语料库建设的重点。中国英语语料库的专业化建设涉及到的范围十分广泛,其中包括计算机技术、语料库理论、语言学知识、专业知识等。因此,要想设计出代表性强、科学合理的英语语料库就必须鼓励计算机专业人员、英语教师、英语行业资深人员等加入进来,对检索软件开发、语料收集、语料标注、语料分析、语料采样等诸多问题进行深入分析与研究,实施跨学科、跨领域的合作交流。另外,由于中国英语语料库的专业化发展与英语行业联系十分紧密,这就使得在建设中国英语语料库的时候,有必要邀请行业人士或者相关专家参与到语料库的设计与监督工作中来。

总而言之,语料库已发展成为新时代语言学应用、理论以及语言工程研究等所必须的基础性资源。其中,一些发达国家在英语语料库方面的研究起步时间较早,已经构建起了比较完善的英语语料库理论体系与应用规范。尤其是近些年来语料库的迅速发展,促使世界各国都在着手语料库的建设,各种各样的语料库应用软件也不断涌现。中国在积极借鉴其他国家语料库建设经验的基础上,紧密结合中国的发展国情以及广大英语学习者的实际情况,对英语语料库的研究与建设进行了深入研究,并却得了一定的成绩。然而,中国英语语料库的建设还面临着一系列的压力与问题,这就要求英语语料库的建设者必须不断创新思路与方式,持续提升英语语料库的建设质量,才能真正推动中国英语语料库的发展进程。

参考文献:

〔1〕黄大网,等.数据驱动学习与英语写作教学中的语域知识传授――基于CLEC语料库的个案研究[J].外语电化教学,2003,(12).

〔2〕王海.21世纪以来我国基于语料库的英语研究述评[J].湘潭示范学院学报,2007,(03).

〔3〕曾祥玲,李志远.近十年来英语语料库研究现状与发展趋势[J].外语教学与研究,2013,(55).

〔4〕胡开宝,吴勇,陶庆.语料库与译学研究:趋势与问题――2007语料库与译学研究国际学术研讨会综述[J].外国语(上海外国语大学学报),2007,(05).

〔5〕胡开宝,陶庆.汉英会议口译中语篇意义显化及其动因研究――一项基于平行语料库的研究[J].外国语学院学报,2009,(04).

〔6〕任文,杨平.迈向国际化:中国口译研究发展的现状与趋势――第八届全国口译大会暨国际研讨会述评[J].中国翻译,2011,(01).

上一篇:郭锡良等《古代汉语》注释商兑 下一篇:文学作品《家》中的“青春”叙述