语料库在中国的研究发展与趋势

时间:2022-05-21 08:12:26

语料库在中国的研究发展与趋势

摘要:中国语料库的研究历经了30多年的发展,已经取得了长足的进步,并呈现出了一定的发展趋势。本文通过文献计量法分析语料库在中国的研究发展趋势:整理了中国知网(CNKI)1982年至2016年与语料库研究有关的文献11056篇;对文献年度数量、文献来源、研究层次、研究学科、发表机构、论文作者、科技成果、经费支持、人才培养等进行了详细分析。将语料库研究在中国的发展划分为3个阶段:1982年至1999年的萌芽阶段,2000年至2010年的快速增长阶段,2011年至2016年的高速成长阶段。总结和探索了语料库在中国的研究变化趋势,指出目前语料库研究存在的不足。旨在进一步服务和推动中国语料库研究的持续健康发展。

关键词:文献计量学 CNKI 语料库

中图分类号:H0 文献标识码:A 文章编号:1009-5349(2017)08-0170-04

语料库语言学是在文本语料的基础上进行语言研究的一门学科(杨惠中,2002),被称为结构主义语言学派与功能主义语言学派,“两阵对垒天平上的一个举足轻重的砝码”(刘杨,2009),亦是语言学科中飙升最快的学科之一。现代大型电子语料库及相关研究,始于20世纪60年代大西洋两岸。今年是世界上第一个机读英语语料库(布朗语料库,Brown Corpus)建立50周年的时候。50年来,西方学者在语料库研究成果应用方面已积累了大量的经验,以语料库为基础的语言学研究在语言学和计算机科学研究中都取得了丰硕的成果,语料库的建设得到了世界各国的广泛重视。世界上的主要语言都建立了许多不同规模、不同类型的语料库,语料库的加工程度越来越深,语料库的应用范围也越来越广,语料库在语言学研究和自然语言处理中发挥了越来越重要的作用。语料库已经成为现代语言学研究的重要基础,在语法书编写、词典编纂、教育教学上都有诸多经典案例。

20世纪80年代以来,随着计算机应用技术的不断发展,在中国,语料库语言学从萌芽到蓬勃发展。30多年来,中国的语料库语言学者筚路蓝缕,从草创到开拓,从试验到创新,功不可没。他们创建语料库,培育团队,立足本土开展语料库应用,引介与创新并重,如今已成果缤纷,蔚然可观。(《语料库语言学》发刊词,2014)

文献计量分析对把握特定领域的研究进展和研究热点有很好的效果,与传统经验判断的方法相比能够得出更为客观可信的结论。(翁胜斌,2013)中国知网(CNKI)是目前国内最具权威的数字图书馆之一,中国知网(CNKI)几乎囊括了所有国内发行的相关文献资料。因此,本文将以知网(CNKI)作为研究数据库,将语料库作为关键词进行全范围搜索,通过搜索结果进行分类及人工检验,采用文献计量法,从载文分析、研究层次、研究学科以及文献来源等方面,对30年来我国语料库语言学研究成果进行了系统的分析总结,探索语料库在我国的研究变化趋势,以期进一步服务和推动我国语料库研究的持续健康发展。

一、数据来源及研究方法

数据来源:中国知网(CNKI),文献总数:11056篇;检索条件:发表时间在1980年1月1日,到2016年12月31日并且(关键词=语料库不包含关键词=语料)或者[题名=中英文扩展(语料库)并且题名=中英文扩展(语料)精确匹配],专辑导航:哲学与人文科学,社会科学Ⅰ辑,社会科学Ⅱ辑,信息科技,经济与管理科学。数据库种类:期刊、特色期刊、国际会议、国内会议、博士论文及硕士论文等。

本文主要采用文献计量法,从以下9个方面进行全面分析。

二、语料库文献计量分析

(一)载文分析

在中国对语料库的研究是从20世纪80年代初兴起的。检索结果显示,1982年由杨惠中和黄人杰联合撰写发表在《外语教学与研究》的“JDEST科技英语计算机语料库”是国内最早研究语料库的公开文献。

总体来看,1982年以来,中国语料库研究相关文献数量呈现不断上升趋势(图1),据此可将中国语料库研究划分为三个阶段:

第一阶段(1982―1999年):萌芽阶段。我国语料库研究发展特征为文献数量少(文献148篇,占比13%),这期间,研究机构理工院校居多,清华大学、哈尔滨工业大学、国防科学技术大学、华中理工大学等都在其列。文献前三者依次为清华大学、北京邮电大学和南京大学;涉及的学科有12个,位居前三位的是计算机软件及计算机应用(328%)、中国语言文学(322%)和外国语言文学(198%)。

第二阶段(2000―2010年):我国语料库研究快速增长(文献3718篇,占比337%)。文献总数较第一阶段增长了25倍,特别是硕博论文由2篇增加到900篇;涉及的学科有40余个,位居前三的为外国语言文学(573%)、中国语言文学(250%)和计算机软件及计算机应用(133%);研究机构中外国语大学和师范院校有了显著的增加,文献前三者依次为大连海事大学、上海交通大学和北京语言大学。

第三阶段(2011―2016年)为高速发展阶段(文献7190篇,占比650%),文献数量呈指数型增长态势;外国语言文学(658%)、中国语言文学(267%)和计算机软件及计算机应用(51%)仍位居前三,但涉及的学科更多。比如:贸易经济、汽车工业、体育及宗教等;研究机构的绝大多数是外语和师范院校,大连海事大学、上海交通大学仍占据文献前三者。这期间随着科学研究者的增加、各领域多元化的发展趋势以及充分的技术支持,从2011年起,每年的文献增加量趋于高速稳定状态,2014年达到了峰值(1326篇)。由此可知,国内关于语料库的研究随着时间流逝而愈加成熟,这是学术类科学研究最健康的体现趋势。

(二)研究层次

在中国有关语料库的研究主要集中在哲学与人文科学(845%)、信息技术(103%)、社会科学(38%)等三大领域;基础科学(自然)、工程技术、农业技术、医疗卫生科技仅占比10%;济与管理科学占比04%。研究层次有基础研究(社科)、高等教育、基础教育、工程技术(自科)、行业指导(社科)、基础与应用基础研究等19个类别。基础研究(社科)、高等教育、基础教育和工程技术(自科)等4类文献就占总文献的827%,其中涉及基础研究(社科)的文献数量最多,共6528篇,占总数的590%。(图2)

(三)涉及学科

语料库研究的文献涉及的学科多达四十余个,除语言、文学、教育及计算机应用等外,还涉及图书情报、贸易经济、旅游、管理学、考古、宗教、体育、音乐等。这说明语料库技术在语料库语言学方面运用得日益成熟之外,也萌芽了其他方向的学科,尝试把语料库这项技术融入本学科,表现出这项技术多元化的潜力。

文献数量排名前10的学科有外国语言文字、中国语言文字、计算机软件及计算应用、文艺理论、中等教育等。(图3)英语在外国语言文字文献类中占比954%,英语教育、翻译及写作是语料库研究的主体。中国语言文字研究文献依次为汉语(523%)、语言学(443%)和中国少数民族语言(34%),汉语教育,语义、词汇、词义和语法是中国语言文字研究的重点。

(四)发表机构

参与语料库研究的机构多达上百个,前10个机构总文献数量占所有文献数量的159%(图4),表明国内语料库研究机构之多,各机构文献所占比例相对平均,发展均衡。大学为研究语料库最主要的机构,发文数量最多的前40个研究机构均为大学。大连海事大学发表硕士论文最多(225篇);发表博士论文最多的是山东大学(29篇)和上海外国语大学(29篇);期刊论文最多的是上海交通大学(157篇),在特色期刊论文最多的是和河南师范大学(21篇);国内外会议交流文章最多的是北京语言大学,分别为27和25篇。

(五)论文作者

发表文章前5名的作者为何安平(华南师范大学)、陈建生(天津科技大学)、王克非(北京外国语大学)、胡开宝(上海交通大学)和毛文伟(上海外国语大学)。(图5)

文章被引次数前5名的作者为外国语学院濮建忠(1061次)、上海交通大学卫乃兴(972次)、南京大学的文秋芳等(580次)、广东外语外贸大学杜金榜(428次)和华南师范大学何安平(280次)。

文章下载次数前5名的作者为外国语学院濮建忠(8389次)、广东外语外贸大学桂诗春(7650次)、山东大学尹海良(6737)、华中师范大学何婷婷(6159)和华南师范大学(5883)。

维吾尔语语料库研究发表文章最多的是新疆大学吐尔根;蒙古语语料库研究发表文章最多的是内蒙古大学华沙宝;藏语语料库研究发表文章最多的是青海师范大学才加让。

(六)文献来源与数据库

本文文献检索使用了6个数据库,它们分别是:中国学术期刊网络出版总库,中国优秀硕士学位论文全文数据库,特色期刊,中国重要会议论文全文数据库,国际会议论文全文数据库和中国博士学位论文全文数据库。(图6)中国学术期刊网络出版总库和中国优秀硕士学位论文全文数据库中的文献数量最多,二者文献占文献总数的847%。从分析可以看出,语料库语言学这一新型技术在进行语料库应用研究的同时,也是研究生完成硕士学位论文的主要研究项目。

刊登语料库研究文章最多的期刊是海外英语、外语电化教学、外国语学院学报、现代语文(语言研究版)、中文信息学报等。(图7)发表硕士研究生学位论文最多的机构是大连海事大学,博士研究生学位论文最多的机构是山东大学。

(七)科技成果、专利与标准

1.科技成果

语料库研究的科技成果仅有23项:计算机软件及计算机应用11项,外国语言文字5项,中国语言文字2项,图书情报与数字图书馆、初等教育与文化经济各1项。获得科技成果最多的是青海师范大学(3项)。

2.专利

语料库研究共获得专利49项:计算机软件及计算机应用38项,电信技术7项,计算机硬件技术4项。申请专利的国家有中国、美国和日本。申请专利较多的机构依次为美国微软公司(4项)、日本东芝株式会社(2项)、哈尔滨工业大学(2项)、北京语言大学(2项)及摩托罗拉(中国)电子有限公司(2项)。

3.标准

由中国标准研究中心编制的国家标准《建立术语语料库的一般原则和方法》(标准号:GB/T 13725-2001)于2001年11月,2002年6月1日起正式实施。该标准规定了建立术语语料库(简称“术语库”)的一般原则与方法。适用于术语库的研究、开发、维护及有关管理工作。

语料库研究的科技成果、专利和标准如此之少,超出了想象,也反映了中国在这方面的研究水平和国外比有很大差距,需要引起足够的重视。

(八)资金来源

长期且稳定的资金来源对从事科学研究来说是必不可少的。因此,我们需要对资金来源机构进行定量分析。从检索的数据来看,共有1479篇文章受到国家社会科学基金的资助,资助率为134%。共49项各类基金参与资助,其中国家社会科学基金、国家自然科学基金、国家高技术研究发展计划、国家重点基础研究发展计划资助最多。(图7)

从事语料库研究的学者大部分没能获得国家层面的经费资助,这从一个侧面反映了社会科学研究的现状,应该引起管理部门的重视。

(九)人才培养

30多年来,培养与语料库研究有关的博士研究生141名、硕士研究生2433名。第一个语料库硕士研究生(汪冰,1997)和第一个语料库博士研究生(王斌,1999)均诞生在中国科学院计算机研究所。培养20名以上研究生的机构有41所。(图9)大连海事大学培养的硕士研究生最多(225名)。山东大学培养的博士研究生最多(29名)。

三、结语

中国语料库的研究历经35年的发展,已经取得了长足的进步,并呈现出了一定的发展趋势。首先,语料库研究领域不断扩展,从语言学、文字学、语法学发展到写作学、词典学、方言学、修辞学等学科;从英语语料库发展到俄语、日语、法语、德语及西班牙语语料库;从汉语语料库发展到蒙古语、藏语、维吾尔语语料库;从哲学与人文科学、社会科学发展到经济与管理科学。其次,语料库研究的队伍不断壮大,年轻一代的高学历复合型人才正成为语料库研究的生力军。此外,由最初的纯理论推介研究逐渐转向实证研究,基于数据、数据驱动综合的几种研究方法得到充分应用,语料库应用研究延伸到工程科技、农业科技及医药卫生科技等自然科学领域。

虽然国内相关研究成果颇丰,但仍存在一些研究不足,可作为未来深入探索的研究方向。首先,当下研究多局限于英语和汉语,法语、俄语、

西班牙语等语言的语料库研究较少,阿拉伯语语料库的文献更是空白。法语、俄语、

西班牙语等语言的双语语料库研究还有很大发展空间。其次,我国的语料库研究基本上都在国内的中文期刊上发表,而很少有在高层次的国际期刊上,缺少与国际学术界的互动与交流,以至于国际学术界对中国的语料库研究知之甚少。最后,语料库应用工具软件的开发能促进语料库研究,是语料库研究的一个重要内容,但国内在这方面的研究相对薄弱,应该引起重视。

参考文献:

[1]杨惠中.语料库语言学导论[M].上海:上海外语教育出版社,2002.

[2]⒀.语料库与机器翻译[J].大众文艺:学术版,2009(12).

[3]谭键.语料库及语料库语言学的发展与应用[J].西北工业大学学报社会科学版,2005(1).

[4]翁胜斌. CNKI数据源的关键词共现分析与多维尺度分析的现实方法[J].现代情报,2013,33(4).

上一篇:对当代大学生体育俱乐部管理模式创新的研究 下一篇:关于发展延吉市特色农业的思考