BYU语料库系统及其语言研究应用

时间:2022-09-16 06:07:12

BYU语料库系统及其语言研究应用

摘 要:美国杨百翰大学(BYU)的语料库系统现含10多个免费语料库,在规模、速度、检索方式、语料范围等方面均为同类之最。文章在简要介绍该系统的最新进展后,从语言资源和技术手段评价其优势与局限性。然后收集国内外基于该系统的重要前沿研究文献,建成小型文本,用AntConc软件输出其高频主题词,从而分析相关研究的热点和趋势。发现相关研究集中在如下互为交叉的领域――变异语言学、认知语言学、词汇语义学和语言习得或教学。最后从语言研究、外语教学与词典编纂三方面分析了该系统的应用前景,强调它在语言变异和认知语言学研究等方面的特殊意义,并阐述了相关研究的跨学科整合趋势。

关键词:BYU语料库系统;美国当代英语语料库;语言变异;认知语言学

中图分类号:H319.3 文献标志码:A 文章编号:1673-8454(2017)09-0038-06

一、BYU语料库系统简介

1.总体介绍

美国杨百翰大学(Brigham Young University)的语料库系统(www.corpus.byu.edu)由Mark Davies教授创建,目前主要包括11个英语语料库、西班牙语和葡萄牙语语料库各一个。这些语料库之间实现了无缝对接,相互补充,检索一致,自成体系,故称为“系统”。它们应用非常广泛,中国用户数量排世界前列。各库规模、语种(方言)、语料年份及年份如表1所示(Davies 2013c)。

最具代表性的是美国当代英语语料库COCA(Davies 2008-),是目前世界上最大的英语通用语料库,分口语、小说、报纸、流行杂志和学术期刊五个均匀的子库。此外还有四个谷歌图书语块库(Google Books)的高级检索平台,以及早期的几个语料库――Register Variation in Spanish、Polyglot Bible、Polyglot Book of Mormon、Medieval Spanish bibles和Latin/OSp/ModSp bibles。

2.最新进展

BYU语料库系统的新成员NOW Corpus、GloWbE和The Wikipedia Corpus规模巨大,但检索速度很快,是Sketch Engine或CQPWeb的五六倍。The Wikipedia Corpus是维基百科的高级检索平台,其检索功能远远超过维基百科原有系统,用户还可以挑选其语料来创建临时的个人专题语料库(刘喜琴、Davies,2017)。Hansard Corpus和CORE Corpus分别是英国议会演讲和网络英语语体语料,特别适于历时的语体研究。

Google Books的语料年份从16到21世纪,但其原有检索系统比较简单,用户能查到的信息仅是“冰山一角”。为挖掘该库潜能,Davies(2011a)设计了更为高级的检索平台(www.googlebooks.byu.edu),分美国英语、英国英语、百万图书、西班牙语四个子库。除词和词组外,可以检索子字符串(如*ake代表所有以ake结尾的词)、词目(如start的所有屈折变化形式)、词类(如“形容词+woman”)、同义词和搭配(相邻词)等。当然也可在此基础上组合查询,如“形容词+silliness的同义词”,以及一些特别的句法结构。改进后的检索系统使基于Google Books的英语词汇、短语学、句法、语义变化方面的研究成为可能 (Davies 2014c)。

此外,BYU语料库系统了几类基于COCA等的英语词频表――常用词词频表、多词单位(n-gram)频率表、搭配词(collocate)表和学术词表,大部分含文体分布信息。第一,常用词频表(www.wordfrequency.info)包括常用5,000词表、5,000-60,000词表和100,000词表。据该网站介绍,前面两个词表按词目(lemma)排序统计,可能更适合教学用,而最后一个词表按词形(word form)排序统计,含词汇屈折变化形式的频率信息,可能更适于研究用。第二,多词单位频率表(www.ngrams.info)含2至5词单位,其中百万高频多词单位表可免费获取。第三,搭配词表(www.collocates.info)中含节点词(node)与搭配词组合达430万对,是迄今世界最大、最精确的搭配词表。最后,学术词表(www.academicvocabulary.info)有三个:学术词族表(word families)、核心词表和总词表。该学术词族表接近Coxhead(2000)的英语学术词表,但提供的信息更丰富。学术核心词表含三千词,学术总词表含两万词。

二、BYU语料库系统评价

1.语言资源

从语言资源层面来看,BYU语料库系统的特点主要体现在规模、语料范围与分类以及词频表。

首先,其最大特色是语料库规模大、语料丰富,因此用户能检索到其他语料库无法查到的低频语言现象。加之COCA和GloWbE的部分语料原文和词库可下载,可进一步挖掘其语言资源。

其次,它语料来源范围广,且按地域、时间和文体三个维度进行分类,是观察语言变异(variation)的良好窗口。就地域而言,GloWbE和The Wikipedia Corpus的英语变体最多,COCA、BNC和StrathyZ料库分别是是美国、英国和加拿大英语语料库。就时间而言,COHA的语料跨1810-2009这两百年,TIME跨1923-2006年,它们和COCA都可以分时段检索,每十年为一段。就文体而言,COCA语料分五大类37小类,加拿大Strathy分七类。NOW Corpus、Hansard Corpus、TIME和SOAP等分别代表不同文体。

最后,它提供的四类英语词频表在精确度、信息丰富程度为同类之最,这显然是因为有最强大的语料库支撑,且包含了词类、文体、时间段等各种信息,故利用价值特别大。

2.技术手段

BYU语料库检索系统基于关系数据库,这种基于浏览器―服务器、语料库与分析工具合二为一的软件系统,是在互联网语料库(web as corpus)和云计算(cloud computing)的影响下应运而生的(许家金、吴良平,2014)。其语料按特定格式存储于服务器,用户只要联网即可操作分析。从技术上来看,BYU主要有如下优势。

首先,它界面友好,查询方便,检索方式多样,检索功能强大。若对比BNC和Google Books的原有系统与BYU平台,就能凸显其优越性。仅就其句法检索而言,像[start] to VERB(CHART | TABLE)、[end] up VERB-ing (CHART | TABLE)以及 who / whom + did + PRON(如who/whom did you(VERB))这类检索,在Google Books原有系统中只能逐个输入确切词组,耗时可能达到数天甚至数月,但BYU系统只用输入一次,仅需数秒时间(Davies 2011a)。至于搭配检索,在Google Books原有系统中仅能查询确切的语块,如[wear] + a NOUN或 VERB + his laughter,但在BYU系统中可以查询名词附近的wore,或者laughter附近的动词(Davies 2011a)。在数据结果呈现上,Google Books原有系统提供的仅是数据“曲线图”,BYU系统则可将原文数据拷贝到其他应用软件来进行比较分析,二者不可同日而语 (Davies 2011a)。

其次,该系统“跨时空检索”的特征是同类语料库系统很少具备的。系统内部各库实现了无缝对接,用户可自由跳转,如对比某语言现象在COCA与BNC中的分布异同。还有,因为其语料是按地域、时间和文体进行分类,使各种精确分类检索成为可能。以其Google Books为例,可比较一个语料库内部的两个不同时间段,如对比1960-2000年和1870-1910年这两个时间段中描述女性、艺术或音乐的形容词(Davies 2011a)。

再次,系统响应速度快,包括执行复杂检索任务时。它充分发挥了微软关系数据库技术的优势,这是第三代语料库分析工具――本地检索软件AntConc(http:///software/antconc/)和Wordsmith Tools(http:///wordsmith/)等无法比拟的。

最后,标注比较完善,词类标注准确率高。词频表可按词类检索,这也是少见的。其多词单位频率表因含有词类信息,可进行特别的查询,例如所有的“名词+名词”组合,或者“第一单词以某个字母开头、第二个单词以另一字母开头”的二词单位(Davies 2011b)。

当然,该系统除了以上优势特点外,有些方面仍有待完善。第一,因版权等原因,该系统未能开放其应用程序编程接口(API),专业人员无法以编程方式从某个端口获取数据查询结果,做成个性化软件,进行第二次开发。第二,限于世界范围内自然语言处理的瓶颈,语义标注的道路还很漫长,未来美好的梦想是能将WordNet那样的词汇数据库集成到这类在线语料网站。最后,一些复杂检索功能有待实现,如Google Books检索界面可查某词左边或右边的搭配情况,但两个条件不能同时限定。

三、语言研究应用的现状与前景

1.应用现状

基于该语料库系统的相关研究每年有数百项,因无法穷尽收集,我们通过如下两个途径来综合分析目前研究的热点与趋势:第一,收集具有代表性的论文共100篇(大多来源于SSCI期刊),做成小型文本库,用BNC高频词表(含6318词)做参照,用AntConc软件析出其主题词表;第二,收集852篇相关文献标题和关键词做成文本,用AntConc析出词频表。这两个词表中的非英语单词一律译为英语。

综合这两个词表的高频实义词,分类如下:①“语料库”类有COCA、BNC、COHA、TIME、corpus、corpus-based、corpus-driven;②“研究人员”类有Davies和Gries;③“词汇”类有word、vocabulary、lexical、verb、noun、adjective、preposition、modal;④“语块”类有collocation、phrase、idiom(atic)、pattern、formulaic;⑤“语言变异”类有variation、diachronic、comparison;⑥“认知语言学”类有cognitive、construction(al)、metaphor、grammaticalization;⑦“词义”类有semantic(s)、synonym;⑧“语言学习”类有EFL、learner、acquisition、teaching、effect;⑨“频数与使用”类有frequency、use、usage、pragmatic(s);⑩ “话语与小句”类有discourse、clause。其他还有English、American、Spanish、linguistic(s)、dictionary、translation、morphology、grammar等表示研究对象或领域的词。

根据以上两个词表查看索引行与原文献,得知相关研究集中于英语词汇和语块,特别是动词、名词、形容词和介词,主要涉及如下互为交叉的领域――变异语言学(variational linguistics)、认知语言学、词汇语义学和Z言习得或教学,现仅举数例说明。

在变异语言学方面,主要涉及词汇的历时和共时变异,也有从词汇和语块入手研究语体(文体)差异的研究。Liu(2011)对比了英、美英语最高频短语动词,以及书面学术文体中的高频语块_ENREF_28。Leech(2011)认为情态动词的使用有降低趋势,Lindquist(2009)观察了but、global warming等的变化,Smith(2014)研究了英语口语和书面语新出现的主从连词,Andersen(2014)以英语和挪威语为例研究了语用借用。Brown & Jie(2014)考察了新加坡英语变体。

在认知语言学方面,集中于构式(construction)、概念隐喻(conceptual metaphor)和语法化(grammaticalization)等。Goldberg(2011)从构式语法的角度研究了与格结构与双宾结构,Brinton(2014)考察了“as if”从语用化到构式化的过程。Oster(2010)从隐喻和转喻角度研究了表示“fear”意义的英语词,Simó(2011)对比了英语和匈牙利语中的blood隐喻,Zetterstr?im(2013)_ENREF_31基于不同文体分析了battle和fight的隐喻。Nykiel(2014)考察了英语目的连词的语法化过程。

在词汇语义学方面,集中于同义词辨析与词汇多义性研究,如Liu & Espino(2012)采用了Gries(2010)的Behavioral Profile(BP)分析法和Collostructural Analysis等语料库统计分析工具。另外,Ajsic(2014)考察了波斯尼亚语的政治性英语外来词,Lindstromberg(2010)研究了一批表示时间和空间的介词。

在语言习得或教学方面,也有多项对比研究。Liu & Zhong(2014)对比了一语和二语的同义词习得,对比了高、低学习水平组学术写作的立场标记,Chen(2013)对比了中、英、美三国学生英语短语动词的多用和少用情况。Davies & Gardner(2015)探索了大学生基于语料库的词汇学习途径,Chang(2014)研究了英语学术写作,Szudarski & Conklin(2014)探讨了背诵对二语搭配习得的效果_ENREF_16。

国内相关研究也逐步增加。王仁强、陈和敏(2014)以sneeze及物动词用法的规约化为例研究了动词与构式关系。方子纯、陈坚林(2014)采用BP分析法辨析了immense等几个表示“巨大”的同义词,揭示了其内部语义结构。于昌利(2014)对“a(n)...of...”类延展数量型结构进行了功能语法分析。外语教学的相关实证研究也多基于COCA,如方玲、汪兴富(2010)引导学生将其应用于自主学习,张金福(2012)用于大学生写作的词汇应用能力研究。

总体上,相关研究的特点是语言内部的共时与历时对比研究、跨语言对比研究日益增加,语种从英语辐射到西班牙语等。

2.应用前景

下面从三个方面分析BYU语料库系统在该领域的应用前景――语言变异和跨语言对比研究的拓展、认知语言学研究内容的深化、跨学科整合式研究的趋势。

首先,语言变异和跨语言对比研究牵涉语言学内部多个分支,如方言学、社会语言学、文化语言学、历史语言学、语言类型学等,其实证转向(empirical turn)和定量范式(quantitative paradigm)使之日益依赖于大型语料库来考察语言这个“有序异质体”系统。相关文献指出它在研究语言变异与对比的独特优势(Davies 2013b),如怎样利用BYU的Google Books进行英语历时变异研究(Davies 2014c),研究全世界英Z地域变体的差异 (Davies & Fuchs 2015)以及英语句法变异(Davies 2014a)、Google Scholar和COCA在进行学术英语文体研究时有何差异(Davies 2013a)以及网络语体分类方法(Davies et al. 2015)。

其次,认知语言学同语料库语言学一样,支持以意义为中心、基于使用的(usage-based)语言理论,都认为“词汇和语法是不可分的”,前面的几组高频主题词就充分体现了这点。它在认知语言学领域的应用,不仅是提供例证和频率统计,而且发展到了数据计算、与其它实证手段日益结合的阶段。有BYU如此强大的语言仓库,认知语言学的研究内容可大大深化,特别是从搭配型式(pattern)出发、针对语言使用变异的构式语法(Construction Grammar)和认知词汇语义学研究,如Claes(2014)从认知构式语法的角度研究了西班牙语中存在构式(相当于“there is/are”)的复数化趋势。这当然是得益于该系统灵活而强大的句法及搭配检索,它能帮助研究者瞬间实现构式(或型式)检索,如VERB someone into VERB-ing (CHART | TABLE)、VERB one's way PREP(如“force his way into”)等,这是一般语料库无法做到的。

最后,跨学科整合式研究趋势势不可挡,主要体现在以下三点。第一,心理学、认知神经科学的语言认知实验结果往往要与语料库相互验证,二者合成汇流证据(converging evidence)。如Tanner et al.(2014)用事件相关电位(ERPs)研究了主谓一致的理解,Leshinskaya & Caramazza(2014)用功能性核磁共振成像(fMRI)研究了动作动词的理解,均用COCA提供语料佐证。但是,语料库显示的高频语言现象并不一定具有心理显著性,因此学科交叉中也面临一些挑战。第二,语言学研究者需要和计算机技术人员加强合作。前者需要后者的技术指导,如BYU语料库系统提供的COCA和GloWbE语料原文和词库,含有SQL数据库格式,需要数据库专业知识才可实现如下复杂检索:COCA学术―科技子库中最高频1000 个名词、中间位置为point的最高频500个三词单位(3-gram)、动词break后第4个位置搭配词中的最高频200个名词(Davies 2014b)。反过来,自然语言处理要在语料库的语义标注上取得实质性进展,必须依赖语言学研究成果,才能最终打破制约语料库资源利用的这个瓶颈。第三,语料库数据庞大,统计学方法显得尤为重要,像Gries等用R语言开发的语料库统计软件,优势十分明显。

之,BYU语料库系统在规模、速度、检索方式、语料范围等多个方面上都堪称世界第一,在语料库历史上留下了浓墨重彩的一笔。它虽有些不完美之处,但瑕不掩瑜,蕴藏了巨大潜能。它从共时和历时双重角度大大拓宽了语言研究的视野,特别是从认知语言学的角度进行语言变异的实证研究。

参考文献:

[1]Ajsic, A. Political loanwords: Postwar constitutional arrangement and the co-occurrence tendencies of anglicisms in contemporary Bosnian [J].Journal of Language and Politics,2014.13(1),21-50.

[2]Andersen, G. Pragmatic borrowing[J]. Journal of Pragmatics. 2014(67):17-33.

[3]Brinton, L. J. The extremes of insubordination exclamatory as if[J]. Journal of English Linguistics,2014,42(2):93-113.

[4]Brown, D. W. & T. S. Jie. Singapore English and styling the Ah Beng[J]. World Englishes,2014,33(1):60-84.

[5]Chang, J.-Y. The use of general and specialized corpora as reference sources for academic English writing: A case study[J]. ReCALL,2014,26(Special Issue 02): 243-259.

[6]Chen, M. Overuse or underuse: A corpus study of English phrasal verb use by Chinese, British and American university students [J].International Journal of Corpus Linguistics,2013,18(3):418-442.

[7]Claes, J. A Cognitive Construction Grammar approach to the pluralization of presentational haber in Puerto Rican Spanish[J].Language Variation and Change,2014,26(2):219-246.

[8]Coxhead, A. A new academic word list[J]. TESOL Quarterly,2000,34(2): 213-238.

[9]Davies, M. The advantage of using relational databases for large corpora: Speed, advanced queries, and unlimited annotation[J].International Journal of Corpus Linguistics,2005,10(3):301-328.

[10]Davies, M. The Corpus of Contemporary American English: 450 million words, 1990-present[DB/OL].http://corpus.byu.edu/coca/ (accessed 11/01/2015).

[11]Davies, M. Google Books (American) [DB/OL]. http://googlebooks.byu.edu/x.asp (accessed 11/01/2015).

[12]Davies, M. N-grams data from the Corpus of Contemporary American English (COCA) [DB/OL].http://www.ngrams.info (accessed 11/01/2015).

[13]Davies, M. Google Scholar vs. COCA: Two very different approaches to examining academic English[J].Journal of English for Academic Purposes,2013(12): 155-165.

[14]Davies, M. Insight into variation[DB/OL]. http://corpus.byu.edu/variation.asp (accessed 11/01/2015).

[15]Davies, M. Introduction to the BYU corpora [DB/OL].http://corpus.byu.edu (accessed 11/01/2015).

[16]Davies, M. Examining syntactic variation in English: The importance of corpus design and corpus size [J].English Language and Linguistics,2014,19(3): 1-35.

[17]Davies, M. Full-text corpus data[DB/OL]. http://corpus.byu.edu/full-text/database.asp(accessed 01/01/2015).

[18]Davies, M. Making Google Books n-grams useful for a wide range of research on language change[J].International Journal of Corpus Linguistics, 2014,19(3):401-416.

[19]Davies, M., D. Biber, & J. Egbert. Exploring the composition of the Web: A corpus-based taxonomy of Web registers [J].Corpora,2015(10):11-45.

[20]Davies, M. & R. Fuchs. Expanding horizons in the study of world Englishes with the 1.9 billion Word Global Web-Based English Corpus(GloWbE)[J].English World-Wide,2015,36(1).

[21]Davies, M. & D. Gardner. A corpus linguistic approach to vocabulary learning for university students [A]. In Evans, N., N. Anderson, & W. Eggington(Eds.), ESL Readers and Writers in Higher Education: Understanding Challenges, Providing Support [C].London: Routledge, 2015.

[22]Goldberg, A. E. Corpus evidence of the viability of statistical preemption[J]. Cognitive Linguistics,2011,22(1):131-153.

[23]Gries, S. T. Behavioral Profiles: A fine-grained and quantitative approach in corpus-based lexical semantics [J].The Mental Lexicon,2010,5(3):323-346.

[24]Leshinskaya, A. & A. Caramazza. Nonmotor aspects of action concepts[J]. Journal of Cognitive Neuroscience,2014,26(12):2863-2879.

[25]Lindquist, H. Corpus Linguistics and the Description of English [M]. Edinburgh University Press,2009.

[26]Lindstromberg, S. English Prepositions Explained [M].John Benjamins Publishing,2010.

[27]Liu, D. Is it a chief, main, major, primary, or principal concern? A corpus-based behavioral profile study of the near-synonyms [J].International Journal of Corpus Linguistics,2010,15(1):56-87.

[28]Liu, D. & M. Espino. Actually, Genuinely, Really, and Truly: A corpus-based Behavioral Profile study of near-synonymous adverbs [J].International Journal of Corpus Linguistics,2012,17(2):198-228.

[29]Liu, D. & S. Zhong. L2 vs. L1 use of synonymy: An empirical study of synonym use/acquisition[J].Applied Linguistics,2014,37(2):239-261.

[30]Nykiel, J. Grammaticalization reconciled: functionalist and minimalist insights into the development of purpose subordinators in English[J].Language Sciences,2014(42):1-14.

[31]Oster, U. Using corpus methodology for semantic and pragmatic analyses: What can corpora tell us about the linguistic expression of emotions? [J].Cognitive Linguistics,2010,21(4):727-763.

[32]Simó, J. Metaphors of blood in American English and Hungarian: A cross-linguistic corpus investigation[J].Journal of Pragmatics,2011,43(12):2897-2910.

[33]Smith, A. Newly emerging subordinators in spoken/written English[J]. Australian Journal of Linguistics,2014,34(1):118-138.

[34]Szudarski, P. & K. Conklin. Short-and long-term effects of rote rehearsal on ESL learners' processing of L2 collocations[J].TESOL Quarterly,2014,48(4): 833-842.

[35]Tanner, D., J. Nicol, & L. Brehm. The time-course of feature interference in agreement comprehension: Multiple mechanisms and asymmetrical attraction[J]. Journal of Memory and Language,2014(76):195-215.

[36]Zetterstr?im, M. The Battlefield of the Human Body Revisited-Metaphors and Cancer: A Comparison between Genres[D].Stockholm University,Stockholm,2013.

[37]方玲,汪d富.美国当代英语语料库(COCA)的自主学习应用[J].中国外语,2010(6):79-84.

[38]方子纯,陈坚林.基于语料库的同义形容词行为特征研究[J].外语教学与研究,2014(6):842-852.

[39]刘喜琴.语料库辅助EFL自主学习的多维探索[M].广州:华南理工大学出版社,2013.

[40]刘喜琴,M.Davies.个性化虚拟语料库及其应用[J].中国信息技术教育,2017.

[41]王仁强,陈和敏.基于语料库的动词与构式关系研究――以sneeze及物动词用法的规约化为例[J].外语教学与研究,2014(1):19-31.

[42]许家金,吴良平.基于网络的第四代语料库分析工具CQPweb及应用实例[J].外语电化教学,2014(5):10-15.

[43]于昌利.A(n)...of...类延展数量型结构的功能语法分析[J].外语教学与研究,2014(3):375-388.

[44]张金福.基于美国当代英语语料库对中国学生英语作文中词汇应用能力研究[D].上海:上海外国语大学,2012.

上一篇:分析心理护理干预在附件炎患者中的应用效果 下一篇:海外项目执行战略研究