手语语料库建设基本方法

时间:2022-09-13 07:43:12

手语语料库建设基本方法

摘要:手语语料库作为手语语言学理论研究的一项具体实践以及研究成果的集中体现,目前已经成为一门专门的学科领域。本文主要结合手语语料库两大基本特征――样本的代表性和语料的机读形式化,介绍其建设的一般方法:1)从语料的搜集来看,词汇、对象和地区的选取都应当采取科学的社会语言学的调查方法,以保证样本的代表性;2)从语料的处理来看,应该突破纯文本转写的劣势,利用多媒体转写软件对语料进行分割、转写和标注。文章另外指出了手语语料库建设对于语言研究的积极意义。

关键词:手语语料库 采集标准 基本概念 操作方法

分类号:G762

1.引言

与有声语言词典相比,手语词典出现时间较晚,直到1965年,Stokoe才与其他两位聋人同事编写了世界上第一本手语词典《基于语言学原则的美国手语词典》。其诞生虽然标志着手语语言学研究迈出了历史性的一步,但受编纂条件的限制,该词典的局限性也显而易见。例如,书中没有系统地提供美国手语的各种变体,尤其缺乏对地域差异的说明。Steinberg编纂的《美国手语综合词典》虽然对变体进行了描述,但词典使用的语料仅来自一名被调查者,权威性和参考价值被大大削弱。更为严重的问题是,由于不少手语词典缺少科学的编写方法,并不为聋人团体所接受,其实质更像提供手语打法的工具书而非词典。其实,不少词典学家在编写过程中已经注意到上述问题,如Denmark作为第一本英国手语词典的主要参与人,他提出在词典中应当对英国手语存在的15种变体加以说明。但等到实际成书时,该项提议却未能得到实现。

出现上述问题一个很重要的原因是词典编写工作长期以来都是一种手工劳动,依靠词汇卡片的组织和建立。该项工作不仅需要耗费大量的时间和精力,而且以纸质材料为载体的语言资料库,由于分类、整理和储存的难度,难以重复使用以及实现知识共享。近年来,随着电脑技术的发展和语言学家方法论意识的提高,词典的编写更多基于手语语料库。就国内情况来看,全国哲学社会科学办公室和国家语委在2012年分别设立了“基于汉语和部分少数民族语言的手语语料库建设研究”和“国家手语词汇语料库建设”两个重大课题,显示出我国对手语语料库建设重视程度的提升。鉴于手语语料库在国内刚刚起步,将面临许多新问题和新挑战,因此对其基本方法进行介绍大有必要。本文首先概述国外手语语料库的发展现状,其次提出语料采集应当遵循的社会语言学标准,最后介绍如何利用相关软件对语料进行转写和标注,并指出手语语料库建设的语言学意义。

2.手语语料库发展概览

定性分析和定量分析是语言学研究的两大基本方法。前者以内省思辨为代表,后者则主要依靠语料库。在传统研究中,内省思辨因符合人类直觉,对语义解释、语法判断和语境判别等可及性强的语言现象有着强大的解释力。但是内省法存在不能保证一致性、不可重复、不可证伪以及过于主观等缺陷。拉博夫认为,语言学家不能在创造理论的同时产出语言数据,因为二者会相互影响,容易形成循环论证。因此在手语研究中使用定量统计(如建立语料库的方法),以保证数据的科学性则显得尤为重要。

手语语料库的优势主要表现在:(1)手语作为一种比较年轻的语言,缺少书面形式以及聋人群体共同接受的标准。手语语料库具有存储大量信息的优势,可以对各种变体(性别、地区和年龄等)做出客观的描述;(2)手语的传承具有不连续性。聋人父母的子女可能为听人,听人父母的子女也有可能是聋人。受试数量的不足,会对内省思辨法造成不利影响。手语语料库有语料来源广泛的优势,可以采集到足够数量的手语母语使用者的语言标本。

世界上第一个大型手语语料库是美国手语语料库,其主要目的在于调查美国手语的各种社会变体。开发者在1995年间对美国7大主要城市的聋人社区使用手语的音系、词汇和句法变体做了较为详细的摸底调查。该语料库直接促进了其后数年间美国手语社会语言学研究的蓬勃发展。但美国手语语料库基本属于大学私有,极少向公众开放。目前也没有政府出资建立的国家大型语料库,其原因是因为随着手语语言学研究领域的精细化,研究者学术兴趣不一。近年来,越来越多的国家和地区相继建立起手语语料库,其中包括澳大利亚(澳大利亚手语语料库),荷兰(荷兰手语基本词汇语料库)和中国香港(亚太地区手语语料库)等。

目前最为成熟的手语语料库当属由Johnston等人创建的澳大利亚手语语料库。该库的建设目的从早期的社会语言学描写研究,逐渐转移到手语的传承保护和词典编纂。Johrmton提出,手语语料库应当包括大量可以机读的标注文本,而非语篇和文本的随意堆砌。McEnery和Wilson也认为样本的代表性以及语料的机读形式化是语料库两个最重要的特征。以此标准建立的语料库,对于包括音系、词汇、句法、语篇等各种层次的手语研究,尤其是词典编纂都有积极的促进作用。下面我们将围绕这两个特征,分点加以论述。

3.语料的搜集

本文所说的“样本”是指在手语调查活动中根据概率抽样原则从调查对象的总体中抽取出来作为受试的那一部分人。“代表性”是指选取样本所具有的特征可以说明总体特征。为保证语料库中的样本具有足够的代表性,在词汇、对象和地区的选择上应当遵循一定的标准。

3.1调查语料的选取

语料的选择和编制是建立语料库的关键环节之一,调查通常包括词汇和语法两部分。(1)词汇:目前手语语料库主要收录的是日常语言交流中的通用性词汇,国际上较为通行的做法是根据学前健听儿童的词汇频率表确定手语词汇的调查目标。核心词汇一般具有以下几个特征:①使用频率高。其所指称的事物往往与日常生活密切相连,和人类的基本行为有关;②具象性。人们很容易将词汇所指称的事物或事件与具体的形象联系起来。由于核心词汇的选定主要基于有声语言,因此确定词汇表后,还应在正式调查开展前将其交由聋人做出筛选,确保手语中也存在对应的概念。同时,还应该配合采用田野调查的“词汇记录”法,确保忠实地记录手语中的特有词汇。(2)语法:以“诱导法”和“自然产出法”两种方法为主体,具体采用访谈、自由交流以及让聋人进行自我介绍等方式获得语料。为了保证语料的全面性和准确性,可以采取不同的语言任务加以获得。例如在调查中国手语动词短语时,可以采用国际上通行的“青蛙,你在哪里”连环画,书中含有很多运动的细节,研究者通过让受试用手语描述书中图画,以获得聋人空间语法的表达形式。又如在搜集疑问和否定表达时,可以用追加提问的方式,让受试描述两幅相似图画的差异,获得所需语料。

3.2调查对象的选取

一般来说,某个语言群体的成员,其语言能力存在差异,手语使用者群体也不例外。根据johnston的调查,世界上90%-95%的聋童都出生于听人家庭,在进入聋校之前大多接受的是“口语教育”,这对他们自然手语的习得极为不利。因此当中只有极少数人可以被称作手语的母语使用者。由于研究者常常使用词性和语法判断任务获取语料,非母语使用者的语感准确度往往较低,其语言能力会直接影响到语料的纯净度。因此最理想的受试是来自第二代聋人家庭的手语使用者。然而在实际生活中,尤其是在较小的聋人群体,研究者往往难以召集到足够数量的理想受试。有鉴于此,Johnston提出了另外一套针对非母语使用者的选取标准,以保证研究的科学性。当中包括:(1)手语的学习年龄不应晚于八岁,以三岁前为最佳;(2)接受聋校教育,以住校生为最佳;(3)每天使用手语;(4)身份上认同聋文化。

但上述标准并非具有唯一性,研究者应当根据实际情况灵活采取适合本国手语语言生活的采集原则。例如,对于大多数聋人群体来说,非母语使用者的数量总是大于母语使用者,二者在相互交流过程中会相互影响,以至于非母语使用者的部分表达在手语中反而较为典型。更为重要的是,从全社会的语言使用来看,有声语言的主流地位不容忽视,会对手语的使用造成影响。某些语言表达虽然从词源上看来源于有声语言,然而一旦被聋人社团接受,就应当将其视作手语的有机组成部分,不能一味追求自然手语的纯净度,盲目地加以排斥。

3.3调查地区的选取

以荷兰的“交流能力”项目为例,研究者以2000个核心词汇为目标,对分布在全国5个地区的75名聋人进行了调查,历时两年共采集到一万五千种手势打法,并在Stokoe系统下,即采用音位符号对手语的手形、动作和位置进行转写。在对当中的600个词汇进一步分析后发现,其中有166个词汇在全国所有地区的打法均相同或类似,202个词汇有两种打法,368个词汇有三种或更多打法,显示出荷兰手语地域变体较多,这与我国手语现状类似。中国手语有南方手语和北方手语两大方言片区,主要包括上海手语、北京手语、手语、香港手语和台湾手语等。根据Lin对全国六个城市(乌鲁木齐、烟台、西安、郑州、上海、北京)的调查,大约有65%的受试表示对其他地区的手语理解程度仅有50%-80%。因此研究者应当充分考虑到手语不同变体的地理分布,在正式调查前对手语主要方言区进行摸底。

但值得指出的是,手语打法的地区差异与地理距离的远近并不一定成正比。我国手语的各种地域变体亦反映出这一规律。例如与地理距离更为靠近的北京手语相比,上海手语反而和香港手语共享了77%的同源词汇。这主要与不少上海聋人在1946年至1949年期间移民至香港,在当地从事聋教育工作,传播上海手语有关。因此对调查地区的选取还应充分考虑社会、经济和文化等因素对手语的影响。如中国文化虽然是一个完整的统一体,但因中国地域广大,民族众多,所以内部的区域和民族文化又存在差异。手语研究者应当注意到不同地区聋人文化和听人文化的差异、聋人文化内部之间的差异对手语方言形成的作用。

4.手语语料库的基本概念和操作模式

要实现语料库的机读化,提高语料的利用价值,增加语料的重复使用性以及增强语料库的多功能性,关键就在于语料的转写与标注。下面我们将结合目前较为通行的多媒体转写标注软件(ELAN),介绍手语语料库建设的基本概念和操作模式。

4.1基本概念

目前较为常用的手语标注软件是荷兰开发的跨平台多媒体转写标注软件ELAN(EUDTCO Linguistic Annotator)。该软件支持多种音频与视频文件格式的转写和标注,以及媒体与文本之间的关联。转写、标注、层、类型以及元数据是ELAN的五个基本概念。(1)转写,是指根据视频内容录入文字或者其他字符(如Stokoe转写系统);(2)标注,就是对语料库添加信息的过程,即把表示各种语言特征的附码添加到相应的语言成分上,以便于计算机对特定语料进行识别和提取;(3)转写和标注以“层”为依托,语料库中可以包含不同的“层”,每一“层”都有不同的标注内容。如“文本转写层”、“翻译层”等;(4)类型,是指从语言学角度对“层”的属性进行定义,如某一层是对手语方言的转写,就可以将其描述为“Dialect(方言)”;(5)元数据,即对加工前的“生语料”进行信息标注,一般称作语料的篇头信息。

转写和标注是实现语料库机读化的两个关键步骤。不同兴趣的研究者可以根据自身的研究目的,对语料进行标注附码,形成不同的子语料库。早期的手语语料库通常采取文本转写的方式处理语料,但由于目前缺乏统一的转写标准以及手语是一种视觉交流性语言,纯文本转写无法完整呈现手语特点,该种方法逐渐被多媒体标注软件代替。

元数据主要用以实现信息资源的共享和交换,主要包括语料提供人的年龄、性别、听力损伤程度以及手语习得年限等,也会标明文体信息,包括交流方式(如对话、讲故事或问答等)、交流语境以及交流内容等。随着全世界各国残疾人保护法的出台,聋人的个人信息受到保护。成型后的语料库通常不会出现该类信息。但为了保证数据的真实性,实现同行检验,元数据可以对聋人的个人信息、语料的知识版权信息、加工信息以及管理信息做出记录。

4.2操作方法

在操作方法上,研究者在设计语料库时,应当首先实现元数据的规范化和标准化,根据实际需要决定标注哪些元数据。不必求大求多,造成时间和精力的浪费;也应避免数据不全,降低语料库的利用价值。目前较为常见的手语元数据描述格式是由荷兰马克斯・普朗克心理语言学研究所开发应用的IMDI元数据库(www.mpl.nl/IMDI/)。该平台主要用于多媒体和多模态语言集成,可以较好地实现语言数据和元数据之间的匹配,供检索和计算之用。

在导人视频后,ELAN主要有三种操作模式:(1)分割模式。这是手语语料库转写和标注的基础。研究者首先需要对视频进行时间段的分割标记,即在相应的时间点按“回车键”进行逐段分割。该项工作对研究者的语言敏感度要求较高,通常交由聋人或者手语极为熟练的听人完成;(2)转写模式。对内容完成逐段分割后切换到转写模式,在表格中逐句转写,按“回车键”进入到下一句。按Tab键可以重复播放当前句;(3)标注模式。我们以澳大利亚手语语料库当中的一个样本对具体展现标注模式。该样本(如下表所示)一共标注了三层;词汇层、句法层和翻译层。

该语料库目前已完全实现视频和文本的同步关联,截至2001年,研究小组利用ELAN软件对1100个手语视频进行了不同程度的转写,共得到6600个词语。该库甚至成为澳大利亚国家语料库的有机组成部分,实现了有声语言和手语的良好对接。随着手语语料库发展的日益成熟,标注内容也渐趋完善并且呈现出精细化的趋势。研究者可以根据自身的研究需要对语料的某项信息进行专门标注。如衣玉敏通过对上海手语的语音调查,统计出上海手语有69个手形,110种运动方式,28种位置和8种手的朝向。刘润楠则通过转写北京手语653个手势,共提取出手势内部语素33个,包括手形语素13个,位置语素13个,运动方式语素6个,手掌朝向语素1个。类标记、身体标记和表情标记等也可成为标注的有机组成部分。如施婉萍对香港手语的非手控特征进行转写后发现,“扬起眉毛”和“特定的头部面向/倾侧位置”是香港手语“场景布置”的话题标志,不过这些非手控特征并不是强制性的。但需要说明的是,语料库开发者也应在标注系统的详略度和标注方案的可行性之间找到平衡点。从使用者的角度来讲,语料库的标注当然是越详细越好;但作为语料库开发者,如果标注信息过于繁杂,不利于标注者进行实际操作。

5.对我国手语语料库的建议及其建成意义

5.1建议

目前我国手语语料库建设依然处于起步阶段,应用范围还非常有限。从已出版发行的多本手语词典或工具书来看,如《中国手语》和《现代汉语常用词手势图解》等和香港地区的《香港手语词典》等。其编写的一般做法是召集一定数量的聋人,采取实验诱导法获得所需语料。该方法虽有利于编写工作的高效运行,但存在的潜在风险是,手语的采集过程主要依靠聋人的内省判断,加之受试样本容量大小不一,少数实例往往难以如实反映手语词汇的真实性和复杂性。因此在建设过程中,应当注意到以下几个问题:(1)从研究者来看,最好为手语语言学专业出身,或对手语有较长时间的接触和学习。应当以科学的方法论思想指导语料库建设,切不可想当然;(2)从语料的均衡性来看,应当注意性别、地域和词域的平衡;(3)从建设主体来看,我国的手语语料库大多数为国家出资建立,应当在此基础上发动各层面力量,提倡各个研究机构和大学建立自己的语料库。目前国外较为通行的做法是,如科研人员可根据研究需要建立私人语料库,在一定范围内实现共享和交流。

5.2意义

第一,手语语料库可以用于语言研究。语料库是以电子计算机为载体承载的真实的实际使用并经过加工(分析和处理)的语言材料。其使用标志着语言方法论的重大转变,可使语言研究者从传统的直觉经验方法转向量化的统计方法,提高语言研究效率。通过语料库对手语词汇进行分析,得出词频及词的搭配等统计规律,还可以大大缩短词典的编写周期,使词典的内容充分反映语言的实际使用情况。

第二,手语语料库可以用于手语教学。手语语料库作为以计算机为工具建立、存储和使用的手语语言素材集合,可供使用者检索、分析和处理之用。对语料库中丰富的手语素材进行统计,得出手语的特征和规律,有助于扭转以往教材大多依据聋人教师的直觉和教学经验,缺少量化标准和科学依据的局面。语料库更可以直接为手语教材的编写提供更具真实性和客观性的素材,为手语课堂教学提供鲜活的案例。

第三,手语语料库可以服务于国家语言规划和语言政策的制定。我国政府长期以来致力于手语通用语的制定,但以何为标准一直是各方争论的焦点。这主要是由于中国手语中也存在方言,并且受到汉语的影响。因此在手语语料库建设的过程中,采取一种描写的态度收集中国各个典型地区的自然手语方言,将所得语料建成大型数据库,比较以及量化当中的差异,提取合理的通用语选定标准,可以有效避免语感带来的偏差。

6.结语

本文讨论了手语语料库的产生背景,对语料的采集方法、转写以及标注进行了探讨,并尝试给出了对我国手语语料库的建议以及建成意义。概而言之,手语语料库建设是手语语言学研究成果的一项具体应用,同时也会对其提供新的研究思路和更多的研究数据。研究者也应该清楚地意识到手语语料库建设的长期性、复杂性和艰巨性,尤其是大型语料库的建设需要耗费大量的人力、物力以及财力。在建设过程中需要国内乃至国际学界的频繁交流和通力合作,才能实现研究成果的不断涌现和真正共享。

(责任编校:胡晓毅)

上一篇:正义必定战胜邪恶 下一篇:从新版《标准日本语》看日语动词分类