社会语言学研究方法与语音数据库建立

时间:2022-09-18 12:43:24

社会语言学研究方法与语音数据库建立

摘要:计算机语言学在信息科学和信息科学的研究领域扮演关键的角色。而语言学理论寻求对语言现象规律性的揭示与完整的解释。作为语言学和信息科学的乃至心理学与认知科学的结合的交叉学科,计算机语言学更加提供了研究与应用研究的绝佳界面。其中语料库语言学是语言学科中飙升的最快的学科之一,它综合了语言分析、语言教育、研究方法、统计学以及信息技术等多种学科,所以,建立昆明方言中四字熟语语音语料库可以对大量采集昆明四字熟语,而且可以将采集来的真实文本作为研究素材,通过统计方法得出结论后。因此,该语料库的建立不仅有利于研究昆明方言中四字熟语的基本结构,使用频率更加可以揭示昆明方言的社会性质,而且对于昆明方言与普通话之间的方音辩证提供辩证依据。

关键词:语料库,昆明四字熟语,计算机语言学,语音

中图分类号:H17 文献标识码:A 文章编号:1006-026X(2013)11-0000-02

前言

语料库和语料库方法的出现对社会语言学书面语研究起到了重要的促进作用,用语料库进行社会语言学研究还有很多改进的空间。社会语言学研究方法的特征概括为三个:定性与定量研究结合、解释性、实证性。尤其是在解释“语料或数据”时,认为定性研究所收集的数据主要是词语而不是数字,定量研究所收集的数据主要是数字。这种解释似乎不够全面,利用语料库进行社会语言学研究,收集的数据既需要词语,也需要数字。笔者认为,随着现代信息技术的不断发展,利用语料库方法研究社会语言学将会是一种定量研究与定性研究完美结合的社会语言学研究的重要方法。

因为社会语言学研究在方法上的最大特点是在对言语社区语言使用进行定量和定性分析的基础上,揭示语言变量与社会变量之间的关系。早期的社会语言学研究更多的是注重口语的研究,语料库语言学的出现不但给社会语言学研究书面语带来了生机,同时也大大推动了这一领域的定性与定量有机结合的分析研究。因此,笔者将对方言语音数据库建库设想进行阐述,希望能够从定量的角度出发,结合当代计算机技术希望对昆明四字方言语音研究有一定的拓展。

一.语音数据库建立的理论基础和特点

1.理论基础:语音语言处理

计算机语言学滥觞与上个世纪五六十年代的机器翻译研究。中文的相关也几乎同步开始,1960年在柏克莱州大学实验室,王仕元,C.Y.dougherty等人开始研究中英、中俄机器翻译。随着跨语言沟通与知识整合,语言科技的发展成为国际主流。

语音语言处理都是以人类语言为处理对象,但是处理的层面却不同。语音处理关注的是利用计算机对语音信号进行分析综合,从而实现合成和识别人类语音。而语言处理更多关注对人类语言的句法语义进行建模,终极目标是实现语言机器对人类语言的理解。

尽管语音处理和语言处理的对象是人类的语言,不过传统上这是两个互相独立的学科,对于这两个领域的研究和教学也是相互独立的,内容页不会相互交叉,但是近年来,随着这两个科学的进一步发展,他们之间的关系变得日益密切,两个学科间的联系不断加大,人们开始意识到语音对于语言理解的重要价值,反过来,语音处理研究也需要关注语言处理的进展,将语言处理的成果运用到语音识别和语音合成研究,有利于提升语音处理性能。例如,在20世纪80年代,隐马尔可夫模型被用来解决词性自动标注问题,就是受到该模型应用在语音识别研究中获得成功的启发。同时,该模型带动了语料库为基础的经验主义方法在语言处理领域的全面复苏。

2.对于语音语言学学科特点的讨论

语音和语言处理均是对技术背景要求很高的交叉学科,搞清楚发音的生理机制,需要对人类的发音器官以及声学知识有足够的了解,也需要为语音和语言建立数学模型,并运用计算机的手段方法去实现语音和语言的计算处理。然后,语音和语言的研究人员主要来自于理工专业。因此大多数关于语音和语言处理的书籍教材都假定读者有较强的理工专业背景,书中充满了各种数学推导公式。但是对于传统意义上属于人文学科的语言学专业的学生来说,大量理工数学推导公式无疑会为他们造成很多理解上的困扰。然而,作为语言学专业的学生,他们不仅可以更容易成为语音和语言处理研究的参与者,而且,他们更容易成为语言和语音技术的使用者和实践者,更好的借助语言和语音处理工具。他们可以更好地观察和分析语言,从而推动语言学本省的研究。

二.关于昆明方言四字熟语语音数据库的建库依据和要求

在昆明方言词汇系统中,有很多昆明人常常使用的三字或四字的固定语句,这些固定语句结构紧密,言简意赅,具有独特的造句功能和表意功能,已经成为昆明方言殊而又不可缺失的重要词汇组成部分。

而且,三字,四字熟语很好的体现了昆明方言的地域性、特殊性、生动性、幽默性的特点。因此笔者提出了建立昆明方言四字熟语语音数据库的设想,这样可以无穷多的收纳昆明四字熟语方言,从语料丰富性上来充分展示昆明方言的结构特点,从语音数据库的建立,从体现昆明方言方音的声调,波值,频率的角度诠释昆明话的语音特点,更加可以反应昆明人说话的语法特点等。

从昆明方言地域性来说更多是体现在个体文字词语的发音上,但要说情昆明话的具体发音几乎不可能。昆明话中又有许多特有的词语,可划入地域性的特点中,如 “猫哩儿”,“大拽拽呢”等,笔者将在本文着重讨论昆明四字熟语

特殊性,主要指昆明话的语法中的特例。不同于普通话和其他许多中国方言,昆明话中有助动词存在。

生动性,昆明话的语气生硬,但昆明人说起话来是极其生动的,颇能使人拍案叫绝。举几例如下: 昆明人的语气次堪称一绝,李白《蜀道难》开篇有云:噫吁唏,蜀道难难于上青天!笔者的中学老师在翻译课文时说,“噫吁唏”译作昆明话是最有气魄,最能反映蜀道之难的。昆明话的感叹词为 “买买三三”,大声地喊出来,的确很难有其他方言的感叹词能比拟了。

昆明人有形容胖子的一个词:红白滥胀。红,应是指胖人的脸色,白,似乎胖子给人的印象多是白白胖胖的,滥胀,当然是指胖子的身躯雄伟,给人江水泛滥要涌出来的感觉了。这个词难免刻薄,恐怕没哪个胖人甘愿这个词加到自己头上,但不可否认的是这个词的确很形象,很生动。

幽默性,乱说――嚼牙巴骨;幽默过头了――勺半盘儿……昆明人的市井生活丰富多彩,反映到语言中就流露出昆明人特有的幽默。

特别的,昆明话四个声调也有不同,在普通话中,第三声,如,你,我等,在昆明话中都读第四声,并且有一点偏向第一声。但是单独凭借文字描述并不能让人完全理解昆明四字熟语的语音特征,也不能感受到昆明人在语言中的幽默淳朴而有力的特点,所以,昆明四字熟语方言的语音数据库建立是必要的,这利于对昆明四字熟语方言的语法结构以及声、韵、调的综合系统研究。

三.昆明四字熟语语音数据库设计

1.设计理念

该语音数据库针对昆明四字熟语,目的在于通过对昆明四字熟语方言的采集,尽可能多的收录四字方言的笔语语料和口语语料。以此来反应昆明四字熟语的运用广发程度,调值,声高,以及男女发音情况。并且,对口语语料库中的语音,声调,停顿,修正等口语特征做标注。

2.语音语料库建库工具

建库阶段:建库阶段的主要任务是包括文本收集,文本整理和清洁,文本标注等,其中可能还需要对语音进行转写,对纸质材料进行录入和扫描等,本文中笔者着重说建立小型语音语料数据库,因此,准备如下:

(1) Sitman PC 复读机,其作用是在计算机上反复播放录音并与此同时进行听写练习的软件,由于该软件播放语音功能键只占据主界面的一小部分空间,而把大部分流出供使用者听写,因而可用于语音文件的转写,从而实现语音的反复播放和转写;

(2) 文本整理器――方便文本整理和清洁的软件;

(3) PowerGREP,可以大批量的整理、清洁、查询和语言特征提取工具;

(4) 手工标注软件AnnoToll,可以自定义标注集,然后再Microsoft Word 中方便的进行手工标注;

(5) 英语自动词性赋码软件CLAWS4;

多语言自动赋码软件TreeTagger for Windows (Multilingual Version)

数据提取阶段:在数据提取阶段,最基本的工具是索引工具、词表生成工具盒主题词分析工具。这三种工具需要集成为一体,于是准备如下:

(1) Windows Tools 由英国利物浦大学Mike Scott 设计的语料库分析工具;

(2) AntConc,日本早稻田大学Lanurence Anthony 设计的预料可分析工具;

(3) ParaConc ,平行语料库检索以及分析工具;

(4) Patcount,多文本语言特征数据提取工具;

(5) BFSU Collocator,搭配分析专用工具;

(6) BFSU Colligator,关联接分析专用工具;

(7) PowerGREP,可用于语料库查询和语言特征提取的文本分析工具。

统计和数据分析阶段:在该阶段,所用到的数据分析方法和其他分析方法其实基本相同,其中最常用的是两组或多组数据进行差异检验,准备如下:

(1) SPSS(Statistical Package for Social Science),多功能统计工具;

(2) Chi-square Calculator,卡方检验专用工具,可在Excel 中运行;

(3) Log-Likelihood Calculator,对数似然率计算专用工具,可在Excel 中运行。

建立昆明四字熟语方言语音语料库的优势就在于可以快速地从大批量文本中准确提取出多种数据,这样,运用语料库分析手段就可以十分有效地把语料库中的有关数据呈现出来,使隐藏文本中的语言信息得以浮现。但是,之后便要发现数据中的规律,对于同样的数据,不同的人也有不同的解答能力,所以要把定量研究和定性研究结合起来。

3.语音语料库建库阶段

四.昆明四字熟语语音语料库建库步骤

(1)语料类型的整理和文件分类,即语料代表性和平衡问题。比例只是大概而定,语料库建成后在进行详细的统计。如昆明四字熟语在昆明熟语中所占的比列。本文着重于运用coolEdit 2000,对声音进行录入,然后将声波分析后的图像录入数据库中。通过语音和数字的结合,将必要的计算机程序,如C语言,目标代码,机器编码编译,连接,同声音处理工具联合。

(2)获取语料,本文语料来源于,日常生活中的搜集,《昆明话词典》,网络搜集。然后对文本大小进行界定,本文的界定范围是,昆明四字熟语方言,而非三字或两字。

(3)整理文本,将各种文本如,pdf或者caj格式文件转换成单纯文本格式,如有CD-ROM则进行拷贝拷贝。

(4)文本库的基本格式和编码,主要指换行和段落格式,某些从网页考本的文件会有插入行的换行符和空行,需要删除整理,一些会夹杂英语字符,或者多语言混杂,因为本文录入形式是汉语,所以,采用UTF-8编码保存文本,采用一个字母占一个字节,汉字占有两个字节则可。

(5)运用计算机对数字语音信号进行处理,从计算机语音信号的幅度值和均方根(RMS)幅度值开始分析,然后配合使用滑动均值以及数字过滤器,以此来解释滤波器的截止频率和滑动窗口之间的关系,在此基础上使用无限脉冲响应过滤器(IIP)给出程序的实现,同时可以用表格的形式给出不同截止频率的数字滤波器的系数设置,运用不同参数的滤波器进行语音信号的合成,主要用来实现Klatt共振峰合成器。

(6)进行声谱分析,对录入语音进行语音信号分析和语音参数的提取,首先是快速傅立叶转换基础上的声谱分析及程序实现,需要运用代码进行分析,然后利用Excel提供的图标功能产生的声音信号指定样本处理声音图谱,然后按照图谱中不用的峰值类型,之处声谱图不能很直观的用于基频提取,所以本文使用倒谱分析法。接下来则运用倒谱分析原理并且给出程序实现,基于倒谱分析的基频提取原理及其代码实现。

结论:

本文设想建立昆明四字熟语语音语料库是为了满足分析昆明方言话语特点的需要,话语是所有说出来的或者写出来的总和,然而,对于语料库和语音分析来说,它是检索语言的文本工具。语言运用中包含了三个环节,语言生成,即说话人的意图,文本,即说话的意义,以及语言理解,即听话人的理解。当我们致力于研究文本或说话的意义的时候,不关心作者的意图,也不关心任何可能的理解,这时,文本本身就是一种解释。况且,语言生成过程,说话人的意图,以及解读者是如何进行解读,都是不可知因素,然而语料库对语言特征的标注和提取作用是非常明显的,它可以增加分析的维度,提取各种相关特征所出现的频数、语境等相关信息。

参考文献

中文专著

[1]梁茂成.语体文体运用词汇[M].北京:北京大学出版社,2001.5

[2]陈鹤琴.陈鹤琴全集[M].上海:商务印书馆.2004.2

[3]杨惠中.中国学习者英语语料库[M].上海:上海外语教育出版社2003.5

中文学术论文

[1]孙海燕.语料库词语搭配研究[J].延边党校学报,2010.6:98-99

[2]李文忠.语料库研究的视野[J].赤峰学院学.汉文哲学社会科学版,2010.31- 6:207-208

[3]何平安.中国大学生英语口语研究[J].外语研究,2010.6:54-55

[4]文秋芳.外语教学与研究[J].和田师范专科学校学报,2006.26卷 3:146-147

[5]杨达富.基于CLEC语料库的中国学习者英语研究[J].辽宁行政学院学报,2007,12.111-112

外文文献

[1]John Coleman,Introducing Speech and Language Processing[M].北京:北京大学出版社.1999.

[2]M.S Gazzaniga,using Corpora in Discourse Analysis[M].北京:北京大学出版社.2000(2nd ed.)

[3]Nicholaos Asher,Building Natural Language Generation System[M].上海:上海外语教育出版社.1996

[4]Manny Rayner,The spoken Language Translator[M].北京:北京大学.1999

[5]Kelly,J,and K,Local,Long domain resonance patterns in English[M].北京:北京大学出版社.2000.2011

上一篇:浅析语文阅读教学中的整体感知 下一篇:浅议新课改下优化数学课堂的策略