汉语语音数据采集研究

时间:2022-05-25 08:44:45

汉语语音数据采集研究

摘要:本文以老挝留学生为例,阐述了采集其汉语语音数据的基本原则和基本过程,同时提出了一种使用微格VQF音频技术(Transform-domainWeightedINterleaveVectorQuantization)和缺陷跟踪机制(DefectTrackingMechanism)来采集数据的方法,避免了传统语音数据采集过程中的弊端,使采集到的语音数据准确、规范,从而提高老挝学生汉语语音习得的效率,为建立东南亚留学生汉语语音库奠定了坚实的数据基础。

关键词:矢量化编码;缺陷跟踪;语音;数据采集

中图分类号:O157.4文献标识码:A文章编号:1006-4311(2016)02-0149-03

0引言

发音在留学生汉语学习及交流中起着举足轻重的作用,如何对汉语学习者的发音做出科学、有效的评价一直是语音评价研究的热点,而数字化的语音则是评价的主体和前提基础。近年来,国内对汉语语音识别、语音评价系统做了大量研究,主要成果如下:袁毅、吴晨[1]提出了柔性可扩展体系结构非特定人语音识别系统的框架模型,验证了在该模型指导下所开发出的语音识别系统的实用性和稳定性;施伟[2]提出了对外汉语教学中的发音自动评价系统,通过分析输入语音数据,提取语音特征并与参考标准进行匹配比较,由评分机制根据相似程度大小给出相应的评价;施剑等人[3]提出了一种基于USB2.0接口芯片ISP1581,并采用FPGA芯片EP1C3T144实现麦克风阵列语音数据采集的方法。就以上研究而言,大部分停留在理论和实验甚至停滞阶段,对语音数据的采集原则、方法都未做深入研究,目前还没有一套针对留学生的、稳定性、扩展性较好的汉语数据采集范程及对应的汉语语音数据采集系统。另外一方面,在老挝,学习汉语者越来越多,汉语教学在老挝形成不断发展的态势[4]。本文作者提出的基于老挝留学生发音的汉语语音评价体系[5]是一个全方位衡量和评价老挝留学生汉语语音习得程度和质量高低并且反馈发音指导建议的智能化系统,可用来提高老挝留学生汉语发音正确率,使其能更好地掌握汉语发音方式、方法。虽然该体系提供了评价老挝留学生汉语语音的操作机制和基本方法,但未对语音数据采集做进一步研究,制约了语音评价系统的开发进程和老挝留学生的汉语语音学习和交流,本文就针对其汉语语音数据采集原则、过程、基本方法做了探索。

1数据采集的基本原则

对于老挝留学生来说,汉语语音数据采集起来较为困难,它不同于其它领域中的数据采集。首先,老挝留学生汉语发音偏误类型繁多,偏误产生过程中带有较多的母语“负迁移”现象,难以数字化;其次,老挝留学生汉语发音动作,语声特性以及听感都各具特点。基于以上原因,本文认为老挝留学生的汉语语音数据采集应当遵循以下原则:

1.1科学性原则

科学性原则要求在采集与汉语语音指标相关的数据时,要有科学的理论作指导,使语音数据采集过程能够在逻辑结构上严谨、合理,紧抓汉语发音衡量指标的实质,并具有针对性的量化语音指标,尽可能排除主观评价的误差;另外,科学性原则还要求协调好语音数据采集中各个过程之间的关系:有的过程之间有横向联系,反映不同侧面的相互制约关系;有的过程之间有纵向联系,反映不同层次之间的包含关系。

1.2数据性原则

老挝留学生发音的汉语语音评价体系[5]是利用现代信息技术建立的,系统中对汉语语音的描述更多的是采用了机器化的数据表格,语言和程序。数据性原则是指采集到的汉语语音信息以一定的数据类型、数据格式、存储方式存在于评价系统中。在这里值得注意的是,即使是像对老挝留学生语调方面的主观评价也应该通过[5]中的偏误标记形成数据,以便利用计算机进行相关处理。

1.3实用性原则

实用性原则是指语音数据采集方法、过程应具可行性、可操作性和稳定性。即采集方法要客观明确,采集过程尽可能细化,语音数据易于采集且准确可靠,整体操作有规程约束。

1.4可比性原则

可比性原则是指采集到的语音数据值要保持有效可比,通过将其与参照值(或标准值)对比,清查“可疑数据”,再根据不同的情况,综合评价采集到的语音数据。从语言学角度,可比性原则既指老挝留学生与其他国家留学生在习得汉语语音的层面上可比,也指老挝留学生在老挝留学生之间习得汉语的层面上可比。

2VQF技术与缺陷跟踪机制

2.1VQF技术简介

VQF指的是TwinVQ(Transform-domainWeightedINterleaveVectorQuantization),VQF是一种音频压缩技术。VQF所采用的是一种称为“矢量化编码(vectorquantization)”的压缩技术,其使用范围从电话、AM短波乃至音频CD;从单声道信号到立体声信号,它都能提供了很好的编码/压缩支持,它是数字化微格实验的音频支持技术,可大量运用于不同类型、规格的微格实验室。本文选用VQF技术的原因在于,其一,该技术直接集成于学校数字化微格实验室内,便于老挝学生实时的使用其录音,回放功能;其二,VQF具有很强的纠错能力,学校微格平台特别提供了一个纠错环境来处理数据错误及帧丢失的情况,该技术先将音频数据矢量化,然后对音频波形中相类似的波形部分统一与平滑化,并强化突出听感的部分,最后对处理后的矢量数据标量化再进行压缩而成,也即它能很大程度的保证音质,这也是保证本研究的顺利进行的必要条件之一;其三,汉语语音数据采集的有效性取决于音频压缩技术的成熟度,而VQF就能做到,如:当VQF以44kHz、80kbit/s的音频采样率压缩汉语单音节词时,它的音质优于44kHz、128kbit/s的MP3格式语音文件,当VQF以44kHz、96kbit/s的频率压缩时,它的音质几乎等于44kHz、256kbit/s的MP3格式的语音文件。经SoundVQ压缩后的语音音频文件在进行回放效果试听时,和原音频文件几乎一样。

2.2缺陷跟踪机制

缺陷跟踪主要是完成对缺陷报告的记录、分析和状态更新等管理。一个完善的缺陷跟踪机制对于测试的成功实施是非常重要的。汉语语音数据采集是一个错综复杂、数据吞吐量大、环环相扣的软件过程,除了要对采集数据本身的质量进行控制外,同时也可以对检查、评估、保存和理解数据进行控制,以保证采集过程迭代的顺利进行,这种缺陷跟踪可通过最简单的EXCEL表格和Access数据库来完成(项目研究中使用Excel2007版本)。在老挝留学生汉语语音数据采集过程中引入缺陷跟踪机制,有利于确保采集过程和系统设计的一致性;有利于在早期发现问题所在,降低维护成本,降低重复劳动;有利于反馈每一个采集环节的异常情况,及时做出相应调整。

3数据采集的过程

汉语语音数据采集的主要任务是量化各类发音指标,为采集和保存语音数据而制定的规程需要并入语音评价的整个过程,且使其具有操作性。这就意味着把参与采集的老挝留学生(或者实验员),采集方法以及实践定位到语音采集过程中的适当位置,为随后的分析和比对工作采集和保存语音数据。以下是数据采集的基本过程:

3.1规范化语音数据、记录表格以及存储数据的方式

长期以来,没有形成一套规范的语音数据集,没有规范的记录表格。在对汉语语音采集研究中,每个科研团队采集到的语音数据在格式,取值范围、存储方式上不尽相同,例如,有项目组将语音数据定义为小数,有的定义为整数、指数等等;有的项目组使用数据库技术存储语音数据,而有的则使用纸质版的语图来存储语音数据。这样一来,采集到的数据不但在数值上不准确,不具可比性、操作性,在存储方式上也不一致,更不用说用规范的表格来记录了。鉴于基于老挝留学生发音的汉语语音评价系统是一种信息化的工具,明智的做法是:在采集语音数据之前,针对于每一个语音值,由微格实验室中的计算机专员规定统一的数据类型、数据格式、有效值范围以及规范的记录表格,并规定使用统一的数据库来存储采集到的数据,最后将这些规定形成文字说明。这样做的好处是:便于使用计算机操作和处理语音数据、避免大量重复劳动、提高采集及评价的效率。

3.2采集数据

一旦前期准备工作完成后,我们就可以开始采集数据了。采集语音数据的关键在于能对每一个将被量化的语音指标提出问题、并加以解决。例如:影响汉语语音数据的因素是什么?采集过程中哪里容易出错?最终想要得到怎样的数据?等等。通常情况下,留学生汉语语音数据采集的方式都比较单一,经常忽略因母语造成的语音偏误,也没有从老挝学生汉语发音的特征出发,没有实现老挝人之间讲汉语的对比和对照。本文就现行汉语语音数据采集中存在的弊端提出了一种用陷跟踪机制来采集数据的方法,其原理如图1所示。在图1中,方框之间的连线表示语音数据采集的流程,这些方框指明了在采集过程中必须完成的任务:3.2.1认可过程认可过程用以进一步确认待测试的语音指标能否准确的描述老挝留学生在元音发音、辅音发音、声调、语调方面的表现。3.2.2分类量化过程分类量化过程是将已认可的测试指标分类量化为语音数据的过程,包括:①元音发音指标量化为把“ü”发成“u”,把“iong”发成“ong”,把“ue”发成“ie”几种元音偏误产生后对应的元音习得等级[5];②辅音发音指标量化为把部分“ch、c、L”发成“x、s、sh”,发音部分把“r”发成“l”,发音部分把“f”发成“p”几种辅音偏误产生后对应的辅音习得等级;③声调指标量化为中平调33或44,发阳平调值约为224,发上声发成半上[21]等声调偏误产生后对应的声调习得等级[6];④语调指标量化为双音节词语格式配合、不能分辨轻声词、不能通过句末的升调来表示疑问等语调偏误产生后对应的语调习得等级[4]。3.2.3检查和评估过程检查过程用以检查和评估语音数据(已量化的语音指标)的准确性、一致性和有效性,它是判定语音数据是否准确和规范的重要途径。准确性检查要求语音数据必须是按照规定说明采集的、完整的、在数学上是正确的;一致性检查要求检查者必须充分了解以前记录的语音数据,通过对比,检查出异常或不一致的数据;有效性检查要求能够证明用于描述某个语音发音指标的值能真实的反映该指标的数字含义,确保采集到的语音数据对于汉语发音本身是有效、可靠的。3.2.4记录过程记录过程是把已检查的汉语语音数据记录在事先定义好的表格中,这些表格可以记录一个语音指标对应的一组数据,也可以记录多个语音指标对应的多组数据。语音数据采集中的这四个过程是相辅相成,相互制约的。认可过程是执行其它三个过程的前提条件;分类量化过程是语音数据采集的核心环节,直接决定着数据的准确性;检查过程是语音数据采集的必要环节,起到了承上启下的作用;记录过程则是对前三个过程的归纳和总结。随着汉语语音采集过程的深入,或当语音指标比较复杂时,我们就会发现要用精细的方法来采集数据。缺陷跟踪就是一种过程细化的机制,将它运用于语音数据采集的全过程,它可以让实验员者在发现数据有问题时追述缺陷,找到在采集过程中遗漏的东西,有效地保证了语音数据的准确性和规范性,提高了留学生习得汉语语音的效率。图1也即某个汉语语音从输入到处理,再到输出的缺陷跟踪过程,例如,如果某个语音在分类量化后元音指标未能通过检查过程,则该含有“缺陷”的语音数据将会被反馈至语音识别层[5],进行重新识别或者重新输入。

3.3存储采集到的语音数据

当采集工作结束后,我们需要对已采集到的语音数据进行保存。一般说来,个人计算机数据系统和Excel电子表格对数据保存和分析就足够了。然而,若干指标量化后形成的语音数据是非常庞大的,而且这些数据是多目的的,一个语音数据可能对应着对应一个或者多个测试结果;其次,数据之间的关系复杂、不容易理顺,因此需要建立一个或者多个数据库来存储它们供以后使用。为管理好存储语音数据信息的数据库还应该确认以下内容:①谁负责录入和维护数据;②谁可以访问数据;③数据存储在硬盘上什么位置;④基于建立好的数据库,基于基于老挝留学生发音特征的汉语语音评价系统要具有编辑和检索各类语音数据的机制。

4结束语

对于留学生来说,汉语语音学习活动是一项非常复杂的活动,因而在对其语音指标量化的科研教学评价过程中,采集到的数据往往过于粗糙,难以科学地表现老挝留学生汉语发音的本质特征。为了采集到准确、规范的语音数据,本文使用了微格中的VQF音频技术采集数据,设计了科学、有效的数据采集原则及过程,但使用本文提出的分类量化的采集方法还未完全实现,有待进一步研究。本研究前期预测效果显著,前期效益价值体现在:95%的老挝学生参与了语音数据采集环节,项目组成功输入语音数据共计15891条(按单个音节计算),其中有效数据13936条,占87.69%,建立了基于老挝留学生发音特征的的汉语语音数据库,为做语音识别、对比研究奠定了数据技术基础,预计有很高的使用价值,为老挝留学生学习汉语提供了一个新的平台。该研究受到了学校及社会老挝学生的关注和一致好评。

参考文献:

[1]袁毅,吴晨.柔性可扩展体系结构非特定人语音识别系统[J].计算机应用研究,2006(12):203-206.

[2]施伟,谢湘.一种基于语音识别的汉语发音评价系统[C].第七届中文信息处理国际会议[C].2007:032-036.

[3]施剑,何成林,杜利民.基于USB2.0的麦克风阵列语音数据采集系统设计[J].计算机工程,2006:216-218.

[4]邓瑶.老挝汉语初学者语音偏误分析及教学策略-基于昆明学院老挝学生普通话语音学习的调查[J].西南学刊第五辑,2013:267-274.

[5]陈展.基于老挝留学生发音特征的汉语语音评价体系研究[J].现代语文(语言研究)西南学刊,2015(3):81-82.

[6]付国强.老挝学生习得汉语的偏误[J].现代语文,2013(11):114-116.

作者:陈展 单位:昆明理工大学国际学院

上一篇:机电安装工程电气施工工序控制 下一篇:组态王远程数据采集驱动设计