基于语音信号时变特性的说话人辨认

时间:2022-10-08 04:57:23

基于语音信号时变特性的说话人辨认

摘要: 在平均Mel倒谱基础上提取随时间变化的特征频率,由此得到了由各个语音信号特征频率倒谱值序列构成的时间序列。运用时间序列预处理和数理统计的方法,分离时间序列的趋势量和波动量。波动量是零均值自协方差非平稳的时间序列,利用满阶时变参数自回归TVPAR(Time-Varying Parameter Autoregressive)模型对波动量序列进行分析,进一步提取说话人语音信号的特征参数。在波动量序列和用满阶TVPAR模型分析的基础上分别进行说话人识别。实验表明,用满阶TVPAR模型进行识别,识别率比波动量序列上的识别率有较大提高,一个特征频率上平均识别率达到99.68%,取两个特征频率时达到100%。

关键词: 特征频率 非平稳性 TVPAR模型 马氏距离 说话人识别

中图分类号: 文献标识码:A文章编号:1007-9416(2010)01-0000-00

Speaker Identification on the base of

time-varying characteristics of speech signal

XU Liangjun,FEI Wanchun,ZHANG Weijie,LU Xingxing

(College of Textile and Clothing Engineering, Soochow University, Suzhou, 215006, China)

Abstract: Time-varying characteristic frequency was extracted from the average Mel cepstrum, and the cepstrum value series of characteristic frequency were gained. The deterministic and stochastic parts of the time series were separated by use of time series pretreatment and statistical methods. As zero mean autocovariance nonstationary time series, the stochastic parts were analyzed by the full order TVPAR(Time-Varying Parameter Autoregressive)model, and the characteristic parameters were extracted from speech signals of the speaker. Then the speech signals were recognized on the stochastic parts of the time series and analysis with the full order TVPAR model. The experimental results manifest that the recognition rate obtained by full order TVPAR model are higher than only on stochastic parts of the time series, with one or two characteristic frequencies, the average recognition rate reaches 99.68% and 100% respectively.

Key words: characteristic frequency; nonstationarity; TVPAR model; Mahalanobis distance; speaker recognition

引言

说话人识别的主要目的是从待识语音中寻找说话人信息并根据要求给以判定或分类。说话人确认和说话人辨认是说话人识别中的两大任务。判定待识语音是否是指定个体的语音称为说话人确认,判断出待识语音是语音模板中哪个说话人的语音称为说话人辨认。说话人识别的关键问题是,用语音信号的哪些特征描述说话人语音是最有效可靠的。近年来有许多这方面的研究,目前最常用的特征参数有基音周期、共振峰频率、谱相关特征、LPCC(线性预测倒谱系数)和MFCC(Mel频率倒谱系数)等等[1],其中MFCC是一种比较常用且性能较好的特征参数。这是由于MFCC反映了人耳对频率高低的非线性感觉,和传统的线性预测倒谱系数LPCC相比,其识别性能和抗噪性能有着明显的优势[2]。而谱相关特征分析中,短时倒谱里同频率谱线随时间的相关性特征按说话人不同区别较大,已经得到把同一频率Mel倒谱值序列作为时间序列进行分析,取3个特征频率,平均识别率为97.94%[3]。本文在Mel短时倒谱的基础上进行谱相关性分析,分析语音信号时变的特性,获得了识别效果更好的特征参数。

茧丝纤度序列中蕴含着有趣的统计数理问题[4-5],在研究茧丝纤度序列时,得出了分析非平稳时间序列的时变参数自回归模型(TVPAR模型)理论[6-7]。本文把语音信号序列看作非平稳的时间序列,分析其时变特性,在Mel短时倒谱序列上寻找到特征频率倒谱值序列,并结合统计学方法建立不同时间特征频率倒谱值与Mel倒谱平均值之间的线性回归方程,提取特征频率倒谱值序列的趋势量和波动量。根据波动量的大小进行说话人辨认,再对波动量用TVPAR模型进行分析,进行说话人识别,并进行对比分析。

1 自协方差非平稳时间序列

某随机过程经过若干次采样得到时间序列 , , ,其中 为取样序列数,在统计意义上充分大, 的大小与实际的时间序列值的偏差有关, 为一正整数。在时间点 的平均值可由下式得到:

,

其自协方差可以由下式得到:

,

其中 。如果 ,则通常有

,

这种序列被定义为自协方差非平稳时间序列[7]。如果 ,则这种序列为零均值自协方差非平稳时间序列。

2 语音信号的时变特性

语音信号是非平稳时间序列,它的重要特性是具有时变性,但是在10~30ms时间范围内可近似看作平稳的,可以将语音信号分帧来处理。本文研究的是与文本有关的说话人识别,样本语音是/wei/(喂)。语音信号采样时,选用采样频率为11025Hz。分帧处理时,选帧长为23.2ms,帧移为5.8ms。

经过采样和量化得到时域上的语音信号。在对语音信号分析和处理之前,需要对其进行预处理。语音信号的预处理一般包括预加重、分帧、加窗以及端点检测等。预加重的作用在于滤除低频干扰,便于频谱分析。在进行分帧处理时,窗函数选用汉宁窗,经过端点检测去除静音段,得到语音段信号。为了便于后面的谱相关特征分析,通过调整帧移,对同一说话人同一文本内容的若干个语音的分帧数进行归一化处理,使其统一成该说话人文本语音的平均分帧数。

对语音段信号每一帧进行倒谱分析之后,可以将倒谱的实际频率变换到Mel频率,得到Mel频率短时倒谱。说话人每个语音都有Mel短时倒谱,其中,, 表示该说话人语音在频率 上第 帧的倒谱值,对说话人若干个语音的Mel倒谱求平均,就得到平均的Mel短时倒谱。如图1所示为某说话人文本语音的平均Mel短时倒谱三维时序图。从图中可以看出语音信号同一个频率上的对数幅度随时间变化,Mel倒谱峰值对应频率也随时间变化,这些体现了语音信号典型的时变特性。

本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

3 特征参数的提取

3.1 特征频率的提取

为了建立时间序列,已有的方法是用各帧同一频率的Mel倒谱值建立时间序列[3]。本研究从语音信号的时变特性着手,考虑Mel倒谱峰值对应频率随时间变化,找出Mel倒谱峰值对应频率为特征频率。如图2为某说话人平均Mel倒谱上标出的,4个随时间变化的特征频率对应的倒谱峰值序列。把特征频率对应的Mel倒谱值序列看成非平稳时间序列。

可以看出这4个倒谱峰值序列中,特征频率是随时间变化的,如图3所示。我们把它也看成是语音信号在短时Mel倒谱上的一个时变特性。

3.2 特征频率对应Mel倒谱值序列的选择

说话人每个语音的特征频率都有对应的Mel倒谱值序列,把每个语音相同特征频率的倒谱值放在一起,组成Mel倒谱值序列[8]。图2对应的特征频率Mel倒谱值序列如图4所示。

图4 特征频率Mel倒谱值序列

我们认为特征频率随时间变化越大,则频率特征表述越好。本文把变化最大的频率作为特征频率。某说话人若干个相同语音的特征频率Mel倒谱值序列构成的时间序列如图5所示,设为 ( ),其中 代表第 个语音第 帧特征频率Mel倒谱值:

图5 某说话人特征频率Mel倒谱值序列

3.3 特征频率Mel倒谱值序列的回归分析

对于均值和自协方差皆非平稳的时间序列,其序列的均值与某时间的值之间,存在较好的相关性[4]。通过实验分析得知,第 语音信号的Mel倒谱序列的均值与该语音某时间点某特征频率的倒谱值 之间存在良好的相关性。设某特征频率Mel倒谱值序列 每一列的特征频率倒谱值用列向量 表示,说话人 个语音Mel倒谱序列的均值用列向量表示为 ,可以建立趋势量 与 之间的线性回归方程 。用矩阵形式表示为 ,其中 , , 。应用最小二乘法可以得到线性回归方程的参数 和 的估计值,则波动量序列为 。如图6所示为图5中序列经过分离得到趋势量和波动量。计算波动量序列中各列向量的标准差为 ,将 、 与 作为特征参数保存。

图6 分离后图5所示序列的趋势分量和波动分量

如图7所示为图6所示序列的自协方差 三维图,其中 ,一般地,如果 ,则。从图中可以看出特征频率Mel倒谱值序列的自协方差随帧号 的变化而变化,这是语音信号最重要的时变特性之一。

3.4 自协方差非平稳时间序列的模型分析

TVPAR模型首先是为了分析有限长度自协方差非平稳时间序列而提出的[7],它有满阶、定阶、变阶之分,区别就在于模型系数的阶次[6]。特征频率Mel倒谱值序列的波动量是一个零均值的自协方差非平稳的时间序列,可以使用TVPAR模型进行分析。本文选用满阶TVPAR模型对波动量序列进一步分析,以便更好地提取特征参数。

满阶TVPAR模型如式(1)所示:

(1)

其中自回归系数 和误差项 的方差 都随时间点变化,误差项 是均值为零、方差有限的白噪声。将波动量序列 代入满阶TVPAR模型,利用最小二乘法,使误差项方差 最小的估计值,得到的自回归系数 和误差项方差 ,保存为特征参数 和 。

4 基于语音信号时变特性的识别方法及算法

本文提取特征频率随时间变化的Mel倒谱值序列,用Mel倒谱序列均值作为线性回归方程的自变量,分离出波动量序列,并采用满阶TVPAR模型对波动量序列进行分析,在波动量序列和满阶TVPAR模型分析的基础上分别进行说话人识别。

4.1 识别指标

本文采用马氏距离作为识别指标[9]

(2)

用于对波动量序列进行识别。

(3)

用于对波动量序列在满阶TVPAR模型分析之后得到的误差项序列进行识别。

4.2 波动量基础上的说话人辨认

由于不同说话人的平均帧数不同,所以特征频率Mel倒谱值序列的时间不同。设第 个人的帧数为 , , ,则该说话人的特征频率为 。 为分离后波动量序列,它的标准差为 ,每个说话人都有线性回归系数 、 和标准差 。不妨设第n个人的回归系数为 、 ,标准差为 。待识别语音分别代入以上所有的语音模板参数最后得到波动量序列 ,把它与 代入马氏距离公式算得 ,距离最小的语音模板所对应的被判别为该语音的说话人。识别流程的基本结构如图8所示。

图8 波动量上说话人识别流程

4.3 满阶TVPAR模型基础上的说话人辨认

每个说话人都有自回归系数 和误差项方差 ,用矩阵形式分别表示为 、 。

不妨设第 个人的模型系数和误差项方差分别为 和 , ,将待识别语音的波动分量序列 代对应模板语音的模型系数,求得误差项序列 。同样以马氏距离 作为识别指标,距离最小的判为该语音模板对应的说话人。如图9所示为满阶TVPAR模型基础上的识别流程。

图9 满阶TVPAR模型上的说话人识别流程

5 识别结果与分析

本实验自建简单语音库,采用Windows中的录音机录制语音,共6人,5男1女,每人语音数大于等于80,语音统一为/wei/(喂)。录音时要求说话人语气平和,语速均匀。

本文采用的方法为,一次录制 个语音/wei/(喂),轮流取出1个语音作为待识别语音,剩余的( )个语音用于建立语音模板和提取特征参数。语音模板的样本容量至少是79。不同语音模板样本数在一个特征频率上的识别率如表1所示。增加特征频率有助于提高识别率进一步得到了验证,表2为相同语音模板下的两个特征频率的识别率。设在只对波动量序列进行的识别为方法①,用满阶TVPAR模型对波动量分析后进行的识别为方法②。

表1 不同样本容量的语音一个特征频率下的识别率 (%)

实验方法8085 9095 100 平均

方法① 81.97 87.2584.8184.74 85.6784.89

方法② 99.801199.12 99.5099.68

表2 不同样本容量的语音两个特征频率下的识别率 (%)

实验方法80 85 90 95100 平均

方法① 97.1399.2299.44 98.7799.5098.81

方法②11111 1

本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

实验结果表明基于语音信号时变特性在波动量上进行的识别,识别率较特征频率不随时间变化的识别率要高[3]。而用满阶TVPAR模型对波动量分析后的识别率又有较大提高。选用一个特征频率,在满阶TVPAR模型基础上的识别率已经接近100%,两个特征频率都达到100%。

我们也考察了说话人确认的拒识率问题。拒识率是指将同一说话人的语音认为是不同说话人的,而加以拒绝的出错率。由于同一语音到本人语音模型的距离一般小于到他人语音模型的距离,通过选择合适的阈值,可以得到比较正确的判断,但是,有极少数会出现拒识现象。本文语音模板采用6人,每人100语音,选择合适的阈值时,两个特征频率在满阶TVPAR模型基础上的拒识率为1.67%。通过增加特征频率,相信拒识率会进一步减小。所以应用时间序列分析的方法,利用满阶TVPAR模型对语音信号进行分析,为说话人的识别提供了新的思路,理论分析和实验结果表明,这种分析方法是可行的。

6 结语

本文基于语音信号的时变特性,在Mel倒谱上提取随时间变化的特征频率,把各特征频率对应的Mel倒谱值作为时间序列。用Mel倒谱的平均值作为回归方程的自变量,提取特征频率Mel倒谱值序列的趋势量和波动量,对波动量序列进行识别。把波动量序列当作一个零均值自协方差非平稳的时间序列,使用满阶TVPAR模型对波动量序列进一步分析,对得到的误差项再进行说话人识别。

用马氏距离作为识别指标进行识别,比较波动量序列和满阶TVPAR模型上的识别结果,两个特征频率上平均识别率分别为98.81%和100%。

如何在不影响识别效果的前提下,适当减少特征参数,缩短识别时间,有待于进一步研究。

参考文献

[1] 胡航. 语音信号处理[M].哈尔滨: 哈尔滨工业大学出版社,2000,178-180.

[2] SHAO Yang, LIU Bingzhe, LI Zongge. A speaker recognition system using MFCC features and weighted vector quantization [J]. Computer Engineering and Applications, 2002, 38(5): 127-128.

[3] 张伟杰,费万春.一种说话人识别的新方法[J].计算机应用,2009(3): 764-767.

[4] 费万春,白伦.茧丝纤度序列趋势分量的解析和仿真研究[J].丝绸,200461,(8):22-25.

[5] 费万春.描述茧丝纤度序列的理论模型[J].丝绸,2007(2):19-21.

[6] FEI Wanchun, BAI Lun. Auto-regressive models of non-stationary time series with finite length[J]. Tsinhua Science and Technology, 2005, 10(2): 162-168.

[7] FEI Wanchun, BAI Lun. Time-varying parameter autoregressive models for autocovariance nonstationary time series [J]. Science in China Series A: Mathematics, 2009, 39(1): 71-78.

[8] FEI Wanchun, BAI Lun. Similarity analysis on nonstationary time series [J]. 2009 Sixth International Conference on Fuzzy Systems and Knowledge Discovery, 2009,392:286-290.

[9] 梅长林, 周家良编著.实用统计方法[M].北京:科学出版社,2002,105-110.

本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

上一篇:如何保障电力线路的运行 下一篇:运用副枪技术和动态炼钢模型实现自动炼钢