基于语言模型的藏文文本分类研究

时间:2022-08-12 11:17:20

基于语言模型的藏文文本分类研究

摘 要:文本分类技术在语音识别系统中起着重要的作用,本文根据藏语的特点,采用统计语言模型实现藏语的文本分类,在基于HTK工具的藏语连续语音识别系统中采用trigram统计语言模型,然后应用各种平滑算法进行约束,得出困惑度最小的平滑算法。

关键词:语言模型 藏语 平滑算法

中图分类号:TP391 文献标识码:A 文章编号:1003-9082 (2013) 11-0017-01

一、引言

藏语语音、语言研究整体上较落后,藏语的连续语音识别研究刚刚起步,与国内外先进水平有着较大差距,藏语语言模型的研究几乎是个空白。藏语语言模型研究有其特殊之处,比如目前没有成熟的分词技术,加之藏语型态变化丰富,应该选择音节还是词作为建模单元,其在连续语音识别中的实际效果等问题需要进一步的研究

基于统计的语言模型(Statistical Language Modeling,SLM)是从统计学的角度,来计算某一种语言的各语言单位(如词、字、音素等)的分布概率。如果要建立一个语言模型,第一步就是建立语料库,并且这个语料库要足够的规模;第二步就是统计语料库中的数据,这些数据就是训练语料 [2]。

语言模型中N的选取是有一定规律的,N越大语言模型的区分度就越高,识别结果就越精确,但是就整个系统来讲,N越大系统需要计算的参数数量就越大,对硬件的要求就越高。下表就列出了N元模型和参数数量的对照表。

表1 参数数量随阶数的增长而产生的变化情况

1、添加平滑技术

添加平滑技术(Additive Smoothing),是平滑技术中最基础、最简单的算法。假设每一个N-gram出现的次数比它实际出现的次数多?次,如下式所示

预料中出现的次数。假设取?=1,就是加1平滑。

3.2 Good-Turing平滑算法

Good-Turing平滑算法,我们定义nr为出现次数为r的时间,那么基于Good-Turing的折扣方案是

R是训练数据的词条数。

3.5 Witten-Bell平滑算法

Witten-Bell平滑算法,是线性折扣平滑算法的中的一种,它是指事件出现的次数只和特定的上文后面的事件有关,例如:对于两阶语言模型A B,t是以“A*”形式出现的两阶语言模型的数目。

统计模型用的是30万句新闻语料,包含5700个音节的词典,该语料库以规范的新闻语句为基础。下表为tri-gram语言模型经过平滑算法后的困惑度。

表1 藏语语料的各种平滑算法困惑度的比较

结论

数据平滑技术是统计语言模型的关键技术。数据平滑技术既可以改进语言模型的性能,又可以提高语音识别,文字识别等相关领域的系统识别率。本文介绍的几种平滑技术,从实验结果来看,还是取得了比较理想的平滑结果,在新闻语料库中,Witten-Bell的困惑度最小。将来准备进行的工作:如何把几个平滑算法进行改进,让困惑度更小,这是一个值得研究的问题。

作者简介:李照耀(1986-),男,山东菏泽人,在读研究生,研究方向语音识别;李艾林(1989—),男,四川内江人,在读研究生,研究方向为中文信息处理。]

上一篇:监测水中桥梁裂缝的水中机器人 下一篇:图书馆精神与构建和谐团队