基于语言模型的藏文文本分类研究

时间：2022-08-12 11:17:20

基于语言模型的藏文文本分类研究

摘要：文本分类技术在语音识别系统中起着重要的作用，本文根据藏语的特点，采用统计语言模型实现藏语的文本分类，在基于HTK工具的藏语连续语音识别系统中采用trigram统计语言模型，然后应用各种平滑算法进行约束，得出困惑度最小的平滑算法。

关键词：语言模型藏语平滑算法

中图分类号：TP391 文献标识码：A 文章编号：1003-9082 （2013） 11-0017-01

一、引言

藏语语音、语言研究整体上较落后，藏语的连续语音识别研究刚刚起步，与国内外先进水平有着较大差距，藏语语言模型的研究几乎是个空白。藏语语言模型研究有其特殊之处，比如目前没有成熟的分词技术，加之藏语型态变化丰富，应该选择音节还是词作为建模单元，其在连续语音识别中的实际效果等问题需要进一步的研究

基于统计的语言模型（Statistical Language Modeling，SLM）是从统计学的角度，来计算某一种语言的各语言单位（如词、字、音素等）的分布概率。如果要建立一个语言模型，第一步就是建立语料库，并且这个语料库要足够的规模；第二步就是统计语料库中的数据，这些数据就是训练语料 [2]。

语言模型中N的选取是有一定规律的，N越大语言模型的区分度就越高，识别结果就越精确，但是就整个系统来讲，N越大系统需要计算的参数数量就越大，对硬件的要求就越高。下表就列出了N元模型和参数数量的对照表。

表1 参数数量随阶数的增长而产生的变化情况

1、添加平滑技术

添加平滑技术（Additive Smoothing），是平滑技术中最基础、最简单的算法。假设每一个N-gram出现的次数比它实际出现的次数多？次，如下式所示

预料中出现的次数。假设取？=1，就是加1平滑。

3.2 Good-Turing平滑算法

Good-Turing平滑算法，我们定义nr为出现次数为r的时间，那么基于Good-Turing的折扣方案是

R是训练数据的词条数。

3.5 Witten-Bell平滑算法

Witten-Bell平滑算法，是线性折扣平滑算法的中的一种，它是指事件出现的次数只和特定的上文后面的事件有关，例如：对于两阶语言模型A B，t是以“A*”形式出现的两阶语言模型的数目。

统计模型用的是30万句新闻语料，包含5700个音节的词典，该语料库以规范的新闻语句为基础。下表为tri-gram语言模型经过平滑算法后的困惑度。

表1 藏语语料的各种平滑算法困惑度的比较

结论

数据平滑技术是统计语言模型的关键技术。数据平滑技术既可以改进语言模型的性能，又可以提高语音识别，文字识别等相关领域的系统识别率。本文介绍的几种平滑技术，从实验结果来看，还是取得了比较理想的平滑结果，在新闻语料库中，Witten-Bell的困惑度最小。将来准备进行的工作：如何把几个平滑算法进行改进，让困惑度更小，这是一个值得研究的问题。

作者简介：李照耀（1986-），男，山东菏泽人，在读研究生，研究方向语音识别；李艾林（1989—），男，四川内江人，在读研究生，研究方向为中文信息处理。]

基于语言模型的藏文文本分类研究

文档上传者

热门推荐更多>

精品范文更多>

基于语言模型的藏文文本分类研究

文档上传者

热门推荐 更多>

精品范文更多>

热门推荐更多>