字串结合紧密度的计算方法研究

时间:2022-07-18 06:31:52

字串结合紧密度的计算方法研究

摘要:通过计算字串结合紧密度可以评价一个字串内部的字之间相互关联的程度,进而判断该字串成词的概率。本文论述了几种常用的计算字串结合紧密度的方法,同时介绍了字串结合紧密度在自然语言处理领域的主要应用。

关键词:字串结合紧密度

中图分类号:TP391.1文献标识码:A文章编号:1007-9599 (2012) 02-0000-02

Calculation Method Study on String Combination of Tightness

Liu Yongchao1,Liu Yixuan2

(1.China Nuclear Power Engineering Co.,Ltd.,Beijing100840,China;2.IBM,Beijing100193,China)

Abstract:The calculation of string binding tightness can evaluate the degree of relevance between the word of a string of internal,and then determine the probability of the string into words.This article discusses several commonly used in the calculation of string combined with the tightness of the method,also introduced string combination of tightness in the field of natural language processing applications.

Keywords:String combination of tightness

一、引言

汉语中,词与词之间没有明确的分隔符分割,因此,在中文自然语言处理领域,判断一个字串是否成词是至关重要的一步。目前对于字串是否成词的研究有很多,大致可分为两类:基于规则和基于统计。后者在应用时不受语料等条件的限制,更加灵活。被切分出的词语单元,其内部的字之间的结合都是很紧密的,因此字串结合的紧密度成为评估字串是否成词的条件之一。本文讨论了几种常用的计算字串结合紧密度的统计量,包括:频次,互信息,t统计量,似然比等,以及字串结合紧密度在中文自然语言处理中的应用。

二、计算字串结合紧密度的统计量

(一)频次

如果一个字串在语料中出现的频次大于某个阈值,则认为该字串是一个词或者是一个词的子串。Nie等以及刘挺等的工作仅利用了这个相对简单的字串频次信息。对于阈值的确定,通常有两种方法,其一是绝对频次,即根据文献的长度,将阈值设为不同的频次;其二是设定相对频率,将阈值设为字串在语料中出现的频次与该语料中出现次数最多的字串的频次的比值。该方法的缺点是会产生大量不成词的字串,还需要利用其他方法过滤字串。

(二)互信息(MI)

互信息是度量两个随机变量之间的相关性的统计量,在自然语言处理领域被广泛使用。[1]中利用了互信息的概念估计字串结合的紧密程度,其值为汉字x和汉字y分布的联合概率与它们各自独立分布的概率乘积之比。 。由公式可看出,当MI(x,y)>>0时,表明x与y结合的紧密程度高,MI(x,y)越大,结合程度越强,当x,y共现的情况都是x,y相邻时,MI达到最大值;当MI(x,y) 0时,x与y的紧密程度不明确;当MI(x,y)

(三)t-测试

t-测试度量一个词语其它任意两个词相比较时,同其中哪一个结合的更紧密些。例如:对汉字串xyz,汉字y相对于x及z的t-测试定义为 。若 ,则y与z结合的更紧密;若 ,则y与x结合的更紧密;若 ,则无任何倾向。t-测试是附着于某个字,互信息是附着于字间位置,为了同时利用互信息和t-test,[5]进一步提出了t-测试差的概念,使得t-测试也附着于字间位置。比如:对汉字串vxyw,汉字x,y之间的t-测试差定义为 。若dts(x,y)越大,x,y相连的倾向越大,dts(x,y)值越小,x,y断开的倾向越大。dts(x,y)为0时,无任何倾向。

(四)似然比

包括互信息,t-测试, 检验在内的假设检验方法的前提都是汉字在语料中服从或者近似服从正态分布,对于数据稀疏的语料,很难满足这个条件,因此以上统计方法不适合于数据稀疏问题。[6]指出似然比的计算不基于正态分布的假设,更适用于数据稀疏问题,同时给出了似然比的计算公式,对于二字字串,似然比log L(x,y)的计算公式为

[5][6][7]中均使用了似然比的方法计算字串结合的紧密度,并且用实验证明了该方法的有效性。

(五)其它统计量

[7]针对专业领域的语料,提出了右边缘扩展法,该方法对字串进行关联范数估计(AE) ,(f(x),f(y),f(z)分别指汉字串x,y,z在语料中出现的频率。x由n个汉字构成,y为x中的前n-1个汉字,z指x中的后n-1个汉字。),如果AE值很大,说明字串结合的紧密度很高,则该字串可能是一个词或一个词的一部分。但AE适用于识别三个字及三个字以上的词汇,不适用于两字的词汇。

以上统计量的计算,仅仅利用了语料本身的统计信息。[7]利用词典,提出了成词率和位置成词率的概念,计算一个字串结合的紧密度,判断字串是否成词。

(六)小结

通过以上的分析,可以看出,每个统计量都有自身的不足,所以这些统计量往往是以两个或多个相结合的方式使用,以相互弥补缺点。譬如,黄菁菁提出的基于机器学习的无需人工编制词典的切词系统[8]中,利用 检验和似然比结合的方法计算字串结合的紧密度。Pantel计算字串结合紧密度时,同时使用了互信息和似然比的方法,实验表明使用似然比可以弥补互信息在稀疏数据上预测字串结合紧密度的缺点。

在统计量结合使用时,有多种结合方式。[5]组合互信息(MI)和t-测试差(dts)时,按照MI和dts的均值,均值 均方差各划分为4个区域,共组合成16个区域,然后针对这些区域分别处理,区域内的处理不予区分,导致了处理上的非连续性。[1]中,对于这两个统计量,采取了线性叠加的方式组合。[2]提出了九种统计量计算字串结合的紧密度,在对这九种统计量进行组合时也使用了线性组合的方式,采用了遗传算法自动调整组合权重。

三、字串结合紧密度在中文自然语言处理领域的应用

字串结合紧密度是自动抽取词语时广泛采用的方法。前人对自动抽词的研究大多仅基于字串结合紧密度如文献[5][6]中,都使用了不同计算字串结合紧密度的统计量及其组合方式。仅仅使用字串结合紧密度作为评估是否成词的依据,会把某个词的子串误认为词。因此,近些年来,在自动抽词研究方面,更多地考虑了字串的上下文信息。譬如文献[6][7]中,除了使用以上提到的统计量计算字串结合紧密度过滤字串外,还使用了上下文熵来过滤词汇,实验表明,两种方法结合使用可以提高自动抽词的准确率。因为,这两种统计量恰恰体现了,做为一个词语所具备的两个特性,即内部的紧密性以及词语的灵活性。

自动抽词的方法大致可分为统计方法和规则方法两种,字串结合紧密度本身是种统计方法,其可以与规则方法相结合使用,[3]中,首先利用字串结合紧密度过滤掉一些候选串后,在使用规则的方法进一步抽取词语,由于预先过滤的一步,使得在应用规则时更加准确,更加高效。

另外,在进行字串结合紧密度计算时,可以不使用词典,以字作为计算统计量时的变量,还可以利用词典,对语料先分词,以词或n-gram作为计算统计量时的变量。[4][7]采用的就是一种迭代的方式,将每次发现的新词扩充到词典中,再重新分词,如此反复,直至达到停止条件。

与利用字串结合紧密度进行自动抽词类似的思想可以用到中文分词中。文献[2]等中都提到了相关的工作。

四、总结和展望

字串结合紧密度是一种统计方法,可以解决自动抽词,中文分词等很多自然语言处理领域的问题。存在多种计算字串结合紧密度的统计量,每种统计量都有各自的优点和缺点。目前为止,关于两个字的字串结合紧密度的研究相对较多,而关于多字的字串结合紧密度其实验的效果不是很理想,还有很大的研究空间。

参考文献:

[1]周正宇,李宗葛.一种新的基于统计的词典扩展方法[J].中文信息学报,2001,5

[2]黄菁菁.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303

[3]秦浩伟,步丰林.一个中文新词识别特征的研究[J].计算机工程,2004,30(增刊):369-370:414

[4]罗智勇,宋柔.基于多特征的自适应新词识别[J].北京工业大学学报,第33卷,7

[5]韩客松,王永成,陈桂林.无词典高频字串快速提取和统计算法研究[J].中文信息学报,第15卷,2

[6]孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004.

[7]椹贻荣.内部紧密度和边缘自由度相结合的符号串单元度计算

上一篇:刍议计算机网络安全之防火墙 下一篇:基于混合核函数的SVM在文本自动分类的应用