浅谈基于WEB下的中文分词算法

时间:2022-04-20 09:58:44

浅谈基于WEB下的中文分词算法

摘 要:基于互联网信息平台下,对如何快速准确的进行中文分词进行研究。主要对基于WEB环境下的中文分词建立模型,快速中文分词,自动中文分词进行全面的阐述。

关键词:分词算法;最短匹配

1 分词算法的分词实现

1.1 基础想法

通过自定义或已有词典的自动查询,将字符中所以字符以词语的形式进行分割,形成若干个小的词语搜索项。然后再采用层和相邻法来获取到最后的切分词项结果。相邻法其实就是最短路径法,以最少的词在一定的长度内,运算匹配次数最少,也可以说是为指定路径长度的条件下,经过的词项顶点数很多。中文分词算法正是基于这样的思路。下面我将系统的介绍中文分词算法的原理方法。

1.2 基于模法

设字符串为总长度为S,字符串中单个字符为B。S=B1 B2 ……Bn。其中需要进行切分的字符串中B,B下面的数字(1,2, ….n)是单个的字符,n≥1。去处所有无意义单字如:的,吗,吧等等,对整个字符串建立字符索引项。所有字符项组成一个类的集合,根据字典字符相似度和最少路径法进行快速循环匹配。中文分词流程如下图:

2 快速中文分词

2.1 分词快速查找法

在分词快速查找法中分为字频相似字典快速查找和内存二进制簇节点查找。其中,分词相似快速查找是将录入字符串分解成词或短语。再根据词或短词的相似程度对比字典快速分类的方法。内存二进制簇方法是直接针对物理计算机内存的二进制码和簇的结构进行于或运算比对进行分类的方法。

2.2 相邻相匹配法

相邻相匹法又称最小路径法。设未知字符串为S=B1 B2 ……Bn。(n为字符个数),根据B1可以计算出相对的索引值L,以B1词为簇中首个关键指针,Pwci为指示未知字符串中的距离指针,PwciPwin,第二次重新指向字符串S再次比对分类。如果有某个字符(Bn)为字符串(S)的前缀,那么字符串(S)就可以被匹配。这样经过循环得到最后的分词结果。

3 中文自动分词中的黄金分词三法

3.1 中文字符串匹配法

这是基于中文的字符串匹配的一种方法。这种方法又叫做机械式分词法,其原则是按照一定的算法将等待分析的汉字串与一个"非常大的"机器词典中的词条进行有规律的匹配,如果在词典中找到某个字符串,则匹配成功(识别出一个词)。按照计算机扫描方法的区别,可以把字符串匹配的方式分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合的方法,又可以分为单纯分词方法和分词与标注相结合的一体化法。

3.2 基于理解的分词方法

这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想理念就是在分词的同时进行句法和语义分析,利用句法信息和语义信息来处理计算机理解的歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。

3.3 基于统计的分词方法

从形式表面上看,名子是比较稳定的字和词语之间的组合,所以在上下文中,相邻的字或词语同时在一段或一篇文章中出现的次数越多,就越有可能构成一个词。因此字、词以及语句相邻共同出现的频率或概率能够较好地反映成词或句的可信度。可以对语句语料中相邻共现的各个字或词的组合的频度进行统计计算,计算它们的互助出现信息。定义两个字或词的相互出现信息,计算两个汉字Q、Z的相邻共现的概率。相互出现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个数值时,便可认为此单个汉字的组合可能构成了一个词组。这种方法只需对语句语料中的单个汉字的组合的频度进行统计计算,根本不需要用到切分词典,所以又叫做无词典分词法或统计取词方法。但是这种方法也有一定的弊端和局限性,会经常的抽出一些共同出现频度较高、但是并不是中文词的常用字组,例如:“等等”、“之一”、“有的”、“其他的”、“我的”、“许多的”等等,并且对常用词的识别精度不是很好,时空开销比较大。

[参考文献]

[1]赵曾贻,陈天娥,朱兰.一种基于语词的分词方法[J].苏州大学学报, 2002,18(3):44-48.

上一篇:计算机程序设计实验教学方法的探讨与实践 下一篇:基于PIC 16F877的校园教室照明节能控制器设计...