中文搜索引擎中的中文分词应用

时间:2022-08-07 07:57:46

中文搜索引擎中的中文分词应用

摘 要 网络信息的急剧增长给人们搜索信息带来一定的困难,搜索引擎的出现及时地解决了这个问题。而在搜索引擎中核心的部分之一是中文分词算法,它在一定程度上影响着检索的速度。简单介绍中文分词的重要性、方法以及现在存在的问题,对中文分词的进一步发展提供一定的依据,推动搜索引擎发挥越来越强大的作用。

关键词 搜索引擎;中文分词;网络信息

中图分类号:TP393.01 文献标识码:B 文章编号:1671-489X(2013)03-0067-02

Chinese Search Engine in Chinese Word Segmentation Application//Zhu Lili

Abstract The rapid increase of network information search information for people to bring certain difficulty. Search engine solute to the problem timely. The search engine is one of the core of the Chinese word segmentation algorithm. To a certain extent it affects the speed of retrieval. This paper focuses on the simple introduction about Chinese word importance, methods and the problems. To provide further development for the Chinese word segmentation. Allows search engines to play an increasingly strong role.

Key words search engine; Chinese word segmentation; network information

1 引言

随着科技时代的发展,网络越来越成为人们生活中的重要部分,特别是网络信息的急剧增长使人们获取信息的方式发生了极大的改变。相比于以前翻阅纸质书籍,现在的人们更喜欢在网络上寻找自己想要的信息,这不仅可以极大地提高搜索信息的效率,而且可以增加搜索信息的广度和深度。基于此,搜索引擎便应运而生,搜索引擎可以让人们在海量的信息中更快地搜索到自己想要的资源。而搜索引擎在面向用户接口这个层面上,比较重要的技术是中文分词技术,所以本文先简要地介绍一下搜索引擎,在此基础上进一步阐述中文分词技术在搜索引擎中的重要作用以及相应的应用。

2 搜索引擎

面对海量的网络信息,搜索引擎的出现给人们查找自己想要的资源带来了极大的便利。搜索引擎是一种在网络上应用的软件系统,它有自己的检索数据库,这个也是系统的核心部分,检索数据库的形成是先通过在Web上自行收集的大量的信息,然后对这些信息进行相应的处理,以便能够形成可以用于检索的数据库。从用户的角度来看,这个软件系统提供给了用户一个可以用于检索的界面,用户从这个界面中输入自己想要查询的内容,系统会根据用户输入要求,提供给相应的检索结果。搜索引擎的原理可以简单描述为三步:从网络上收集相应的网页——建立相应的索引数据库——在索引数据库中进行相应的检索。

搜索引擎的出现为网络信息的发展提供了很大的发展空间,由于搜索引擎的技术首先是在国外发展的,所以对于英文信息的搜索引擎技术现在来说已经是比较成熟的了,而对于中文信息的处理的搜索引擎相比较来说就没有那么完善。一方面来说是因为搜索引擎在中国出现得比较晚,加之中文的复杂性等原因,中文搜索引擎还需要进一步地发展完善。下面就对在中文搜索引擎中所用到的中文分词进行简要的介绍。

3 搜索引擎中的中文分词

3.1 中文分词的重要性

随着科技社会的快速发展,网络信息也越来越发挥着重要的作用,信息量也是愈加的丰富,在给人们带来便利的同时也带来了一些困扰,如何能够在浩海如烟的信息中快速地搜索到自己想要的信息?搜索引擎的出现及时解决了这个问题,如比较熟悉的百度、谷歌等网站都已经将搜索引擎做到了极致,使人们能够快速搜索到自己想要的资源。搜索引擎一般是以词为基本单位进行相应的检索,这样就要求将输入的中文句子切分成相应的词语,这就涉及到其中比较重要的技术——中文分词技术,它是机器翻译、信息检索的重要基础。

中文分词是什么呢?先来了解一下分词。分词就是将词语从一整个句子中划分出来,这个过程称之为分词。学习过英语的人都了解,英语词与词之间的间隔是以空格来分割的,计算机能够识别这样的每一个单词。而中文不是,中文只有一句话或是一个段落才会用相应的分割,而分割符一般也有好多种,这样就给计算机的识别带来了一定的困难。中文分词就是将输入的、计算机不能够直接理解的一些字符串转换成计算机能够理解并处理的词序列,以便为下一步的语义分析模块提供分析的基础。

3.2 中文分词算法

1)基于词典的分词算法。基于词典的分词算法也称之为字符串匹配的分词方法或是机械分词法,它是将待匹配的字符串和已建立好的词典中的字符串进行匹配,若在词典中找到该字符串,说明匹配成功,则计算机就识别该字符串。按照在匹配过程中查找的顺序不同,可以分为正向匹配方法和逆向匹配方法;按照长度不同进行优先匹配的情况来分的话,可以分为最长匹配方法和最短匹配方法。这种分词方法是最简单的一种分词方法,相对来说分析效率比较高,但由于中文汉字结构的复杂性以及新词语的不断涌现,使得这种分词方法不能很好地解决一词多义以及未登录词的问题。

2)基于理解的分词算法。基于理解的分词算法的基本思想是让计算机模拟人类大脑对于词语和语义的理解,以便能够达到识别中文词语的效果。比较重要的部分是调度系统,在这部分的协调之下,计算机能够更好地识别相应的词、句子,并根据它们的句法和语义信息来消除分词过程中的歧义现象。但由于汉字知识信息的复杂性,让所有的汉字都能够组成机器所能够理解的形式是一项比较巨大的工程,所以这种分词方法还是处于试验阶段。

3)基于统计的分词方法。基于统计的分词方法是基于人们对于中文词语的直觉。词语是由稳定的字组成的,一般来说相邻的两个字在一块儿出现的频率越高,组成一个词的可能性就越高。该种分词方法就是利用计算字与字之间出现的频率来判断是否能够组成相应的词语。而统计频率的方法一般是用大量的文本进行训练,然后判断它们是否能够组成词语,当它们共现频率达到一定值的时候,就说明能够组成词语。这种分词方法只是对训练文本中相邻的字进行频率统计,所以不需要与词典进行匹配,所以检索效率相对来说比较高。

这三种分词方法各有利弊,在应用到系统时可以根据相应的情况进行选择,比较成熟的系统一般是将几种分词方法联合起来使用。

3.3 中文分词发展中的难点

虽然中文分词算法的研究已取得一些成果,已经有一些比较系统的分词标准, 但不可避免地也会存在一些问题,主要是有以下几方面的困扰。

首先是分词速度和分词精度是一个难题。现在的中文分词算法在这两方面做得还不够好,使得系统的运行速度以及检索结果都未到达到理想的状态。

其次是词义歧义的问题。一般是指一句话或一个词有两种或更多种的意思,使计算机搞不清楚到底是什么意思,这样显然会给系统的检索精度带来一定的影响。歧义的处理是中文分词的一大困难,主要因为歧义有很多种类,不同种类的歧义问题需要不同的解决方案。

还有一种问题是识别未登录词。未登录词一般是指出现的新词,还没收录在词典中,这样就匹配不到相应的字符串。这种词一般是人名、地名或者是随着时代的发展出现的一些新词。把这些词及时收录到自己的字典当中是一项比较复杂的工程,因此也是中文分词亟待解决的问题。

4 结束语

随着科学技术的发展,越来越多的领域会涉及中文分词算法的应用,如何能够快速、准确地检索到自己想要的资源,这有待于中文分词算法的进一步改进。虽然在搜索引擎中中文分词算法的研究取得了一定的成果,但还有上文中的一些难点没有突破,这需要进一步研究,除了要在改善3种主要的分词算法上下功夫,还需要将多种方法结合起来使用,以便取得更好的分词效果。相信随着科学技术的进一步发展,以及各类专家的不懈努力,在不久的将来,中文分词算法会取得长足的进步,这样搜索引擎就会发挥越来越强大的作用。

参考文献

[1]龙树全,赵正文,唐华.中文分词算法概述[J].电脑知识与技术,2009(10):2605-2607.

[2]刘件,魏程.中文分词算法研究田[J].微计算机应用,2008,29(8):11-16.

[3]刘红芝.中文分词技术的研究[J].电脑开发与应用,2010,2(3):173-175.

上一篇:四步作文教学法 下一篇:培养写作兴趣推进素质教育