中文分词技术在智能评分系统中的应用研究

时间:2022-09-27 04:04:09

中文分词技术在智能评分系统中的应用研究

摘 要:在计算机考试系统开发过程中,对于主观题的智能评分一直是重点,也是难点,而在主观题评分中首要解决的问题就是中文分词技术,本文就现有的中文分词技术做分析比较,并根据智能评分系统应用研究中具体做法做出分析。

关键词:中文分词;依据词典;智能评分系统

中图分类号:TP391 文献标识码:A 文章编号:1674-7712 (2014) 02-0000-01

随着信息技术的普及和发展,计算机智能阅卷已经得到了广泛的应用,如:大学英语等级考试、计算机等级考试等国家级考试中的客观题都参用了计算机智能阅卷。同时一些远程考试系统在主观题智能评分方面也取得了许多成果,中文分词是自然语言处理系统中的重要步骤,而主观题智能评分首要解决的问题就是中文分词,本文试从现有的中文分词技术进行了探讨,并就智能评分系统中的应用做出研究分析。

一、中文分词技术概述

中文分词是指按照一定的算法,将一个中文序列切分成一个一个单独的词。分词就是计算机自动识别文中词的边界的过程。我们知道,在英文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,人工在阅读时,都需要通过对句子分词才能正确理解意思,可见中文分词技术对主观题智能评分有着重要的意义。

二、现有的中文分词技术

在近30年的研究中,各位开发人员研究了中文分词技术在词典和概率方面统计的一些算法。目前中文分词主要算法有三大类:依据词典的分词方法,依据统计的分词方法,依据理解的分词方法。

下面简要介绍一下这些算法。

(一)依据字典的分词算法。又名机械分词算法,此方法是根据词库确立词典,然后以一定策略将准备分析的中文字符串和这个词典中的各词进行比对,如果在词典中能找到,则比对成功,那么就需要一个相当大容量的中文词典,词典的词语越广泛,分词的越准确。

依据比对方向的不一样可分为正向比对和逆向比如;依据长度比对的情况,分为最大比对和最小比对;其中最常用的方法是正向最大比对法和逆向最大比对法。

正向最大比对法(Maximum Matching Method,其主要思想为:从待匹配的文本串最左端开始,依次取出1,2,3,…n个字符来与已有的词典比较,看看在词典中是否有这个词,若有,则匹配成功,将它放入词队列或数组中暂存,接着对中文语句/字串中剩余的部分进匹配,直到全部分词完毕。正向最大匹配算法按照从左到右的顺序进行匹配,在分词要遵循所谓的最大化原则,即确保已扫描出的词不是某个已存在词的前缀。

逆向最大比对法(Reverse Maximum Matching Method)。RMM法的主要原理与MM法相同,区别在于分词的扫描方向。

如A代表词典,MAX表示A中的最长文本串长度,string为准备切分开的字符串。MM法是从string中取出长度为MAX的子串(即最长文本串)和A中的词条进行比对。如果成功,那么该子串为词,然后指针向后移MAX个汉字后继续比对,否则该子串每次减少一个进行比对。

由于汉语多数情况下中心词位置相对靠后,所以逆向最大匹配法的精度要高于正向最大匹配法,在实际应用中通常将正向最大匹配算法与逆向最大匹配算法两者结合起来使用,这样可提高分词结果的正确率。

(二)依据统计的分词算法。该方法的主要思想:词是稳定的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。从统计学上讲就是求概率的问题,可以通过对训练文本中相邻出现的各个字的组合的频率进行统计学习,计算它们的互现信息得出规律。在中文处理时,如果文本串中的字与字互现信息大于某个值时,就可以判断此字组可能构成了一个词。该方法又称为无字典分词。

互现信息的计算,设有词A和B,AB之间的互现信息为:

M(A,B)= 其中 为A、B相邻出现的频率, 为A出现的频率, 为B出现的频率。

(三)依据理解的分词算法。该方法又称依据人工智能的分词方法,这种方法模拟了人对句子的理解过程,其基本思想就是对文本串进行句法、语义理解,并利用句法信息和语义信息来进行分词并处理歧义现象。

此算法一般包括三个部分:分词子系统、句法语义子系统和总控部分。分词子系统是在总控部分的协调下,来得到有关的词、句子等的句法,通过语义信息对分词中的歧义进行判断的。此分词方法通常使用较大量的语言知识及信息。由于汉语中语言知识较为笼统、复杂,很难将各种语言信息完全组织成机器可直接读取的形式,因此目前依据理解的分词系统还不成熟。

三、中文分词算法在智能评分系统中的应用

就以往客观题人工阅卷过程来看,教师通常首先查看正确答案中的关键点,然后再与学生答案对比,通过学生答对关键点所占的比重来确定学生得分情况。基于这样的阅卷过程,尝试通过中文分词模拟人工阅卷过程。

首先,题库中试题要配有相应的答案及关键点,记为一个集合,如:关键字={K1,K2,K3….Kn}。在对学生的答案使用中文分词技术中MM法和RMM法结合,得出学生答案中所占关键词的比例,给相应的得分。

四、结束语

本文就现有的中文分词技术做出了分析,系统地阐述了三种算法,他们都有各自的优缺点:首先依据词典的分词算法简单,易于实现,不足在于比对速度慢,歧义问题较难解决;依据统计的分词算法可以发现所有的歧义切分,但统计语言的精度和决策算法又在很大程度上决定了解决歧义的方法,并且速度较慢。后面又分析了中文分词算法在智能评分系统中的应用,具体采用了依据词典的分词算法。由于中文的复杂性,决定了中文分词技术还不够成熟,很多技术还在探索中。

参考文献:

[1]袁春凤.主观题的计算机自动批发技术研究[J].计算机应用研究,2004(02):181-185.

[2]高斯丹.基于自然语言理解的主观试题自动批发技术的研究与初步实现[D].

[3]谭冬晨.主观题评分算法模型研究[D].电子科技大学,2011.

[4]贾电如.基于自然语语句结构及语义相似度计算主观题评分算法的研究[J].信息化纵横,2009(05):5-7.

[作者简介]张微微(1982.04-),女,黑龙江讷河人,教师,讲师,理学学士,研究方向:计算机软件应用。

上一篇:浅谈直流电动机励磁电流调速问题 下一篇:浅谈冶金设备的工业防腐方法