基于链语法的英语作文自动评分研究

时间:2022-07-15 11:16:56

基于链语法的英语作文自动评分研究

摘要:分析研究当前国内外英语作文自动评分系统的研究成果,提出了一种基于链语法(Link Grammar)的能为学生提供实时训练的英语作文自动评分系统。系统首先通过依据Link Grammar对句子分析后的成本向量(cost vector)计算文章的语法权值,其次则利用文章核心词、非核心词熵值和有效句比例来对文章主题分档,最后则是结合语法权值和主题分档结果计算文章分数。测试结果表明,10~15分段作文达到了88.9%的准确率,说明该系统在10~15分段作文具有较好的适应性,同时系统的分析时间也能很好的满足实时性的要求。

关键词:自动作文评分;链语法;信息熵;主题分档;英语教学

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2014)02-0284-04

作文自动评分 (Automated Essay Scoring,AES)就是利用计算机技术对作文的语言、内容等方面进行评估与打分[1]。由于作文自动评分具有诸如实用性、一致性等突出优点,近年来该方向的研究在国内也逐渐得到外语教学界和自然语言处理界的重视,相关专家学者如梁茂成[2]和葛诗利、陈潇潇[3]等都做了大量的尝试和研究。但与国外相比,国内的相关研究具有明显的探索性和探讨性,研究的针对性和实用性较弱。目前国外在教育考试领域处于实用中的一些AES系统有Project Essay Grader(PEG)、Intelligent Essay Assessor(IEA)、E-rater等。但是,这些系统对于英语作为外语的考生的作文写作帮助和评分是否需要考虑不同的因素尚没有透彻的研究[4]。

此外,尽管国外自动作文评分研究取得了较好的评分效果,但这些研究主要是针对英语母语或者较高水平的英语作为外语的学习者的大规模考试单一题目作文评分,对于我国英语写作教学来说,更迫切需要的是一种能够针对大多数学生英语写作水平,提供多题目实时训练的作文自动评估和反馈系统,这不仅能增加学生英语作文训练的机会,同时也能减轻老师的批改负担。而这也是本文研究的意义和目标。

研究计算机自动作文评分,首先要面对的就是评分标准的形式化问题。当前主要有两种外语作文评分形式:分项评分和整体评分[5]。前者主要是利用机器学习的方法,从大样本中提取某些有效评分特征及其权重用于未评分作文的评分,如国外E-rater的开发人员提取文本特征建立回归方程,进行线性回归,得到了与人工评分较高的相关度[6]。国内的如梁茂成教授等[7]。而后者则是按照写作理论细化评分标准,提取内容和语言使用方面能够形式化的评分特征,同时分配各特征在作文评分中的权重,如曾用强的过程化作文评估[8]以及葛诗利面向大学英语教学的通用计算机作文评分和反馈方法研究[9]。由于前者依赖于大样本的机器学习,因而不具有实时性和作文题目灵活多变的特点。因而本文采用后一种整体评分方法,从语法分析和主题内容这两个大的方面来研究和设计实时性的作文自动评分系统。

1 语法分析

对外语写作者,即便是较高水平的外语写作者,如托福考生,自动作文评分与人工评分也会出现统计上的显著性差异[10]。主要原因是传统分析器的语言形式关注的往往是哪些符合语法,而不是哪些不合语法,因而在面对不合语法的输入时,传统分析器显得非常呆板。然而关键是不合语法规范的文章是很多的,特别是对于低水平的英语写作者,即作文中高频率出现词汇和句法方面错误的汉英中介语,传统的语法分析器则会遇到更大的困难,并且其健壮性也面临很大挑战。用来解决健壮性问题的方法之一是制定反映不合语法规范的称之为“不良规则”的编码规则[11]。

在本次研究中,所选择的分析器是由D.Sleator和D.Temperley开发的链语法分析器(Link Parser)[12]。链语法(Link Grammar)不是建立在树结构的基础上,而是将语言知识完全落实到词汇基础上,通过词语的链接(Link)属性,来对句子进行分析。在分析不合语法的输入时,链语法分析器能够跨越句子中不合语法的单词,找到后面的词汇,并连接构成有句法意义的词对,比如:主语+动词,动词+宾语,介词+宾语,形容词+状语修饰语,和助动词+动词等,因而链语法分析器具有很好的健壮性。

2 文章主题

主题打分主要从文章的单词数量和文章切题程度两方面来展开。仿照人工评分时归档的思想,主题评分也按照分档的思路进行。针对文章词数和文章内容,主题评分的分档分两步完成:第一步通过文章的单词数目来归档;第二步则是在第一步基础上,通过文章核心词熵值、非核心词熵值、有效词的比例这三个参数来对文章进行降档。

2.1 单词数目归档

2.2 根据文章内容降档

文章内容是否切题也是作文评分的重要方面。而作文主题作为作文自动评分的重要依据之一,也引起了学者专家们的广泛关注和研究。文秋芳(2007)的研究[13]更是表明“作文内容能够解释作文总体质量56%的差异”。虽然她的研究对象是中国英语专业学生,但也明确说明了作文中主题的重要性。

经过2.1节的单词分档完成后,进一步需要通过能反映文章内容的特征量给文章降档。这里借鉴了信息论里的信息熵的概念来考量文章是否切题。Shannon指出,任何信息都存在冗余,冗余大小与信息中每个符号(数字、字母或单词)的出现概率或者说不确定性有关[14]。在信息世界,熵越高,则能体现越多的信息,熵越低,则意味着包含的信息越少。因而,信息熵能很好反映文本中所包含信息量的大小。人工阅卷时,阅卷老师往往依据核心词的数量以及分布来评判一片作文是否切题,即文本中是否包含了反映主题的足够信息。因而,使用信息熵来模拟人工阅卷时对主题的评判是一种可行的尝试。

依据人工评分模式以及大量测试分析,选择了核心词熵值、非核心熵值以及有效句子比例这三个因素来作为文章降档的特征量。其中核心词熵值主要体现了文章主要内容是否围绕题意展开,非核心词熵值则反映了文章词汇和内容的丰富性,有效句比例则是考虑到核心词分布区间的问题。其中,非核心词汇的熵值记为S1,核心词汇的熵值记为S2,有效句子比例记为S3,这三个值各有一个阈值,如果S1小于对应的阈值,记S1=0,否则S1=1。S2,S3以同样方法取值,单词数目记为W,文章所属档位记为D。经过词数分档后,再经过S1,S2,S3降档。

4 测试结果与分析

针对本文设计的英语作文自动评分系统,该了相应的测试。测试样本来源于学生英语联考样本,作文满分为25分,从中随机抽选了999份样本进行本次测试。样本分布如表格3所示。

测试结果如表格4所示,其中准确性测试计入相邻分数,即上下相差4分的作文也计入准确评分。

根据表4可以看出,不同分数段的作文准确率存在较大的差异,其中,10~15分段的作文准确率最高,达到了88.9%,而20~25分段作文准确率最低(35.6%),表明目前的评分算法并不能适应各个分数段的作文样本。由于20~25分段作文属于优秀作文,此时除了语法和主题这两个基本因素需要考量外,词汇的考量,特别是高级词汇的使用则也成为重要的评分依据。因而对于词汇的分类和考量是需要进一步完善的。

此外,从整体来看,作文评分的准确率还不是很高,只有71.3%。一方面,Link Parser在分析句子时会引起一些误判,从而导致语法权值受到了影响;另一方面,作文评分算法只考虑语法和文章主题两个显然是不够的,还需要在词汇使用、文章连贯性等方面进行更多的研究和考量。

尽管上述算法整体准确率不高,但是本次试验还是得到了比较有意义的结果。对于10~15分段作文达到了88.9%的准确率,表示本次的研究方法对于该分数段作文具有较好的适应性;此外从平均每篇作文样本的运行时间来看,分析一篇作文需要2.3秒左右,这满足现实情况下的实时评分的需求。

5 结束语

本文采用整体评分的形式,对我国学生英语作文自动评分进行了探索和研究,并得到了一些具有意义的结果,首先,对于10~15分段作文达到了88.9%的准确率,表示研究方法对于该分数段作文具有较好的适应性;此外从平均每篇作文样本的运行时间来看,分析一篇作文需要2.3秒左右,这满足现实情况下的实时评分的需求。当然也发现了需要进一步研究和解决的问题。首先,针对Link Parser的误判,需要通过有效的方式去减少这种误判,可以通过修改Link Parser内部的规则来适应我国英语学习者的写作习惯,也可以通过对Link Parser结果的过滤来提高其评判的准确性;其次,在语法和主题方面还需进一步研究和发掘能反映中国学生英语写作水平的特征,如词汇的分类、句子连贯性等,使整个评分系统更加的全面和丰富。

参考文献:

[1] Cheville J.Automated Scoring Technologies and the Rising Influence of Error[J].English Journal,2004,93(4):47-52.

[2][7] 梁茂成,文秋芳.国外作文自动评分系统评述及启示[J].外语电化教学,2007(5):18-24.

[3]葛诗利,陈潇潇.中国EFL学习者自动作文评分探索[J].外语界,2007(5):43-57.

[4] 韩宁.几个英语作文自动评分系统的原理与评述[J].教育部考试中心,2009(3):38-44.

[5] 李志雪.如何更加客观合理地给学生作文评分[J].Sino-US English Teaching, 2004, 1(11):61 -63.

[6] Valenti S,Neri F,Cucchiarelli A.An Overview of Current Researchon Automated Essay Grading[J].Journal of information Technology Edueation,2003(2):319-330.

[8]曾用强.过程化的写作评估模式[J].福建外语,2002(3):26-31.

[9] 葛诗利. 面向大学英语教学的通用计算机作文评分和反馈方法研究[D].北京:北京语言大学,2008.

[10] 刁琳琳.英语本科生词块能力调查[J].外国语学院学报,2004(4):35-38.

[11] Kathleen F McCoy, Christopher A Pennington,Linda Z.Suri.English error correction: A syntactic user model based on principled “mal-rule” scoring[C]//Proceedings of the Fifth International Conference on User Modeling,User Modeling, Inc,1996:59-66.

[12] Link Grammar [EB/OL].[2012-04-20].http://www.link.cs.cmu.edu/link/.

[13] 文秋芳.“作文内容”的构念效度研究[J].外语研究,2007(3):66-71.

[14] Shannon C E.A mathematical theory of communication[J].Bell System Technical Journal,1948(27):379-423,623-656.

上一篇:基于遗传算法的路径优化问题研究 下一篇:协同进化算法在关联规则挖掘中的研究