大型中国小学生作文语料库的生成

时间：2022-08-30 08:59:48

大型中国小学生作文语料库的生成

【摘要】当前，通过收集学生在学习语言时创作的作文来建立学习者语料库并在语料库的基础上开展各种语言研究和教学应用已成为应用语言学的研究热点。目前我国已建立了近十个学习者语料库，包括中国学习者英语语料库和外国学习者汉语语料库。然而，关于中国学习者汉语语料库的建设却关注较少。本研究将凭借北京师范大学现代教育技术研究所在小学长期开展语文教改试验的良好基础建立一个大型中国小学生作文语料库。截至2007年8月，本语料库已建设成为一个涉及小学五个年级、历时五年、字数在1100万以上的大型作文语料库，在小学语文教学、儿童语言发展研究、小学生思维能力发展研究等三个方面有较高的应用价值。

【关键词】语料库；小学生；作文

【中图分类号】G40-057 【文献标识码】A 【论文编号】1009―8097 (2008) 12―0045―04

语料库(corpora) 是应用计算机技术对大量自然语言材料进行处理(包括预处理、语法自动赋码、自动句法分析、语义分析等)、存储，以供自动检索、索引和统计分析的大型资料库。自二十世纪80 年代末90 年代初开始，各种书面语和口语语料库、通用型和专门语料库纷纷建立，语料库在语言描述和语言分析中的作用和优势愈来愈明显。在语料库迅速而多元的发展中，针对外语学习者建立的学习者语料库( learner corpora) 的发展尤为引人注目。

一研究背景及缘起

学习者语料库包括学习者书面语语料库和学习者口语语料库两种。无论是学习者书面语语料库，还是学习者口语语料库，均与一般的语料库不同，它们是经过计算机处理的外语学习者的语言产出的文本数据库，属于学习者中介语(inter language )范畴。[1]在国外，据不完全统计，已经建成和在建的学习者英语书面语语料库8个，口语语料库2个，如比利时的ICLE (International Corpus of Learner English)、瑞典Uppsala大学建立的学习者语料库USE、美国的英语学习者语料库MELD、英国的商业性学习者语料库CLC和LLC等[2]。

我国的学习者语料库建设与研究开始于上个世纪90年代中期，近年来发展迅速，已处于国际领先水平。这些语料库主要分为两类，一类是中国学习者英语语料库，一类是外国学习者汉语中介语料库。在中国学习者英语语料库方面，已经建成或在建的语料库有6个，如由广东外语外贸大学等学校研制开发的中国英语学习者语料库（CLEC），由华南师大外语系负责建设《中学生书面语语料库》(MSSW)，由香港科技大学的约翰•弥尔顿教授主持开发的香港高中生英语语料库（HKUST），等等。[2] 在外国学习者汉语中介语料库方面，有已建成的北京语言大学的汉语中介语语料库[3]和正在建设的HSK动态作文语料库等[4]。

然而，针对以汉语为母语的学习者建立的语料库的发展却不是那么乐观，语料库类型比较单一，主要为口语语料库。已有的以汉语为母语的学习者口语语料库包括：大型儿童口语研究课题“十省市研究”项目收集了2062名三至六岁城镇儿童的语料[5]；2007年建成、包含600名儿童的口语语料的新加坡华族学前儿童口语语料库[6]；已囊括了包括汉语普通话和广州话在内的二十五种语言的数据的儿童语言数据交流系统(Child Language Data Exchange System)，简称CHILDES[7]。语料类型的单一将会大大限制广义的儿童语言学的研究。李宇明指出，广义的儿童语言学，把儿童期的所有语言学习现象作为自己的研究对象，应包括母语口语学习和母语书面语学习等。他还指出，只有全面研究这些语言学习类型，才能建立起具有较强解释力的儿童语言学习理论，也才能够对儿童的母语口语发展认识得更全面。[8] 在我国，儿童母语书面语的学习一般始于小学阶段，我们要研究儿童书面语的发展就必须从小学生的书面语即小学生创作的作文开始，这就要求我们建立一个大规模的小学生作文语料库。众所周知，在建设语料库过程中，主要存在的困难在于需要投入大量的人力物力去通过电脑录入收集上来的学生作文，代价极高，而我们所在的北京师范大学现代教育技术研究所在小学里开展的一项语文教改试验却能够帮助省去人工录入语料的环节，可以大大节省开发中国学习者汉语语料库的人力物力。

从2000年9月开始，北京师范大学现代教育技术研究所在小学里进行了一项基于Web的、将信息技术与语文教学有效整合的改革试验。该教改实验的主持人何克抗教授将其称作“小学语文跨越式试验”。本试验的一个重要创新点在于：不再像传统教学中那样将汉字、阅读、作文三个教学环节孤立和割裂，而是在信息技术环境下使三者有机地结合起来。老师鼓励小朋友们在阅读了网上的材料以后，随时在校园网的班级留言板里（通过电脑打写）向老师谈自己的感受与想法。[9] 迄今，试验已经开展了七年。在这七年的小学语文教改试验中，试验学校积累下了大量的电子化的小学生作文，主要以数据库形式存储。这些分布在不同学校的数据库可以很方便的收集起来，并对来自不同学校的作文数据加以集中，一个小学生作文粗语料库即可完成。因此，我们将在这一教改试验的基础上开展小学生作文语料库的开发与应用研究，以求加快研究进程，填补国内在中国学习者汉语语料库研究方面的空白。

二研究方法

本语料库将建设成为一个涉及小学各个年级、历时六年、字数在3000万左右的作文语料库，每篇作文均有字数、单字数、作者、创作时间、所在年级、所在学校等多种标注。

本语料库研制开发的工作流程包括小学生作文来源学校选定、语料收集和汇总、语料清理、初级语料加工、语料库检索系统开发等五个环节。这五个环节不是一次性完成的，而是循环往复、不断逼近最佳结果的过程。

1 作文来源学校选定

目前，小学语文跨越式实验课题组已在全国范围内建立的13个试验区（共162所中小学，包括小学148所，中学14所），涉及的省、市、地区有北京、河北丰宁、大连、广州、深圳、厦门、香港。各个学校加入试验的时间有早有晚，我们主要选取10所左右同年加入且参与时间较长的学校。经调查，在2002年、2003年两个年份加入的跨越式试验的学校较多，从中足以选出10所左右作文数据丰富、历时较长的学校。另外，较早加入的学校主要来自广州、深圳、北京等地区，于是我们从这三个地区暂时选定了分别在2002年、2003年加入试验的14所学校作为小学生作文语料的来源学校，其中北京四所，深圳六所，广州四所，以保持南北方数据来源的多样性，为后面开展南北方大城市小学生汉语掌握差异进行对比研究提供可能。

2 语料收集和汇总

试验学校均使用小学语文跨越式试验教学平台作为小学生写作和阅读环境，小学生所创作的作文均保存在该平台的数据库中。于是，该环节通过拷贝小学语文跨越式教学平台中的数据库来完成。该工作自2006年9月开始，至今已近一年。我们分别于2006年11月、2007年4月以及2007年7月三个时间点陆续从这14所学校拷贝了平台数据库。

来自不同学校的作文存储在不同的数据库中，于是我们建立了一个中心数据库来汇集来自各个数据库中的作文数据表和学生基本信息表。为了后期的统计分析，对比研究，我们不仅要存储作文信息，还要存储学生信息和学校信息。其中，作文信息包括作文标题、作文全文、创作时间、字数、作者、学校、创作年级等；学校信息用于描述作文来源学校，包括学校名称、加入教改试验的时间、所采用的教材的版本信息等；学生信息包括学生姓名、所在学校、入学年份（即就读一年级时的年份）等。

然而，由于教学平台并未提供年级按年度升级的功能，即一个学生四年创作的作文全部标识为一年级所创作。这样一来便会影响按年级进行小学生书面语言的调查。于是，在收集平台数据库的同时，我们还收集了当前学年各个跨越式试验班的学生名单，并根据每个学生的当前年级推算以往年级以及未来年级所处的时间段，然后重新对每篇作文的创作年级进行标识。下面举例说明这一过程。

A学校有一名学生张三，2006年9月开始开始上四年级，那么该学生的所有年级及所处时间段如表1所示。

依据表1，以及张三所创作的每篇作文的创作时间，我们便可以对张三的所有作文的创作年级进行重新标识了。

经汇总，截至2007年7月，小学生作文语料库有作文93293篇，字符数14406192个，涉及学生2205名。

3 语料清理

由于小学生作文直接从学校教学平台数据库中转换得来，从而不可避免存在部分无效的作文，如只包含几个字符的作文，或者字符数较多而汉字仅有几个的作文。这些作文必须从语料库中剔除出去，以保证语料库的质量。

我们的处理方法是通过T-SQL数据库查询语言编写程序来计算每篇作文中的字符数、汉字数、标点符号数以及非标点符号数，然后将满足以下条件的作文删除：字符数为零的文本；标点符号数为零的文本；汉字数为零的文本；在清除作文中的空格后，汉字数少于非汉字字符数的文本；在标点符号数、汉字数不为零的条件下，汉字数与标点符号数之比小于3的文本。

另外，我们在汇总后的作文语料库中发现，有些作文很长，个别甚至达到26680个字符。经浏览这些作文，我们发现，这些作文存在重复内容。于是，我们将这些有重复内容的作文选出来，利用自行开发的一个校对工具，删除重复的部分。

经清理，小学生作文语料库有作文79244篇，字符数13328692个，汉字数11456403，涉及学生2164名。

4 初级语料加工

比较初级的语料加工包括自动分词（part of speech tagging）和词性标注（grammatical tagging）两个阶段。更深层次的加工则有句法标注、语义标注等。另外，由于语料库检索需要有句子检索这一项功能，于是语料加工还需增加对作文进行分句加工。语料库的加工不可能一次就做到尽善尽美，本研究把完成语料库的初级加工即分句、分词和词性标注作为主要目标，并完成复句类型标注以及一些特殊句式的标注。

分句是指通过正则表达式将篇章分割成若干个句子，并确定每句话的长度，然后将这些句子存入句子数据表中。

判断句子的标志是“。”“？”“！”等三种符号，由于来自网上的文章中经常出现以西文标点为句子结束标志的情况如“.”“?”“!”等，并且对话语言中句子的结束标志是在一般的结束标志基础上加上“””，因此用于匹配句子的正则表达式如下：

[^(。|？|！|\\?|!|.)]+(。”|？”|！”|\\?”|!”|.”|。|？|！|\\?|!|.)

我们通过该正则表达式将篇章中的句子分离并存入句子表中，句子表包括句子、经分词和词性标注后的句子、句子类型、句子长度、在文中的出现次序以及所在篇章编号等信息。

在分词和词性标注方面，我们将采用中国科学院计算技术研究所汉语词法分析系统ICTCLAS[10]来辅助完成。这里并不是对作文进行分词和词性标注，而是对作文分句后的句子进行分词和词形标注，这样可以提高分词和词性标注的效率，也为接下来的复句类型标注和特殊句式标注做准备。

由于小学生作文是发展着的书面语言，无论是词语运用还是句子结构上，都存在着非规范用法。再有ICTCLAS工具自身的局限性，分词和词性标注结果存在一定的错误率。对于这些分词和标注的错误一定要采取有效措施进行更正。受技术水平的制约，对误切分和误标注的部分，主要采取人工干预的方式进行后期处理。

要进行复句类型标注和特殊句式标注，首先要建立一个复句类型和特殊句式的分类表，并给每种句型标上特征词。复句类型有并列复句、连贯复句、递进复句、选择复句、解说复句、转折复句、因果复句、假设复句、条件复句、目的复句、连锁复句等11类。每一类都有一定量的连词或连词组合作为其特征词。以因果复句为例，其特征词有“因为…所以…”、“由于”、“因此”、“因而”、“从而”、“以致”、“致使”、“既然就”、“可见”等。我们就利用“复句-特征词”对应表，通过检查一个经过分词和词形标注的句子中是否包含某个连词或连词词组来对判断该句子是否是复句以及是何种复句。当然，这里标注的复句主要为显性复句，对于隐性复句我们将采用人工的方法来标注。

本语料库所要标注的特殊句式主要有把字句、被字句两种。在这两种句式中，特征词主要有“把”和“被”，此时这两个词的词性为介词（以字母p表示）。于是我们建立了这两种句式的特征为“把/p”和“被/p”，其中“/p”表示在这两种句式中“把”和“被”字的分词和词性标注的结果。我们通过检查一个经过分词和词形标注的句子中是否包含“把/p”或“被/p”来对判断该句子是何种句式。

5 语料库检索功能的开发

关于语料库的检索功能，中外学者多有论述。胡明扬先生提出，语料库的检索系统要保证能够方便地检索到以下各类信息：总字数及字频，总词数及词频，单字和单词的上下文，按词类大类和小类提取总清单，统计分类总数和分类频度，特种词语、语法格式、分类句类或句型的统计和提取，等等[11]。杨惠中（2002）认为，检索工具的基本功能包括词表生成、语篇统计、带语境的关键词（KWIC）索引、搭配词统计、词语型式（pattern）统计、主题词提取（key word list）、词丛（word cluster）统计、联想词统计及重组、词图（plot）统计[12]。

考虑到今后要在互联网上语料库，本语料库的检索系统将采用B/S架构。前文述及的语料库检索功能太复杂，会影响服务器的响应速度，不适合通过Web来实现。因此，笔者省去了一部分功能，而突出所需的功能，具体如下：

（1）作文检索功能

检索项包括作文类型（随堂作文和测试作文两种，以随堂作文为主）、创作年级、作文标题、内容、字数范围。其中标题、内容等项的检索提供模糊匹配功能，可输入多个关键词。并可设置作者信息，限定作者范围，限定项包括地区、学校、入学年份（特指进入小学一年级时的年份）、作者姓名等，这有助于使用者对小学生作文情况进行分类调查。作文检索界面如图1所示。

（2）句子检索功能

可进行“关键词居中”（KWIC）检索。关键词为中文（简体）任意字符串。可设定句子的创作年级，并可设定首个关键词的词性，并可通过设定“跨距”（Span）来限定检索关键词的左右语境范围，跨距以字符为单位。还可以设置作者信息，限定作者范围，限定项包括地区、学校、入学年份（特指进入小学一年级时的年份）、作者姓名等，这有助于使用者对小学生句子使用情况进行分类调查。返回的检索结果以句子为最大话语单位，作为检索的上下文语境的最大范围。如果要查看更大范围的上下文语境可以进一步查看该句子所在的篇章。允许对检索结果进行复制或保存。句子检索界面如图2所示。

三结语

截至2007年8月，本语料库已建设成为一个涉及小学五个年级、历时五年、字数在1100万以上的大型作文语料库。本语料库中的每篇作文均有字数、单字数、作者、创作时间、所在年级、所在学校等多种标注，并且对这些作文进行了分句操作，并对复句、特殊句式进行了类型标注。这些作文不仅蕴涵着当前小学生所写出的作文的字数的信息，而且还蕴涵着小学生使用单字、词语、搭配、单句句式、单句句型、复句类型等的现状的更为丰富的信息。该语料库有望在小学语文教学、儿童语言发展研究、小学生思维能力发展研究等三个方面发挥其价值。

1 小学语文教学

小学语文教学人员可通过本语料库查找范例作文，查找字、词的使用例句，可用于编写教学材料、练习题以及开发学习软件，还可用于课堂教学时呈现语言应用实例（包括正例和反例）。

2 儿童语言研究

儿童语言发展研究者可通过本语料库观察小学生汉语书面语使用情况（正确使用、过度使用、使用不足、未用和错用），并利用语料库的历时性，发现小学生汉语书面语的习得过程规律如用字、用词、句式使用等方面的发展规律，制定小学生常用字表、常用词表等。这有助于完善儿童语言发展研究，让我们更好地认识儿童在掌握语言（包括口语和书面语）的整个发展过程。

3 小学生思维能力发展研究

马列主义经典作家指出，“语言是思维的物质外壳”。语言能力的发展和逻辑思维发展、形象思维发展、直觉思维发展之间存在密切联系。语言（包括文字）和各种语言活动，既是心理学的研究对象之一，又是心理学的重要研究工具之一。许多重大的心理学问题的解决，都需要儿童语言学的参与或验证。本语料库具有历时性，记录了一大批学生整个小学阶段所写的作文，这些作文蕴含着他们的思维过程，研究者可通过统计分析单个学生的复句使用情况（如因果复句、假设复句、条件复句等）来考察该学生的逻辑思维发展过程，通过调查学生使用可逆句子使用情况（如被字句、双重否定句等）来考察学生思维的可逆性以及通过分析学生描写事物的语句来考察该学生的形象思维发展过程。

目前，我们围绕语料收集、加工深度和数据维护等方面继续完善中国小学生作文语料库，预计在2008年9月最终完成，并将在网站（www.省略）该语料库的检索系统，实现资源共享，为语言工作者提供一种科学便捷的集成环境和先进的技术手段。

参考文献

[1] 秦旭.学习者语料库及其在外语教学中的应用价值[J]. 徐州工程学院学报,2006,(11):25-28.

[2] 王立非,孙晓坤. 国内外英语学习者语料库的发展:现状与方法[J]. 外语电化教学,2005,(5):19-24.

[3] 北京语言大学科研处. 汉语中介语语料库系统简介[EB/OL].

[4] 张宝林,崔希亮,任杰. 关于“HSK动态作文语料库”的建设构想[DB/OL].

[5] 朱智贤. 中国儿童青少年心理发展与教育 [M]. 北京: 中国卓越出版公司, 1990.

[6] 赵守辉,刘永兵.新加坡华族学前儿童口语语料库的生成[J].世界汉语教学,2007,(2):98-105+4.

[7] 温志军,胡瑰玲.开发利用世界上最大的儿童语料库――CHILDES[J].外语教学与研究,2001,(5):374-377.

[8] 李宇明.儿童语言的发展[M].武汉:华中师范大学出版社,1998.

[9] 何克抗.儿童思维发展新论和语文教育的深化改革――对皮亚杰“儿童认知发展阶段论”的质疑[J].教育研究,2004,(1):55-60.

[10] 中科院计算技术研究所.计算所汉语词法分析系统ICTCLAS[DB/OL].

[11] 胡明扬.现代汉语通用语料库的建库原则和设想[J].语言文字应用,1992,(3):49-56.

[12] 杨惠中.语料库语言学导论[M].上海:上海外语教育出版社,2002:167.

大型中国小学生作文语料库的生成

文档上传者

热门标签更多>

热门推荐更多>

精品范文更多>

大型中国小学生作文语料库的生成

文档上传者

热门标签 更多>

热门推荐 更多>

精品范文更多>

热门标签更多>

热门推荐更多>