基于文学研究的陕北民歌语料库设计

时间:2022-07-30 08:19:28

基于文学研究的陕北民歌语料库设计

摘要:文章提出了陕北民歌语料库的建设思路:一是建立陕北民歌生语料库和相关知识库;二是建立陕北民歌词表;三是建立陕北民歌熟语料库。设计制作了基于ACCESS的陕北民歌词料库和相关知识库,包括民歌全文库、民歌类别库等六个语料数据表,为采用现代自然语言技术来挖掘语料库中所蕴含的信息,辅助文学工作者、语言工作者时陕北民歌研究打下了基础。

关键词:语料库;陕北民歌;数据库

陕北民歌源远流长、传播广泛而又长盛不衰,与陕北人民的生活、精神、思想和情感融为一体。在陕北,民歌是劳动人民抒发感情的最好手段。

陕北民歌研究与20世纪初开始的“歌谣运动”的同步的,到20世纪80年代中后期,陕北民歌在各个方面的研究都取得了不少成绩。不过,传统研究往往着眼于作品的人文及艺术特征,研究者多半依靠自身良好的文化修养与“强闻博记”,凭感悟直接把握作品的内涵,这种研究在对作品的语言全貌进行横向或纵向的细密分析时,往往就显得力不从心,特别对词汇、典故的使用及意义进行分析和研究,很难全面把握民歌语言的风格、特征及演变情况,更不要说从中总结出可信的规律了。本文阐述了采用现代自然语言处理中的一些技术,从计算机辅助研究陕北民歌的角度出发,设计和实现陕北民歌语料数据库的工作。

一、语料库及物理结构

语料库指按照一定的语言学原则,运用随机抽样方法,收集出连续语言运用文本或话语片段而建成的具有一定容量的大型电子文本库。

语料库的物理结构指语料数据的逻辑存储形式,有三种物理存储结构:早期的语料库一般是以文本文件的形式存储语料库,一个文本文件就是一条语料记录。20世纪90年代以前,语料库多用关系数据库存放语料记录的元数据,而语料文本用文件形式存储,通过记录号和文件名的映射关系来实现语料的元数据和语料的匹配。目前,多用关系数据库管理系统管理语料库,语料库是一个关系型数据库,关系数据库的一条记录就是一条语料记录,语料库的每一个子库对应于关系数据库的一个关系。

用数据库管理系统来管理语料数据库,可以充分利用数据库管理系统提供的插入、删除、更新、备份、查询等功能。开发效率高,程序完备条件好,能方便地进行语料元数据的查询、更新、统计等工作,用户可以通过多种方式使用语料库,操作简单、灵活。

二、陕北民歌语料库建设的总体框架

建设陕北民歌语料库的目的是采用现代自然语言处理中的若干技术,结合陕北民歌本身所具有的特点来开展计算机辅助研究陕北民歌的工作。其主要内容在以下几点:一是全面、系统收集整理并建立陕北民歌生语料库和相关知识库;二是采用现代自然语言处理中的统计抽词技术,从陕北民歌生语料库中提取二字词,建立陕北民歌词表:三是在建立陕北民歌词表和相关知识库的基础上,结合陕北民歌的特点,实现计算机对陕北民歌初步切分,并对切分后的结果进行人工校对和标注,建立陕北民歌熟语料库。本语料库建设总体框架见图1。

三、陕北民歌语料库及相关知识库的设计

本语料库设计定位于语言研究分析系统的层面,在语料库的组织上采用关系数据库的方式来构建。系统将陕北民歌的标题、内容、演唱者(作者)等分别存放在不同的关系数据库表中,通过关键字进行连接。根据统计和分析的要求,结合本语料库的规模,我们采用Ms Access数据库工具建立关系数据库表。本语料数据建立了民歌全文库、民歌类别库、专有名词库等六个关系数据表。主要数据库表如下:

民歌全文数据库表。该数据库表包含采集到的2000首陕北民歌约60万字的语料。数据库表字段有歌名、演唱者、民歌类别、民歌生语料、民歌熟语料。民歌类别数据库表。陕北民歌,题材广泛,形式多样,内容丰富,旋律优美。从题材上看,有政治类、生活类、爱情类、传说故事类及其它类:从形式上看,有山歌、劳动号子、小调、歌舞曲、风俗歌曲、宗教及其它等。该表有类别ID、形式类别、题材类别、歌名等字段。

专有名词数据库表。陕北民歌中存在有大量的专有名词,有时这类词在统计中并没有显示出具有很强的结合强度,但具有特殊的含义,如人名、地名或者方言等。对此,本文参照刘育林编著的《陕北方言词典》、张崇编著的《陕西方言词汇集》等文献典籍,建立专有名词数据库,该数据库共分为人名、地名、天文、时令、音乐、人伦、人事、闺阁、形体、文事、珍宝、建筑、服饰、饮食、草木百花15大类。该表有词类别、词目、释义等字段。

此外,还有采用统计方法建立的“字”数据库表,设计有字、频率、前字频率、后字频率等字段:采用统计方法建立的“二字字串”数据库表,设计有二字字串、字串频度、前字频度、后字频度、互信息等字段;采用频率、互信息和共现度的统计抽词方法,结合各种相关词典,建立的陕北民歌词表数据库表,设计有词条、词义、词结构、词性、总词频等字段。

建设陕北民歌语料库,并在此基础上通过现代化的计算机技术对陕北民歌进行初步研究,为陕北民歌的搜集整理、理论研究、改造创新、开发利用注入新的活力,提供新的科学技术手段,打开新的领域,陕北民歌语料库通过互联网上进行共享,这将为全国乃至全世界陕北民歌、语言文化研究者提供丰富的、有价值的第一手资料,为保护和抢救陕北民歌这一人类文化瑰宝,抢救性地发掘这一逐渐消失的文化中的活化石,保护我国的非物质文化遗产,为加强对外文化交流做出新的贡献。

上一篇:浅谈五华提线木偶的制作与价值 下一篇:胶州秧歌\傣族舞蹈中“三道弯”的比较研究