《左传》地名研究初探

时间:2022-10-16 08:05:05

《左传》地名研究初探

摘要:本文分析了《左传》地名结构的特点,基于CRF模型,对《左传》地名进行自动识别,通过只用字符本身作为特征的分词词性一体化实验和增加部首特征等实验的对比,总结出适用于《左传》地名的自动识别方法,实验效果最好的识别正确率和召回率分别达到94.59%、94.84%。

关键词:《左传》 地名识别 自然语言处理

1、引言

先秦文献信息处理属于中文信息处理技术与古典文献交叉研究的领域,而地名研究属于先秦文献信息处理的子领域。其研究的必要性在于,汉语的词与词之间没有自然的界限,使得中文信息处理大多是先对要处理的文本进行词语切分,而在分词阶段,未登录词的识别成为许多分词系统发展缓慢甚而走向应用瓶颈的主要原因之一,地名在未登录词中占有一定的比例,随着先秦文献信息处理的深人发展,如果不做地名识别,会很大程度上影响分词的精度。

学界已经对先秦地名的命名原则,选词用字。起名来源等方面进行了探讨,诸如:台湾中研院的《先秦金文简牍词汇资料库》,香港中文大学中国文化研究整理编撰的《先秦两汉古籍逐字索引丛刊》等,都提出了很好的研究方法和研究理论,为我们前期分析先秦文献地名结构规则的研究提供了很好依据。目前,命名实体识别技术在不断地发展,各种识别模型的应用为我们的模型选用和识别实验提供了很好的例证。

2、语料考察分析

本文对先秦25本主要文献进行筛选,最终选择《左传》作为实验语料。原因在于:作为方法探求始初,选取的文献要具有可读性,易提取性,另外,文献需要包含较多的地名。《左传》在先秦文献中,字数最多,词汇总量最大,是记录春秋时期社会状况的重要典籍。事件、人物的描写必然和相关的地点密切联系,以上多种因素正满足了我们实验的要求。

2.1 《左传》地名统计与分析

我们选用“汉达文库”提供的《左传》(17万字次)作为实验语料。首先对其五分之三语料人工标注了分词和词性标记信息。参照北大分词规范,并依据古代汉语的特点制定了先秦文献语料分词标注集,给出了17个标记,分别是:名词n、动词v、形容词a、数词m、量词q、代词r、介词p、连词c、助词u、副词d、语气词v、人名nr、地名ns、兼词i、方位词f、时间词t、标点w等,我们总体上倾向于和,而不是分。其中,地名的标注我们遵守指称性、专门性、词汇性等命名实体特征,对文献中出现的地名做了词频统计(见表3-1)。

2.2《左传》地名特点分析及用字考察

基于以上统计分析,我们对《左传》地名进行了分类。

按内容分,主要包括:

自然地理实体:山(如:泰山)、水(如:汉水)、河(如:河)等

人文地理实体:国名(如:秦国)、县名(如:温)等等

按结构分,主要有以下几种形式:

1、单字专名,如:毫、郧、京

2、专名+通名,如:泰山、清丘

3、双字专名,如:汾隰、甘鹿

另外,我们对《左传》进行了字频统计,共有3300多个汉字,其中,地名用字共有827个字,频率在10以上的地名用字为27个,我们对这些频率较高的字进行了考察,并从结构、文化等方面对《左传》地名进行细致的分析,从而总结出以下几个特点:

1、方位词居多。

字频统计分析显示,《左传》地名中,主要的方位词及其频率是:阳33、上22、东、16、中12、南12、北、10等等。可见,大部分方位词出现的频率是很高的,因为当时人的群居及其恶劣的生活环境,人们在生产劳动时,必须要辨认方向,确定不同的地理位置。

2、存在通名现象,常常省略通名

我国早期地名“近取诸身,远取诸物”,所以古地名通名来历常常与其自然环境有关。从我们的统计数据看出,高频字中的通名包括:丘4J4、城28、国24、陵20、泽16、山15、泉14、州12等等,而且,地名常有通名省略的情况,例如:

汉,汉水:名词。水名。汉水。长江最大支流。

(1)楚子伐随。军于汉、淮之间。(桓公八年)

(2)楚国方城以为城,汉水以为池,虽众,无所用之(僖公四年)

3、同名异指和异名同指

《左传》地名的异名同指现象主要指在文本中同一个地名的表达形式不同,或范围不一。例如:

汉,汉川

(1)沿汉溯江,将人郢。(文公十年)

汉:水名。汉水。长江最大支流,源出陕西宁强县,人湖北省至武汉市人长江。

(2)周之子孙在汉川者,楚实尽之。(定公四年)

汉川:汉水。此指汉水地区。

同名异指现象普遍存在于文本中,大多是表行政区域的地名,主要原因可能是因为“地随移民”,即和古代迁都,扩都、移民等现象有关。例如:

(1)请京,使居之,谓之京城大叔。(隐公一年)

郑国地名,在今河南荥阳县东南。

(2)群王子追之,单子杀还、姑、发、弱、隧、延、定、稠,子朝奔京。(昭公二十二年)

周国地名,在今河南洛阳市西南。

2.3 《左传》地名与现代地名比较

以上关于《左传》地名特点的分析,为我们今后的地名识别工作奠定了语言学基础,现在,我们主要从地名识别角度将《左传》地名与现代地名进行比较:

1、现代地名数量大,新地名不断涌现,地名标注规范较为完善,古代地名数量有限,从研究角度讲,不涉及新地名的问题。学界关于古代地名标注规范问题讨论的还不够。

2、现代地名长度无限制,真实文本中,还存在简称的问题。而古代文献地名,长度较短,主要是两个字和三个字的地名。

3、现代地名结构较为复杂,内部相互成词,甚至存在诸如“北京市海淀区”这样的多层复合的复杂地名。而从统计的左传地名中可以看出,地名长度短,结构较简单,可总结的规则较少,不适合采用现代地名识别研究中规则的方法。

4、现代地名结尾有明显的通名。例如:“江苏省”、“郑州市”等地名中的“省”、“市”,《左传》地名也存在这样的通名。

3、实验结果及分析

本实验使用条件随机场(Condition Random Fields,CRFs)模型,具体采用的是TakuKudo编写的工具包“CRF++0.51”进行训练和测试(下载连接:http://crfpp。soureeforgeaaet)进行训练和测试。

命名实体识别任务实际上是序列标注任务。根据词性标注语料考察,在实际操作中我们采取了4词位标注集T,即T={B,I,E,s},其中,B是多字词的开始词,I是多字词的中间词,E是多字词的结尾词,S是单字词。

我们分别做了四个实验:

实验一、只用字符本身作为特征,地名标注为ns_x(x为词位标记),地名以外的其他词用字一律标注为0_x。

实验二、在实验一的基础上。加入部首特征。

实验三、在实验一的基础上,分词和词性标注(包括地名标注)一体化的处理,模板同实验一。

实验四、在实验三的基础上,加入部首特征,模板同实验二。

实验中,我们选用部首特征,因为汉字中形声字居多,形旁在词义理解过程中起了重要的作用。其次,在语料观察的基础上,我们发现地名中的确存在这种现象,例如:“右邑左阜”之说。在《左传》地名用字统计中,“耳”旁在右表“邑”的用字有27个,“耳”旁在左表“阜”的用字有个17个。例如:邯郸、郢、郡。我们尝试部首特征是否可以提高识别率。

实验一、实验二将词性标记分为地名和非地名。并把分类问题转化为序列标注问题,对于地名

外其他词语的词性标为0,而地名标为NS。(例如:于O_S蔑ns_S),实验三、实验四训练语料样例分别如表4-1、表4-2所示。(表中的**表示该字的部首不详,标记符号是词性标记+词位标记,例如:真v S表示:“寞”是个单字动词,该标记参考现代汉语分词规范,地名的词性标记为ns。)

根据不同的要求分别制定了模板一和模板二(如表4-3、表4-4所示),表中以以上语料为例,对各个模板做出说明。

基于以上两个模板,我们对《左传》五分之二语料进行开放测试,给出三个评测指标:准确率、召回率以及调和平均值,见公式(1)、(2)、(3)

准确率R=(正确识别的地名,识别出的地名)100% (1)

召回率P=(正确识别的地名/实际存在的地名)*100% (2)

调和平均值F=((2+1)PR,((2R+P)通常(=l,则F=2PR/(R+P) (3)

实验结果分析:

实验一和实验二的结果表明,添加部首特征并没有提高识别率,于是,我们又进行了实验三和实验四,加入了每个词的词性,分词、词性一体化处理,结果精确率与前两个实验大致相同。召回率有了明显的提高,但是,加部首特征实验相比之下,识别率仍然比较低。原因可能有二:一是部首特征标注不充分,在识别过程中,这样特征不健全的情况,反而没有未提供部首特征的实验效果好。二是许多地名用字没有明显的部首特征,例如许多独体字部首不确定,这样训练和测试语料中出现大量的“**”,此时部首特征反而成了统计中的噪声。此外,在实验三和实验四中,我们做的是分词和词性一体化,但实际操作时,我们只是计算地名的识别效果,因此不能全面的反映所选用的特征的作用,这也可能是影响识别精度的因素之一,我们会在下一步的工作中进行论证。

另外,前两个实验的识别率较后面两个实验低,尤其是召回率。原因在于我们没有提供足够的上下文信息,《左传》地名有较为工整的上下文。不同的词性对地名有不同的影响,而在实验一和实验二中,地名前后的标记都是O,于是标记同化,信息不足,所以取得了较差的成绩。但是,标记同化就相当于单纯的分词,在原始文本中识别地名,人工代价低,下一步,我们会充分利用分词与词性标注信息,挖掘文本中的其他特征,进一步提高识别效果。

4、未来工作展望

我们下一步的工作主要有:

(1)进一步提高识别效果,并用此方法对先秦其他主要文献地名进行识别。

(2)重点放在先秦地名知识库建设方面。

(3)构建先秦历史知识检索系统。

在我们下一步的工作中识别将不是主要问题,虽然电子文献还不完善,但一些出版的古代文献中一般对专名加了标记,如:下划线等。所以,我们将进一步提高识别效果,并利用此方法对先秦其他主要文献地名进行识别,从而挖掘地名知识背景,解决地名层级关系,沿革问题,同名异指和异名同指等问题。以为古汉语信息处理中其他领域的研究奠定基础。

参考文献:

[1]邓慧蓉,从中国地名透视汉族人的思维方式和社会心理,学术交流。2003

[2]王际桐,论我国地名的命名原则,地球信息科学,2001

[3]华林甫,论先秦时期我国地名学的特点,湖北大学学报(哲学社会科学版),1996

[4]周易・系辞

[5]陈克炯,左传详解词典,中州古籍出版社,2004

[6]陈桥驿,论地名重合续,中国地名,1999

[7]闰海,浅析古地名中的“天人合一”现象,辽宁师专学报(社会科学版),2002

[8]陈立中,阴阳五行与中国古代地名学,文化天地年,2005

[9]李丽

SVM与规则相结合的中文地名自动识别,中文信息处理学报,2006

[10]陈春荣,基于SVM的中文地名识别,大连理工大学。2005

[11]郭家清,基于条件随机场得命名实体识别研究,沈阳航空工业学院,2007

基金项目:先秦文献词汇统计研究。南京师范大学211工程重点学科建设项目。

上一篇:让你的文章结尾闪现智慧的火花 下一篇:掠影荧幕硝烟――新中国战争电影述评