基于多层次特征集成的中文实体指代识别

时间:2022-10-04 04:54:54

基于多层次特征集成的中文实体指代识别

摘 要:实体指代识别(Entity Mention Detection,EMD)是识别文本中对实体的指代(Mention)的任务,包括专名、普通名词、代词指代的识别。本文提出一种基于多层次特征集成中文实体指代识别方法,利用条件随机场模型的特征集成能力,综合使用字符、拼音、词及词性、各类专名列表、频次统计等各层次特征提高识别性能。本文利用流水线框架,分三个阶段标注实体指代的各项信息。基于本方法的指代识别系统参加了2007年自动内容抽取(ACE07)中文EMD评测,系统的ACE Value值名列第二。

关键词:计算机应用;中文信息处理;实体指代识别;多任务标注;条件随机场模型;ACE评测

中图分类号:TP391 文献标识码:A

1 引 言

实体指代识别(Entity Mention Detection,EMD)是识别文本中的引用实体的指代的任务,文本中实体的指代识别可用于文本摘要,机器翻译,信息抽取,自动问答系统等。EMD任务要求识别的信息有多项,包括所引用实体的类别(Entity Class)、类型(EntityType)和子类型(Entity Subtype),指代的类型(Mention Typc,即引用方式)等。自动内容抽取(ACE)评测定义了3种实体类别(SPC,USP,GEN)、7种实体类型以及44种实体子类型。

实体指代识别任务的解决方法一般基于统计学习模型,将指代识别任务转化为序列标注或序列分类任务,已有应用的统计学习模型有支持向量机(Support Vector Machine,SVM)、最大熵,(MaXimum Entropy,ME)、隐马尔可夫模型(HiddenMarkov Modcl,HMM)、Co-Training机器学习方法等。条件随机场模型(Conditional RandomFields,CRFs)适用于序列标注问题,在命名实体识别任务中性能出色。Florian等基于最大熵模型构建的实体识别系统取得ACE05 EMD评测的最佳性能。Hacioglu、DaumeIIT等分别基于SVM模型和HMM模型进行实体指代识别,并在ACE04、ACE05的相关评测中取得了不错的成绩。针对EMD多任务标注的本质,Florian等对比了All-In-One方法、流水线方法和联合建模方法,试验结果表明流水线方法的在实现和系统性能上都占有优势。

本文提出一种集成多层次特征的实体指代识别方法,利用CRFs模型整合不同层面特征的能力,设计了多种类型的特征,除了常见的字符、词、词性、专名列表等特征外,还使用了字符的读音特征、同义词词林中的同类词信息等,并尝试加入了词频、词的N-gram共现频数等基于频次统计的特征提高实体指代标注的性能。借鉴Florian的工作,采用流水线方式分三个阶段依次对实体指代进行识别和标注,每个阶段均基于CRFs模型,最后将三个阶段的标注结果合并。在ACE07的评测数据上验证了本文方法的有效性。

本文第2节介绍基于CRFs模型的多任务标注方法;第3节描述本文使用的多层次特征;第4节给出实验结果;在第5节分析实验结果并得出结论。

2 基于CRFs的多任务标注

文献中提出的条件随机场模型对输入序列和标注序列的条件概率建立模型,本系统基于一阶线性CRFs模型,使用CRF++(v0.47)作为线性条件随机场模型的实现。

由于EMD的标注是多任务的,使用一个标注模型难以处理众多标签以及标签之间的依赖关系。在单一模型标注的系统中,每个标注单位的类别空间是各个子任务类别空间的内积,全部标签多达793个。过多的标签造成模型的训练和测试的计算困难。借鉴Florian等的工作,本文对指代识别任务进行分解,分三个阶段以预先定义的次序逐步标注指代的各项信息。首先使用B-I-O标注字符序列中的实体指代,同时标注字符所在的指代的实体类别;第二阶段在之前标注的基础上标注指代的实体子类型;第三个阶段同样在第一阶段标注的基础上识别实体类别(Class)和指代类型;由于第一阶段标注出了输入序列中的实体指代,第二和第三阶段的标注单位可以转变为指代或非指代的词。后面两个阶段的标注还能够利用之前标注的实体类型信息,比如将实体类型作为特征进行后续模型的训练和测试。由于第二和第三阶段标注都在第一阶段的标注结果上进行,可并行进行。

阶段的划分和子任务分配考虑了指代识别中各类标签之间的依赖关系以及标签的数量。首先实体子类型受限于实体类型,子类型较多,适合在标注了实体类型之后单独进行;实体类别和指代类型较少,都只有3种,二者与实体类型的依赖关系不明显,每个类别的实体都定义了相同的实体类型和子类型以及指代类型,因此将实体类别和指代类型的标注合并。

三阶段标注完毕后,合并各阶段的标注标签,得到指代识别系统的最终输出结果。

3 模型特征

标注系统的性能很大程度上取决于训练和测试模型使用的特征。本系统除了使用常用的字符、词、词性、专名列表等特征外,还使用了读音、词类别等特征,并尝试了词频、词的N-gram频数等带有全局信息的特征。为论述方便,本文将系统使用的特征分为四类依次描述,分别是字符相关的特征、词相关的特征、列表特征和基于频次统计的特征,重点介绍其他系统没有使用过的特征。

3.1 字符相关特征

字符相关特征包括以当前字符为中心一定宽度的字符窗口内的单个字符、字符的bigram、汉字读音等。Zhao Hai等在基于CRFs模型的中文分词中使用了汉字的音调作为特征,提高了分词性能。受此启发,考虑到语料中有些外国人名、地名等的中文表述常常会使用读音相同的不同字,以及外文人名的不规范译法等现象,本文将汉字的读音也作为一种特征。例如人名“伊丽莎白”,还有写法“伊利莎白”,拼音特征赋予了同音字符相同的特征,从而可以处理这种现象。由本系统使用一个去掉了声调标注的汉字读音表,包含6772个常用汉字的读音,每字一音,多音字使用最常用的读音。

3.2 词相关特征

定义当前字符所在的词为当前词,本系统在当前词和当前词前后各两个词的5词窗口内提取词相关的特征。首先使用BMES策略提取每个字符在词中的位置作为特征,S表示字符是单字词,B表示字符是多字词的首字,E表示是尾字,M表示非首字也非尾字。其次,将窗口内的词作为特征。再次,提取词性特征。

实体是由单个词或多个词组成,词相关特征的对实体识别有很大帮助。本系统使用东北大学自然语言处理实验室的中文信息处理工具CIPSDK,进行中文分词和词性标注处理。

3.3 列表特征

列表特征是实体信息识别任务上常用的特征, 完备的专名词典往往对于指代识别系统的性能有较大提升。本文使用的列表有,专名的前引导、后引导词列表、专名前后缀列表、指代人的同类词列表(PERN)、各类型实体专名列表、中文人名姓氏列表等;其中前后引导词、专名前后缀列表来源同文献PERN来自同义词词林,包括指代人的各类名词,如按职业的指代名词“教师”等,按头衔的“部长”等,期望此类特征对NOM类型的实体指代有帮助。各类型实体专名列表借助互联网人工收集,然后按照ACE07的实体类型和子类型定义建立各类专名列表,涵盖了主要实体类型以及子类型,包括世界各国名、各国行政区划表、地域名称、中外人名、组织结构名称等专名列表。

3.4 基于频次统计的特征

文本中的实体指代,不论是专名还是普通名词,常常多次出现,因此文档中多次出现的名词是实体指代的可能性较大。另外有很多实体指代,尤其是对组织结构的指代,往往由多个词组成,因此文档共现多次的词的组合是实体指代的可能性较大。本系统使用的基于频次统计的特征有两类:一是本文档内词的频次,二是词的N-gram的频次。上述两种统计数据通过划分等级的方法进行离散化,词频和词的N-gram频次分为出现一次、出现两次、出现三次和出现多于三次四个取值。这种基于文档内频次统计的特征不局限于在长度的窗口内提取特征,带有一定的全局信息。

4 实 验

4.1 实验数据

本文使用ACE07的官方提供的训练数据和评测数据对系统的性能进行了评价和测试。训练数据共633个文档约30万词(1.5个字符记为1个中文词),共34233个实体指代。测试数据共256个文档约5万词,其中有16214个实体指代。训练数据和评测数据中各类型实体指代的分布见表1。

4.2 评测方法

本系统每个步骤的中间标注结果和对系统最终结果的评测采用了不同的评测方法;首先,系统三个阶段的标注结果使用NER任务中通用的评测工具CoNLL eval,得到系统结果的精度(Precision),召回率(Recall)和F值(F-Measure)等。系统的最终识别结果由ACE 2007评测的官方评测工具ace07_eval(1.1a版)进行评测,其评测的主要结果是ACEValue以及基于Value的精度、召回率和F1值等。基于Value的精度、召回率和F1值等是在使用不同的权重对不同实体类型的指代错误次数进行了惩罚后计算。

4.3 实验结果

本文确定仅使用不包括汉字拼音的字符特征的系统为baseline系统,没有借助工具或列表等。在baseline基础出上逐步加入其他特征,观察这些特征对第一阶段标注的作用。表2列出了实验结果,其中,实验1-9是逐步加入各特征的性能,实验10是使用全部特征的标注性能。

系统的第二、第三阶段标注,使用的特征与第一阶段标注特征类似,本文仅给出这两个阶段的标注性能数据,见实验11-12。

三个阶段的标注完成后,系统将各个阶段的标注合并,生成系统的最终结果。ACE07EMD评测共有国内外7家研究机构参加,表3给出的是评测前三名的系统性能。在ACE Value的评测指标上,本系统名列第二。本系统的ACE Value值与最佳性能的有1.3%差距,基于Value的召回率和F1值最高。

4.4 实验结果分析

通过特征的对比实验(实验1-9)可以发现,本文选取的特征对baseline的性能都有不同程度的提高。对baseline性能提高幅度最大的是列表特征,F1值比basiline提高2.83%,比实验2的系统提高1.50%;拼音特征对实验2的系统性能有0.37%的提高,对比加入拼音特征前后的识别结果发现,加入拼音后确实帮助系统识别出了某些原本不能正确识别的人名以及地名,尤其是外国人名地名。基于频次统计的特征的作用也比较明显,词的N-gram频次特征对比实验4,F1值高了0.26%;词的N-garm频次特征可以修复通过对测试结果文件的分析表明词的bigram以及trigram频次特征对于被分词切碎的外文人名的识别作用明显,比如“布拉切特”,分为四个词,在文档中同样的切分序列共现三次以上,使用了词的N-gram特征后这样的实体指代可以被识别。

本系统的ACE Value值低于官方最佳结果1.3个百分点,但本系统基于ACE Value的F1值最高。ACE Value是系统正确识别的实体指代的得分总和,基于ACE Value的F1值是系统输出的精度、召回率等比率的综合考察,二者的不一致反映了本系统没有侧重识别错误惩罚权重大的实体指代。

系统的识别错误主要类型为长实体被切散,比如“副总检察长”切分成两个词,也会被系统识别成两个实体。首先是因为ACE对实体指代的定义并没有考虑中文的分词标准,最明显的例子是“其中”这个词,如果上文中列举引用了多个实体,则这个词中的“其”字就是一个PRO类型的实体指代;另一个方面适合实体指代识别任务的分词工具应该使用倾向于短词切分的分词标准,这样可以增强指代标注模型对多个词组成的实体指代的识别能力。

5 结 论

多任务标注的本质使得EMD比专名识别任务更具挑战性。本文提出基于多层次特征集成的中文实体指代识别方法,使用CRFs模型融合字符、汉字拼音、词和词性、专名列表、频次统计等各层次特征,以流水线的处理方式分三个阶段标注实体指代的各项信息,最后合并各阶段的标注结果得到完整的系统输出。本文在ACE07的评测数据上考察了各类特征的作用,实验结果显示了本文中描述的各类列表以及分词和词性标注处理对实体指代识别系统的性能有显著提升。本文还使用了汉字拼音特征、基于频次统计等特征,提高了系统的性能。基于这种方法的中文实体指代识别系统参加了ACE07中文EMD评测,系统的ACE Value排名第二,与评测的官方最佳结果的差异不显著,且基于ACE Value的F1值最高。

下一步,基于对目前的指代识别系统的错误分析,将研究适合实体指代识别任务的分词标准和方法,并尝试引入指代消解技术提高系统对NOM、PRO等类型指代的识别能力。

上一篇:藏文编码字符集的扩充集在Linux上的实现 下一篇:中文事件抽取技术研究