基于问答式语义检索系统中对用户提问处理研究

时间:2022-09-09 05:02:24

基于问答式语义检索系统中对用户提问处理研究

摘 要:基于法律框架网络问答系统旨在以法律框架网络本体为基础,选择法律领域作为研究对象,进行问句处理的研究,探索新型的问答系统设计技术,来满足用户准确检索信息的需求。本文首先利用依存关系表示查询问句的句法关系,然后将问句与模板库中的模板进行匹配,以确定问句配价模式,从而实现对查询问句的框架语义标注,为下一步基于问答的框架语义检索系统的设计奠定基础。

【关键词】法律 问答系统 问句处理 依存关系

1 引言

问答式信息检索是一种允许用户以自然语言方式询问,系统从单语或多语文档集中查找并返回确切答案或者蕴含答案文本片断的新型信息检索的方式。随着人们对快速、准确地获取信息的需求不断提升,作为信息检索系统的一种高级形式的问答系统(Question Answering System, QA)便应运而生了。它能用准确简洁的自然语言来作答用户使用自然语言所提出的查询问题,因此能够很好的满足用户的信息需求。基于此,问答系统正逐步成为自然语言处理和人工智能学术界研究的一个新的热点。

目前,问答系统虽有用自然语言回答用户自然语言提问的优点,但是依然不能像人那样能够灵活自如地回答各种问题。因为它的准确率相对比较低,缺少对问题的深层语义理解,同时也不能结合上下文的特定语义环境及其联系来辅助理解问题的真正含义。因为汉语作为一种语义型语言,它同时涉及词法分析、句法分析、语义理解等。问答系统由于在汉语的这些基础处理上没有取得突破性的进展,同时又缺少包含了语法、语义词典等的中文语言学资源和相关生熟语料,所以问答系统的快速发展受到了严重制约。

这里我们所设计开发的是基于法律框架的网络问答系统,原理是利用事先构建好的框架库、词汇库、例句库等知识库,依赖于框架及框架之间的关系及语义类型限制,以语义标注的法律语料库为受限领域,实现基于用户的自然语言提问的语义匹配检索,最终给出用户真正有用、精确、简洁的答案。这将在一定程度上解决问答系统中纯粹的字面匹配、显式匹配等问题。

2 基于法律框架网络问答系统的问句处理

从系统的设计与实现来看,问答系统一般由问题分析、信息检索和答案抽取三个主要部分组成。问题分析模块的效果对系统后面的处理有着重要影响,该模块通过句法依存分析,对用户的提问进行分类,抽取关键词并生成问句配价模式。检索模块则根据问题分析模块生成的查询问句配价模式,用语义检索的方式到资料库中检索出和提问相关的信息。答案抽取模块则要对检索模块检索出的相关段落、句群、句子进行提炼,从而依据语义匹配的规则确定与提问答案类型一致的实体,把相似度最大的候选答案返回给用户。

自然语言中,回答复杂问题的能力依赖于可用的语义表示的深度及其它们支持的推理机制。所以说,问答系统建设的关键在于对问句的处理。本系统根据用户问句的特点构建面向问句分析的专门语义框架--Q框架,将问句所包含的框架抽象为:事件、性质状态和属性框架。借助Q框架鉴别输入问句的框架元素及框架间的关系,来分析提问;并且根据分析结果归纳侯选的可能答案。

2.1 问句的句法依存分析

句法分析(Parsing)是指在给定文法下分析自然语言的层次结构,现在主要应用于中文信息处理中。通过分析我们得到问句中各个词之间的依存关系和关系类型,然后生成对问题分类所需的特征项。通过比较查询问句与模板的句法依存关系,来捕获双方共同关注的焦点,进一步分析其他词语关系类型。

依存文法的句法结构的主要元素是依存关系(dependency relationship),即句子中词对的二元关系,其中一个记为核心词(head),另一个记为依存词(dependent)。依存关系反映的是核心词和依存词之间语义上的依赖关系。通过比较语词间的依存关系,我们可判断决定问句类型的语义焦点。

2.2 问句词语的语义类型的处理

通过对用户的自然语言提问进行分词、赋予词性、去除停用词,给处理后的问句的词语增添语义类型,存储到系统的问句数据库中。我们将陈述和说明的对象、动作施事和受事的名词和名词短语作为问题的焦点,我们依据法律领域的事物分类特点及系统设计要求,结合汉语框架网络问答系统的问句词语的语义类型,把问句词语类型分为感知者(Sentient)、组织(Organization)、时间(Time)、地点(Place)、数量(Quantity)、物品(Material)、褒义(Positive)、抽象(Abstraction)和其它类型。用户根据选定的若干法律文本进行提问,我们利用哈工大信息检索研究室的LTP对用户提问进行自动处理,提取问句的分词信息,据此确定问句中词语的语义类型。

2.3 问句的句法和语义分析

我们将句法依存树表示问句的句法关系用数组进行表示,通过查询数组的内容项做相应处理。规则如下:

规则1:如问句的词语与父结点的关系为“MT”,则不将其做为配价模式的语义成份;

规则2:如问句的词语与父结点的关系为“APP”,则不将其做为配价模式的语义成份;

规则3:如问句的词语与EOS具有“HED”关系,则将其做为目标词;

规则4:如与目标词为上位词(两者是“parent”关系)的词语做为基本框架元素。

…………………

根据以上规则,确定这些语词是否做问句配价模式的成份,从而形成初步的配价模式。我们采用哈工大信息检索研究室的依存句法分析技术,对问句进行句法分析(并去除停用词)。其中,箭头由父结点指向子结点,弧指向的词(依存词)依存于弧发起的词(核心词)。如果两个词之间有弧相连,表示两者之间存在依存关系。在图1的例子中,“哪家”和“检察院”之间用弧相连,“检察院”依存于“哪家”;“进行”和“批捕”之间用弧相连,“进行”依存于“批捕”,弧上的标记HED、ATT、SBV、ADV、POB、VOB表示关系的类型,例如, HED (head)表示句子的核心,ATT(attribute)表示定中结构, SBV(subject-verb)表示主谓关系,ADV(adverbial)表示状中结构,POB(preposition-object)表示介宾关系,VOB表示动宾关系,特殊符号Root支配全句的核心成分,通过HED、SBV、POB、VOB可以找到句子的主干。除此之外,还有数量QUN(quantity)、附加ADJ(adjunct)、同位APP(appositive)等依存关系类型。

2.4 提取问句特征信息

在对问句进行了句法分析之后,我们根据基于法律框架网络的语料语义标注规则对问句的句法依存分析的深度进行了相应的调整,对其中的部分词语分别做去除、捆绑处理。之后,我们提取问句的特征信息,包括句子的核心词,依存成分的短语类型及语法功能,为下一步的语义分析做准备。仍以上句为例,由HED关系,分析出句子的核心词为动词“批捕”,它作为控制项与句中的其它词形成依存关系。然后查找其余每个短语(词)的短语类型(词性)和其作为依存成份与其核心词之间的依存关系类型。依此类推,在依存关系树中次级节点的依存项,直到最下面的结点。最后,将所得的短语类型及语法功能与我们法律框架网络管理系统中的短语类型(PT)及语法功能(GF)符号体系相对应,生成与语料标注符号体系相一致的问句特征的表示形式。

2.5 问句语义配价模式的认定

问句语义配价信息的确定需要利用法律框架网络本体库中由已知例句的句法和语义信息组成的配价库,通过问句信息与配价库信息的匹配来完成。这一过程可以分两步来进行。首先,将用户查询问句的句法配价信息与配价库中的句法配价信息匹配,两者的相似度满足一定值时,就将此问句的句法配价信息归为配价库中的这个句法配价模式。第二步,对于配价库中具有该句法配价信息的记录,如果它与问句的句法信息唯一匹配,则将此记录的语义信息赋予问句,即给问句的特征成份标注框架元素。如果不是唯一匹配,则需依据一定的算法进行语义信息(框架元素)的判定。

3 结论与展望

通过测试,我们所设计问答系统利用依存关系能够较好地给单一问句赋予配价模式,这大大减轻了标注人员的工作强度,提高了标注的速度和准确性,为进一步的语义检索研究奠定了良好的基础。但是我们也认识到由于汉语具有高度的复杂性,一些方法难以充分发挥它们的适用性,例如,SVM方法有较好的适应性,但是如果想要得到较高的分类精度就需要大量的训练数据和仔细选择的分类特征。所以我们下一步将继续研究大量的汉语语料的各项特征,进一步改进问句处理系统的性能。

参考文献

[1] 林鸿飞,丁洪文,杨志豪,赵晶.基于概念和统计的问答系统实现机制[J].大连理工大学学报,2006(3):280-285.

[2] 冯志伟.机器翻译研究[M].北京:中国对外翻译出版公司,2004:412-413.

[3] 文勖,张宇,刘挺,马金山.基于句法结构分析的中文问题分类[J].中文信息学报,2006(2):33-39.

作者单位

山西大学MBA教育中心 山西省太原市 030006

上一篇:农村信息化建设要速度更要实惠 下一篇:步态时间序列的神经网络模拟和混沌检测