时间:2022-10-10 02:07:53
摘 要 该文提出了藏文问答系统中答案抽取的算法,即采用了基于相同词汇的句子相似度算法和基于关键词的相似度算法相结合的算法来抽取最佳的答案。
【关键词】相似度 答案抽取 关键词
1 引言
目前,国内外有很多相对成熟的英文问答系统和中文问答系统,但到目前为止还没有藏文问答系统方面的研究成果,所以研究这方面的内容是很有必要的。
2 藏文问答系统中答案抽取方法
2.1 关键词
由于藏文自身特点,藏文的词和词之间没有任何分割符号,例如:藏文句子中的单词之间没有分割符号。因此,相似度计算首先要进行分词及词性标注,那样相似度的准确度更高。任何藏文句子都是由关键成分、修饰成分和语法成分(格助词、虚词)构成。例如藏文句子中的关键成分是{, ,},修饰成分是{},语法成分是{ ,,}等。其中,关键成分{,,}是句子的主干部分,起主导作用,包括主语、谓语和宾语,一般情况下,名词或代词作为句子的主语或宾语,动词或形容词作为谓语。修饰成分{}是句子的修饰部分,包括定语、状语、补语。在获取句子的主要内容时,只需获取句子的关键成分{,,}。因此,作为答案抽取的关键词由问题中的名词、代词、动词、形容词组成。
2.2 基于相同词汇的句子相似度计算
通过计算句子中出现的相同关键词的数量占两个问题中关键词数量的比值来计算相似度。公式如下:
这种方法虽然比较简单、直观,但它只是机械地统计相同词汇的比重,无法识别同义词,对同义词之间的替换能力产生了局限,当两句中出现大量同义词而表意相似时,该算法难以达到预期效果,需要进行更深层次的研究。
2.3 基于关键词的相似度计算
这种计算方法主要采用空间向量模型进行计算,只是对句子进行分词处理后,把句子看成词的线性序列,根据句子中的单词出现的频率等相关信息来计算句子的相似度。在向量空间模式中,把两个句子之间相互匹配的问题转化为向量空间中两个向量之间相互匹配的问题,两个句子的相似度可以用两个空间向量之间的夹角来衡量,夹角越小相似度越高。公式如下:
我们把句子看成是由许多相互独立的单字所组成,两个句子进行分词和去除一些冗余信息后,得到S1和S2的关键词序列构成的向量空间分别为M1={M1,M2M3,….,Mn} 其中M1为句子S1和S2的关键词,再为句子S1设定一个向量X={x1,x2,x3,...,xn},其中xi代表关键词Mi在句子S1中出现的次数,为句子S2设定一个向量Y={y1,y2,y3,…,yn},其中yi代表关键词Mi在句子S2中出现的次数,
例如:
根据藏文句法结构和词汇的不同,有时候算法1的相似度比较高,有时候算法2的相似度比较合适,所以本文采用基于相同词汇的句子相似度计算和基于关键词的相似度计算相结合的算法来抽取最佳的答案。
2.4 基于相同词汇的句子相似度算法和基于关键词的相似度算法相结合的算法
本算法采取算法1的百分之三十和算法2的百分之七十,公式如下:
相结合法=算法1*30%+算法2*70%。三种算法的结果比较如表1。
实验结果表明:三种测试的准确率和召回率相对比较低,原因是没有考虑到句子的语义信息,该系统还对解决实际问题还未考虑周全,有待进一步完善。虽然目前该系统还不够完善,但是已经为中小学藏语文问答系统中答案抽取的研究奠定了一定的理论基础,该方法完全可行。
参考文献
[1]余正涛,邓锦辉,韩露,毛存礼.受限域FAQ中文问答系统研究[J].计算机研究与发展,2007,44(sl):579-586.
[2]安见才让.藏语句子相似度算法的研究[J].中文信息学报,2011,25(4):110-114.
作者单位
青海民族大学 青海省西宁市 810007