扩展知识图谱上的实体关系检索

时间:2022-08-30 10:34:39

扩展知识图谱上的实体关系检索

摘要:现有文本数据集上的实体搜索和自然语言查询方法无法处理需要将分散在不同文档中的信息碎片链接起来以满足有复杂实体关系的查询,而知识库上的查询虽然可以表示实体间的复杂关系,但由于知识库的异构性和不完全性,通常查全率较低。针对这些问题,提出使用文本数据集对知识库进行扩展,并设计相应的含文本短语的三元组模式查询以支持对知识库和文本数据的统一查询。在此基础上,设计并实现了查询放松机制和对结果元组的评分模型,并给出了高效的查询处理方法。使用YAGO、ClueWeb09和其上的FACC1数据集,在三个不同的查询测试集(实体检索、实体关系检索和复杂的实体关系查询)上与两个典型相关工作作了比较。实验结果显示,扩展知识图谱上使用查询放松规则的实体关系检索系统的检索效果大大超出了其他系统,具体地在三个查询测试集上,其平均正确率均值(MAP)比其他系统分别提升了27%、37%和64%以上。

关键词:知识图谱;实体关系检索;实体搜索;三元组模式查询;查询放松

中图分类号:TP391.3 文献标志码:A

0引言

近年来,随着从文本中提取结构化数据的信息抽取技术[1]日益成熟,大规模知识库的构建得到了迅猛发展,产生了许多形形的知识库,如DBpedia、Freebase、YAGO、Wikidata、NELL、Probase、Google KG和Microsoft Satori等[2]。这些机器可读的知识大多被表示成三元组形式的资源描述框架(Resource Description Framework, RDF)数据,描述实体、实体分类以及实体和实体之间的各种关系等,被广泛应用在文本分析、自然语言理解、机器阅读、语义搜索、自然语言问答等各类智能型的应用中。例如,Google、百度、Bing等搜索引擎正积极构建大型知识图谱,并利用知识图谱改善其搜索效果,如生成结构化的结果摘要(rich snippets)、实体推荐、实体搜索和自然语言问答等。

在知识图谱上进行自然语言问答的通常做法是先将自然语言问题理解成确切的结构化查询,如SPARQL(Simple Protocol and RDF Query Language)查询,然后再在知识库上执行该查询而获得确切答案。例如,如果要找出所有影片和它们的插曲,而知识库中又有music_in_film这样一个song类型实体和movie类型实体之间的关系,则可以将此信息需求理解成以下SPARQL查询:

程序前

程序后

然后在知识库(RDF数据集)上执行该查询就可以得到所有影片和它们的插曲。

理解成确切的SPARQL查询的方法查准率高,但查全率却较低。这主要是由于知识库的异构性和不完全性造成的。1)异构性:同一语义在自然语言中有多种表达方式,在知识图谱上同样可以有许多不同的存在方式。例如,有些电影和它们的插曲之间的关系可能不是用一个直接的music_in_film关系表示的,而是存在一个has_soundtrack关系连接电影和其电影原声带,以及一个contains_song关系连接电影原声带和其中的乐曲等。2)不完全性:知识库中的信息是不完全的。规模再大的知识库也有缺失信息,如有些影片和其插曲的信息在知识库中不存在。造成信息缺失的原因有很多种,如信息抽取的精度没达到阈值等。

针对知识库的异构性和不完全性所带来的问题,本文提出使用文本数据来补充知识库的信息,并实现二者的统一查询。不同于一般的实体检索返回实体列表,本文主要考虑的是实体间具有较复杂关联关系的实体关系查询,返回的结果是实体元组列表。具体地,问题定义如下:给定一个知识库和文本数据集,如何查询才能有效满足用户提出的复杂信息需求。

本文的主要工作:1)提出扩展的知识图谱的数据模型,将文本数据和知识图谱融合在一起;2)相应地提出了三元组模式查询,它是对SPARQL查询模型的扩展,结合了模糊匹配和文本检索等功能,可以更有效地对扩展的知识图谱进行查询;3)提出了对查询结果,即实体元组,进行评分和排序的模型,并给出了各种查询放松(query relaxation)的策略和高效的查询执行算法;4)设计实验和已有的一些典型相关工作进行了全面的比较,实验结果证实本文的方法对复杂查询具有很好的检索效果,优于当前最好的相关工作。

1数据模型和查询语言

1.1扩展的知识图谱

在RDF数据表示的知识图谱中有两类数据对象:1)用URI(Uniform Resource Identifier)唯一标识的资源(resources),包括所有实体、类和谓词/属性等;2)各种类型的数值(literals),如数字、字符串、日期等。这里分别用R表示知识图谱中所有资源的集合,L表示所有数值的集合。

定义1知识图谱。一个知识图谱KG是一个三元组的集合:KG(R×R×R)∪(R×R×L)。

三元组的三部分通常分别被称为主语(subject)、谓词(predicate)和宾语(object)。如果主语和宾语都是用URI标识的实体,则谓词表示的是两实体之间的关系,如has_soundtrack、contains_song等;如果宾语是数值,则谓词表示的是主语实体的某种属性,如birth_date等。表1给出了一个知识库的部分示例。为了简单起见,表中显示的是实体和关系的名称而不是它们的URI。

规模再大的知识库也不可能包含所有的信息,总有一些实体、类别、属性或它们之间的关系没有被知识库所捕获。为了解决知识库的不完全性问题,本文提出使用文档集对原知识库进行扩展。具体地,首先,可以使用实体链接方法将文档中的实体出现链接到已有知识库中的实体上,从而从文档集中抽取出更多的实体间的关系,当然这些事实可能已经存在于知识库中,但很多并没有被知识库包含,因而可以补充知识库中的信息。其次,可以使用开放信息抽取(Open Information Extraction, OIE)技术[1]从文本中抽取出由两个名词短语和它们之间的动词、名词或介词短语构成的三元组,其中首尾两个名词短语分别是主语和宾语,连接它们的动词、名词或介词短语是三元组的谓词部分。这样的三元组不同于知识库中的三元组,因为没有URI,三部分都是字符串表示的短语。再使用命名实体消歧(Named Entity Disambiguation,NED)技术[3]将主语和宾语上的名词短语对应到知识库中的实体(有唯一标识的URI),找不到对应实体的名词短语就保留其字符串的表示形式。这样就会得到如表2所示的一些三元组,它们不同于知识库中的三元组在于三元组的主、谓、宾三部分均可以是任意的字符串表示的短语(见表1中加引号部分)。表1和表2的内容合在一起就构成了扩展的知识库。所有记号(即所有可能的URI、字符串短语和各种类型的数值等)的集合记作C,那么扩展的知识图谱可以定义为一个由所有记号构成的三元组的多重集。

定义2扩展的知识图谱。一个扩展的知识图谱XKG是一个三元组的多重集合:XKGC×C×C。

注意扩展的知识图谱被定义为多重集,即允许相同的三元组事实重复出现多次,这通常是由于此事实出现在不同的文档或数据源中从而被多次抽取。保留这种冗余可用于三元组事实的排序,具体见第3章。

1.2三元组模式查询

本文使用类似SPARQL的三元组模式查询语言从一个扩展的知识图谱中更有效地获取信息。本节给出该查询语言的定义。V表示所有变量的集合,每个变量可被一个变量名唯一标识,所有的变量名都以“?”开头。

定义3三元组模式及其匹配。一个三元组模式q是来自集合(V∪C)×(V∪C)×(V∪C)的一个三元组。三元组模式q的一个匹配是知识库中的一个三元组t,其中: q的非变量部分和t对应的部分相匹配,而t中对应于q的变量部分的内容称为对该变量的一个绑定。

例如,?x usedIn KillBill 和 ?x “appears in” “Kill Bill Vol 1”是两个三元组模式,其中第一个三元组模式的主语、谓词和宾语部分分别是变量、关系和实体,而第二个三元组模式的三部分分别是变量、动词短语和名词短语。 q与t对应部分的记号相匹配有两种情况:1)精确匹配,即二者完全相等;2)部分匹配,即q中的记号是t中记号的部分,如“British”是“best British singer”的部分匹配。

定义4查询。一个三元组模式查询Q={q1,q2,…,qn}是一个包含n个三元组模式的集合。查询Q的输出变量集合,记为P(Q),是Q中出现的所有变量集合的子集。

定义5查询结果。三元组模式查询Q的一个结果a是Q中所有变量的绑定所构成的元组。查询结果a在Q中每个三元组模式qi上的匹配是ti,记a(qi)=ti。如果P(Q)不包含Q中的所有变量,则最终输出结果为a在P(Q)上的投影,记为aP。

查询示例1找出英国歌手演唱的插曲和电影。三元组模式查询可以表达如下:程序前

5.1实验设置

5.1.1数据集

本文实验使用的知识库是Yago2(http://),其中的实体来自Wikipedia。Yago2共包含48×106个三元组(44×106个是分类信息,4.4×106个是实体的属性和实体间的关系信息)。另外,FACC1数据集(http:///clueweb09/FACC1/)被用来构造扩展的知识库。ClueWeb09是Lemur研究团队在2009年1月到2月之间爬取的约10亿个Web网页集合,其中大约有500×106个英文网页。FACC1数据集是对ClueWeb09中所有英文网页上出现的Freebase实体作了标注,大概估测的标注精度和覆盖率分别是80%~85%和70%~85%。由于Freebase中的实体可以对应于Wikipedia的实体,继而对应于Yago2中的实体,所以FACC1数据集可以很容易地转化为用Yago2来标注的网页集合。

本文使用一种简单却非常有效的抽取方法从上面介绍的数据集中获得一些由自然语言短语构成的三元组集合。具体地,在标注的页面上获得所有出现在同一句子中并且中间间隔不超过50个字符的实体对,分别作为三元组的主语(subject)和宾语(object),而它们之间的字符串短语作为三元组的谓词。这样从FACC1数据集上共获得了392×106个三元组,其中有65×106个不同的三元组,可看出信息的冗余度还是很大的,而这冗余度可以被用来对三元组进行评分。这些用简易方法抽取出的三元组加上原来的知识库Yago2共同构成了下面实验中所使用的扩展知识库XKG。据估测,这样生成的XKG的精度大概是70%~80%。

另外,本文使用第2章中所描述的谓词改写的抽取方法从XKG中挖掘出大约172×106个谓词与其转述或逆转述对,类似表3中所示,每一对谓词有一个计算出来的改写权重。

5.1.2查询集

因为现有的查询集大多是没有关系条件或最多只有一个关系条件的实体查询,所以本项目在实验中设计生成了一组包含多个实体间关系的复杂查询,例如“找出所有由获图灵奖的人发明的编程语言。”这里涉及了三个实体,“图灵奖”“人”和“编程语言”,它们之间有两个关系相连,“人”获得“图灵奖”,并且“人”发明了“编程语言”。这些复杂查询是通过从XKG中采样出2~4个相互关联的实体而构建生成的。例如,采样出ALGOL、JohnBackus和TuringAward三个相互关联的实体,即可以生成上面的那条复杂查询。下面介绍具体的实体采样步骤。首先,XKG中的知识被分成不同领域,每次采样都在同一领域中进行。本文考虑的采样领域有电影、音乐、书籍、体育、计算机和军事冲突等,每一领域包含一些特定类型的实体。例如,电影领域包括actor、 show、 director、 award和producer等类型的实体。在每个领域中,先基于领域中每个实体出现的先验概率选择一个中心实体(例如ALGOL编程语言)。然后,选择领域中与中心实体联系最紧密的20个实体,实体间联系的紧密程度用Milne和Witten在文献[9]提出的基于Wikipedia链接的度量值来衡量。接下来,在这20个候选实体中,按照一定概率依次选择下一个中心实体,直到选够2~4个(具体数目随机决定)实体为止。选择下一个中心实体的概率值正比于每个候选实体与当前中心实体在XKG中连接的三元组事实数目。得到这样相互关联的2~4个实体之后,人工地去构建一个涉及所有这些实体,并且返回第一个中心实体作为答案的自然语言查询。通过采样生成的复杂查询测试集记为COMPLEX。

另外,本文也在现有的一些公认的查询测试集上进行了实验。首先是Balog和Neumayer从各个查询测试集汇总而成的包含485个实体查询的测试集[10],记为ESQ。从中来自SemSearch ES和INEX LD的测试查询被去除,因为它们和本文实验的测试内容不相吻合。首先,来自SemSearch ES的大多查询仅仅是要查找实体的名字描述,而不涉及任何关系,例如查询“YMCA Tampa”“nokia e73”等;其次,来自INEX LD的测试查询是关键词查询(如“allegedly caused World War I”),其语义模糊且标准答案集有很多噪声(例如Aerial_bombing_of_cities被认为是上面查询的一个标准答案)。去除SemSearch ES和INEX LD之后,ESQ集合还剩255个测试查询,又从中去除了37个含有聚集操作的查询(如“Give me all books by William Goldman with more than 300 pages”“Movies with eight or more Academy Awards”等),因为实验中的所有系统都没有考虑带聚集操作的查询。最后,ESQ包含218个测试查询。不同于COMPLEX中的查询,ESQ中的查询是返回单个实体的查询,而不是返回实体元组。这些查询通常被表示为实体类型(如“EU countries”)或实体类型加上一个实体关系的限制条件(如“movies directed by Francis Ford Coppola”)。

本文使用的第三个测试查询集,记为ERQ[11],包含28个查询。ERQ中的22个查询和ESQ中的查询类似,也是返回单个实体的查询;另外6个查询较复杂,返回实体对。

5.1.3对比系统

实验将本文提出的系统和两个典型的相关工作进行了比较。

第一个系统记为ES,是基于Balog等[13]提出的方法。在此方法中,每个实体被表示为一个结构化文档,其中每个域对应于该实体所属于的实体类型或该实体在Wikipedia中的描述文本。本文实验中使用的是论文中的Model 4,因为该模型在本文的测试数据集上效果最好。因为文献[13]方法面向实体搜索,返回的都是单个实体而不能是实体元组,所以对于测试查询集中一些返回实体元组(即多个实体)的查询,本文为ES系统专门修改成返回单个实体的查询,然后相应地衡量结果相关度。在本文实验中采用了该方法的强制类型符合策略,即答案的实体类型必须符合查询要求的实体类型。本文也实验了没有类型符合约束的版本,但检索效果比有强制类型符合约束的差。另外,本文还尝试将实体在XKG中出现的三元组内容纳入到该实体的结构化文档表示中,但获得了更差的检索效果。

第二个系统记为ERS,是Li等[12]给出的在有实体标注的文本集上进行实体关系查询的方法。在此方法中,实体和实体间关系的查询条件都被表示为一组关键词,评分模型主要依赖于查询条件中的关键词和实体变量或实体变量对在文本集上绑定之间的距离邻近度。在原论文中,ERS只在Wikipedia文档集的子集上且限定在10种类型的实体上进行了实验。在本文的实验中,为了能公平比较,对所有系统使用相同的数据集和查询集,即前两节所述的XKG和三个测试查询集(ESQ、ERQ和COMPLEX)。

本文提出的系统记为XKGERS。本文开发实验了两个版本:一个是没有使用查询放松的XKGERS;另一个是应用了查询放松规则的系统,记为XKGERS+relax。

由于三个比较的系统使用不同类型的查询语言,所以查询测试集中每个用自然语言描述的信息需求被手动地将其翻译成每个系统要求的查询格式。例如,“找出所有由获图灵奖的人发明的编程语言。”被翻译成每个系统所接受的查询如下:程序前

XKGERS:

SELECT ?x ?y WHERE {

?xtypeprogramming_language .

?ytypeperson .

?x"invented by"?y .

?yhasWonPrizeTuringAward}

ERS:

SELECT ?x ?y

FROMprogramming_language?x,person?y

WHERE?x:["won", "turing award"]

AND?x, ?y:["invented by"]

ES:

category:(programming language) text:(programming language invented by turing award winner)

程序后

5.2实验结果与分析

表4~6分别给出了在三个测试查询集ESQ、ERQ和COMPLEX上的实验结果。类似于其他同类工作,本文采用标准的P@5、NDCG(二值相关度)、平均正确率均值(Mean Average Precision,MAP)和召回率(recall)来衡量查询系统的有效性。返回空结果列表的查询,其所有衡量指标为被设为0。

ESQ测试查询集为每个查询给出了相关结果;而ERQ和COMPLEX测试查询集没有给出相关结果,所以本文使用众包机制来获取每个测试查询的相关结果,即每个查询与一个结果的相关度分别由三个不同的人作出判定,然后取多数判定结果为最终结果。不同判定者之间判定一致性的Kappa系数为0.837,说明大家的结论还是非常一致的。在所有测试查询集上使用的是二值相关度,即只有相关和不相关两种情况。对于大多数查询而言,很难获得其所有的相关结果,例如“people born in Spain”等。因而,类似于信息检索系统评测通常采用的池化(pooling)方法,所有系统返回的相关结果被合在一起作为相关结果的全集,从而可以计算NDCG和召回率等衡量指标了。

从表4可看出,对于单个实体的查询,即ESQ测试查询集中的查询,本文的系统XKGERS+relax在各个指标上均超过了其他系统,但是没有应用查询放松的XKGERS却不如另外两个对比系统。主要原因是用户表达查询的方式和知识库中知识的表达方式之间存在很大的差异。例如,查询“Italian Nobel winners”,在XKGERS系统中被翻译成含知识库中的hasWonPrize谓词的三元组模式。这看上去是合理的,但事实上,知识库中只给出了特定诺贝尔奖的获得者,如谓词NobelPrizeInLiterature。在应用了查询放松规则的XKGERS+relax系统中,hasWonPrize谓词被放松为它的一个逆转述谓词“winer”-1,这使得系统可以返回诸如(NobelPrize “winner” EnricoFermi)这样的从文本中抽取出的三元组,从而得到正确的答案。

同时在表4中还可以看到ES和ERS系统的效果非常接近。这是因为对大多数单个实体查询,ERS查询退化成了ES查询,即用一个类型约束和一组关键词来描述目标实体,只是具体的评分模型不同而已。另外值得注意的是对一些单个实体查询来说,基于关键词的检索方法就可以得到令人满意的结果了,例如查询“Formula one races in Europe”“Ratt albums”等。如果让用户把它们表示成结构化的三元组模式查询反而是件困难的事。

ERQ测试查询集共有28个查询,其实验结果如表5所示。其中22个查询类似于ESQ中的查询,也是关于单个实体的查询,不包含实体间的关系;剩下的6个查询是实体关系查询,涉及到多个实体,需要返回实体元组,如查询“Films starring Robert de Niro, and their directors”和“Novels and their Academy Award winning film adaptations”等。当查询条件中的信息恰巧正确地包含在一个文档中时,ES和ERS系统可以返回正确答案。但对于一些看似简单却需要精准地理解实体间关系的实体关系查询,由于ES和ERS系统只是用和关键词的邻近度来判定关系,往往会返回错误结果。例如,ES和ERS系统对查询“football players who were FIFA Player of the Year”返回的答案中包含DavidBeckham和ThierryHenry,但他们仅是被提名该奖项,并未实际获得此奖项;而XKGERS系统由于可以正确确立实体间的关系,所以可以返回该查询的正确答案。

表6给出的是在COMPLEX测试查询集上的实验结果。要正确回答这些查询常常需要集成从多个源获得的知识,并能正确确立查询中实体间的关系。可以看到,对这类查询,XKGERS+relax的表现远远超过了其他系统。

下面一个具体的查询示例可用来解释其中可能的原因。例如,给定查询“Spouses of actors who graduated from an Ivy League university”,翻译成的三元组模式查询为:

程序前

SELECT ?x ?y ?z WHERE {

?x type person .

?y type actor .

?z type university .

?x marriedTo ?y .

?y graduatedFrom ?z .

?z "member of" IvyLeague}

程序后

假设扩展的知识库XKG中存放着如下一些三元组:

程序前

ChristopherReevegraduatedFromJuilliardSchool

ChristopherReeve“went to”CornellUniversity

程序后

另外,预先挖掘出的一些查询放松规则如下:

程序前

(?w graduatedFrom ?z) ( (?w “went to” ?z): 0.066

程序后

可看出,该查询需要的所有信息极少会被包含在同一个文档中,所以 ES系统很难返回相关答案。知识库虽然能够解决这种需要链接不同信息片段的多步查询,但是知识库的信息是非常不完全的,例如graduatedFrom关系在此知识库中就没有覆盖所有可能的实体对。而本文提出的扩展知识库用从文本中挖掘出的文本短语三元组补充原知识库,并使用查询放松规则匹配语义相近的谓词,例如graduatedFrom可以被放松为“went to”。这样就可以返回相关答案:

(DanaReeve, ChristopherReeve, CornellUniversity)

虽然ERS系统也可以回答带有关系的查询,但它使用实体和关系短语在文本中出现的邻近距离来确立实体间的关系,所以会造成很多错误,例如文本中出现了“private and public universities including Ivy League members, MIT, Vanderbilt University, Swartmore College, Cal Berkeley …”,ERS系统会据此确立Swartmore College属于常春藤盟校(Ivy League)的关系,而这是错误的。

综上所述,XKGERS+relax的实验效果大大超出了所有其他比较系统,尤其是在COMPLEX测试查询集上。

最后,分析一下XKGERS+relax系统的局限性。该系统在一些查询上失败(即没能返回正确的结果)的原因主要有两大类:错误的事实知识和由查询放松造成的语义漂移。错误的知识主要来源于实体标注中的错误和本文使用的过于简单的三元组事实抽取机制。一般情况下,这些错误的知识的出现频率较小,因而与三元组模式匹配的得分较低,通常不会被返回。但对于一些正确答案很少的查询可能会造成问题。系统的另一类错误来源于由查询放松造成的语义漂移。同样,受这类错误影响最大的是那些正确答案数小于5的查询。

6结语

针对现有的实体检索和知识图谱上的查询系统的不足,本文着重研究了如何利用带实体标注的文本集扩展知识库来进行复杂的实体关系查询的方法。首先不同于现有的实体检索系统,本文着重研究带复杂关系的查询,返回的是实体元组的列表而不仅是单个实体的列表;其次不同于已有的知识图谱上的查询系统,本文提出使用带实体标注的文本集来扩充原有的知识库,从而在一定程度上克服知识库固有的不完全问题,并能弥合一部分知识表示和自然语言表示之间的距离。相应地,本文提出了查询放松机制和评分模型以及高效的topk查询处理方法;最后,本文用实验验证了该方法的有效性。

在此基础上,本项目进一步的研究工作包括实验更复杂、更精确的事实抽取方法,研究更完善和详尽的查询放松机制,设计更合理有效的评分模型,研究该方法的应用实例。有关应用实例,此方法会为记者或一些内容分析员(如市场分析员)提供有效的帮助,他们常常要通过分析大量的文本数据来获取、发掘或验证(证实或证反)相关实体间的一些复杂关系。

参考文献:

[1]

MAUSAM第一作者就只有一个词, SCHMITZ M, SODERLAND S, et al. Open language learning for information extraction [C]// Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Stroudsburg, PA, USA: Association for Computational Linguistics, 2012: 523-534.

[2]

HOVY E H, NAVIGLI R, PONZETTO S P. Collaboratively built semistructured content and artificial intelligence: the story so far [J]. Artificial Intelligence, 2013, 194: 2-27.

[3]

HOFFART J. Robust disambiguation of named entities in text [C]// Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2011: 782-792.

[4]

GABRILOVICH E, MARKOVITCH C. Computing semantic relatedness using Wikipediabased explicit semantic analysis [C]// Proceedings of the 20th International Joint Conference on Artificial Intelligence. San Francisco: Morgan Kaufmann Publishers, 2007: 1606-1611.

[5]

GALARRAGA L A, TEIOUDI C, HOSE K, et al. AMIE: association rule mining under incomplete evidence in ontological knowledge bases [C]// WWW 2013: Proceedings of 22nd International World Wide Web. New York: ACM, 2013: 413-422.

[6]

ZHAI C, LAFFERTY J. A study of smoothing methods for language models applied to Ad Hoc information retrieval [C]// Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2001: 334-342.

[7]

FAGIN R, LOTEM A, NAOR M. Optimal aggregation algorithms for middleware [J]. Journal of Computer and System Sciences, 2003, 66(4): 614-656.

[8]

ILYAS I F, BESKALES G, SOLIMAN M A. A survey of topk query processing techniques in relational database systems [J]. ACM Computing Surveys, 2008, 40(4): Article No. 11.

[9]

THEOBALD M, SCHENKEL R, WEIKUM G. Efficient and selftuning incremental query expansion for topk query processing [C]// Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2005: 242-249.

[10]

MILNE D, WITTEN I H. Learning to link with Wikipedia [C]// Proceedings of the 17th ACM Conference on Information and Knowledge Management. New York: ACM, 2008: 509-518.

[11]

BALOG K, NEUMAYER R. A test collection for entity search in DBpedia [C]// Proceedings of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2013: 737-740.

[12]

LI X, LI C, YU C. Entityrelationship queries over Wikipedia [J]. ACM Transactions on Intelligent Systems and Technology, 2012, 3(4): Article No. 70.

[13]

BALOG K, BRON M, DE RIJKE M. Query modeling for entity search based on terms, categories, and examples [J]. ACM Transactions on Information Systems, 2011, 29(4): Article No. 22.

Background

This work is partially supported by the National Natural Science Foundation of China (61202331, 61532010, 61170013, 61170012).

WANG Qiuyue, born in 1974, Ph. D., lecturer. Her research interests include database, information system, information retrieval, knowledge base, question answering.

QIN Xiongpai, born in 1971, Ph. D., lecturer. His research interests include high performance database system, big data analysis, information retrieval.

CAO Wei, born in 1975, Ph. D., lecturer. Her research interests include high performance database system, self management and tuning of database system, flash database.

QIN Biao, born in 1971, Ph. D., associate professor. His research interests include probabilistic databases.

上一篇:例谈有效语法教学的途径 下一篇:运营商大数据在旅游行业应用探索研究