中文异构百科知识库实体对齐

时间:2022-10-09 12:05:35

中文异构百科知识库实体对齐

摘要:针对传统实体对齐方法在中文异构网络百科实体对齐任务中效果不够显著的问题,提出一种基于实体属性与上下文主题特征相结合的实体对齐方法。首先,基于百度百科及互动百科数据构造中文异构百科知识库,通过统计方法构造资源描述框架模式(RDFS)词表,对实体属性进行规范化;其次,抽取实体上下文信息,对其进行中文分词后,利用主题模型对上下文建模并通过吉布斯采样法求解模型参数,计算出主题单词概率矩阵,提取特征词集合及对应特征矩阵;然后,利用最长公共子序列(LCS)算法判定实体属性相似度,当相似度位于下界与上界之间时,进一步结合百科类实体上下文主题特征进行判定;最后,依据标准方法构造了一个异构中文百科实体对齐数据集进行仿真实验。实验结果表明,与经典的属性相似度算法、属性加权算法、上下文词频特征模型及主题模型算法进行比较,所提出的实体对齐算法在人物领域和影视领域的准确率、召回率与综合指标F值分别达到97.8%、88.0%、92.6%和98.6%、73.0%、83.9%,比其他方法均有较大的提高。实验结果验证了在构建中文异构百科知识库场景中,所提算法可以有效提升中文百科实体对齐效果,可应用到具有上下文信息的实体对齐任务中。

关键词:

知识库;实体对齐;主题模型;资源描述框架模式;最长公共子序列算法

中图分类号: TP391.1 文献标志码:A

0引言

语义网[1]提供一种在不同应用和个体间共享和重用数据的整体框架,是Web 3.0的重要特征。目前万维网主要面向文档,供人直接阅读和理解;语义网则主要面向文档所表示数据,使计算机能够理解并通过推理引擎进行逻辑演算,是人工智能的重要目标。语义网的建立需要高质量的知识库作为数据支撑。目前,国外具有代表性的知识库有FreeBase[2]、DBpedia[3]、维基百科本体知识库(Yet Another Great Ontology,YAGO[4])及Omega[5]等;国内的知识库有百度知心、搜狗知立方及清华大学双语知识库XLore[6]。知识库在知识图谱、智能语义问答及信息融合等自然语言处理领域均有重要意义[7]。国外的知识库如FreeBase等提供了公开的资源描述框架(Resource Description Framework, RDF)数据源,但所含中文数据量较少,如何构建高质量的中文RDF知识库是目前的研究热点。

实体(Entity)是指客观存在并可相互区别的事物,包括具体的人、事、物、抽象的概念或联系,知识库中包含多种类别的实体。实体对齐(Entity Alignment)也被称作实体匹配(Entity Matching),是指对于异构数据源知识库中的各个实体,找出属于现实世界中的同一实体。随着中文网络百科的不断完善,可以从网络百科页面抽取出实体,并对不同来源的实体进行对齐,构建高质量的中文异构百科RDF知识库[8]。百度百科与互动百科所包含的实体信息覆盖面广,更新及时,因此,如何从网络百科数据中抽取出实体信息并进行实体对齐,是构建中文RDF知识库的关键问题。实体对齐常用的方法是利用实体的属性信息判定不同源实体是否可进行对齐,由于网络百科数据属于用户原创内容(User Generated Content,UGC)类型[9],不同用户编辑的数据质量参差不齐,仅通过用户编辑的实体属性信息难以准确判定是否为同一实体。本文根据网络百科具有实体上下文的特性,提出一种基于主题模型的中文异构百科知识库实体对齐方法,通过挖掘实体上下文潜在语义信息,对实体上下文进行主题建模,完成实体对齐任务。实验验证所提方法能够有效提升实体对齐准确性,对具备上下文信息的实体对齐任务有良好通用性。

本文主要工作如下:

1)利用中文异构数据源百科类网站,构建中文百科知识库,提出异构数据源百科知识库进行实体对齐的方法,该方法能够有效地对来自于异构数据源百科知识库中的实体进行对齐。

2)结合实体结构化数据与非结构化数据,提出了适用于具备上下文信息的实体对齐方法。

3)构造了中文百科类实体对齐标准数据集,对数据集中需要对齐的实体进行了人工标注并进行了大量实验。同标准的实体对齐方法进行对比,实验结果表明本文提出的算法可以有效地对具有上下文信息的实体进行对齐。

1相关工作

目前实体对齐方法的研究主要分为以下3个方面。

1)基于OWL语义。

网络本体语言(Web Ontology Language, OWL)用于对本体进行语义描述。文献[10]中利用反函数及启发式算法结合上层语义信息(如owl:sameAs等)对实体进行推理,判断不同来源的实体是否可以进行对齐。文献[11]中利用Freebase中实体分类信息对问句中的实体,通过迭代模型和判别模型与知识库中的实体进行对齐。基于OWL语义的方法要求数据集本身具有完备的语义信息,而网络百科类的实体由用户定义,不同编辑者对同一事物的属性定义并不严格,不具有完备的上层语义信息。

2)基于规则分析。

文献[12]中通过在具体应用场景中制定特殊规则,通过规则及评价函数的方法对实体的含义进行消歧。此种方法在具体应用领域准确率较高,但由于换一个场景需要重新制定规则,存在一定局限性。百科类网站中覆盖多领域实体,需要针对不同领域实体制定规则并对各领域规则进行验证,因此此类方法不具有通用性。

3)基于相似度理论判定。

文献[13]中基于属性值的分布给属性赋予权重,然后用加权后属性的相似度来进行实体对齐,但是百科类网站实体的属性类型众多,单个实体属性分布稀疏,属性值较少的属性权重很低,导致该方法对如中文名等通用属性的依赖程度较高,难以满足网络百科类实体对齐任务。

综上分析,中文网络百科不具备完备本体信息,并且包含实体领域众多,所以难以通过基于本体方法或制定领域规则的方法完成实体对齐。中文网络百科中的属性信息往往由用户定义,不同编辑者编辑的数据质量参差不齐,仅利用基于属性的方法其效果难以满足构建中文异构百科知识库的实际要求。由于百科知识库中包含大量实体摘要信息及描述性文本,如何利用实体上下文非结构化数据,构造出有效的上下文特征,是目前急需解决的一个问题。由于传统的文本建模方法如词频逆向文档频率(Term FrequencyInverse Document Frequency, TFIDF)方法仅考虑了词频的特征,而未考虑词项之间的语义关联,因此,为了有效地提取实体上下文文本信息,本文提出一种基于实体属性与上下文主题特征相结合的实体对齐方法。首先利用属性相似度的方法对实体进行第一步判别,当其难以准确判定时,进一步利用待对齐的实体上下文信息进行主题建模,再结合上下文特征与属性相似度判定异构知识库中的实体是否可以对齐。

2中文异构百科类实体对齐方法

2.1框架概述

本文所述中文百科RDF知识库主要基于百度百科与互动百科两个数据源构建,本文设计的中文异构百科实体对齐系统框架如图1所示,其中知识库的构建及实体对齐判定模块是实体对齐框架的核心部分。当系统获取到一个新实体信息,依次抽取其属性信息和上下文信息。由于不同百科网站存在异构数据,通过构建资源描述框架模式(Resource Description Framework Schema, RDFS)词表对实体属性进行规范化,将新的实体信息存储到对应百科网站的RDF知识库中;利用基于可扩展标记语言(eXtensible Markup Language, XML)及其路径语言(XML Path Language, XPath)的抽取技术[14]将网页中关于实体的描述性信息抽取出来,用西南交大分词器(http:///)分词后,采用主题模型计算出实体潜在主题特征,将实体上下文主题特征进行存储。另外为融合异构数据源的RDF知识库,采用基于最长公共子序列(Longest Common Subsequence, LCS)属性相似度结合主题特征的实体对齐方法。对于来自异构数据源待对齐实体对,利用基于LCS的属性相似度计算方法判定两个实体是否为同一实体,若相似度满足阈值上界,说明可通过属性信息进行实体对齐,将其输出到对齐实体集合;当相似度位于下界与上界之间,说明实体属性信息匮乏无法判定是否可以对齐,进一步采用结合上下文主题特征的实体对齐算法,综合判定后决定是否将实体对输出至对齐实体集合中。

2.2知识库构建

RDF[15]是一种用于描述网络资源的标记语言。RDF所描述的数据信息可通过共享及整合将不同源数据联系起来构建知识库,为知识图谱及人工智能问答等领域提供数据支撑[16]。

构建的中文RDF知识库主要存储了实体相关信息,它将来自于不同源的网络百科数据(如百度百科、互动百科及豆瓣网站等数据)进行对齐及整合。本文在知识库构建及实体对齐过程中,主要抽取实体属性信息及实体上下文信息。

实体属性信息给出了实体的特征属性及其取值,经过数据预处理及数据清洗后转为结构化数据。由于中文网络百科没有根据本体语言指定统一的属性标准,存在不同属性名指代同一属性的情况,如对于人物类别的属性出生时间,百度百科常使用“出生日期”描述,互动百科常使用“出生年月”描述。属性谓词的不统一导致在异构数据源知识库中进行实体对齐时准确程度很低,因此本文参考本体(Ontology)层次描述,通过统计高频属性谓词,构建多个类别的RDFS[17]词表,规范属性名不一致的情况。部分人物类RDFS词表示例如表1所示。

实体上下文信息由“摘要”及“实体描述”信息组成。摘要信息对实体进行简要概括,实体描述信息从多方面对实体进行阐述。由于上下文信息是非结构化文本,在实体对齐任务中不能直接使用,所以需要对实体上下文信息进行主题建模。

2.3实体上下文建模

在百科类网站所覆盖的实体中,通常具有关于实体多方面的描述信息,这些描述信息大多以文本的形式呈现。主题模型在文献[18]中被显式提出来,是对文本中隐含主题的一种建模方法。主题是语料集合上语义的高度抽象、压缩表示,每个主题对应着比较一致的语义。对于网络百科实体,如果实体属性信息匮乏,难以判断实体是否可以对齐,则利用上下文信息进行建模并提取主题特征,根据主题特征分布来判别是否可进行对齐。基于主题模型对上下文建模的实现主要包括利用潜在狄利克雷分布(Latent Dirichlet Allocation, LDA)产生上下文过程及主题特征生成过程两部分。

2.3.1LDA产生上下文过程

LDA模型可使生成的文本包含多个主题,对于知识库中的实体e,其生成上下文文档d的过程如图2所示,过程描述如下:

1)从狄利克雷分布α中取样,生成实体上下文d的主题分布向量θd,θd的每一列表示每个主题在上下文中出现的概率。

2)从主题的多项式分布θd中进行取样,生成上下文d第i个单词的主题zd,i。

3)从狄利克雷分布β中取样,生成实体上下文主题zd,i的词语分布φzd,i。

4)从词语的多项式分布φzd,i中采样最终生成词语wd,i。

2.3.2主题特征生成过程

在LDA模型中,文本的主题是隐式变量,可通过概率推导的方式对模型参数进行求解。文献[19]介绍了吉布斯抽样(Gibbs sampling)的方式对主题模型进行求解。

2.4基于LCS的属性相似度计算

实体属性相似度计算可对网络百科中属性定义较准确的实体进行判别,本文基于文献[20]中所述LCS算法,提出适用于网络百科的属性相似度计算方法。

2.4.1网络百科实体的属性信息的相关定义

定义1设实体ea经过RDFS属性规范化后属性名集合Propertya={pa1,pa2,…,pam},对应属性值集合Valuea={va1,va2,…,vam};实体eb对应属性名集合Propertyb={pb1,pb2,…,pbn},其对应属性值集合Valueb={vb1,vb2,…,vbn},其中m,n分别为实体的属性个数。

定义2设实体ea的规范化属性pai,其对应属性值vai=(sa1sa2…sap);实体eb“实体..”,此处书写是否有误?请作相应调整。的规范化属性pbj,其属性值vbj=(sb1sb2…sbq)。其中:i表示实体ea的第i个属性; j表示实体eb的第j个属性;sap为属性值vai的第p个字符;sbq表示属性值vbj的第q个字符;p与q分别表示对应属性值的长度。

2.4.2属性相似度计算

1)实体ea及eb共有属性的计算式为:

InterProperty(ea,eb)=Propertya∩Propertyb(5)

对于共有属性pi∈InterProperty(ea,eb),其中pax=pi且pby=pi,其中,实体ea的属性pax对应的属性值为vax,实体eb的属性pby对应的属性值为vby。

2)属性pi的相似度计算式为:

sim(pi)=lcs(vax,vby)max(len(vax),len(vby))(6)

其中lcs(vax,vby)为实体属性值的最长公共子序列。

3)实体ea及eb的相似度计算式为:

property_sim(ea,eb)=[∑Ti=1sim(pi)]/T(7)

其中:

T=Propertya∩Propertyb(8)

2.5基于主题特征的相似度计算方法

1)实体..实体ea此处的书写是否符合规范?表示什么含义?请明确。及eb的实体上下文相似度计算式为:

context_sim(ea,eb)=Vea・Veb|Vea||Veb|(9)

其中Vea及Veb是每个实体的主题特征向量。

在实体对齐时,如果仅考虑实体上下文特征,结果并不准确。为了提高结果的准确性,结合实体属性相似度及实体主题相似度得到实体的相似度计算公式。

2)实体的相似度计算式为:

sim(ea,eb)=[property_sim(ea,eb)+context_sim(ea,eb)]/2.0(10)

其中property_sim(ea,eb)为实体的属性相似度。

2.6基于主题特征的实体对齐算法

根据上面的定义和公式,提出了基于主题特征的中文异构百科知识库实体对齐算法描述如下。

算法1基于主题特征的实体对齐算法。

有序号的程序――――――――――Shift+Alt+Y

程序前

输入:异构数据源实体集合EA及EB,实体属性相似度阈值上界ν及下界μ,实体相似度参数ω,主题参数K。

输出:对齐后的实体集合AE。

1)

for each entity e∈(EA∪EB) do

2)

compute topicword matrix φ/*利用LDA算法对实体e上下文主题建模,计算主题单词概率矩阵φ*/

3)

compute topicfeature vector Ve/*通过主题特征生成过程,计算主题特征向量Ve*/

4)

for i 1 to size(EA) do

5)

for j 1 to size(EB) do

6)

compute ps = property _sim(ei ,ej )

7)

if ps

8)

continue;

9)

else if ps> threshold ν do

10)

AE AE∪{ (ei,ej)}

11)

else do

12)

compute cs=context_sim(ei,ej)/*利用主题特征向量Vei及Vej计算主题相似度*/

13)

compute s=sim(ei,ej)/*结合属性相似度ps和主题相似度cs,计算实体相似度s*/

14)

if s≥ω do

15)

AE AE∪{ (ei,ej)}

程序后

3实验与结果分析

3.1实验数据集描述

为了检验中文异构知识库实体对齐算法的有效性,本文从互动百科及百度百科分别随机抽取了包含人物类及影视类的实体,抽取出的实体具有属性信息及上下文信息。关于百科网站中人物类别的实体,热门词条编辑次数较多,实体属性描述较为完整;普通词条编辑次数较少,某些属性存在缺失的情况。影视类实体的属性描述较为统一,属性对单个实体的描述较为完整。人物类实体的上下文描述从“人物生平”“主要成就”“人物影响及评价”等方面实体进行描述,影视类实体的上下文主题分布对同一实体的描述在不同数据源下可能存在较大差异。本文通过人工审核的方法对抽取的实体数据集进行了校验。实体对齐数据集统计信息如表2所示。

3.2实验结果分析

3.2.1评价指标

本文的主要工作是将来自中文异构数据源知识库中的实体进行对齐,评价指标选取准确率(Precision,P)、召回率(Recall,R)及综合指标F值(FScore,F)作为评价标准[21]。

1)准确率计算公式为:

P=Nr/No(11)

2)召回率计算公式为:

R=Nr/Na(12)

3)综合指标F值计算公式为:

F=2・P・R/(P+R)(13)

其中:Na为数据集中所有可准确对齐的实体个数;No为所有对齐实体数;Nr为正确对齐实体数。

准确率表示通过实体对齐算法后得到正确对齐后的实体的准确程度;召回率表示通过算法得到的准确对齐的实体数占数据集中所有可准确对齐实体的比率;F值为衡量准确率与召回率的综合指标。

3.2.2模型参数选取

本文的模型参数主要有属性相似度下界μ,属性相似度上界ν,实体对齐阈值ω及主题模型中的主题数K。参数选取方法如下。

1)参数μ、ν选取。

经过大量实验,实体在进行对齐时,如果属性相似度小于μ,则判定为不可对齐实体, μ取经验值0.5;如果属性相似度高于上界ν,则判定为同一实体,ν取经验值0.95。

2)参数ω选取。

实体相似度是属性相似度与实体上下文相似度的均值,对于基于主题模型的实体对齐算法效果有重要影响。实体相似度参数ω越高,则实体对齐的准确率越高,但召回率下降;否则,参数ω降低,召回率提升,但准确率下降。实体相似度参数ω的选取主要依赖最优F值,若F值相近的情况下,选择准确率更高的参数ω。通过图3(a)看出,人物类实体对齐阈值ω选取为0.5~0.6时,综合指标F值较高;通过图3(b)看出,影视类实体对齐阈值选取为0.4时附近,综合指标F值较高。

3)参数K选取。

本文的LCSLDA算法对不同主题数目情况进行了对比实验。实验中ω参数选取0.4,依次选取不同K值进行实体对齐实验。从图4实验结果可以看出,主题个数K设定为2~3时实体对齐算法的F值最优,准确率及召回率的整体性能较好。

3.2.3与其他实体对齐算法比较

为了进一步验证所提中文异构知识库实体对齐算法(LCSLDA)的有效性,利用实体对齐数据统计信息进行实验,在实验过程中,分别用LCSLDA算法、LCS算法、LCS属性加权(WeightedLCS)算法、LCSTFIDF算法、LDA算法运行表2中的实体对齐数据,各算法通过大量实验取最优结果,实验结果如表3所示。对各标准方法评价如下。

1)LCS算法。

文献[22]中利用实体属性,通过实体属性值计算实体的相似度判定实体是否可以进行对齐。由于百科类属于UGC数据,属性值存在不规范情况,因此基于文献[20]中所述算法,采用LCS算法比较实体属性值。通过表3可以看出,仅仅利用实体属性来对实体进行对齐,准确率、召回率及综合评价指标F值均较低。

2)WeightedLCS算法。

WeightedLCS算法为文献[13]中对属性进行加权后进行实体对齐的方法,按照统计信息对属性进行加权,实验结果如表3所示,其对齐的准确程度较LCS算法下降,是由于该方法对通用属性如人物类的“中文姓名”“出生日期”等,影视类如“影片名”“imdb编码”等属性依赖较重,导致百科数据集中分布较稀疏的属性对实体对齐的重要性降低,而这些信息对于百科类实体对齐非常关键,因此对属性进行加权并不能有效提高中文异构百科实体对齐的效果。

3)LCSTFIDF算法。

LCSTFIDF算法为结合了上下文信息的实体对齐方法,为每个实体上下文中出现的词计算TFIDF值[23],将所有词项的TFIDF值作为特征向量,在实体对齐问题中取得了较好表现,但由于TFIDF方法仅考虑词项的词频特征,没有考虑词项的语义信息,因此效果次于LCSLDA算法。

4)LDA算法。

该方法采用LDA模型对实体提取主题特征,上下文仅考虑信息,可以看出在人物类百科实体对齐中可以取得不错表现,然而由于人物类实体描述往往从“人物生平”“所获成就”等方面描述,影视类实体在异构百科数据源中存在描述差异较大的现象,因此对于某些类别的百科实体仅通过上下文信息进行对齐时效果并不理想。

5)LCSLDA算法。

LCSLDA算法在人物类实体对齐数据集上实体相似度阈值ω取0.6,主题参数K取3时实体对齐的准确率及F值效果最好,召回率略低于LCSTFIDF算法及LDA算法;在影视类数据集上,实体相似度阈值取0.4,主题参数K取2时准确率、召回率及综合评价指标F值均为第一,可见采用该算法对解决中文异构百科类实体对齐问题具有良好效果。

4结语

为解决中文异构百科类实体对齐问题,本文提出一种基于实体属性与上下文主题特征相结合的实体对齐LCSLDA方法。该方法基于百度百科及互动百科构造中文RDF知识库,通过RDFS对属性进行规范化,抽取实体上下文信息并利用主题模型构造主题特征,结合了实体属性特征与上下文语义信息解决实体对齐问题。为验证所提算法的有效性,依照标准方法构造了中文百科类实体对齐数据集。通过与经典的属性相似度算法、属性加权算法、上下文词频特征模型及主题模型算法方法比较,实验结果表明本文所提LCSLDA方法对于解决中文异构百科类实体对齐问题具有良好效果,对具有上下文信息的实体对齐问题具有一定通用性。

后续的研究将进一步优化实体对齐模型,并考虑大规模数据处理情况和基于云计算平台解决异构百科实体数据融合问题,这对于百科知识库的构建及问答系统的性能提升具有重要意义。

参考文献:

[1]

BERNERSLEE T, HENDLER J, LASSILA O. The semantic Web [J]. Scientific American, 2001, 284(5): 28-37.

[2]

BOLLACKER K, EVANS C, PARITOSH P, et al. Freebase: a collaboratively created graph database for structuring human knowledge [C]// ACM SIGMOD 2008: Proceedings of the 2008 Association for Computing Machinery’s Special Interest Group on Management of Data. New York: ACM, 2008: 1247-1250.

[3]

LEHMANN J, ISELE R, JAKOB M, et al. DBpedia―a largescale, multilingual knowledge base extracted from[J]. Semantic Web, 2015(2): 167-195.

[4]

BIEGA J, KUZEY E, SUCHANEK F M. Inside YAGO2s: a transparent information extraction architecture [C]// Proceedings of the 22nd International Conference on World Wide Web Conference. New York: ACM, 2013: 325-328.

[5]

PHILPOT A, HOVY E, PANTEL P. The Omega ontology [C]// OntoLex05: Proceedings of the 2nd International Joint Conference on Natural Language Processing Workshop on Ontologies and Lexical Resources. Cambridge, UK: Cambridge University Press, 2005: 59-66.

[6]

LI M, SHI Y, WANG Z, et al. Building a largescale crosslingual knowledge base from heterogeneous online wikis [M]// Natural Language Processing and Chinese Computing. Berlin: Springer, 2015: 413-420.

[7]

MADHU G, GOVARDHAN A, RAJINIKANTH T V. Intelligent semantic Web search engines: a brief survey [J]. International Journal of Web & Semantic Technology, 2011, 2(1): 34-42.

[8]

HAN X, SUN L. A generative entitymention model for linking entities with knowledge base [C]// ACLHLT 2011: Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language TechnologiesVolume 1. Stroudsburg, PA: Association for Computational Linguistics, 2011: 945-954.

[9]

NOV O. What motivates wikipedians [J]. Communications of the ACM, 2007, 50(11): 60-64.

[10]

SLEEMAN J, FININ T. Computing FOAF coreference relations with rules and machine learning [C]// SDoW2010: Proceedings of the 3rd International Workshop on Social Data on the Web. Berlin: Springer, 2010: 1-11.

[11]

ZHENG Z, SI X, LI F, et al. Entity disambiguation with freebase [C]// Proceedings of the 2012 IEEE/WIC/ACM International Joint Conferences on Web Intelligence and Intelligent Agent Technology. Washington, DC: IEEE Computer Society, 2012: 82-89.

[12]

郑杰,茅于杭.基于语境的语义排歧方法[J].中文信息学报,2000,14(5):1-7.(ZHENG J, MAO Y H. Word sense tagging method based on context [J]. Journal of Chinese Information Processing, 2000, 14(5): 1-7.)

[13]

张晓辉,蒋海华,邸瑞华.基于属性权重的链接数据共指关系构建[J].计算机科学,2013,40(2):40-43.(ZHANG X H, JIANG H H, DI R H. Property weight based coreference resolution for linked data [J]. Computer Science, 2013, 40(2): 40-43.)

[14]

GOZUDELI Y, KARACAN H, YILDIZ O, et al. A new method based on tree simplification and schema matching for automatic Web result extraction and matching [C]// IMECS 2015: Proceedings of the International MultiConference of Engineers and Computer Scientists. Hong Kong: Newswood Limited, 2015, 1:369-373.

[15]

MILLER E. An introduction to the resource description framework [J]. Bulletin of the American Society for Information Science and Technology, 1998, 25(1): 15-19.

[16]

DONG L, WEI F, ZHOU M, et al. Question answering over freebase with multicolumn convolutional neural networks [C]// ACLIJCNLP 2015: Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2015, 1: 260-269.

[17]

MCBRIDE B. The Resource Description Framework (RDF) and its vocabulary description language RDFS [M]// Handbook on Ontologies. Berlin: Springer, 2004: 51-65.

[18]

BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation [J]. Journal of Machine Learning Research, 2003, 3: 993-1022.

[19]

GRIFFITHS T. Gibbs sampling in the generative model of latent Dirichlet allocation [R]. Stanford: Stanford University, 2002.

[20]

BERGROTH L, HAKONEN H, RAITA T. A survey of longest common subsequence algorithms [C]// SPIRE 2000: Proceedings of the Seventh International Symposium on String Processing and Information Retrieval. Piscataway, NJ: IEEE, 2000: 39-48.

[21]

朱敏,贾真,左玲.中文微博实体链接研究[J].北京大学学报(自然科学版),2014,50(1):73-78.(ZHU M, JIA Z, ZUO L. Research on entity linking of Chinese micro blog [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2014, 50(1): 73-78.)

[22]

RAIMOND Y, SUTTON C, SANDLER M B. Automatic interlinking of music datasets on the semantic Web [C]// LDOW 2008: Proceedings of the 1st Workshop about Linked Data on the Web. New York: ACM, 2008, 369: 1-8.

[23]

MORI J, TSUJISHITA T, MATSUO Y, et al. Extracting relations in social networks from the Web using similarity between collective contexts [C]// ISWC 2006: Proceedings of the 5th International Semantic Web Conference. Berlin: Springer, 2006, 4273: 487-500.

上一篇:新媒介对计算机教育改革的促进作用分析 下一篇:面向应用型人才培养的机械原理实验教学改革