基于上下文环境和句法分析的蛋白质关系抽取

时间:2022-05-23 12:39:12

基于上下文环境和句法分析的蛋白质关系抽取

摘要:针对蛋白质交互作用关系(PPI)抽取方法征利用的片面性问题,提出了一种从上下文环境和句法结构中抽取特征的方法。该方法抽取词法特征、位置特征、距离特征、依存句法特征和深层句法特征等丰富特征构成特征集,并且使用支持向量机(SVM)分类器进行PPI抽取。方法在5个公开的PPI语料上进行了评估。实验结果表明,丰富特征有效地利用了更为全面的信息,避免丢失重要特征的危险,得到了较好的PPI抽取性能。即在AImed语料上的实验取得了59.2%的F值和85.6%的曲线下面积(AUC)值。

关键词:信息抽取;自然语言处理;蛋白质关系抽取;特征;支持向量机

中图分类号:

TP391.1 文献标志码:A

Protein.protein interaction extraction based on contextual and syntactic features

WANG Jian*, JI Ming.hui, LIN Hong.fei, YANG Zhi.hao

School of Computer Science and Technology, Dalian University of Technology, Dalian Liaoning 116024, China

Abstract:

Considering one-sidedness of features used in many Protein-Protein Interaction (PPI) extraction methods. A novel approach is proposed to extract rich features from context information and syntax structure for PPI extraction. Various features, such as lexical, position, distance, dependency syntax and deep syntax features are extracts, and the Support Vector Machine (SVM) classifier is used for PPI extraction. Experimental evaluation on multiple PPI corpora reveals that the rich features can utilize more comprehensive information to reduce the danger of missing some important features. This method achieves state-of-the-art performance with respect to comparable evaluations, with 59.2% F-Score and 85.6% AUC on the AImed corpus.

Considering the one.sidedness of features used in many Protein.Protein Interaction (PPI) extraction methods, a new approach was proposed to extract rich features from context information and syntax structure for PPI extraction. Various features, such as lexicon, position, distance, dependency syntax and deep syntax features constitute feature set, and the Support Vector Machine (SVM) classifier was used for PPI extraction. The experimental evaluation on multiple PPI corpora reveals that the rich features can utilize more comprehensive information to reduce the risk of missing some important features. This method achieves state.of.the.art performance with respect to comparable evaluations, with 59.2% F.score and 85.6% Area Under Curve (AUC) on the AImed corpus.

Key words:

information extraction; natural language processing; Protein.Protein Interaction (PPI) extraction; feature; Support Vector Machine (SVM)

0 引言

生物医学文献中的蛋白质交互作用关系(Protein.Protein Interaction, PPI)对于蛋白质知识网络的构建、药物的研制、疾病的诊断等具有重要意义。目前,生物医学专家建立了很多有统一格式的蛋白质关系数据库来存储这些重要信息,例如:MINT[1],BIND[2] 和 DIP[3]。然而,随着医学文献数量的急剧增加,很难依靠人工从海量文献中获取有价值的信息。因此,从生物文献中自动地抽取蛋白质关系成为一项重要的研究任务。

从生物医学文献中自动抽取蛋白质关系的方法有多种,如基于词共现的方法、基于模板匹配的方法和基于机器学习的方法。基于词共现的方法简单统计两个蛋白质在句子中的共现次数,根据统计学原理判断它们是否存在关系[4]。基于模板匹配的方法把待判别数据与已有的模板进行匹配,从而达到蛋白质关系抽取的目的[5]。机器学习的方法近几年来兴起并且得到迅速发展,其中基于特征的方法在PPI抽取任务中得到了广泛的应用。文献[6]使用上下文特征进行蛋白质关系抽取,该方法没有使用任何句法信息,在BioCreAtIvE语料上得到较高的召回率,但精确值相对较低。文献[7]评估多个不同的句法分析器对PPI抽取的贡献,结果表明词与词之间的句法关系,能够有效地提高PPI抽取的性能。但是这些方法通常只考虑了句子及其句法结构的部分信息,而忽略了其他方面的有用信息。机器学习领域的另一个热点话题是核函数的研究和使用。基于核函数的方法把句法结构作为处理对象,在依存图或句法树上定义不同的核函数进行蛋白质关系抽取,如图核、树核和路径核等[8-11]。基于核函数的方法能够得到较好的抽取性能,但是受制于计算复杂度,该方法通常不能直接应用到实际的PPI抽取系统中。

针对以上问题,本文提出了一种基于上下文环境句法分析的PPI抽取方法。该方法融合了更加全面重要的信息,不仅使用了词的上下文环境,并且考虑了蛋白质之间的句子距离和谓词参数结构中不同子结构对关系抽取的影响,同时避免了核函数的复杂计算。本文在5个公开的 PPI 语料上实验,详细分析不同特征对 PPI 抽取的影响,并且与其他方法的性能进行了比较。

1 基于特征的PPI抽取方法

基于特征的PPI抽取任务可以看作是一个分类问题。首先,提取语料句子中的蛋白质对,得到蛋白质关系实例;然后从语料中提取特征,并且把每个实例都映射到一个n维的特征向量;接着训练一个分类模型;最后使用分类模型判断未标注实例所属的类别,即判断蛋白质对之间是否存在关系。

基于特征的PPI抽取系统框架如图1所示,系统的输入为原始的XML文本,输出为最终的分类结果。首先通过预处理模块得到关系实例;接着是句法分析模块;然后是从关系实例和句法结构中提取特征,构建特征向量;最后是支持向量机(Support Vector Machine, SVM)分类及预测模块。

本文使用的语料已经识别出蛋白质实体名称,在实验中我们主要关注至少存在两个蛋白质名句子,判断该句子中的蛋白质之间是否存在交互作用关系。如果一个句子中存在m(m≥2)个蛋白质,那么这个句子中包含有C2m个不同的蛋白质对。本文对每个这样的蛋白质对拷贝一个句子的副本,作为该蛋白质对的一个实例。实验使用的数据集就是由这些实例组成,例如,句子“The binding of hTAFII28p0 and hTAFII30p1 requires distinct domains of hTAFII18p2.”,表示一个存在蛋白质关系的实例,其中“hTAFII30”和“hTAFII18”是需要判断关系的两个目标蛋白质。

2 特征提取和特征向量表示

基于特征的蛋白质关系抽取方法的核心工作是特征的选取。选取特征的好坏直接影响最终的分类精度。为了发掘更多有效的特征,使用更加全面的信息,本文从上下文环境和句子的句法结构中选取多种特征。在从上下文选择特征的过程中不仅考虑了词法特征,还考虑了词距离特征,同时将词法特征在句子中的位置信息也加入到特征向量中。此外,还有两类句法特征也加入到特征集中,分别是依存图上的句子距离特征和谓词参数路径特征。

2.1 上下文特征

1)词特征(Bag of Words)。

本文对词特征的选取范围进行限制,即从左起第一个蛋白质的前n个词,两个蛋白质之间的所有词,第二个蛋白质的后n词为止。经过多次实验发现,当n=5时效果最佳,所以在本文中将n赋值为5,把上述范围中去掉停用词之后的词作为特征。

3)位置特征(Positions)。

词特征和N元词特征相对于两个蛋白质的位置信息也能够对蛋白质之间是否存在关系起作用。因此,如果这两类特征出现在第一个蛋白质之前,用“P1_Left_特征”表示;出现在两个蛋白质之间,用“P1_Right_特征”,“P2_Left_特征”表示;出现在第二个蛋白质之后用“P2_Right_特征”表示。

4)具置特征(Specific Positions)。

本文把词特征和N元词特征相对于两个蛋白质的具置也作为特征。定义如下:SP = {n1_P1_特征, n2_P2_特征 | n1 = i - i1, n2 = i - i2, i∈[i1-5, i1-1]∪[i1+1, i2-1]∪[i2+1,i2+5]},i1和i2分别是蛋白质1和蛋白质2在句子中的位置,i是当前特征在句子中的位置。

5)词距离特征(Word Distance)。

两个蛋白质之间的距离越长(距离用间隔词的个数衡量),存在关系的可能性越小,因此,蛋白质之间的距离被加入到特征集中。

2.2 句法特征

句法结构能够描述句子的句法和语义信息,不同的句法结构反映了句子不同方面的有用信息。本文主要从依存图和谓词参数结构中提取句法特征。

1)句子距离特征(Sentence Distance)。

依存句法结构是句子语义关系的有效近似,并且能够清晰地表达句子的主谓结构。如果两个蛋白质名能在一个简单句中出现,那么它们之间就很有可能存在关系。因此,如果依存图中两个蛋白质之间的最短路径上只有一个谓语动词出现,表示这两个蛋白质之间存在关系,则该特征值设为1。本文使用Gdep依存分析器[12]输出依存图结构,如图2所示。图中实线表示边在两个蛋白质之间的最短路径上,虚线表示边不在最短路径上。

2)谓词参数路径(Predicate Argument Path)。

谓词参数结构以图的形式表示,与依存分析类似,它表示词与词之间深层句法和语义关系。谓词参数结构中两个蛋白质之间最短路径上的不同子结构表达了不同的句法语义信息。因此,在最短路径上选择两类walk特征,分别是v.walk和e.walk[11],加入到特征集中。从v.walk中可以直接得到两个节点(词/词性)的句法和语义关系。在e.walk中描述了一个节点和两个与它直接相邻的关系,当这个节点是一个谓词的时候,e.walk比v.walk更能反映句子的谓词.参数的信息。并且v.walk和e.walk中存在连续和不连续的情况,连续的walk更能反映词之间的直接关系。因此,在设置特征值的时候,给连续的e.walk设为3,连续的v.walk设为2,其他不连续的walk设为1。本文使用Enju分析器输出谓词参数结构,如图3所示。图中实线表示边在两个蛋白质之间的最短路径上,虚线表示边不在最短路径上。

2.3 特征表示

上述特征中除明确说明特征值外,其余特征值都使用布尔值,即出现为1,不出现为0。为了清楚地描述特征表示,表1详细地描述了一个蛋白质关系实例的特征表示,根据这个表可以很容易理解上述特征的含义。

词是语言的基本组成单位,词特征能够重现文本的语言表达信息,许多分类及关系抽取系统把它作为基本特征,能够得到较高的召回率。N元词特征丰富了词特征的表达,与词特征共同表达原文的语言描述信息。加入N元词特征能够有效地提高系统的性能(表3的第2组实验所示)。

位置特征(F4+F5)与词法特征(F1+F2)的组合,共同表达了词法特征在句子中线性顺序,明确了语言的组织形式,能够有效地改善蛋白质关系抽取的性能(表3的第4组实验所示)。

依存分析能够表达长距离的依存关系,句子距离特征有助于判断两个蛋白质在句法结构上的距离。谓词参数路径特征表达词与词之间的深层关系,在谓词参数路径上选择walk特征,并且根据不同的子结构分配不同的权值,能够有效利用各类子结构的优势,有助于蛋白质关系抽取性能的提高。

表3中的实验结果表明,上下文特征可以全面检索原文

的语言表达信息,得到了最高的R值64.1%,但P值相对较低。句法特征能够更准确地表达句子的句法和语义信息,在保持R值下降不明显的前提下,对P值有显著性的提高。结合上下文特征和句法特征能够利用句子不同层次的信息,有效地改善了蛋白质关系抽取的性能。

4.2.2 与其他方法的比较

表4是本文方法与其他方法在AImed语料上的性能比较。文献[13]是基于规则的方法[5],文献[9]和文献[11]分别是图核和路径加权子序列核的方法。从表4中可以看出,与前3种方法相比,本文方法在AImed语料上的R值、F值和AUC值都有所提高,P值达到了57.6%,仅次于文献[11]。文献[10]使用了多核和多分析器融合的方法,获得了较高的性能。使用本文的方法,F值为59.2%,与文献[10]只相差了1.6%。由此可见,本方法可以达到与核方法类似的效果,同时也避免了核函数的复杂计算。

为了测试本文方法在生物医学语料库上的泛化性能,在BioInfer、HPRD50、IEPA和LLL 4个PPI语料库上用同样的方

法进行了实验。表5显示了本文方法与其他方法在5个语料上的性能比较。在5个语料上本文方法的性能较前3种方法有明显的提高。在HPRD50、IEPA、LLL 3个数据集上,本文方法得到的F值较文献[10]有较大幅度的提高;在AImed和BioInfer语料上的F值较低,原因主要是这两个语料存在着大量的复杂句,这对分析器来说是一个很大的挑战;另一方面,这两个语料的正负例比例非常不平衡(如表2所示),也是导致结果较低的一个原因。

5 结语

本文使用基于上下文信息和句法信息的丰富特征进行PPI抽取,着重分析各类不同特征对PPI抽取的影响。上下文特征能够有效地表达原文信息,得到较高的召回率;句法特征有助于更好地理解句子的句法和语义信息,有助于提高PPI抽取的精确度。本文以SVM为分类器,在5个公开的PPI语料上实验。结果表明,我们所选取的丰富特征有效地融合了不同层次的特征,覆盖了更加全面的信息,在PPI抽取任务中取得了较好的性能。参考文献:

[1]

ZANZONI A, MONTECCHI.PALAZZI L, QUONDAM M, et al.MINT: A molecular INTeraction database[J]. FEBS Letters, 2002, 513(1):135-140.

[2]

BADER G, BETEL D, HOGUE C. Bind―the biomolecular interaction network database[J]. Nucleic Acids Research, 2003, 31(1):248-250.

[3]

XENARIOS I, RICH D W, SALWINSKI L, et al.DIP: The database of interacting proteins[J]. Nucleic Acids Research, 2000, 28(1):289-291.

[4]

BUNESCU R, MOONEY R, RAMANI A. Integrating co.occurrence statistics with information extraction for robust retrieval of protein interactions from Medline[C]// BioNLP06: Proceedings of the Workshop on Linking Natural Language Processing and Biology: Towards Deeper Biological Literature Analysis. Stroudsburg: Association for Computational Linguistics, 2006:49-56.

[5]

FUNDEL K, KUFFER R, ZIMMER R. RelEx.relation extraction using dependency parse trees[J]. Bioinformatics, 2006, 23(3):365371.

[6]

NIELSEN L A. Extracting protein.protein interactions using simple contextual features[C]// BioNLP06: Proceedings of the Workshop on Linking Natural Language Processing and Biology: Towards Deeper Biological Literature Analysis. Stroudsburg: Association for Computational Linguistics, 2006:120-121.

[7]

MIYAO Y, SAETRE R, SAGAE K, et al. Task.oriented evaluation of syntactic parsers and their representations[EB/OL].[2011-05-01]. www.省略/anthology.new/P/P08/P08-1006.pdf.

[8]

BUNESCU R C, MOONEY R J. A shortest path dependency kernel for relation extraction[C]// HLT05: Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2005:724-731.

[9]

AIROLA A, PYYSALO S, BJRNE J, et al. All.paths graph kernel for protein.protein interaction extraction with evaluation of cross.corpus learning[J]. BMC Bioinformatics, 2008, 9(Suppl 11):S2.

[10]

MIWA M, STRE R, MIYAO Y, et al. Protein.protein interaction extraction by leveraging multiple kernels and parsers[J]. International Journal of Medical Informatics, 2009, 78(12):39-46.

[11]

KIM S, YOON J, YANG J, et al.Walk.weighted subsequence kernels for protein.protein interaction extraction[J]. BMC Bioinformatics, 2010,11:107.

[12]

SAGAE K, TSUJII J. Dependency parsing and domain adaptation with LR models and parser ensembles[EB/OL].[2011-06-01].

www.省略/anthology.new/D/D07/D07-1111.pdf

[13]

PYYSALO S, AIROLA A, HEIMONEN J, et al. Comparative analysis of five protein.protein interaction corpora[J]. BMC Bioinformatics, 2008, 9(Suppl 3):S6.

上一篇:基于多属性决策的嵌入式操作系统识别技术 下一篇:面向维吾尔语文本的改进后缀树聚类