生物网络中标志物的模式识别研究方法

时间:2022-08-02 11:00:03

生物网络中标志物的模式识别研究方法

【摘 要】一般来说,可以将对蛋白质相互作用网络的研究方法分为两类:第一,以建立蛋白质相互作用网为途径,这类方法是以基因表达数据为基础,构建蛋白质相互作用网,然后在疾病组中识别差异性或不同的子网,或直接进行统计计算通路活动;第二,传统的分类器被用来做基于子网基因表达谱的预测。

【关键词】复杂网络 蛋白质作用 模式识别 生物

【中图分类号】G642 【文献标识码】A 【文章编号】1674-4810(2013)24-0085-02

一 概述

关于蛋白质相互作用和典型的通路已经很容易从数据库中检索到,如KEGG,HPRD,Pathway Commons等。这些数据库中包含了文献中已经被研究的蛋白质相互作用的集合。然而,值得一提的是,这些被记录的相互作用数据是在不同的生物条件和细胞类型中观察到的。因此,纯粹的基于网络重构研究的文献面临着关于细胞或组织类型缺失的情况。由于技术的局限,假的蛋白质相互作用出现的概率很大,如通过基因组规模的双杂交或共沉淀网施加相互作用。因此,对于相互作用的置信度具有很高的研究价值。另外,大部分人认为,到目前为止只有少数的相互作用是已知真实的。这些有限的网络重构研究对生物标志物的发现为进一步研究提供了有价值的数据。

另外,以数据为中心的方法是与传统的机器学习方法紧密相关的。这种思想偏重于在机器学习框架内的基因选择过程,用这种方法可以较好地选择出相关联的基因。关于这种方法有两种主要的技术:(1)要构建一种基因表达数据的数学方法,即核方法,嵌入网络图空间。然后,可以应用基于核的特征选择算法,如SVM-RFE;(2)修改特征选择过程本身,即通过强加在学习参数上特别的规则。

二 网络化方法

1.网络特征

一种方法,它注重网络结构本身,是要选择基于蛋白质相互作用网的拓扑特征的基因。这种例子在Taylor等人的论文中出现过。这种方法的思想是将注意力集中在网络的hub结点,即具有特别高相互作用水平的蛋白质。在Taylor等人的论文中显示了hub蛋白质表达的平均皮尔逊相关系数和与它发生作用的蛋白质,通过他们的方法能可靠地预测乳腺癌病人的生存期,他们的方法没有任何基于变量的机器学习或特征选择过程。

集成了网络知识的另一种方法是总结从数据库中获取预定义的已知途径的表达水平,如KEGG,成为一个值,如取平均值或中间值。这些新的被构建、可注释的特征是要运用传统的机器学习技术预测的与临床显型有相互关系的。Guo等人的论文中报告了功能表达谱通过取标注基因的平均表达而极大地丰富了基因本体论(GO,基因本体协会)范畴,并提高了分类器的稳定性,分类器能正确区分四种癌症类型。

2.不同的子网

与只关注预定义好的经典途径或GO组不同,另一类思想是更多地关注测量的数据,通过这些数据重构全基因的蛋白质产物的相互作用网,然后通过实验数据来识别不同表达的子网。Chuang等人在这个方面做了一些工作。他们的算法开始于在网络中表达上具有很大差异的“种子”蛋白质。在每一个“种子”蛋白质周围的蛋白质不断地被加到一个子网中,直到利用贪婪算法使该子网达到一个局部最大值,其中值的测量是通过结合临床输出变量和正规化的基因表达均值等交互信息来计算的。在论文中,Trey Ideker以及他的合作者展示了他们的方法不仅能清楚地区分乳腺癌患者“好”与“坏”的诊断,而且与传统的机器学习相比提高了预测能力。类似的识别不同子网的贪婪算法,还有许多人进行了研究。

尽管上面提到的这些方法都有良好的表现,但是,这些方法都是启发性的,因此,不能确保找到不同的优化子网。Chowdhury等人通过分支和绑定的方法,而Dao等人则通过穷举的方法试图获得优化的子网。在蛋白质交互网中计算了每一个结点不同表达的得分后,作为一个奖励收集斯坦利最小树问题的实例,他们解释识别不同优化子网的问题,通过整数线性规划的方法解决最优性。同时,他们也展示了获得与临床弥漫大B细胞淋巴瘤显型关联密切的最优子网,但是关于算法预测的准确性并没有被严格地确认。

一般来说,一个优化有识别能力子网的识别是一个NP难问题,因此,算法面临着计算超级多项式的时间复杂度,这使他们面对一个棘手的、巨大的数据集。一个在计算速度和达到最优分离子网目标的折中的方法最近被Dao等人提出。他们的算法是基于颜色编码规范,允许识别优化分离子网直到一定程度的误差率的产生。后来一些研究人员利用3-NN分类器依据每个子网的平均表达水平来分类乳腺癌患者对化疗的不同反应。

3.数据中心方法

前面提到的所有方法都是以处理蛋白质交互作用网为核心。相反,数据中心方法更多地关注实验数据。核技术是联合网络信息和实验数据的优雅的数学方法。对于支持向量机分类器来说,核起着关键的作用。

一般来说,核函数K:X×XR可以作为特定在任意对象x∈X之间相似性度量,同时要满足一些数学要求,即对称性和半正定性。在其他许多领域,核函数也有应用,如在基于随机游动的图或网络中的结点。随机游动是一个随机过程,由一系列的运动组成,这一系列的运动具有按一定概率分布运动的图结构。扩散核是一特定类似的对于图中结点的量度,这个图通过联系结点x或y来考虑随机游动路径,但是每一条路径的权重依赖于路径的长度。这是一个以指数方式减少的方法。扩散核在数学上等价于物理上的热方程的基本解,它描述了热在一定区域及边界条件下的变化。

三 结论

总之,到目前为止,我们所了解到的各种方法都存在利和弊,具有很强的系统经验的依赖性。Cun等人对14种分 类算法做比较(8种是使用网络知识),利用这些算法对6个基因芯片数据库的数据来预测乳腺癌患者早期和晚期的复发率。他们发现不同的算法对于这些数据集预测的结果明显不同,但是,基于网络的算法没有任何普遍的优势。Zhu等人利用基于网络的SVM方法得到了许多稳定的结果,但仅显示了一个比较低的预测效果,而RRFE 在相关基因、途径和药物靶向方面有更好的表现。在研究中,平均途径表达与好的预测算法藕联后会产生更确切的标注。

本文中的方法都是针对某种疾病(主要是乳腺癌)在某一特定的临床环境下(如早期复发的预测)被评估的。为了得到更完整的图片、更可理解的研究,需要更多临床的问题和疾病样本,这样才可以指导医生在不同的条件下哪些方法是好的选择。但是,总是有数据集会对某种算法有特定的依赖,这种情况无法解释。因此,假设条件是算法成功应用的先决条件。

上一篇:采用有效模式 提高教学效果 下一篇:八年级英语学习中的分化现象及其对策