结肠癌基因表达谱中的特征基因提取方法

时间:2022-09-03 02:49:35

结肠癌基因表达谱中的特征基因提取方法

摘要:信息基因选取问题是肿瘤基因表达谱分析的核心内容。它既是建立有效分类模型的关键,也是发现肿瘤分类与分型的基因标记物以及药物治疗潜在靶点的重要手段。该文通过收缩质心算法、WV分类方法可以提取出比较少的特征基因,并且可以产生很好的分类效果。

关键词:Bhattacharyya距离;收缩质心算法;WV分类方法

中图分类号: TP18文献标识码:A文章编号:1009-3044(2011)13-3114-02

肿瘤是影响人类健康的主要疾病之一。肿瘤基因表达谱数据挖掘不仅对认识肿瘤的发生发展的机理具有重要意义,而且也会为肿瘤的分子诊断和防治开辟全新的途径,并有助于肿瘤个性化治疗的实现。肿瘤基因表达数据具有样本少、维数高的特点。每一种肿瘤都有其基因的特征表达谱。从众多特征中,找出对分类识别最有效的特征,即可以决定样本类别的一组基因“标签”,也就是“信息基因”,是正确识别肿瘤类型、给出可靠诊断和简化实验分析的关键所在,同时也为抗癌药物的研制提供了捷径。如何从数以千计的基因中抽取最佳的特征基因子集,挖掘和发现其中蕴含的知识,是当前生物信息学研究的重点课题。

1999年,Alon等用层次聚类等方法对结肠癌样本数据进行了分析研究,选出含有2 000个特征基因的数据集合[1]。在这2 000个特征基因的数据集合基础上,2001年Zhang等人通过递归分割树归纳出2个特征基因集合[2];李霞等人采用一种集成决策方法,得到3个特征基因集合[3]。实验结果表明,搜索出的这些特征基因集合与肿瘤的发生密切相关,但这些方法都比较复杂,分辩率也不是很高。

本文采用质心收缩算法和WV分类方法来确定相应的基因“标签”,算法的运算速度快,计算时间复杂度较低,也达到了80%以上的分类准确率,针对有大量数据时效果较为理想。

1 方法原理

在用Bhattacharyya距离方法进行基因初选后,运用质心收缩算法[4]进一步剔除大量的“无关基因”,每剔除一部分基因之后,就用WV分类方法[5]去验证,最后取出分类正确率最高的基因组合。

实验的算法是:

Step1: Δ=0;

Step2:If Δ>max(|dik|),then goto step9;

Step3:

Step4:

Step5:If dik'thenremove genei;

Step6:WV分类方法检验;

Step7:increaseΔ ;

Step8:gotoStep2;

Step9:end

Δ为收缩因子,将Δ逐渐加大,从而使影响样本分类能力较差基因的表达水平均值不断向两总体中所有样本的均值靠近,也就消除了这些基因对于分类的影响,让分类能力较强的基因逐步凸显出来。

令 (1)

从而得到 (2)

在公式中xik表示第i个基因在k类样本中的平均表达水平;xi表示第i个基因在样本中的平均表达水平;表示 k类样本数, n表示样本总数;s0是一个正的常数;k表示类别(0或者1),0表示正常类型,1表示肿瘤类型。

以收缩了的质心做为类别的代表样本,利用统计学中单因素分析的思想结合模式识别中最近邻方法来达到分类的目的。将数据样本集分成训练集和测试集,以分类正确率做为选择特征基因准确性的度量。用质心收缩算法在训练集上逐步去除掉对于分类不重要的基因,并考察剩余基因的分类能力,这样不断进行下去,从而得到一个分类误差曲线。从误差曲线上找出误识率最低的一组集合作为特征基因,并采用测试集来检验这组特征基因的分类能力。

判断求知样本一般是属于肿瘤样本和正常样本两种情况,因此采用WV分类方法,训练样本集中的每个基因对类进行一个权重投票计算:。Sg(c)为信噪比,是训练样本集中的基因g在要考虑的两类别(即类c和不是类c)中平均值的比较,其计算公式为:,(其中?滋1表示基因g在类c中的平均值,?滋2表示基因g不在类别c中的平均值,σ1表示基因g在类c中的标准差,σ2表示基因g不在类别c中的标准差)。eg是每个确认集中单独样本中基因g的单独值,(即基因g在两类中平均值的平均值)。如果Vg大于0就表明基因g的预测倾向属于类c,小于0则表明预测倾向不属于类c。用VC来表示倾向于类C的所有基因的投票加和的绝对值,用V-C表示不倾向于类c的所有基因的投票加和的绝对值,如果VC大于说明样本属于类C,如果VC小于V-C说明样本不属于类C,预测的可信度计算方法为: 。

2 数据集

从相关网站[6]下载得到结肠癌数据集。该数据集包含62个样本,其中22个为正常样本(normal),40个为肿瘤样本(tumor),每个样本包含有2000个基因,这2000个基因是Alon等根据一定的准则从原始数据6500个基因中挑选出来的具有代表性的基因[1]。

3 实验分析

3.1 基因初选

采用基因排序的方法对原始基因集合进行初选,本文采用Bhattacharyya特征记分准则[7-8]即:

根据这个公式分别计算每个基因的Bhattacharyya距离,并画出基因的Bhattacharyya距离分布图,结果如图1所示。

由图1可知,很多基因的Bhattacharyya距离都小于0.05。说明这部分基因在两个类别中的分布,无论其均值还是方差均无明显差异,可以作为无关基因剔除,最后只留下439个基因。

3.2特征基因选取

把样本按照2:1的概率分成训练集合和测试集合,即用14个正常样本作为训练集,剩余的8个正常样本作为测试集,27个肿瘤样本作为测试集,剩余的13个肿瘤样本作为测试集。由于所给的样本数量太少,为了减少误差,每次试验都随机抽取包含指定样本个数的测试集,进行50次试验求平均值。实验结果如图2。

从图2中的折线图可知,开始的时候,算法每次循环基因数量减少的非常快,到75之后基因数量才开始缓慢减少,同时wv验证正确率开始缓慢上升,说明算法收敛的非常快。

从图2中可以知道在11个基因的时候正确率达到最高值,达到83.62%。

对2000个基因和经过筛选之后的基因进行WV检验的正确率对比表,从表1中可知,经过筛选之后的基因组合对肿瘤疾病具有较高的分辨能力。

4 结束语

近年来,随着机器学习与数据挖掘等领域的不断发展,新的特征提取方法也不断涌现。该方法算法收敛速度快,计算复杂度极低,且检验结果正确率高。如何选择一个有效的提取方式,并对算法进行改进,提高分类结果正确率,降低算法的时间和空间复杂度是今后需要研究的重点。

参考文献:

[1] Alon U,Barkai N,Nootterman D A,et al.Broad patterns of gene expression revealed by clustering analysis of tum orand normalcolon tissues probed by oligonucleotide arrays[J].Science,1999,96(12):6745-6750.

[2] ZHANG H,YU CY,SINGER B,et al.Recursive Partioning for tumor classificationwith gene expressionmicroarray data[J].Proc NatlAcad SciUsa,2001,98:6730-67-35.

[3] 李霞,饶绍奇,张田文,等.应用DNA芯片数据挖掘复杂疾病相关基因的集成决策方法[J].中国科学C辑:生命科学,2004,34(2):195-202.

[4] Tibshirani R,Hastie T,Narasimhan B,et al.Diagnosis of Multiple Cancer Types by Shrunken Centroids of Gene Expression[J].PNAS,2002,99:6567-6572.

[5] Khan J,Wei J S,ingner M R,et al.Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks[J].NatMed,2001,7(6):673-679.

[6] Colorectal Cancer Microarrya Research[EB/OL].(2010-09-27).www.molbio.princeton.edu/colondata.

[7] Duda O R,Hart P E,Stork G D.Pattern Classification[M].Second Edition[M].New York:John wiley &Sons,2001:46-48.

[8] Theodoridis S,Koutroumbas K.Patter Recognition[M].Second Edition.New York:Academic Press,2003:177-179.

上一篇:浅谈电子文档安全问题与对策 下一篇:基于SOPC的CAN_RS232接口转换器设计