WEKA平台在肿瘤分类研究中的应用

时间:2022-07-27 11:43:47

WEKA平台在肿瘤分类研究中的应用

摘要:采用传统的病理学诊断方法对肿瘤进行分类存在一定的局限性,基因芯片等高通量技术的问世为肿瘤研究带来了革命性的进展,在肿瘤分类中发挥了积极作用。该文以weka数据挖掘平台作为特征基因选择与样本分类模型建立的工具,解决了肿瘤分类理论性强,操作难度高的问题。该文以97名乳腺肿瘤患者的基因表达谱数据进行实验,实验结果表明,weka平台可以有效降低基因表达谱数据的维度,对肿瘤的精确诊断具有较高应用价值。

关键词:肿瘤分类;基因表达谱;WEKA

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2013)34-7829-03

肿瘤对人类的生命和健康造成了极大的危害,是我国死亡率最高的疾病之一。根据几十年分子生物学的研究表明,肿瘤的发生发展是多阶段、多通路、多基因改变的复杂过程[1]。肿瘤有不同的分型和分期,例如,临床上将肺癌分为小细胞肺癌和非小细胞肺癌两大类,其中小细胞肺癌约占20%,而非小细胞肺癌约占80%,非小细胞肺癌又可以进一步分为鳞状细胞癌、腺癌、大细胞未分化癌等三类。结直肠癌也有不同的临床分期和分型,例如,按Dukes标准进行分期,可分为A、B、C、D等不同的时期。针对肿瘤的不同分型和分期,需要采取不同的治疗方法。

针对肿瘤的分期和分型诊断,目前普遍采用传统病理学的诊断方法。采用细胞形态学方法对肿瘤进行诊断,虽然简便易行,但难以排除个人误差,有其严重的局限性,单纯依靠形态学诊断并不能完全正确地诊断肿瘤类型。近十几年来,分子生物学技术尤其是包括基因芯片等高通量技术的发展为肿瘤研究带来了革命性的进展,分子生物学技术不但可以辅助肿瘤的形态学诊断,还可以用于肿瘤发病机制研究。

基因芯片技术自问世以来,引发了众多研究人员的广泛关注,该技术已经被广泛用于肿瘤研究领域中。基因芯片可以一次性生成包含成千上万个基因表达值的基因表达谱,为肿瘤研究提供了系统性和高通量的研究平台。采用基因表达谱不仅可以实现对肿瘤的准确分子分型,还可以用来识别不同类型肿瘤的标志物[2]。然而,基因芯片包含基因的数量较多(通常大于10,000),但其样本量往往较少(通常小于100),是一个典型的高维、噪声、小样本特征数据的研究问题。如何从成千上万个基因中选择少量的特征基因,用来对肿瘤样本进行准确分类,成为基于基因表达谱的肿瘤样本分类中的关键技术[3]。基因选择的目的是为了消除噪声和冗余基因,减少后续的分类任务的计算负担,提高学习模型的预测性能。此外,一个包含较少基因数目的最佳特征基因子集很有可能包含生物标记物,这为后续的分子生物学实验验证提供了方便,从而可以更好地理解肿瘤发生发展的分子机制。

1 Weka平台

WEKA数据挖掘平台[4]是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis)的简写,该平台由新西兰怀卡托大学的Weka小组开发。在第11届ACM SIGKDD国际会议上,荣获了最高服务奖。自此Weka平台在数据挖掘领域的地位与日俱增,随着业内对Weka的广泛熟知与认可,其应用领域不断拓展,被认为是当前最完备、运用最广泛的数据挖掘工具之一。WEKA以图形界面的方式使得用户更方便地操控,如图1。

针对分类应用,Weka平台具有属性选择(Select attributes)模块与分类模块(classify),分别集成了众多的属性选择策略与全面的机器学习方法。

2 数据准备

该文采用97名乳腺癌患者的基因表达谱数据进行实验,数据样本中包含46例5年内发生远处转移的乳腺癌患者,和51例5年内无复发的乳腺癌患者,每个样本含有25,760个基因表达数据[5]。

预处理过的数据被组织成如下的weka标准输入格式:

@relation BreastCancer_train // 定义数据集的名字

@attribute 'Contig45645_RC ' numeric //定义每个基因表达的数据类型

......

@attribute Class {relapse, non-relapse} //该数据集的类属性

@data //实例集(Instances)

-0.068,0.12,0.138,...... //一个实例一行,属性间以逗号间隔

......

3 特征基因选择方法

在weka的图形操作界面下,可以通过点击AttributeEvaluator标签下的Choose按钮在其集成的19种属性选择策略中进行切换。

属性选择是采用某种搜索策略在整个特征空间中找到最佳子集,因其搜索策略的不同选择的结果与时空开销有很大区别。比如卡方(Chi-squared)选择法最基本的思想就是通过实际值与理论值的偏差来确定基因与特征的相关性,与理论值偏差大的基因就认为该基因与特征相关,其对高属性维数据的挑选效率较高;ReliefF选择法是基于k近邻的策略,根据属性与分类的相关性进行排序,其能够快速地在大量基因筛选出与分类有关的特征基因;SVM选择法则是基于支持向量机的递归消除思想,其能够在噪声基因不多的情况下很好的剔除蕴含分类信息较少的特征基因,但受其复杂工作原理的限制,时间开销较大。

该实验采用了三种特征基因选择方法,包括卡方(Chi-squared)、ReliefF和ReliefF+SVM法等,其中卡方、ReliefF法均是直接排序选择300个基因,第三种ReliefF+SVM法则考虑到SVM耗时较多,采取分步选择的方法,第一步挑选出ReliefF选择法排序靠前的300个基因作为特征基因,第二步使用SVM选择法进一步对300个特征基因进行递归排序。

图2是采用ReliefF+SVM基因选择方法选取特征基因的结果。

4 分类模型的建立

在weka的图形操作界面下,可以通过点击Classify标签切换到分类学习模块,使用Classify标签下的Choose按钮打开分类方法选择树,在其9个子节点下可以找到其集成的88种分类学习方法。

该文采用SMO分类器建立分类模型,SMO分类学习方法是一种支持向量学习机算法,该算法采用建立超平面来划分两类属性的界限,所建立的分类模型对于样本数量较少,基因噪声较大的基因表达谱数据具有很好的分类性能。

采用常用的十折交叉检验方法进行分类模型测试。该方法先把数据样本随机地分割成等量的10份。先将9份数据当做训练集进行学习,再选另一份数据集作测试集,依次类推共进行10次,最后将10个正确率估计值平均而得出一个综合正确率估计。图3是ReliefF+SVM筛选出的25个特征基因的数据样本的分类学习结果,可以看到图3中test options的单选框选择的是Cross-validation Folds 10,分类准确度100%。

5 实验结果分析

利用卡方(Chi-squared)、ReliefF和ReliefF+SVM等方法选择的300个基因,不断减少基因数量,连续选取10到300个特征基因,采用十折交叉检验方法进行测试。图4的曲线图显示,卡方、ReliefF和ReliefF+SVM法在10到300个的保留基因数量时的分类准确率,使用ReliefF+SVM基因选择方法在选取25到94个特征基因之间均达到100%的分类准确率。ReliefF+SVM基因选择方法在最少仅有29个基因时,能获得100%的十折交叉分类准确度,相比原文献[5]报道的70个基因,数量大大减少。实验结果表明根据不同选择算法的灵活配合使用,可以使weka平台选取数量较少的特征基因,且对肿瘤分类具有极高的分类准确率。该实验结果验证了将weka平台用于肿瘤分类研究的有效性。

6 结束语

基于基因芯片技术的基因表达谱数据分类机器学习技术为肿瘤的精确分型带来了机遇和挑战。通过特征基因选择算法的应用,我们可以从成千上万个基因中挑选出若干特征基因,作为肿瘤的特征性“分子标签”,从而建立全新的肿瘤分子诊断和分型系统,为进一步阐明肿瘤发病机理、肿瘤的诊断和治疗、抗肿瘤药物的研发等提供依据。

该文介绍了weka数据挖掘平台在肿瘤分类中的应用,该平台在乳腺癌样本的实验中出色地完成了特征基因选择与乳腺癌复发预测模型建立的任务。但Weka平台本身是一个通用平台,其也有一定的局限性和不足,随着基因诊断研究的深入与数据挖掘技术的不断提高,我们将开发与肿瘤分类针对性更强的其它研究平台。

参考文献:

[1] Li X B, Chen J A, Lu B J, et al. -8p12-23 and +20q Are Predictors of Subtypes and Metastatic Pathways in Colorectal Cancer: Construction of Tree Models Using Comparative Genomic Hybridization Data. Omics-a Journal of Integrative Biology 2011;15(1-2):37-47.

[2] Golub T R, Slonim D K, Tamayo P, et al. Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science 1999;286(5439):531-7.

[3] Li X, Peng S, Chen J, et al. SVM-T-RFE: A novel gene selection algorithm for identifying metastasis-related genes in colorectal cancer using gene expression profiles. Biochemical and Biophysical Research Communications 2012;419(2):148-53.

[4] Mark H, Eibe F, Geoffrey H, et al. The WEKA data mining software: an update. SIGKDD Explor Newsl 2009;11(1):10-8.

[5] van 't Veer L J, Dai H, van de Vijver M J, et al. Gene expression profiling predicts clinical outcome of breast cancer. Nature,2002,415(6871):530-536.

上一篇:基于LabVIEW的一维云模型推理映射研究 下一篇:监控系统中运动目标检测算法分析