基于决策树的医疗数据分析

时间:2022-09-19 11:42:33

基于决策树的医疗数据分析

摘 要:决策树算法从一组无规则、无次序的事例中推理出分类规则,同样适用于医疗数据的挖掘。本文研究基于决策树的乳腺肿瘤医疗数据的分析和挖掘,提高癌症诊断的准确率。

关键词:数据挖掘;决策树;乳腺癌诊断

中图分类号:TP399

随着医疗数字化设备的快速发展,医疗数据库中包括了大量的非结构化的医学图像信息和病人的结构化信息,这些数据为医疗数据的挖掘和分析提供了丰富的信息资源。医疗数据的挖掘旨在从海量的医疗数据中提取出有效的模型、关联、规则、变化以及普遍的规律,加速医生决策诊断的过程和提高其决策诊断的准确度。决策树算法是应用最广的归纳推理算法之一,对噪声数据有很好的健壮性,能够从医疗数据库中发现有价值的信息和知识。

1 决策树算法

1.1 决策树简介

决策树方法是数据挖掘的重要方法之一,它是利用树形结构的特性来对数据进行分类的一种方法。决策树学习从一组无规则、无次序的事例中推理出有用的分类规则,是一种实例为基础的归纳学习算法。决策树首先利用训练数据集合生成一个测试函数,根据不同的权值建立树的分支,即叶子结点,在每个叶子节点下又建立层次结点和分支,如此重利生成决策树,然后对决策树进行剪树处理,最后把决策树转换成规则。决策树的最大优点是直观,以树状图的形式表现预测结果,而且这个结果可以进行解释。决策树主要用于聚类和分类方面的应用。

1.2 常用决策树算法

决策树算法的很多种,其中以ID3算法和C4.5算法应用最广泛。ID3算法根据信息理论,采用划分后样本集的不确定性作为衡量划分好坏的标准,在每个非叶节点选取时,选择信息增益最大的属性作为测试属性。C4.5算法是对ID3算法的改进和扩展。C4.5算法用信息增益率来选择属性,克服了ID3算法在选择属性时偏向于选择取值多的属性的不足;当属性值空缺时,通过使用不同的修剪技术以避免树的过度拟合。

2 乳腺癌医疗数据决策分析

2.1 医疗数据选择

乳腺癌是发病率较高一种恶性肿瘤。乳腺癌致死的主要原因在于恶性肿瘤细胞的转移,淋巴结转移是主要的途径之一,腋窝淋巴是乳腺癌发生转移的最早受累部位,转移的程度是乳腺癌诊断、治疗、放疗和化疗的主要参考依据,也是判断病情是否复发的因素。乳腺B超是乳腺癌早期检测的最可靠的方法。本文选择医院200名乳腺癌病人的在术前、术后、化疗前、化疗后、放疗前和放疗后的B超图像数据作为样本,对图像预处理及特征提取后,作为分类系统挖掘的输入。

2.2 模型评估变量

决策树建模时,最重要的是选择评估变量。根据淋巴结与乳腺癌的关系,评估变量包括病人的基本特征信息(年龄和月经状况)、病情信息(肿瘤部位、病理类型等)、淋巴结信息(B超检查淋巴结状况、淋巴结转移状况和术中发现的淋巴结状况)。各评估变量的定义如表1所示。

表1 模型评估变量定义表

变量名 含义 值标识 变量值

AGE 年龄 ≤30 0

30

AGE>45 2

YUEJING 月经状况 有 0

无 1

BUWEI

肿瘤部位 整个 1

乳晕区 2

内上 3

内下 4

外上 5

外下 6

BLSORT

病理类型 粘液癌 1

小叶癌 2

管内癌早侵 3

LBJSTATUS B超检查淋巴结状况 肿大 0

不肿大 1

LBTRANS 淋巴结转移状况 转移 0

不转移 1

SZSTATUS 术中发现的淋巴结状况 肿大 0

不肿大 1

2.3 决策树建模

本文利用SAS软件的Enterprise Miner模块提进行决策树建模,步骤如下:(1)数据输入和抽样。将200名病人的数据输入SAS软件,数据尽量完整。(2)数据特征探索。在进行模型建立时,主要是分析病人的医疗的数据特征,探索出样本数据中各属性变量的分布情况,在不同情况下的分布概率进行统计和分析。(3)数据集划分。由于在进行数据挖掘时,样本数据分为训练数据、验证数据和测试数据。本文将将样本数据分别分成训练集、测试集和验证集,它们在数量上所占的比例4:3:3。(4)数据变量转换。根据表1将数据中的连续变量,转换成分散的变量。比如病人年龄是34岁,肿瘤部位在乳晕区,则它的AGE=1,BUWEI=2。(5)数据替换。虽然缺失值对决策树没有影响,但是为了提高分类结果的正确性,还是借助数据替换模块,以均值代替间隔尺度变量的缺失值,以众数代替分类变量的缺失值。(6)决策树建模。SAS提供了决策树建模的方法,它根据判定标准将评估变量变成不同层次有节点结构,以二叉树的形式显示出来。本文在进行挖掘分析时,分别设置树的最大深度为7,最小叶子观测数为6。

2.4 挖掘结果分析

在分析的200名乳腺癌患者中,有76位确诊为腋窝淋巴结转移,124位没有发生腋窝淋巴结转移,转移的患者平均年龄在45岁。通过对结果的回归分析发现,乳腺癌淋巴结转移与肿瘤的部位和腋窝淋巴结状况有明显的关系,B超检查腋窝淋巴结肿大者,容易发生乳腺癌的转移;肿瘤部位在外上或外下的患者发生癌症转移的机率较高。

3 结束语

利用决策树算法对乳腺癌淋巴结转移判别分类研究,能够为乳腺癌患者的病情控制策略提供有价值的参考数据,帮助医生提高乳腺肿瘤是否转移的诊断水平,减少误诊率。

参考文献:

[1]李如平.数据挖掘中决策树分类算法和研究[J].东华理工大学学报(自然科学版),2010(33):192-194.

[2]孔抗美,张莹,李邵斌.医院医疗数据挖掘与分析[J].中国卫生信息管理,2011(06):23-24.

作者简介:伍强(1969.04-),男,海口人,硕士,副教授,高级工程师,研究方向:数据挖掘、口腔设备学教学与研究。

作者单位:海南医学院附属医院设备科,海口 570102;华中科技大学机械学院11级机械2班,武汉 430074;海南科技职业学院,海口 570216;海南医学院,海口 571199

基金项目:海南省自然科学基金资助项目(NO:310154)。

上一篇:基于计算机视觉的微小尺寸精密检测理论与技术... 下一篇:校园网络安全中防火墙的应用分析