临床医学数据挖掘分析

时间:2022-10-30 07:44:09

临床医学数据挖掘分析

1DM概述

DM是数据库知识发现(knowledgediscoveryindatabase,KDD)不可缺少的一部分,而KDD是将未加工的数据转换为有用信息的整个过程(图1),包括一系列转换步骤,从数据的预处理到DM的后处理[1]。其最早是在1989年举行的第11届美国人工智能协会(americanassociationforartificialintelli-gence,AAAI)学术会议上提出的,是近年来随着人工智能和数据库技术的发展而出现的一门新兴技术[4],其开发与研究应用是建立在先进的计算机技术、超大规模数据库的出现、对巨大量数据的快速访问、对这些数据应用精深的统计方法计算的能力这4个必要条件基础上的,以数据库、人工智能和数理统计三大技术为支柱[5]。

2DM的基本模式及在临床医学中的应用

DM的任务通常有两大类:预测任务和描述任务。预测任务主要是根据其他属性的值,预测特定属性的值,主要有分类(classificaion)和回归(regression)2种模式。描述任务的目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常),主要有关联分析、聚类分析、异常检测3种模式[1]。

2.1预测建模(predictivemodeling)

涉及以说明变量函数的方式为目标变量建立模型。有2种模式:分类和回归。分类是用于预测离散的目标变量。在临床医学中,疾病的诊断和鉴别诊断就是典型的分类过程。Melgani和Bazi[6]以美国麻省理工学院的心律失常数据库的心电图为原始数据,采用不同分类模型,对心电图的5种异常波形和正常波形进行分类。回归是用于预测连续的目标变量。回归可广泛应用于医学研究中如医疗诊断与预后的判别、多因素疾病的病因研究等。Burke等[7]采用各种回归模式对影响乳腺癌患者预后的因素进行回归分析。

2.2关联分析(associationanalysis)

用来描述数据中强关联特征的模式,用于发现隐藏在大型数据集中的令人感兴趣的联系。所发现的模式通常用蕴函规则或特征子集的形式表示。关联分析主要应用于DNA序列间相似搜索与比较、识别同时出现的基因序列、在患者生理参数分析中的应用、疾病相关因素分析等[5]。有学者对37000例肾病患者进行了追踪观察,监测肾小球过滤率、尿蛋白水平和贫血状况,结果发现以上3种生理指标中的任何一项异常都伴随着心脏病发病率的上升,这种肾病与心脏病“关联”的现象可发生在肾病的早期阶段[8]。

2.3聚类分析(clusteranalysis)

旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。聚类分析在医学领域中主要用于DNA分析、医学影像数据自动分析以及多种生理参数监护数据分析、中医诊断和方剂研究、疾病危险因素等方面[5]。罗礼溥和郭宪国[9]利用聚类分析对云南省25县(市)现有的112种医学革螨的动物地理区划进行分析,发现云南省医学革螨的分布明显地受到自然地理区位和特定的自然景观所制约。

2.4异常检测(anomalydetection)

用来识别其特征明显不同于其他数据的观测值。这样的观测值称为异常点(anomaly)或离群点(outlier)。异常检测的目标是发现真正的异常点,避免错误地将正常对象标注为异常点。换言之,一个好的异常检测器必须具有高检测率和低误报率,其主要应用于检测欺诈、网络攻击、疾病的不寻常模式等[2]。

3DM的方法及研究趋势

在DM算法的理论基础上,DM常用方法:(1)生物学方法包括人工神经网络、遗传算法等;(2)信息论方法包括决策树等;(3)集合论方法包括粗糙集理论、近邻算法等:(4)统计学方法;(5)可视化技术等方法。DM经过十几年的蓬勃发展,很多基本算法已较为成熟,在其基础上进行更加高效的改进和算法提高显得比较困难,如传统的频繁模式和关联规则挖掘在近几年的国际著名会议和期刊上已不再作为重要的研究主题[10]。近年来众多国内外知名学者相继探讨DM的最新方向。Yang和Wu[11]汇总形成了DM领域十大挑战性问题报告;Agrawa等[12]探讨了DM的现状并展望了未来的发展方向,Piatetsky-shapiro等[13]讨论了DM新的挑战性问题,并主要探讨在生物信息学(bioinformatics)、多媒体挖掘(multimediamining)、链接挖掘(1inkmining)、文本挖掘(textmining)和网络挖掘(webmining)等领域所遇到的挑战。与国外相比,DM在国内的研究和应用始于20世纪90年代初,主要是对DM方法的介绍和推广,20世纪90年代后期和21世纪初进入蓬勃发展阶段,当前DM已成为大型企业进行经营决策时所必须采用的方法,证券和金融部门已将DM作为今后重点应用的技术之一。有学者以HIS和LIS数据库信息为数据源,人工神经网络为工具,概率论为依据,对常规检验结果和质谱指纹图数据进行DM并应用于临床实践[14-16]。

4临床医学DM的特点

DM作用于医学数据库跟挖掘其他类型的数据库相比较,具有其自己的特点。以电子病历、医学影像、病历参数、化验结果等临床数据为基础建立的医学数据库是一个复杂类型数据库,这些临床信息具有隐私性、多样性、不完整性、冗余性、异质性和缺乏数学性质等自身的特殊性和复杂性,使得医学DM与常规DM之间存在较大差异。医学DM方法包括统计方法、机器学习方法、神经网络方法和数据库方法等。将这些不同的挖掘方法应用到疾病的诊断、治疗和预后分析以及医疗管理等各个领域,从疾病的诊治、医疗质量管理、医院管理、卫生政策研究与医疗资源利用评价等方面去获取诸如概念、规律、模式等相关知识;用于对疾病进行分类、分级、筛选危险因素、决定治疗方案和开药数量等[5]。

5我国医学DM的现状及展望

生命科学的快速发展以及系统生物学(systembiology)的出现和蓬勃发展为研究现代医学模式和中医药学提供了可能的新思路和新方法。通过基因组学、蛋白质组学等方法阐述复杂生命迫切需要DM等相关计算分析方法处理海量的基因、蛋白、染色质数据如基因调控网络的研究、蛋白质交互网络的挖掘等[10]。在我国医学数据极为丰富,但运用DM技术分析和处理这些数据资源的研究尚处于起步阶段。有些大学(如第二军医大学、哈尔滨医科大学、泸州医学院等)已经面向医学本科生及研究生开设了相关课程,上海交通大学医学院也向医学专业研究生开设了《生物医学数据挖掘》的课程[17],泸州医学院检验医学系开设了《检验医学信息学》课程,从检验医学信息的来源、综合、提炼和利用过程均进行了详细介绍[18]。这些课程的开设旨在使学生及医学科学研究者了解这些知识,能理性地应用这些数学工具,并建立和其他学科领域研究人员合作的基础。医学DM是一门涉及面广、技术难度大的新兴交叉学科,是计算机技术、人工智能、统计等技术手段与现代医疗相结合的产物,需要从事计算机、统计学的科研人员与广大医务工作者之间的通力合作。随着理论研究的深入和进一步的实践摸索,医学DM必将在疾病的诊疗、医学科研与教学以及医院管理等方面发挥不可估量的巨大作用。

上一篇:企业文化道德融合途径 下一篇:生物医学信号分析