医学数据挖掘综述

时间:2022-10-17 04:05:38

医学数据挖掘综述

摘要:医学数据挖掘是提高医学信息管理水平,为疾病的诊断和治疗提供科学准确的决策,促进医疗发展的需要。该文主要介绍了医学数据的特点,医学数据挖掘的发展状况和应用的技术方法,同时展望了数据挖掘技术在医学领域的应用前景。

关键词:数据挖掘;医学数据;神经网络;关联规则

中图分类号:TP274文献标识码:A文章编号:1009-3044(2011)15-3495-03

Summary of Medical Data Mining

WANG Ju-qin

(Department of Computer Technology, Wuxi Institute of Technology, Wuxi 214121, China)

Abstract: Medical data mining is necessary for improving the management level of medical information, providing scientific decision-making for the diagnosis and treatment of disease, and promoting the development of medicine. This paper mainly introduces the characters of mining medical data, the application and methods used in medicine, and also the application prospect medical field is outlined.

Key words: data mining; medical data; neural network; association rules

1 数据挖掘的产生

1.1 产生背景

在当今信息化和网络化的社会条件下,随着计算机、数据库技术的迅速发展以及数据库管理系统的广泛应用,各行各业都开始采用计算机以及相应的信息技术进行管理和运营,由此积累了大量的数据资料;另外,互联网的发展更是为我们带来了海量的数据和信息。但是,这些存储在各种数据媒介中的数据在缺乏强有力的工具的情况下,已经超出了人的理解和概括能力,导致收集在大型数据库中的数据变成了“数据坟墓”,并带来了一大堆问题:比如信息过量,难以消化;信息真假难以辨识;信息安全难以保证;信息形式不一致,难以统一处理,等等[1]。而激增的数据背后隐藏着许多重要的信息,决策者的决定往往不是基于数据库中的有用信息,而是凭直觉,因为决策者缺乏从海量数据中提取有价值知识的工具。数据和所需信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转化成知识的“金块”,人们迫切需要新一代的计算技术和工具来挖掘数据堆中的有用信息。

1.2 可行性

近十余年来,计算机和信息技术有了长足发展,产生了许多新概念和新技术,如更高性能的计算机和操作系统,因特网,数据仓库,神经网络等等。这使得数据挖掘技术在具备了市场需求的条件下,同时也具备了技术基础。在这样的背景下,数据挖掘技术就应运而生了。

2 医学数据概述

2.1 医学数据的内容

计算机信息管理系统在医疗机构的广泛应用促进了医学信息的数字化, 同时电子病历和病案的大量应用、医疗设备和仪器的数字化,使得医学领域数据的内容不断扩大,涵盖了医疗过程和医学活动的全部数据资源。医学数据资料主要来源于统计报表、医疗卫生工作记录、专题实验或者调查记录、专题性的资料等三个方面[2],其中主要包括完整的人类遗传密码信息,大量关于病人的病史、诊断、检验和治疗的临床信息,药品管理信息、医院管理信息等。

2.2 医学数据的特点

1)模式的多态性。首先表现为表达格式的多样性。医学信息包括纯数据(体征参数,化验结果),信号(脑电信号,机电信号),图像(B超,CT等医学成像设备的检验结果),文字(病人的身份记录,症状描述),以及动画、语音和视频信息。其次,数据表达很难标准化,对各种病例状态的描述也比较模糊,没有统一的标准和要求,不使用完全相同的专有名词,甚至对临床数据的解释都是用非结构化的语言,等等[3]。模式多态性是医学数据区别于其他领域数据的最根本和最显著的特性,同时这种特性也在一定程度上加大了数据挖掘的难度和速度。

2)不完整性。医学数据不可能全面地反映任何一种疾病的全部信息,因此也不可能通过挖掘,针对某一种疾病获取完整可靠的治疗和解决方案。这首先是因为医学数据相关信息(例如病例等)的记录存储还不是很完备和充分,还不能够达到完全总结出待挖掘规律的数量[3]。同时,即使记录在案的信息,其本身的表达方式就比较模糊,不可能通过精确值等方法来呈现,因此这些原因形成了医学数据的不完整性。

3)时间性[3]。一般情况下针对病人医疗活动的记录信息都具有一定的时间特性,并且会随着时序环境的变化而产生不同的表达效果;另外诸如医学检测的波形图像等信息也都是以时间函数为基础进行表达的。

4)冗余性。医学数据信息中有大量的相同部分被重复记录下来,比说一些常见疾病,病人的症状表现一般都比较相似,检查和化验的结果以及最后的治疗措施等绝大部分也因此而相同。因此即使病人的个人信息等存在较小差异,其记录的大部分医学数据都表现为完全相同或者大部分相同,这就体现为冗余性[3]。这种数据特点不但迅速增加了此类数据本身的数量,同时也给挖掘操作带来了更大的困难,应该在此之前就对这些冗余信息进行清理和过滤,去除不必要的重复部分,以简化挖掘操作的实现过程。

5)隐私性[8]。显然,记录的医学信息中,许多有关病人个体的信息涉及到社会伦理,法律以及个人所有权等,具有一定的隐私性,从社会,医学以及病人本身等方面来说都必须进行保护,不能外泄。但是当数据存储系统受到一些不可预料的侵入时,或者当其隐私保护的要求和挖掘操作的开放共享要求等产生矛盾时,势必会带来隐私性、安全性和机密性方面的问题。这就要求在进行医学数据挖掘时,必须严格以保护数据隐私为基础,

2.3 医学数据挖掘的可行性和必要性

2.3.1 必要性

众所周知,庞大的医学数据中蕴含着许多非常有价值的信息资源,这些资源对于相关病例的诊断治疗以及医学方面的研究发展都具有非常重要的意义。但是从目前的状况来看,大多数医学机构和人员对这些存储数据的利用还远远没有达到预期的目标和效果,仅局限于一些低端的操作和使用,比如简单的数据录入,数据的查询、修改、删除等,而并没有对收集的数据进行系统的分析研究,以从中得出适用于一般的规律特点,所以无法对相关病例的后继诊断提供科学的决策辅助,对医学学科的研究工作也没有起到相应的促进作用[4]。针对这些情况,在数据挖掘技术已经日渐成熟的背景下,将数据挖掘理论应用于医学,通过对海量的医学数据进行分析,总结各种医治方案的疗效,提取隐含在其中的有价值有意义的信息,更好地为医院的决策管理、医疗、科研和教学服务,对于医生明确诊断、治疗病人及促进疾病和健康的研究都具有极其重要的意义。

另一方面, 随着人们生活水平的提高,保健意识的增强以及我国医疗体制改革的深入,基于计算机技术、通信技术的远程医疗和社区医疗,已经逐渐成为各大医院的另一个潜在市场。如何对医学数据库进行自动提升和处理, 使其更好地为远程医疗和社区医疗提供全面的、准确的诊断决策和保健措施,已成为促进医院发展、提高服务质量而必须解决的新问题。而这显然也是和数据挖掘技术有着密不可分的联系。

2.3.2 可行性

数据挖掘技术在经过多年的发展之后已经形成相对成熟的技术体系,比如在数据挖掘设计、数据抽取以及联机分析处理技术等方面都有一定的进展[4]。同时,数据挖掘技术已经在各个国家的电信、制造、零售、金融等各个领域得到了较为深入的应用。这些成功的应用也提供了可借鉴的宝贵经验。

同时国家对医院信息化发展也给予了高度重视,提供政策、经济和技术上的大力支持,为医学数据挖掘技术的发展应用奠定了物质基础和技术保障。

3 医学数据挖掘的发展状况

3.1 发展现状

自20世纪80年代开始至今,数据挖掘技术产生至今有十几年的时间,在商业以及工业生产中已经得到了较为广泛的应用,也取得了比较显著的经济效益和社会效益,但是数据挖掘技术在医学领域的应用还处在起步阶段[5]。同时,医学数据挖掘也是一门涉及面广、技术难度大的新兴交叉学科,不但需要具有相关信息处理能力的技术科研人员,还需要相关的医务工作者和医疗机构提供医学数据信息和专业医疗活动支持,并且要在此基础之上实现医学信息资源和挖掘技术的整合,实现技术上的突破。

3.2 应用领域

1)医疗活动辅助诊断。通过对历史数据的处理和挖掘,能够发现出针对特定病例的典型规律。一方面数据量内容庞大,范围广泛,所以这些规律具有较好的普遍性;另一方面,根据患者全面的指标记录和数据信息可以得到比较客观的诊断结论,排除了人为因素的干扰,能够更加有利于提高医学治疗活动的有效性。比如将粗糙集理论和算法应用于中医类风湿和实体性肺病的诊断,基于人工神经网络理论以及模糊逻辑开发的心血管疾病诊断工具[6],都大大提高了诊断的正确率。

2)医学信息处理。医院信息主要包括医院等医疗机构的内部管理信息(设备,药械,财务)以及以患者为中心的信息(临床病例、诊断、治疗过程)。在初级操作阶段的基础上,通过对信息的数据关联性分析,能够预测未来发生发展趋势和辅助诊断信息,比如药品的使用频率,某种疾病的发生和治疗规律等。例如应用粗糙集理论预测早产,可以将准确率从人工预测的17~38%提高到68~90%[6]。

3)医疗质量管理。医疗机构的服务要求在不断提高,质量效率问题也越来越被重视。医疗质量的核心是数据、标准、计划,这些都可以用不同的数据指标来衡量。通过数据挖掘技术,可以发现新的指数规律,检验其有效性,并提炼调整质量方案。例如年龄因素和治疗方法的关系延长了标准住院时间,可以考虑修改治疗方案等。可以很明显地发现,数据挖掘技术可以帮助发现有关提高临床服务效率以及质量潜力的证据。

4)医药研发技术支持。在新药的研究开发过程中,关键环节是先导化合物的发掘,其中一种基本途径就是随机筛选与意外发现。但是很显然这种技术实现的周期比较漫长,肯定提高时间成本和经济成本。而在数据挖掘技术的支持下,可以通过数据信息的归纳总结,确定药效信息,大大缩短新药的研发周期[6]。

5)生物医学(DNA)。人类24对染色体的基因测序已经全部完成,标志着人类基因研究已经进入新的发展阶段。接下来要完成的重要任务就是对分析DNA序列模式。比如,遗传疾病的发生和人体基因密不可分,要掌握基因代码的微观结构,就需要对DN段进行细致的了解和测序,也就是要从大量的DNA数据中找到具有一般规律的组合序列。目前,使用数据挖掘技术已经在很多方面对DNA的分析作出了很多贡献,例如,DNA序列间相似搜索和频度统计,可以识别带病样本和健康样本中基因序列的差异[6];关联分析可以帮助确定在样本中同时出现的基因种类,有利于更全面地发现基因间的交叉联系和致病规律;路径分析能够发现不同阶段致病基因的作用规律,从而提高药物治疗的效率。

6)医学图像应用。主要应用于目组织的特征表达,即图像特征自动提取和模式识别。例如,CT,PET,SPECT等诊断工具在医学领域应用越来越广泛,而在数据挖掘技术的帮助下,医学图像分析的功能也越来越强大[6]。运用基于贝叶斯分类的数据挖掘模式对心肌SPECT图像能够进行高质量的分析和分类诊断。

7)其他方面的应用。数据挖掘还应用于毒理学方面以及药物副作用研究方面。

4 医学数据挖掘的方法技术

4.1 关键问题

1)数据预处理。如前所述,海量的医学原始数据中包含大量的冗余、模糊以及不完整信息,必须首先进习惯清理和过滤,以确保数据的一致性和完整性。

2)信息融合技术。因为医学信息的格式繁多,包括文字,数据,图像,语音,视频等等,因此需要针对不同类型的信息采用不用的处理技术,并且在需要的时候可以对结果进行综合和分析。

3)快速的、鲁棒的挖掘算法[7]。医学数据的挖掘面向海量的存储信息,处理的时间和技术要求都比较高,因此如何提高效率非常重要。同时基于数据类型动态变化,要求挖掘算法具有一定的容错性和鲁棒性。

4)提供知识的准确性和可靠性。在保证挖掘算法的处理结果具有较高准确率和可靠性的前提下,所得到的信息才能够为医疗活动和管理提供科学客观的决策帮助,在实际中得到很好的应用。

4.2 主要技术实现

1)自动疾病预测趋势和行为。通过数据挖掘技术,对有关人体病例的体征数据进行分析对比,并从中分析出相应的关系和规律,从而对疾病的预防、发生等进行预测。采用的主要技术有线性、非线性和广义的回归模型,以及神经网络和模糊控制技术[8]。其中,人工神经网络技术是一种模仿生物神经网络的、以人工神经元为基本运算单位的互联分布式存储信息的智能信息处理系统,具有很强的自组织性、鲁棒性和容错性。利用相关理论技术,能够找出服用抗精神药物与心肌炎发作的关系,对危及生命的心律失常进行归类,动态检测病人的麻醉深度和控制剂用量等;而模糊系统是建立在模糊数学基础上的一种推理方式,经常与神经网络或最近邻技术联合起来应用,可以实现从心跳中鉴别心室过早收缩,分析肝脏超声图像等功能。

2)关联分析。简单地说,关键就是两个或者多个变量的取值之间存在的某种规律性。关联技术的目的是通过多维数据分析技术找出其中隐藏的关联规则。有时并不知道或者不确定数据中的关联函数,因此关联分析生成的规则带有可信度[8]。最著名的APRIORI关联规则发现算法中,首先就是识别所有的频繁项目集,也就是不低于用户最低支持度的项目集,然后再从频繁集中构造不低于用户最低信任度的规则。在此基础之上,又出现了动态项目集技术DIC算法,发现频繁项目集的划分算法―分治法等。在实际情况下,关联规则还需要进一步泛化,以发现更有用的价值。目前在医学上,关联分析是糖尿病数据库分析课题中应用最广泛和有效的工具。

3)聚类分析。把数据库中中的记录划分为一系列有意义的子集成为聚类,包括统计方法,机器学习方法,神经网络方法,面向数据库的方法,对于采集到的医学信息进行处理的一个重要步骤就是聚类分析。聚类技术主要包括传统的模式识别方法和数学分类学,例如决策树归纳,贝叶斯分类,神经网络技术,基于知识的案例推理,遗传算法,粗糙集等[8]。其中,粗糙集理论的出发点是根据目前已有的对给定问题的知识将问题的论域进行划分,然后对划分的每一组成部分确定其对某一概念的支持程度,用“肯定支持此概念”,“肯定不支持此概念”,“可能支持此概念”进行描述,并表示为正域、负域和边界三个近似集合,同时用二维的决策表来描述论域中的对象。目前在中医类风湿证候的诊断、肺部良性和恶性肿瘤诊断等领域发挥了重大作用,被认为可能是最理想的动态工具。

4)偏差检错与控制。数据库中的数据存在一些异常记录,需要我们将其检测出来。偏差包括很多潜在的知识,例如分类中的反常实例,不满足规则的特例,观测结果与模型预测值的偏差,量值岁时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别[8]。目前在人工辅助仪器研究和药物疗效的生理实验研究方面都有相关研究报道。

5)进化计算。进化计算法是由生物进化规律而演化出的一种搜索和优化的计算方法,包括遗传算法,进化规划,计划策略和遗传编程[8]。可以通过从任意一个 出示的群体出发,通过随机选择、交叉和变异等过程,使群体进化到搜索空间中越来越好的区域。

4.3 医学数据挖掘过程

因为医学数据挖掘和普通的数据挖掘之间差异较大,所以其过程是很难定义的。一些研究者定义了一系列的步骤,从而为此提供了一个框架,目的在于为各种数据挖掘方法在不同领域的应用提供指导,这些框架可能在步骤上略有不同,但同样适用于医学数据挖掘。一般都涉及下列6个应用领域[9]:

1)理解数据。初步理解需要挖掘的数据属性,从原始数据库中小规模采样,进行初步挖掘实验,将结果与挖掘目标进行对照,必要时更新数据属性。

2)准备数据。由于医学数据的冗余性和多样性,使得我们需要对数据进行采样以消减数据量,同时要针对各种类型的数据采取相应的数据预处理方法。通过数据的准备,可以将原始数据转换为特定数据挖掘方法所需要的数据形式。

3)数据挖掘。这一步包括建模技术的选择,训练与检测程序的确定,模型的建立与评估。实现的方法包括前面讲到过的粗糙集理论,神经网络,进化计算,决策树等。挖掘方法与研究目标的匹配程度很大程度上决定了挖掘结果的精确度。

4)评估知识。对挖掘结论进行医学解释,并再次同最初目标进行比对。如果需要,寻找挖掘过程中存在的错误和不合理步骤并加以解决,或者对挖掘算法进行优化,提高运行效率。

5)应用知识。在应用的过程中要注意有计划地实施和控制,及时发现应用过程中的问题,并对实际情况进行阶段性的总结分析,使得挖掘成果能够更加完善。

5 医学数据挖掘的发展展望

医学数据挖掘是计算机技术、人工智能、统计学等和现代医学信息资源相结合的一门交叉学科,涉及面广,技术难度大。随着数据库、人工智能等数据挖掘工具的不断进步,关联规则等理论研究德不断发展,以及大型数据库和网络技术的普及应用,必然还会有更加多的各种格式的医学数据出现。同时,医学数据库包括电子病历、医学影像、病理参数、化验结果等,而目前数据挖掘技术主要应用于以结构化数据为主的关系数据库、事务数据库和数据仓库,对复杂类型数据的挖掘尚处在起步阶段[9]。这些情况说明了医学数据挖掘技术的发展,充满着机遇和挑战,需要广大计算机、信息技术人员和医务工作者通力合作,结合医学信息自身具有的特殊性和复杂性,选择适合医学数据类型的数据挖掘工具,并解决好数据挖掘过程中的关键技术,尽可能大的发挥数据挖掘技术在医学信息获取中的价值。更好的服务于医学、受惠于患者。随着理论研究的深入和今年亦不的实践摸索,数据挖掘技术在疾病的诊断和治疗、医学科研与教学以及医院的管理等方面必将会发挥越来越大的作用。

参考文献:

[1] Krzysztof J Cios,William Moore.Uniqueness of medical data mining[J].Artifical Intelligence in Medicine,2002,26(1-2):1-24.

[2] Ganzert S,Gytmann J,Kersting K,et al.Analysis of respiratory pressure-volume curves in intensive care medicine using inductive machine learning[J].Artif Intell Med,2002,26(1-2):69-86.

[3] Tourassi G D,Floyd C E,Sostman H D,et al.Acute Pulmonary Embolism:Artificial Neural Network Approach for Diagnosis[J].Radiology,1993,189(2):555-558.

[4] Kusiak A,Kernstine K H,Kern J A,et al.Data Mining:Medical and Engineering Case Studies[A].Proceedings of the IIE Research 2000 Conference,Cleveland,OH,2000(5):1-7.

[5] Wolf Stugliger.Intelligent Data Mining for Medical Quality Management[EB/OL].www.ifs.tywien.at/~silvia/idamap-2000.

[6] Wang ML,Wai L,Leung K S.Discovery knowledge from medical database using evolutjionary algorithms[J].IEEE Eng Med Biol Mag,2000,19(4):45.

[7] Ohrn A,Rowland T.Rough sets:a knowledge discobery technique for multifactorial medical outcomes[J].Am J Phys Med Tehabil,2000,79(1):100.

[8] 周爱华,郑应平,王令群.医学数据挖掘综述[J].中华医学实践杂志,2005,4(2):126-128.

[9] 朱凌云,吴宝明.医学数据挖掘的技术方法及应用[J].生物医学工程杂志,2003,20(3):559-562.

上一篇:抽象数据类型概念多角度理解的教学探索 下一篇:AuthorWare与PowerPoint应用浅析