数据挖掘技术在医学领域的应用

时间:2022-06-14 03:02:04

数据挖掘技术在医学领域的应用

摘要:数据挖掘技术应用于医学领域,有助于从海量的医学信息中提取有价值的知识和规则,以智能的方法来处理和分析科学实验或临床研究数据,从而为疾病的诊断和治疗提供科学合理的依据,为医院的决策管理、医疗和科研服务。该文阐述了数据挖掘的基本概念,对医学数据挖掘的特点进行了全面分析,介绍了在医学领域中常用的数据挖掘方法,为进一步的理论研究打下基础。

关键词:数据挖掘;知识;医学;智能

中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)30-7365-02

随着信息技术的飞速发展,计算机信息管理系统在各类医疗、研究机构得到了广泛的应用。大量关于病人治疗的临床信息,医院管理信息等信息的不断累积使得医学数据库迅速膨胀。传统数据库查询检索策略及统计学分析方法只能从大量的数据中获取一些表层信息,而无法发现数据之间内在关联及隐藏知识。利用数据挖掘技术从海量的医学信息中提取有价值的知识和规则,以智能的方法来处理和分析科学实验或临床研究数据,从而更好地为医院的决策管理、医疗和科研服务已成为一个非常重要的研究课题[1]。

1 数据挖掘的基本概念

目前有关数据挖掘的定义有很多,比较公认的一种是:数据挖掘(Data Mining)是从大量的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们未知的、潜在的有用信息和知识。这些信息可表示为概念、规则、规律和模式等。广义的数据挖掘对象包括数据库、数据仓库、文件系统、Web信息及各种形式的数据集。数据挖掘所要处理的问题,就是在庞大的数据集中寻找出有价值的隐藏事件加以分析,并以一定的置信度对未来进行预测,将这些有意义的信息归纳成结构模式,用来对决策形成参考。

2 医学数据挖掘特点

1)处理数据的规模十分巨大。由于医疗工作自身的特点――如病情观察的不可间断、各种医疗检查结果的纷繁复杂,医学数据库是一个涉及面广、信息量大的海量信息库,医学数据挖掘经常会面对尺度为GB甚至TB数量级的数据库。

2)挖掘对象是复杂的、各种类型的数据。医学数据库中含有各种不同来源,不同性质的数据,包括纯数据记录(如患者生命体征的各项参数、化验结果)、文字(如患者的病历记录、诊断结果)、信号(如肌电、脑电信号)、图像(如B超、CT检测结果),以及音频和视频等形式的健康传媒类信息[2]。

3)挖掘结果是潜在的、未知的信息,这些信息有助于预测未来趋势及行为,为医疗活动做出前瞻性的科学决策。对医学数据进行挖掘的一个主要目的是预测疾病发作,将数据挖掘技术应用于医学领域可以对正常人的各项体征数据和生物数据进行各种分析对比,挖掘出相关关系,对某些疾病的前兆特征分析,以便能预防或及时救治,挽救患者生命。

3 医学数据挖掘方法

数据挖掘的任务有两个,即描述和预测。与之对应,数据挖掘方法分为描述型方法和预测型方法。前者是通过判别数据之间的关系或模式,探索被分析数据的隐藏属性;后者利用从历史数据中发现的已知结果,推断或预测未知的可能值。在实际应用中,需根据对象的性质及要解决的具体问题,采用不同的数据挖掘方法。

1)决策树法。决策树方法是一种通过逼近离散值目标函数的方法,利用信息增益原理,将数据库中具有最大信息量的属性字段作为决策树一个节点,节点的每一个后继分支对应于该属性的一个可能值,在每个分支子集中重复建立树的下层节点和分支。决策树方法主要应用于医学数据挖掘中的分类过程――通过现有医疗数据,对患者的病症信息进行分类,分析患有该类疾病病人的共同特征以及可能患有的疾病类型,找出真正原因,从而做出针对该类疾病的最佳治疗方案。利用决策树法可大大增加诊断的准确度,提高诊断效率。

2)神经网络(neural networks)。人工神经网络是一种模仿生物神经网络的,通过训练来学习的非线性预测模型,具有很强的容错性、自组织性和鲁棒性。神经网络以人工神经元为基本运算单元的,能够对大量复杂的数据进行分析,并完成及其复杂的模式抽取及趋势分析,在医学数据挖掘中具有非常广泛的应用。利用神经网络可动态监测病人的麻醉深度,从而控制物的使用剂量;采用贝叶斯(Bayesian)神经网络结构能够找出服用抗精神病药物与心肌炎和心肌病发作的关系;还可以运用组合神经网络可对危及生命的心率失常进行归类等。

3)关联规则。关联规则描述和分析了数据库中一组对象之间某种共生现象,反映了事物之间存在的关联性――如两者“同时发生”或“两者存在因果关系”等。在医学领域同样存在关联现象,若某种疾病同时表现出若干种症状,则这几种症状与该疾病之间存在着关联性,且症状之间也呈现某种关联[3]。关联规则分析可为疾病的鉴别诊断提供参考依据。有研究者利用关联规则分析法对糖尿病数据库进行多维数据分析,以期望发现长期血糖浓度过高与并发症之间的关联;还有研究者对37000例肾病患者的症状(包括临床检验和检测)进行了追踪观察,监测尿蛋白水平、肾小球过滤率以及患者贫血状况,结果发现以上三种生理指标中的任何一项异常都伴随着心脏病发病率的上升[4]。

4)聚类分析。聚类分析是根据所选样本间关联的标准将其划分为几个组,同组内的样本具有较高的相似度,不同组的则相异。聚类分析方法适用于对孤立点的检测及用于探讨样本间的内部关系,从而对样本结构做出合理的评价。有研究者[5]利用聚类方法分析流行病学因素对肺癌患者临床医学状况的影响。首先从SEER的数据库中选取21758例肺癌病例,每一例数据包含23个流行病学特征属性和22个临床临床医学状态特征属性,继而根据流行病学特征属性的相似程度将病例数据划分成20类,比较各类别之间的临床医学状态特征属性的差异,在此基础上还可更进一步分析各类流行病学因素对肺癌患者临床医学状况的不同影响。

3 结束语

医学数据挖掘是信息网络技术、人工智能、模式识别、统计学等学科与医疗科学相结合的产物,对提高医疗服务质量和医院科研、管理水平发挥着重要作用,具有极其广阔的应用前景。医学数据挖掘面向整个医学数据库或医学信息集合提供知识和决策,因此挖掘对象是涉及面广、数据量大、且包含着各种类型数据的海量信息库;在挖掘方法中,决策树法、人工神经网络、关联规则、聚类分析等方法显示出了独特的优势,已经在医学信息处理和疾病诊疗方面得到了应用。随着理论研究的深入和进一步的实践探索,数据挖掘技术将在临床、科研、教学以及医院决策管理等方面发挥巨大的作用。

参考文献:

[1] 王华,江启成,胡学钢.数据挖掘在医学上的应用[J].安徽医药,2008.12(8):746-748.

[2] 袁占花,李祥生.数据挖掘在医学信息系统中的应用[J].电脑开发与应用,2009,22(7):55-57.

[3] 龚著琳,陈瑛,苏懿,等.数据挖掘在生物医学数据分析中的应用[J].上海交通大学学报:医学版,2010,30(11).

[4] Mc Cullough P, Jurkovitz C,Pergola P,et a1.Independent components of chronic kidney disease as a cardiovascular risk state:results from the Kidney Early Evaluation Program(KEEP) [J].Arch Inter Med,2007,167(11):1122-1129.

[5] Fradkin D. Using cluster analysis to determine the influence of demographic features on medical status of lung cancer patients[EB/OL].dimacs.rutgers.edu/Workshops/DataMiningTutorial.

上一篇:一种基于.NET4.0 Chart的通用图形化统计模块的... 下一篇:FIXatdl技术简述