数据挖掘及其在医学上的应用

时间:2022-09-20 02:47:09

数据挖掘及其在医学上的应用

【摘要】简要介绍数据挖掘的基本概念和功能。针对医学数据的隐私性、不完整性、复杂性,阐述数据挖掘在医学上应用,主要包括:作为HIS系统的补充,对医疗质量、手术室感染进行管理;辅助科研统计,降低药物开发成本;辅助医学诊断,预测疾病趋势。最后,对数据挖掘的发展前景作出预测提出期望。

【关键词】数据挖掘;医学应用

1.数据挖掘的基本概念

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识,并表现为概念、规则、规律、模式等形式的过程[1]。

这个定义包括好4层含义:数据挖掘的数据源是真实的、大量的、含噪声的[2];挖掘发现的是用户感兴趣的知识;所发现的知识是可接受、可理解、可运用的,同时尽可能将它们用自然语言的形式被表达出来;这些被提取的知识不是绝对的,而是在某个特定条件和领域里面才成立。

2.数据挖掘的功能

2.1 自动预测趋势和行为

数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。例如:数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。

2.2 关联分析

数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。

2.3 聚类

数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。主要包括传统的模式识别方法和数学分类学。

2.4 概念描述

概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述。

2.5 偏差检测

数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别[3]。

3.医学数据挖掘的特点

隐私性;不完整性;复杂性。

4.数据挖掘在医学中的具体应用

4.1 医院管理

4.1.1 HIS系统的补充和升级

国内不少医院已经引入医院信息系统(Hos-pital Information System,简称HIS[4])。HIS系统作为医学信息学的一个分支,分为管理信息系统和临床信息系统前者主要处理医院内部管理方面的信息如人事、财务和设备管理等,而后者是以处理患者为中心的信息系统,如患者人院、住院、治疗、检查、出院等一系列与患者有关的信息。但是HIS停留在了基于数据库技术支持的操作型事务处理的水平上,仅仅可以实现数据的录入、修改、查询等简单功能,诸如利润预测、发病率统计等等问题就要靠构建数据挖掘模型来解决。

4.1.2 医疗质量管理

医改大潮下,紧张的医患关系、医疗资源的严重不足等等诸多问题摆在眼前。这就需要院方对本院的医疗质量进行管理和检测。利用DM技术中的环基比和定基比可以分析一眼门诊量、住院量、收入等的增长速度,反映医院的工作量和发展趋势。利用DM的灰色关联分析方法还可以对医院收治患者人数的影响因素进行分析,得到住院患者手术人次、病床周转次数、年平均医生数等因素的关联度,帮助发现提高临床服务效率和质量的方法[5]。

4.1.3 手术室感染管理

对手术室感染的管理,DM的技术重点放在手术室消毒灭菌工作与消毒效果和监测结果产生规律搭配上,使手术室感染管理的常规工作有据可查。对手术室环境、无菌用品、消毒液的生物监测工作;手术室的无菌操作、消毒隔离技术规范;消毒液的效果与质量、无菌物品及一次性用品的保存;医院感染的监控和报告;手术室人员进行的消毒灭菌和院内感染岗位培训直至医用废弃物的科学分类和无害化处理等进行一系列的质量跟踪分析[6]。

4.2 科研和药物开发

数据挖掘技术已经被应用到医疗卫生的各个领域,在基因研究和药物开发等科研中都获得了丰硕的成果,在数据分析的效率上与传统的统计分析方法相比更加高效。

4.2.1 科研统计

随着人类基因组计划的进行,目前己获得数十亿的核背酸和上百万的氨基酸的数据,如何从这大量的1)NA数据中找到具有统计特异性的序列(组)就成为最迫切需要解决的问题。很多研究者[7-10]尝试采用数据挖掘工具对基因组测序数据进行分析,结果表明数据挖掘技术较传统的统计分析方法更为有效。

4.2.2 新药开发

在新药开发的过程中,需要通过数据挖掘技术来完成开发新药物的系统设计,挖掘出新药构成的化学物质,减少新药开发研究的成本和时间。因此,数据挖掘技术对于药物的毒理学研究以及新的副作用研究有重要意义

4.3 辅助医学诊断、分析、预测

4.3.1 疾病诊断

正确的诊断对于病人的用药、手术、复健等都尤为重要。数据挖掘对数据源进行清洗和分类,模糊聚类压缩处理医学影像,灰度分析对疾病相关因素的关联性分析等等都对医生的诊断提供了帮助。数据挖掘辅助诊断的实例在国内外都不少。国内,有研究者利用Fayyad辅助中医诊脉,将粗糙集理论应用与中医类风湿诊断[11],大大提高了诊断准确率。

4.3.2 疾病趋势分析

根据病人的病史,身体状况,结合对某类疾病的规律、诱因等的分析,预测疾病发展趋势,有针对性地进行预防。

5.结语

数据挖掘作为近几年来迅速发展的新兴研究领域,在商业、公共管理、医学等方面都有着广泛的应用前景。尤其在医学方面,随着医改的不断深入,医院信息化逐步进入医院管理层乃至普通百姓的视线,虽然数据挖掘技术在医学领域的应用刚刚起步,尚处于摸索阶段,随着数据库、人工智能等技术的发展,数据挖掘技术会日臻完善,必将为医学管理决策、科学研究带来极大的方便和可观的效益;在现有的HIS、PACS的基础上,数据挖掘技术必将成为医疗信息化发展的最大助力。

参考文献

[1]Srikant R,Agrawa lR.Mining Sequential Patterns:general-izations and performance improvements[C].Pro.5thInt’lconf.Extendign Database Technology Heidelberg:Springer,1996.

[2]Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社.

[3]韩煌.数据挖掘技术在医院信息系统中的应用[J].医学信息学杂志,2010,31(10):25-31.

[4]屈景辉,廖琪梅.许卫中.医学信息数据库的建立与数据挖掘[J].第四军医大学学报,2001,22(l):88一89.

[5]Wolf Stuglinger et al. Intelligent Data Mining for Medical Quality Management [OL].http://www.ifs.tuwien.ac.at/~silvia/i-damap-2000

[6]刘申菊,田丹.浅谈数据挖掘的应用[J].价值工程,2010, 29(36):95.

[7]Nandi T,B-Rao C, Ramachandran S. Comparative genomics using data mining tools[J]. J Biosci.2002,27(1 Suppl 1):15-25

[8]Casadio R ,Compiani M, Fariselli P.et al.Neural net-works predict protein folding and structure:artificial intelligence faces bio-molecular complexity[J].SARQSAR Environ,Res,2000,11(2):149-182.

[9]King RD,Karwath A,Clare A, et al.Accurate prediction of protein functional class from sequence in the Mycobacterium tuberculosis and Escherichia coli genomes using data mining[J].Yeast,2000,17(4):283-293.

[10]Lawson D.Data mining parasite genomes:haystack searching with a computer[J].Parasitology,1999,II8 Suppl:S15-S18.

[11]秦中广,等.粗糙集在中医类风湿征候诊断中的应用[J].中国生物医学工程学报,2001,20(4):357-363.

上一篇:基于PHP技术的校园网站的设计与实现 下一篇:3DMAX制作室内效果图中灯光的运用技巧研究