综合多种数据挖掘技术的糖尿病诊断系统

时间:2022-07-14 11:54:43

综合多种数据挖掘技术的糖尿病诊断系统

摘要:糖尿病对人类健康的危害十分严重,且患病人数逐年升高,但诊断正确率不高。收集中医专家在诊断糖尿病时积累的大量宝贵临床数据,建立糖尿病医药数据库,在此基础上综合运用多种数据挖掘技术,开发出糖尿病诊断系统。可以根据病人体检信息自动地诊断糖尿病,从而辅助医生工作,提高工作效率,减少误诊概率。相比于单个数据挖掘技术,利用群体智慧提高了诊断准确度;此外还可以利用新增病人的数据进行优化,进一步提高诊断准确度。实验结果证明了系统的正确性和有效性。

关键词:糖尿病医药数据库;中医专家;糖尿病诊断系统;数据挖掘技术;群体智慧

中图分类号:TP311文献标识码:A文章编号:1009-3044(2012)23-5547-05

Diabetes Diagnosis System Integrated with a Variety of Data Mining Technology

WANG Guo -qiang,KAN Hong-xing,WANG Zong-dian

(School of Medical Information Technology, Anhui University of Traditional Chinese Medicine, Hefei 230031, China)

Abstract: Diabetes seriously hazards to human health, and the number of patients increase year by year, but the correct diagnosis rate is not high. Collect the much valuable clinical information in the process of diabetes diagnosis of TCM(Traditional Chinese Medicine) expert, es? tablish the diabetes medicine database, and combine various data mining technologies to develop a diabetes diagnosis software system. It can automatically diagnose diabetes based on the patient medical information, which can assist the work of a doctor, improve the work efficien? cy, and reduce the misdiagnosis probability. Compared to the single data mining technology, this system uses the wisdom of crowds to im? prove the diagnostic accuracy. Moreover, It can be optimized with the new patient data, and further improve the diagnostic accuracy. The experiment results testify the validity of the system.

Key words:diabetes medicine database; TCM(traditional Chinese medicine) expert; diabetes diagnosis system; data mining technologies; the wisdom of crowds

1概述

据统计数据显示,截至2005年我国糖尿病患者已达3500万人,占世界糖尿病人群总数的1/5,患病率居世界第二位,并且以每天至少3000人的速度增加,每年增加超过120万人。预计到2010年,我国糖尿病人口总数将猛增至8000万至1亿人[1-2]。目前我国年龄在35岁~74岁的成人糖尿病的诊断率仅为23.6%。就是说,有3/4的病人不知道自己患了糖尿病。在就诊病人中,治疗达标的病人仅占33%。大多数病人只有被动地等到出现并发症时才去就医。我国糖尿病防治状况更不容乐观[3]。

根据上述的资料显示,我国的糖尿病患者无论从人数规模还是增长比率都相当惊人,但是相对应的提前检测和病后治疗却处于严重不足的情况。如何解决这个落差,关系到我们的全民健康和社会进步。

糖尿病中医专家在诊断糖尿病的过程中积累了大量的、宝贵的临床信息资源(如病人资料、专家经验等),而数据挖掘技术能从大量的数据资源中挖掘出深层次的、隐含的、有价值的知识。因此如果将大量的临床信息资源整合到医药信息数据库中,然后将数据挖掘技术应用到医学信息数据库中,可以挖掘出其中的医学诊断规则和模式,从而辅助医生特别是年轻医生进行疾病诊断。数据挖掘还可能挖掘出一些潜在的、隐含的、甚至中医专家都没有发现的知识,从而能帮助医生优化传统的诊断方法和医疗方案。

2研究背景

国内外已有一些基于数据挖掘方法的糖尿病诊断研究。

肖永华等收集了128例吕仁和教授诊治的糖尿病患者的医案,存储于"中医医案数据库"中,对糖尿病类型、分期、并发症、病因、病位等的出现几率及其关系进行相关的查询和分析总结[4]。该研究客观反映了吕教授治疗糖尿病的临床思路与经验,利于专家学术思想的总结,但没有最终形成实用的糖尿病诊断预测系统。

(3)神经网络挖掘模型

图3三种挖掘模型的结构图

2)利用糖尿病数据库数据分别训练3种挖掘模型

在Visual Studio 2005中,针对3种挖掘模型,分别点击菜单命令“挖掘模型|处理”,在打开的“处理挖掘模型”对话框中单击“运行”按钮,即可使用视图“view_diabetes_diagnosis”中的数据来训练挖掘模型,训练完成后将生成3个可以对病人数据进行诊断的挖掘模型。

3)利用群体智慧综合多种数据挖掘模型

我们现在总共有3个数据挖掘模型,对于一个新的病人信息,每一个挖掘模型都能判断出来一个诊断结果,当3个挖掘模型得出的诊断结果不一致,我们采用群体智慧的办法,即“三选二”,以占大多数的诊断结果为准。这也符合我们在日常生活中“少数服从多数”的原则。

4.1系统测试的诊断准确度分析

下面的图4分别列出了决策树模型、关联规则模型、神经网络模型、以及利用群体智慧的综合模型的诊断准确度图。从图中可以看到,相比于单个数据挖掘模型来说,使用群体智慧的综合模型可以一定程度上提高诊断的准确度。4.2系统优化的诊断准确度分析

由于糖尿病数据库中的病人数据不足,可能会导致系统的准确度不是很高,但本系统可以利用新增病人数据不断地自我训练调整模型,逐步提高诊断的准确度。

优化的过程如下:当有新的病人数据时,先利用该系统得出一个诊断结果,再由中医专家对系统的诊断结果进行修正,并将修正后的数据加入到糖尿病数据库中。如果发现系统的诊断结果和专家的不一致,则立即利用新的糖尿病数据库重新训练,得到一个新的综合模型;如果发现系统的诊断结果和专家的一致,可以暂缓重新训练,当积累到一定个数的新数据后再重新训练,得到一个新的综合模型。然后再使用新的综合模型去诊断病人,如此重复。

为了证明优化过程的有效性,我们将现有的糖尿病数据分成两份,一份占80%,先用这部分数据训练得到一个综合模型,另一

糖尿病中医专家在诊断糖尿病的过程中积累了大量的、宝贵的临床信息资源,如何在这大量的数据资源中挖掘深层次的、隐含的、有价值的知识,是一个难题。该文基于安徽中医附院的糖尿病诊断相关数据,建立基于SQL Server 2005的糖尿病医药数据库,然后在此基础上综合Visual Studio 2005中的多种数据挖掘模型来诊断糖尿病,这种利用群体智慧的综合模型的诊断准确度将比单个模型的诊断准确度要高。该系统在投入使用后,随着患者及其家属信息以及专家知识的增加,还能自适应地改进和重新训练模型,从而进一步增加其诊断准确度。实验结果证明了其正确性和有效性。

下一步的工作包括:改进系统的人机界面,方便医护人员使用;加入更多的数据挖掘模型。

上一篇:基于Android的互联网网关应用设计 下一篇:基于SQL Server对Sybase数据库的访问