Apriori算法在糖尿病电子病历挖掘分析中的应用

时间:2022-08-17 07:53:53

Apriori算法在糖尿病电子病历挖掘分析中的应用

摘 要

随着人民生活水平的提高和人口老龄化加重,糖尿病患者人数增长迅速,研究糖尿病对减轻患者家庭和社会医疗负担具有重要意义。本研究利用Apriori算法对美国Health Facts医疗数据库中17018份糖尿病患者的电子病历进行关联规则分析,辅助医生根据患者的一个或多个属性特征对病情或治疗方案做出临床判断。

【关键词】糖尿病 Apriori算法 关联规则

糖尿病是由于人体胰岛素分泌不足,加上机体靶细胞对胰岛素敏感性下降而引起的以慢性血糖水平增高为显著特征的代谢类疾病。中华医学会糖尿病分会于 2007-2008 年对全国 14 个省市进行了流行病学调研,结果发现 20 岁以上的成年人糖尿病患病率为 9.7%,总的糖尿病患者数达 9240 。

关联规则问题由Agrawal等人在1993年提出,近年来许多研究者对关联规则进行大量方法理论研究和应用研究,在临床数据分析中也得到了充分应用,而Apriori算法是关联规则中的经典算法。

1 Apriori算法原理

Apriori算法的核心是利用逐层搜索迭代的方式获取事务数据库中所有的频繁项集,用k项频繁项集去寻找k+1项频繁项集, 直到不存在k+1项频繁项集为止。然后根据频繁项集,计算出所有的强关联规则。

2 用Apriori算法对糖尿病电子病历进行关联规则分析

2.1 从Health Facts数据库中提取所需糖尿病数据及预处理

本研究使用来自美国的“Health Facts”医疗数据库中130家医院1999-2008年间的糖尿病患者病历数据,提取其中做过糖化血红蛋白检测(HbA1c)糖尿患者,共 17018 名患者,以分析糖尿病患者年龄、住院时长、用药量等特征之间的相关关系,在进行关联规则分析前,首先对数据进行预处理,包括数据清理、数据抽取及数据转换等。本研究选取的糖尿病患者12个属性(gender―性别,age―年龄,A1cresult―糖化血红蛋白检测值,insulin―胰岛素用量等)进行分析。

首先是数据清理,数据清理主要通过填写缺失值、清除异常数据等手段对数据进行清理。由于关联规则只能处理离散化数据,所以在进行挖掘前先对住院时长、就诊次数等属性值进行离散化处理。以住院时长为例,糖尿病患者住院时长1-14天按照等宽离散化处理后,患者的分布如图1所示。

2.2 糖尿病关联规则数据挖掘

本研究数据量相对比较大,共 17018 名糖尿病患者病历,为了获得一些有价值的关联规则, 可以将支持度设置的低一点,本实验设置为 7%。提升度对于判断生成的规则是否具有价值有重要参考意义,本研究我们设置最小提升度设置为 2.8,最终得到82条提升度大于2.8的强关联规则。我们发现得到的符合条件的关联规则的置信度跨度较大,0.27~1,由于置信度大小体现了规则的相关性,我们关联规则的目的是发现具有指导意义的强关联规则,我们需要从这82条规则中挑选出置信度大于0.6的规则,部分结果如表1所示。

从表1的关联规则结果我们可以看出,糖尿病患者药物治疗方案、用药量、住院次数等属性之间的一些关系:

(1)有2536名患者住院次数0-1次,且不需要糖尿病药物治疗,在这些患者中有65%不需要糖尿病药物治疗,且后来也没有相关住院记录,说明大部分没有过住院记录或者只有一次住院记录的患者并且比较轻微,不需要在住院治疗。

(2)有1972名糖尿病患者糖化血红蛋白带检测值正常且无胰岛素治疗,且这些患者中64%也没有其他糖尿病药物治疗记录,说明糖化血红蛋白检测值正常的患者,他们大多数病情还比较轻微,可以不通过胰岛素等药物进行治疗就可以控制病情,例如可以通过饮食治疗、运动治疗等。

(3)有2103名糖尿病患者到医院就诊次数高达9-10次,而这些患者虽然为治疗糖尿病就诊次数比较多,但其中有61%并没有糖尿病药物的用药记录,一是说明这些患者的病情还比较轻微,完全可以不依靠糖尿病的药物治疗,但是从他们就诊次数可以看出他们跟医生持续沟通跟进自己的病情,说明就诊次数比较多的患者不一定是病情比较严重,其中一多半是患者在知道自己患有糖尿病后相对比较重视自身病情,跟医生持续沟通跟进自己的病情并获得相应的健康指导方案。

其他规则也可以逐条类似分析,有时得到的最佳关联规则不一定对糖尿病治疗具有指导意义,但有的关联规则中属性关系则是比较明显的,我们要结合糖尿病治疗的实际情况和医生的临床诊断。

3 结论

关联规则分析是对数据相关关系的一种描述,基于数据挖掘技术辅助临床病历分析具有重要意义,本研究主要介绍了关联规则 Apriori 算法处理糖尿病患者属性的原理,并用该算法对糖尿病患者属性进行了挖掘分析,找到患者住院次数、糖化血红蛋白检测结果、就诊次数等属性之间的关联规则,以辅助医生做出临床决策。

参考文献

[1]陆再英,钟南山主编.内科学第七版[M].北京:人民卫生出版社,2008.

[2]Yang W,Lu J,Weng J,et al.Prevalence of diabetes among men and women in China[J].The New Eng1and Journal of Medicine,2010,362(12):1090-1101.

[3]习慧丹.关联规则挖掘优化方法研究[J].计算机与数字工程,2012,40(5):31-33.

[4]宋小小,陈晓辉,刘冲.关联规则中Apriori算法的研究与改进[J].网络安全与技术应用,2012,(3):23-25.

[5]孙文俊,潘明,叶强.基于T统计量的一种改进关联规则挖掘方法[J].计算机应用研究,2011,28(6):2073-2077.

作者单位

清华大学生物医学工程 北京市 100084

上一篇:配网自动化系统运行中的问题及解决方法 下一篇:高中物理教学中物理模型的构建与运用