数据挖掘在中医药领域应用研究进展

时间:2022-05-01 07:29:40

数据挖掘在中医药领域应用研究进展

关键词:数据挖掘;中医药;应用研究;综述

DOI:10.3969/j.issn.1005-5304.2013.06.052

中图分类号:R2-05 文献标识码:A 文章编号:1005-5304(2013)06-0109-04

数据挖掘是指从大量数据中提取或挖掘有效、新颖、有潜在应用价值和最终可理解的模式、知识,其涉及多学科技术集成,包括数据库和数据仓库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像处理以及空间或时间数据分析等。数据挖掘技术在中医药研究领域得到广泛应用,兹将近年来研究进展作一综述。

1 中医药文献数据挖掘

中医药文献数据来源主要包括中医药古典、名家医案、验方验案、书刊述评、期刊文献、中药词典等。数据挖掘技术对这些数据整理挖掘,重新展现及总结名家学术思想、辨证论治、中药选材、中药炮制、中药制剂、用药规律等成果,对传承、借鉴与发展起到重要作用。中医药数据具有非线性、模糊性、复杂性、非定量等特征,针对具体的中医药数据和不同的挖掘目标,往往要将几种方法融合起来应用,以发挥各自的技术优势,或引进其他学科方法共同解决一些问题,其中关联规则、频数分析、聚类、文本挖掘等为常用方法。中医药文献数据研究,要求数据来源、文献纳入标准、排除标准、文献规范原则、证候名称规范、症状名称规范、中药名称规范、计量标准规范等进一步加强与完善,数据获取、保存、抽取等预处理及数据挖掘技术的运用也有待更科学深入。

1.1 关联规则

郭氏等[1]采用关联规则分析方法分析了古医籍中治疗带下病的用药规律,发现明清时期治疗带下病的方药以健脾祛湿药物为最常用结构,其中又配伍一些专属度比较高的特色药物,如收涩止带药、补肾药、清热燥湿药等。

1.2 频数分析

吴氏等[2]检索中国期刊全文数据库等1991-2011年发表的有关围绝经期综合征文献,进行整理及频数分析。结果围绝经期综合征常见中医证候有49个,其中肝肾阴虚、肾阳虚、肾阴虚、肾阴阳两虚、心肾不交、肝郁气滞、脾肾阳虚最多见;提取常见症状共65个,包括月经紊乱、头晕耳鸣、失眠、烘热汗出、腰膝酸软、心悸、易怒、纳呆等;病位以肾、心、肝、脾为主;病性以虚为主;脉象以细数、沉细、弦细为主,舌象以舌淡或舌红、苔薄或少苔为主,说明围绝经期综合征的中医证候分布比较集中。

基金项目:国家重点基础研究发展计划(2010CB530602);国家高技术研究发展计划(2012AA02A609);江西省自然科学基金(20122BAB205083)

1.3 聚类分析

姜氏等[3]对文献中代谢综合征(MS)中医辨证分型进行聚类分析和频数统计,表明脾虚痰湿、阴虚热盛、气阴两虚、血瘀脉络、痰淤互结、肝胃郁热、肾阳亏虚是MS的常见证型。

1.4 文本挖掘

黄氏等[4]在中国生物医学文献数据库中收集中医药治疗“肥胖”和“高脂血症”的文献,用文本挖掘研究中医临床用药规律。结果治疗肥胖的常用药物为丹参、山楂、泽泻、黄芪、大黄、茯苓、白术、半夏,其治疗核心药物是黄芪、白术、大黄。治疗高脂血症的最常用药物为丹参、山楂、泽泻、黄芪、大黄、何首乌,其治疗核心药物是丹参和山楂。表明中医治疗肥胖和高脂血症的处方虽有相同之处,但其治疗的核心却大不相同。

1.5 其他方法

周氏等[5]采用频数与关联规则对214例古代郁证医案进行分析,结果涉及药物313种,使用频数最高的药物依次是茯苓、甘草、当归、香附,关联密切的药物组合方为茯苓、当归、白芍、甘草、人参、生姜、柴胡、大枣、白术、郁金、香附、陈皮。郁证医案的用药特点为疏肝健脾、理气活血,符合现行的中医学理论,能为临床提供参考。新方法的引用和多种方法联合使用已相当常见,其他还有支持向量机、Logistic回归、联机分析、关联规则、频数分析、因子分析、主成分分析、聚类分析、神经网络、信息熵、比值法、积分法、Fisher判别分析、Bayes判别分析等。

2 中医诊断学数据挖掘

中医诊断学主要包括中医证候及中医四诊。中医证候系统庞大复杂,研究重点在中医证候分型、中医证候诊断、中医证候诊断标准研究等,中医四诊研究重点在舌诊、脉诊、肤诊、面诊等。研究涉及以上方面的规范化、量化、病-证关系、图像信号处理等,中医诊断正确与否关系到治则用药。数据挖掘技术用于中医诊断学,归纳出中医专家的辨证规律及推理过程,挖掘隐含在其中的知识与规律,丰富专家知识与中医理论,也是中医标准化和客观化的重要手段。

2.1 中医证候

2.1.1 关联规则 刘氏等[6]根据冠心病中医数据的特点,用一种改进的基于向量法的数据关联规则挖掘算法,从脉象、舌质、发病诱因等18个方面与8种冠心病中医证型之间挖掘出中医辨证规律。

2.1.2 粗糙集方法 陈氏等[7]基于粗糙集约简模型,在保持较高质量分类能力的基础上,能较有效地提取核心证候要素,由此所构建的模型也较简练,可以得到对证型有较好的分类能力的较小属性集合。

2.1.3 因子分析 王氏等[8]运用因子分析方法对冠心病心绞痛69个症状进行分类研究,共提取出6个公因子,经中医辨证后分别是气滞血瘀、气阴两虚、气虚血瘀、气虚痰浊、心肾阳虚、心脾两虚。气虚、血瘀和痰浊是冠心病心绞痛的主要病机。

2.1.4 主成分分析法 吴氏等[9]通过文献出现的频率确定研究指标,在流行病学调查的基础上,采用主成分分析提取火热证6个主要成分,将其分为4个类型,即心火上炎、肺胃实火、肝肾阴虚、肺阴虚,与临床医生的判断基本一致。

2.1.5 其他方法 陈氏[10]运用聚类分析、单因素分析、多因素Logistic回归分析、Roc曲线评价、Logistic回归模型预测效果等分析方法分析慢性肾炎症状特点及其与证型的关系,确立证型的诊断参考指标。还有其他方法及常用来联合使用的方法,如信息熵、集对分析、结构方程模型与隐结构法、频数、关联规则、因子分析、聚类、粗糙集、模糊数学、支持向量机、决策树等。

2.2 中医诊法

2.2.1 支持向量机 Liu等[11]利用支持向量机对胆囊炎患者舌诊进行研究,结果支持向量机对舌面图像有较好的分类能力,更接近专家的诊断结果。

2.2.2 神经网络 郭氏等[12]基于概率神经网络的中医脉象识别方法对中医常见的12种脉象进行了识别和检验,识别正确率平均达93%。

2.2.3 模糊聚类 杜氏等[13]在改进模糊聚类算法的基础上提出了一种彩色舌图像舌质舌苔分离方法,极大地加快了聚类迭代速度,减少了系统运算时间;相对于阈值分割法,能够获得更加符合中医要求的苔质分离效果。

2.2.4 其他方法 赵氏[14]采用可见光波段和近红外波段2个光谱仪进行同一舌体数据采集,通过对采集的临床上千例样本运用主成分分析、神经网络、偏最小二乘法、间隔偏最小二乘法等多种方法进行数据建模和分析,显示脂肪肝、冠心病、高黏血症等疾病和舌体反射光谱之间存在很大的相关性。其他方法的引入及常用于联合使用的方法有判别分析、加权支持向量机、对应分析技术、PCA-AdaBoost方法、分类器融合技术、最优尺度分析、复杂网络法、关联规则等。

3 中医临床数据挖掘

临床中医学包括中医内科、中医外科、中医妇科、中医儿科、针灸科、中医骨伤科、推拿科、中医眼科、中医耳鼻咽喉科、中西医结合医学、气功科、中医护理等。中医临床数据与中医诊断数据常相伴而生。主要挖掘临床诊疗规律及用药规律。

3.1 频数分析

付氏等[15]对所选文献的中医证型、方剂和药物出现的频次及所占比例进行统计分析,归纳总结出癌痛的常见证型、治疗方剂及药物。结果表明,瘀血阻络、热毒内蕴、痰湿凝聚、气血亏虚、阳虚寒凝和肝郁气滞为癌痛的主要证型,血府逐瘀汤、八珍汤、失笑散、桃红四物汤、膈下逐瘀汤为常用方剂,延胡索、甘草、当归、桃仁为常用药物。

3.2 聚类分析

唐氏等[16]对200例白癜风患者症状、体征及相关因素进行聚类及频数分析。结果证候聚类聚为5类,通过综合分析得出,白癜风聚类证型以气血不和型(24.5%)及肝肾不足型(22.0%)多见,其次为气滞血瘀型(19.0%)、脾胃虚弱型(19.0%)和湿热内蕴型(15.5%),显示皮损辨证在白癜风辨证分型中的重要性。

3.3 关联规则

黄氏等[17]采用基于关联规则的数据挖掘方法,选择名老中医柴松岩治疗多囊卵巢综合征(PCOS)患者126例、共计648诊次的处方资料,总结出核心药物10味,新药对7对,与柴老认为PCOS病机以脾肾不足、痰湿阻滞为主,临床治疗以益肾健脾、养血通利为主要法则的学术观点一致。

3.4 其他方法

马氏等[18]以小儿肺炎为例,采用数据挖掘技术建立中医小儿肺炎辨证规范,聚类的结果包括证的分布和证的构成、关联规则分析得到症状间的关联关系、粗糙集属性重要度计算症状对证的贡献率、时间序列分析挖掘出证的变化规律。其他还有神经网络、文本挖掘、因子分析、对应分析、无尺度网络模型、复杂网络分析技术等。

4 中药与方剂数据挖掘

中药与方剂数据主要来源于中药指纹图谱、组分与效应关系、剂量与效应关系、中药药性理论、中药方剂及配伍规律、中药现代化、中药临床应用、新药开发等研究。中药指纹图谱研究主要包括指纹图谱获取方法学、指纹图谱鉴定方法学、中药药效组分筛选及检测方法学和中药指纹图谱组效学研究,中药物质组分与效应关系研究主要将中药药效物质群与中药药效结果对应起来,找寻其中的关系。中药药性理论研究主要包括中药药性与毒性、中药的归经与四气五味、物质基础、中药配伍及应用、中药方剂的“方-药-证”等。数据挖掘技术的应用,为其提供了一种现代化的工具和手段,减少了盲目性,在简化研究过程、挖掘与发现隐含知识与规律、提供新的评价方式、缩短研究周期等方面提供了新的思路和途径。

4.1 中药指纹图谱与图像处理

4.1.1 主成分分析法 严氏[19]基于二极管阵列检测技术和主成分分析方法的二维指纹图谱构建方法,融合了色谱和光谱的二维信息,避免了常规单一波长下UV指纹图谱的片面性,可以更全面地表征中药产品的质量情况。

4.1.2 K-均值聚类 张氏等[20]基于K-均值聚类算法对中药叶片显微图像进行分割研究。运用一种特殊的存储结构存储颜色空间数据,按颜色的密度特征对图像中的颜色进行排序和聚类,并根据待聚类色彩与已有聚类中心距离是否小于类内最大距离来决定归入已有的类或形成一个新的类。表明算法具有较好的分类效果。经过去除小区域后,完全可以较为准确地统计出气孔数和空心数。

4.2 组分与效应关系

王氏等[21]在中药药理作用研究的基础上,运用贝叶斯网络研究中药补肾、活血等功效与药理作用之间的关系,并利用建立的贝叶斯网络模型对中药组分进行了功效预测。结果建立的贝叶斯网络模型合理地表达了药理作用与功效关系,并且,中药组分的预测结果与原饮片功效基本一致。结果表明利用贝叶斯网络建立的功效与药理作用关系模型可用于中药组分功效的预测,对中药及中药组分功效的研究具有重要意义。

4.3 中药药性理论

4.3.1 关联规则 杨氏等[22]使用Apriori算法进行关联分析,结果有毒与热性有较大的关联,占热性药的63%。其中,热性而辛味的有毒中药占67%,辛味、归肾经的有毒中药占33%,温性而有毒的中药占温性中药的15.8%。

4.3.2 网络分析法 Gao等[23]研究表明,在风湿性关节炎患者中冷处理有4个基因表达水平较高,21个基因较低,在蛋白质关系网络中显示有4个高相关区域。

4.4 中药方剂及配伍规律

胡氏等[24]从历代典籍中收集有关小柴胡汤类方的方剂,利用关联规则的数据挖掘方法得到与小柴胡汤类方配伍相关的频繁项集,并对主要药物、药对、药组规律进行探讨。结果在收集到的509首方剂中,涉及188种药物,支持度大于15%的药对、药组共29组。结果显示,10余个常用药对、药组使用频率较高,具有明显的核心化倾向。小柴胡汤类方的基本药物为柴胡、黄芩、半夏、人参、生姜,且常与补血药、理气药、健脾药和清热药伍用。

4.5 中药质量控制及现代化

4.5.1 支持向量机 朱氏等[25]选取药的功效、性味、药用部位、正交试验考核指标和溶媒类型作为预测属性,分别以提取时间和溶媒量作为目标属性,采用支持向量回归算法分别为提取时间和溶媒量建立了回归预测模型。可以帮助工艺人员科学地选取影响指标的主要因素和各因素的主要水平,在正交表复杂度一定的情况下,能够得到更为优化的提取参数。

4.5.2 光谱成像中药检测 张氏等[26]根据中药材光谱图像的特点,设计一种能够自适应对中药材光谱图像进行有效区域分割的区域增长算法,将该方法应用于建立中药材光谱数据库,可以大大提高数据的准确性。光谱检索系统的建立,将有利于药材品种鉴定,药材真伪的识别。

4.6 新药开发

王氏等[27]提出中药功效网络的中药功效的分子网络、模块网络和概念网络3个层次和基于中药作用靶点辨识、基于药理指标相关作用环节和基于中医理论与中药基本信息的网络构建的3种基本途径。并以活血化瘀功效网络为例探讨了中药功效网络可能的应用途径,为复杂疾病的治疗和新药的研制提供了新的线索。

4.7 量效关系

Nie等[28]采用均匀设计的正交偏最小二乘法分析葛根等4味中药量效之间的关系,并得出药物重要性排序为葛根、黄连、甘草、黄芩。

在中药与方剂研究中,还有许多数据挖掘方法或相融合成功应用,如主成分分析法、支持向量机、偏最小二乘法、因子分析、粗糙集、神经网络、聚类分析、多维数据分析、小波变换、模糊神经网络、多元曲线分辨方法、共引分析技术、可能性构造空间理论和遗传算法、可能性构造空间理论。

5 中医药数据挖掘中存在的问题

由于中医药数据的特殊性,数据挖掘技术在使用中存在一些问题。①数据多样性:中医药领域数据从媒介形式来分有文字、图像等,如检测和诊断结果的描述、舌诊图像、CT影像、指纹图谱等;从数据来源来分有文献数据、临床数据和实验数据等;从数据维数来分有单维、二维、高维等;从结果表达来分有文字、图表等。②数据隐私性:中医药数据有可能涉及患者隐私及伦理道德,如处理不慎,可能带来安全和法律问题。③数据不完整性:中医药数据在收集整理过程中,常因数据来源的缺损、失真、目的单一、人为因素等致使数据不全,表达不确定及模糊。④数据冗余性:中医药数据在记录过程中,可能包含大量的重复、无关的数据,如临床病例数据,可能某患者一段时间内的数据基本一致,而分析过程中不需要这些重复数据。⑤数据不规范性:中医药数据由于历史原因和人为因素导致规范性不足,如同一病存在不同命名或称谓。⑥数据专业性:单纯的数据挖掘不足以得到满意的结果,必须结合专业领域人才和专业知识,这就需要团队或复合性人才的参与。⑦数据的时效性:中医药数据在不同时期采集得到的结果不一致,如患者各种波形图数据、实验动物不同时期的证候及药理药代数据结果不同。⑧数据挖掘方法的局限性:每一种数据挖掘方法都有一定的局限性,故对于同一数据应通过不同数据挖掘方法进行处理,力求得到相似的结果,从而提高研究结果的论证强度。

6 结语

数据挖掘技术在中医药领域已得到广泛应用,取得了诸多成果。数据挖掘技术在中医药领域常用的方法有关联规则、聚类分析、神经网络、统计分析等,但多种方法融合使用已相当常见,一些新的方法如结构方程模型与隐结构法逐渐引入;数据挖掘还与数据采集、数据存储、数据预处理、数学、模式识别等技术和方法综合使用是其一大特点。

参考文献:

[1] 郭超峰,施学丽.古代主要妇科医籍中带下病相关方药的数据挖掘分析[J].江苏中医药,2012,44(1):64-65.

[2] 吴宏进,周昌乐,许家佗,等.围绝经期综合征中医证候分布特点文献研究[J].中国中医药信息杂志,2012,19(3):22-25.

[3] 姜楠,石岩.代谢综合征中医辨证分型的聚类研究[J].光明中医,2009, 24(1):1-2.

[4] 黄允瑜,陈慕芝,郑光,等.基于文本挖掘技术的肥胖和高脂血症处方规律研究[J].中国实验方剂学杂志,2011,17(9):236-238.

[5] 周莺,刘晓虹,温惠贤,等.214例郁证医案用药规律数理分析[J].新中医,2011,43(10):121-123.

[6] 刘智,伊卫国,鲁明羽,等.向量法关联规则挖掘在冠心病诊断中的应用[J].计算机工程,2010,36(6):42-44.

[7] 陈淑慧,梁伟雄.属性约简方法在中医证候数据挖掘中的比较应用[J].中医杂志,2012,53(4):321-323,330.

[8] 王阶,邢雁伟,陈建新,等.1069例冠心病心绞痛证候因子分析方法的分类研究[J].北京中医药大学学报,2008,31(5):344-346.

[9] 吴庆光,刘四军,黄兆胜,等.基于主成分分析的火热证辨证分型研究[J].中国中医基础医学杂志,2010,16(2):114-115.

[10] 陈为.基于数据挖掘的慢性肾炎肾阳虚证候诊断标准研究[D].成都:成都中医药大学,2011.

[11] Liu Z, Zhang D, Yan JQ, et al. Classification of hyperspectral medical tongue images for tongue diagnosis[J]. Computerized Medical Imaging and Graphics,2007,31:672-678.

[12] 郭红霞,王炳和,郑思仪,等.基于概率神经网络的中医脉象识别方法研究[J].计算机工程与应用,2007,43(20):194-196.

上一篇:不同产地岗梅根茎中酮甾醇3―O―β―D葡萄糖苷... 下一篇:中瑞企业合作申请中成药注册案例分析