中药配方挖掘研究综述

时间:2022-08-23 12:01:36

中药配方挖掘研究综述

摘要:随着中医数据挖掘的快速发展,中药配方挖掘作为它的重要研究领域,受到了众多研究者的关注。为了方便后续研究者,加速该领域的研究步伐,对前期中药配方挖掘的相关研究进行归纳总结尤为必要。从中药配方挖掘的多个研究点出发,分别给出了它们的定义和研究路线,并对其进行了总结。

关键词:中医;中药配方;数据挖掘

中图分类号:TP391文献标识码:A文章编号:16727800(2013)004013203

0引言

近年来,在中国传统医学价值获得重新认识\[1\]和数据挖掘技术逐渐成熟的背景下,为促进中医的进一步发展,实现中医药现代化,中医数据挖掘领域的研究逐渐活跃起来。研究者逐步实现将数据挖掘、机器学习、人工智能等技术与中医药研究领域相结合,希望通过对中医工作者几千年积累下来的大量临床经验数据进行挖掘分析和归纳总结,发现其中隐藏的原理和规律。

中药配方作为中医治疗的直接载体,它的现代化研究进展在很大程度上决定了整个中医现代化的研究进展。然而 ,中药配方的制方思维是多维、系统和非线性的\[2\]。由此可知,中药配方不是药物的简单堆积,而是有着特有的原则和复杂的规律。中药配方包含多个研究点,它们的发展将对促进中医药现代化带来积极的作用。在对中药配方有了上述认识后, 不少研究者借助数据挖掘技术在该领域展开研究,并且取得了一定成果。

本文分别就中药配方挖掘中的多个研究方面进行归纳整理 ,这些研究点包括:中药配方剂量缺失值处理、中药药物组团、中药药物量-效分析、中药综合功效分析。

1中药配方中的缺失值处理

中药配方中的缺失值是指某些中药配方的药物由于各种原因遗失了剂量,导致该药物的剂量在中药配方中的值为空值。它的存在为以后中药的组成分析研究带来很大不便,因此,对缺失值的处理具有重要意义。结合数据挖掘技术,文献\[4\]用数据挖掘技术中k近邻法(KNN)等算法处理中药配方中的缺失值。它的思路为“使用与给定元组属同一类的所有样本的平均值”,把数据的所有属性作为一个整体,以数据之间的关系为出发点考虑问题。

对应于中药配方,可把中药配方转化为向量,从而使得配方分类可行。首先定义药方空间:把配方数据库中出现的所有中药,按一定规则组成单值有序集合,每种药物用其序号标示,称之为中药空间D(d\-1,d\-2,…,d\-i,…,d\-n),i为药物序号,n为药物总的个数,d\-i则代表中药中的某个药物。

对于配方f,给出向量F,F的维数为中药成分空间的大小。对于F的每个维数据i,如果空间的元素d\-i在配方f的药物组成中出现,就把i置1,否则置0。这样的向量F称之为配方f的向量,即中药配方向量。

K近邻法的决策规则是以度量样本间的距离为基础,然后取距离值最小的K个样本作为决策依据\[5\]。有了中药配方向量后,就能计算出前TOP K相似的配方,相似度计算方法可以采用常用的余弦夹角法或欧氏距离。算法实现的策略为:

(1)在k近邻法原理中,取最相似的前个样本作为决策依据。但是如果对于配方来说,即使是“最相似的前k个方剂”,它们对于配方f的相似度也很小,那么这k个配方显然也不能作为剂量补缺的依据。这时应设置一个对药物剂量补缺有效的相似度阈值,只有相似度大于此阈值的配方才可作为方剂f剂量补缺的依据。

(2)如果配方f的药物d缺剂量,那么配方f没有必要对数据库中的所有其它配方计算相似度。比如任意的配方g,它的组成中没有药物d,那么即使g和f的相似度很高,也是没有意义的。换句话说,对于配方f,只需对包含药物d的方剂计算相似度。同理,如果配方g中药物d的剂量也是空缺的,则仍然无需计算f和g的相似度。

(3)假设已经获取了配方f的前k个配方,那么要用它们来预测配方f的药物d剂量,应该采取什么样的策略?k值应取何值为宜?先来考虑k值的设置。

K=1,即是最近邻决策,那么配方f的药物d剂量直接用最相似方的药物d的剂量填充即可,这正符合“用最可能的值”这一填充空缺值最常用的策略。但如果填充的值和期望值误差很大,就会使算法错误率增加。

2中药药物组团

关联规则挖掘通常可以看作两个基本过程:①从事务集中寻找所有的频繁项集,即找到所有支持度大于给定最小支持度阈值的项集;②利用第一步找到的频繁项集,产生所有关联规则,而其中满足最小置信度的关联规则就是所要挖掘的强关联规则。目前,关联规则中常用的算法包括Apriori算法和FP Growth算法。

3中药药物“量-效”分析

“量-效”是指在同一个中药配方中不同剂量的中药对该中药配方功效的影响。其影响可以分为两个方面:①单个中药剂量的多少对整个中药配方性能的影响;②“药物对”中不同的剂量比例对中药性能的影响。

如果能利用数据挖掘的方法从大量的中药配方资料中分析总结量效使用上的经验,寻找出隐含的中药配方规律,在以后进行中药配方时就能根据不同的治疗需要,通过剂量选择来发挥被选中药的效用。文献\[4\]采用聚类和模糊关联规则的思想来实现。

聚类就是将数据对象分组成为多个类或簇(cluster)的过程,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。聚类中常用的是kMeans算法,kMeans方法相似度的计算根据一个簇中对象的平均值(被看作簇的重心)来进行的。首先,随机地选择k个对象,每个对象初始代表一个簇中心;然后,对剩余的每个对象,根据其与各个簇中心的距离,将它赋给最近的簇;再重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。

传统的挖掘数量型属性的关联规则将属性的论域划分为不重叠的区间,再将连续数据映射到这些区间中,存在着边界划分过硬和不同元素属于同一集合隶属程度问题。为了解决这些问题,可以引入模糊概念理论,用定义在属性论域上的模糊集来软化边界,在集合元素和非集合元素之间提供平滑的变迁。

基于聚类和模糊关联规则的中药“药对”量效分析,首先对中药的缺失剂量和缺失功效进行处理,然后调用FPgrowth算法挖掘出药对频繁二项集,这些药对的集合记为Drs。同样地,调用FPgrowth算法挖掘出功效的频繁项集,这些功效的集合记为Eff。对于集合Drs中的每一组药物对,首先计算其在中药配方库中同时出现的剂量比例并记录到相应的集合中去;然后调用kMeans算法,求得每个药物对的聚类比例中心以及隶属度函数;最后开始挖掘过程,根据模糊关联规则的原理,对每一个候选模糊模式集,构造关联规则,满足最小支持度和最小置信度的模糊关联规则,构成强模糊关联规则集合。

4中药综合功效分析

中药功效分析是指根据中药的药物组成确定某种中药配方的功效。一个中药配方往往由多种不同的药物组成,每种药物都有自身的特定功效集合, 配方的功效不等于组成药物之功效的简单总和,而是通过综合配方使其扬长避短而产生的。

中药配方功效归纳问题的本质是高维数据归约,是对高维度的数据集进行约简,旨在保持主要信息、减少存储和通信开销、加快处理速度、突出对象本质属性、解决事物主要矛盾。奇异值分解是典型的高维数据归约方法,其主要思路是将数据映射到一个低维子空间中,从而完成数据归约。另一类方法是采用粗糙集理论进行属性约简。由于缺乏领域知识,前述的归约方法在很多具体归约问题上效果不理想。中药药物功效作为数据属性,彼此之间实际上存在潜在的相似关系,这种关系没有直接保存在数据集中,而是潜在地蕴涵在数据属性的关系上。因此,文献\[7\]采用基于人工神经网络(ANN)和属性距离矩阵的高维数据归约方法。

神经网络是模仿人脑智能、思维等功能的非线性自适应动力学系统,它类似于生物系统,以神经元为基本运算单元,组成了一种互连的分布式存贮信息的计算智能信息处理系统,具有很强的自学习性、自组织性。目前,广泛应用的神经网络算法是误差反向传递学习算法\[8\](即BP算法)。反向传递学习算法包含三层节点,分别是输入层节点、输出层节点,还可有1个(多个)隐含层节点。对于输入信号,要先向前传播到隐含层节点,经作用函数后,再把隐藏节点的输出信号传播到输出节点,最后给出输出结果,如图1所示。

神经网络虽然具有很强的适应性、自组织性和局部搜索能力,但是它容易陷入局部最优,导致不能找到问题的最优解。即使已知关于属性的先验信息,在传统神经网络中也无法引入以提高搜索能力。基于神经网络的特点,可将属性先验信息带入神经网络,从而降低因随机搜索陷入局部最优的风险。将数据表中的元组视为空间矢量,根据先验的领域相似信息,定义标准属性矢量距离及投影方法,然后根据得到的属性距离矩阵,构建了一个三层神经网络,通过训练神经网络,最终获得高维数据属性约减器,通过属性约减器完成高维数据归约,最终确定某个中药配方的性能。

5结语

在大规模中药配方的积累和数据挖掘的背景下,中药配方挖掘也受到了众多研究者的关注。本文分别就中药配方挖掘中的中药配方剂量缺失值处理、中药药物组团、中药药物量-效分析、中药综合功效分析给出了定义,并对它们的研究思路和方法做了分析与总结。

中药配方挖掘还包括方剂主药识别\[89\]、方剂药物修正,相信随着这些研究的不断深入,能够满足基本辅助诊疗目的的方剂自动推荐将成为现实。此外,中药及针灸均以中医基础理论为指导,针灸处方以穴位为基础,中药处方以药味为基础\[10\]。所以,中药配方挖掘研究的发展也将大大促进针灸处方挖掘的发展。

参考文献:

\[1\]苏云放.中医内在价值和发展思路\[J\].浙江中医药大学学报,2007(1).

\[2\]王永炎,张伯礼,程昭寰.方剂气味配伍理论及应用\[M\].北京:中国中医药出版社,2006.

\[3\]刘娟,蒋永光.中药药对剂量配伍的数据分析研究\[J\].山东中医杂志,2006(5).

\[4\]袁楠.基于聚类和模糊关联规则的中医药对量效分析\[D\].成都:四川大学,2008.

\[5\]邵峰晶,于忠清.数据挖掘原理与算法\[M\].北京:中国水利水电出版社,2003.

\[6\]田玲.中药“效—效”、“药—药”关联分析算法研究\[D\].成都:四川大学,2008.

\[7\]彭京,唐常杰.基于神经网络和属性距离矩阵的中药方剂功效归约算法\[J\].四川大学学报:工程科学版,2006(1).

\[8\]张立明.人工神经网络的模型及其应用\[M\].上海:复旦大学出版社,1993.

\[9\]李红军, 陈蓉, 张光华,等.基于多维数据分析的中医主药挖掘技术\[J\].计算机工程,2007(20).

\[10\]秦湘清,熊军,王亚强,等.综合证素分析和“方名—药名”相似度的方剂主药发现算法\[J\].四川大学学报:自然科学版,2011(1).

\[11\]葛林宝,陈莲芳.穴位、中药功效相似析\[J\].上海针灸杂志,1999(6).

上一篇:基于改进的神经网络异常声音自动识别系统研究 下一篇:基于C/S和B/S混合架构的高校实验课选课管理系...