基于粒计算的基因挖掘

时间:2022-08-18 03:35:59

基于粒计算的基因挖掘

【摘要】有关基因挖掘及其功能分析的研究已有很多。近年来,研究者已进行了基因表达数据分析中的特征基因提取、基于粗糙集的基因表达数据分类研究、粒计算在基因微阵列数据特征选择中的应用等研究。应用粒计算约简理论对基因表达数据进行分析,有助于发现具有不同效用的基因;在粒计算的基础上对特征基因进行挖掘,是当今生物学与信息技术学相互联系进行研究的重点和热点。

【关键词】基因挖掘;特征基因;粒计算

1.引言

粒计算是一门发展迅速的新学科,它通过把复杂问题抽象划分,从而转化成若干简单的问题,符合当今基因研究的现状。它融合了粗糙集、模糊集及人工智能等多种理论的研究成果,而粗糙集理论已成为研究粒计算的重要工具。

尽管针对基因挖掘已开展大量研究,但由于基因所具有的数量大、可研究样本少、噪音高等特点,目前人们仍不能确切了解基因蕴含的无尽奥秘,因而运用粒计算技术,通过采用有效的分类约简方法,对特征基因进行系统分类、分析、挖掘,找出其相关联的基因模块,可为疾病的研究、分类及诊断提供有效的平台,也可为临床医学、病理学等学科的研究提供更有价值的基因研究数据及重要的理论依据。

2.粒计算

自20世纪70年代起,人们从物理学划分大型物质为颗粒、分子、原子这一思想中得到启发,并将其应用到信息领域来实现对现实世界里不完整、不精确的海量信息进行处理,以达到“智能”的目的。此后,Zadeh、Zdzislaw Pawlak、Hobss、T.Y.Lin教授等人分别针对这一理论对粒计算进行一系列相关论述,奠定了粒计算理论的雏形。此后,对粒计算的研究不断增多,逐渐深入,已形成专门的研究群体。

粒化和粒的计算是粒计算存在的两个最基本问题。粒子[1]是粒计算模型构成的最基本元素,不仅可以看作由内部属性描述的个体元素的集合和外部属性描述的整体,同时也是它的环境属性所描述的对外界动态变化环境的回应。粒度是用来衡量粒子“尺度”的一个概念,它将性质相似的元素归结为一个新元素,反映了粒子进行“量化”时的粒化程度[2]。

模糊集合理论、粗糙集理论和商空间理论是当前粒计算最主要的三大理论基础,由此衍生的几种典型的复合粒计算模型有:粗糙模糊集模型、模糊粗糙集模型、模糊商空间模型、模糊概念格模型、随机粗糙集模型[3-5]。由于粒计算研究日臻完善,目前这些模型已不能够满足研究需要,未来的复合粒计算模型发展方向有:将粗糙集与商空间理论相结合构建系统化的粒计算理论和方法;将粗糙集和形式概念分析、概率论、群代数结合使数据处理更有效。为此,需要我们进一步深入研究粒计算模型,改进优化现有算法,使之更加完善。

3.基因提取

目前各位专家学者对基因的研究日趋频繁,通过DNA微阵列技术分析不同时间节点和不同条件下基因的表达水平,发现具有相似表达谱基因可能存在的某种联系,从而将表达谱相似的基因分组到一个类中;利用基因芯片技术,获得给定样本的表达基因谱,用于探索癌症原因及机理、发现可能治愈的治疗靶基因,并将粒计算应用于基因微阵列数据特征选择中。将粒计算与基因挖掘完美结合,达到更为高效、理想的结果。

粗糙集理论是一种针对数据进行分析处理的理论,其最大的特点在于无需提供问题所需处理的数据集合之外的任何先验信息,所以对问题的不确定性的描述或处理比较客观,此外,它还与处理其他不确定性问题的理论有很强的互补性。

Pawlak提出的经典粗糙集模型基于对象间由属性值相等所形成的等价关系,这种等价关系形成了对论域的划分。他把那些无法分辨的数据对象个体都归属于边界线区域,而这种边界线区域被定义为上近似集和下近似集的差集。

以粗糙集为基础的粒计算理论的相关应用研究主要集中在知识约简、规则提取(增量)两个方面,根据粗糙集的扩展情况,可以衍生为各种扩展粗糙集的属性约简和规则提取。近年来网络技术的发展使得动态数据随之增多,更使得动态约简和增量规则提取成为新的研究热点。

知识约简来源于粗糙集理论,在保持知识库分类能力不变成的条件下,删除其中不相关或不重要的知识。使用约简方法可以简化粒的属性和粒结构的复杂度,使关注焦点更加集中明确。因此,知识约简是粒计算中的核心方法之一,正成为目前信息学科研究者们研究的一个重点。

基于粗糙集的约简算法有“基于分辨矩阵和分辨函数的约简算法”和“基于正区域的属性约简算法”等。由于基于粗糙集的约简算法[6]普遍低效,特别是对于大规模数据集,限制了其实际中的应用范围,因而,有学者试图运用粒计算的划分模型来进行属性约简算法的研究

近年来动态数据越来越多,针对静态数据的知识约简、基于粗糙集的粒计算方法等已不再适合实际的需要,因此动态知识更新已经成为信息科学的又一热点。目前,基于粗糙集的粒计算理论的动态知识更新方法的研究主要集中在两个部分:动态约简和规则增量提取。

4.结束语

大量不确定性问题和海量模糊数据的存在是现代信息社会的一大特点,是数据挖掘理论、方法和技术得以不断发展的主要原因。近年来大量涌现的指数级规模增长的复杂数据使得对数据的获取能力已经远远超出数据处理技术的发展。如何收集、存储、分析这些作为信息和知识载体的数据,尤其是如何从这些数目繁多的复杂数据库中提取有用的生物信息是获取这些数据的最终目的,也是当前信息学亟待解决的问题之一。粒计算作为发展起来的一门新学科,它所包含的模糊、约简等概念刚好针对海量数据有独特的优势,可以及时的弥补这一缺陷。

参考文献

[1]陈万里.基于商空间理论和粗糙集理论的粒计算模型研究[D].安徽:安徽大 学,2005.

[2]郑征.相容粒度空间模型及其应用研究[D].北京:中国科学院研究生院,2006.

[3]张铃,张钹.模糊商空间理论(模糊粒度计算方法)[J].软件学报,2003,14(4):770-776.

[4]黄正华,胡宝清.模糊粗糙集理论研究进展[J].模糊系统和数学,2005,19(4):125-134.

[5]张文修,吴伟志,梁吉业等.粗糙集理论与方法[M].北京科学出版社,2001:1-25,123-130.

[6]瞿彬彬,卢炎生.基于粗糙集的属性约简算法研究[D].华中科技大学,2005(8).

上一篇:基于绿色理念在机械设计制造中的应用 下一篇:刍议自动控制原理教学改革与实践