中医药学数据库发展策略

时间:2022-09-07 03:10:57

中医药学数据库发展策略

作者:刘岩,尹爱宁,周雪忠,宓京华 【关键词】 中医药学;数据库;结构化;数据整合

中医药学数据库的建立起源于20世纪80年代[1],至今已经建立一大批中医药数据库并服务于专业人员,在推进行业发展与科研创新中产生了重要作用。进入21世纪后,中医药学数据库的数据量呈现了迅猛增加的态势,数据库的建设形式与服务方式也都呈现出多元化的特点。以中国中医科学院为例,从2000年到现在,已经从8个数据库发展为118个,数据从4 g发展为236 g;数据库也从文献型为主,发展为结构型与数据仓库类型。

面对迅猛增加的中医药数据,如何对原始数据进行存储、管理、注释、加工、解读,并通过数据分析、处理,揭示这些数据的内涵,满足专业人员需求是一个新的问题。特别是如何以应用为导向,研制适应于数据深度利用方式的结构型数据库、支持个性化扩展服务的知识型数据库,以及满足需求的全文数据库是当前数据库建设的发展方向。针对中医药数据库建设而言,提出适应现状发展策略是当前需要解决的重要问题。

1 文献数据库结构化处理

随着网络技术的普及与信息的便利性,数据量呈快速上升趋势。idc(互联网数据中心)2007年研究报告“数字宇宙膨胀:到2010年全球信息增长预测”指出,2006年全球每年制造、复制出的数字信息量共计1 610亿gb,约是有史以来出版的图书信息总量的300万倍。从2006年到2010年,数字宇宙的信息量将增长6倍多;到2010年,数字信息量预计为9 880亿gb[2]。生物信息学、基因遗传学的进展,也带动了相关医学研究的发展,医学文献增长位居各学科之首,截止2008年7月,pubmed已经拥有1.8亿篇文献[3]。

研究人员怎样才能应对现代方法所产生的大量数据流,如何从上亿篇文献中提取研究利用的数据,文献数据结构化是解决这个难题的有效方法之一。

2008年,《nature》杂志在“big data”一文中提出了“biocuration(生物文献数据结构化)”的概念,提出利用数据结构化处理,完成对文本生物学信息的组织、表示、转化的程序,使得人与机器都可以方便的获取数据[3]。

中医药数据库自2000年开始,虽然进行了文献数据库的结构化处理,以中药化学、中药药理、临床疾病研究为主线,建立了多个结构化处理的数据库,但结构化数据的处理是一个难度大、成本高的人力密集的工作,需要中医药专业与计算机专业结合的复合性人才。因而,中医药学结构型数据库与医学生物数据库一样结构化的处理能力远远落后于数据生成速度。

面对数据结构化处理的需求,应该从3个方面采取行动,以推进这一关键领域。首先,以中医药研究人员的需求为导向,认真研究中医药结构处理模式,确立公认的规范的结构模板;其次,作者、期刊与结构化处理人员之间交换协议,直接获取结构化数据;第三,培养数据处理的专业人员,使之成为专职的数据整理与处理的团队。

2 中医药数据资源质量评价与分级

中医药海量数据提供的真实性与有效性是科研人员关注的焦点,如何从海量数据库中筛选出所需的研究数据也是要解决的重要问题之一。

中医药数据库可以增加数据评价形式,依据中医药学特点,提示数据来源的可靠性,是否有课题资助、作者的背景、项目的研究周期、产生的成果;同时,依据循证医学与中医学文献评价指标进行分级提示。研究人员可以迅速处理大量复杂的数据,深入了解领域的研究进展,将查询数据时间充分利用到实验中。在此基础上逐步建立实验数据评价机构,辅助参加实验室的研究工作,促进实验研究水平,扩充实验室规模。

3 建立中医百科知识网络图谱

2008年,生物医学信息学首次提出生物信息维基组学的概念,其目的在于解决当前海量数据的知识发现。生物信息与基因、蛋白质组学研究具有一样的群体研究的需求特征,需要在一个平台上,构建群体知识网络,设计数据采集的标准模式,形成一个百科知识图谱,加速生物学的进展。笔者认为,中医百科知识网络图谱建立应该立足以下两个方面。

3.1 知识资源描述

根据中医药数据集的元数据定义,对信息对象的内容和位置进行描述,从而为信息对象的存储与利用奠定基础。先从庞杂的网络信息资源数据中获取有用信息,再理解其中的逻辑关系或模式形成知识,这是一个增值的过程。其过程中所采取的方式,除了与网络信息资源的形式特征有关外,最根本的依据还是描述网络信息资源的元数据。通过规范元数据可以合理地描述与揭示网络信息资源的内涵,由网络机器人对元数据进行标引和分类,再适当进行知识组织,将其添加到相关智能搜索引擎数据库中,通过具有一定智能性的检索工具,就可以十分容易地获取有关知识。

3.2 基于语义进行搜索

中医药语言系统提供语义搜索的基础,将信息对象中的重要信息取出,加以抽象描述,并建立其语义关系,使检索结果更加准确,从而有利于用户识别资源的价值,发现其真正需要的资源。

目前,中医药智能搜索就是采用这种原理而研制的,在用户与信息资源之间创建了一个知识库,这个知识库实质上就是语义的集合。其中的知识语义网络可粗略分为3个层面:一是语言层,反映语言表面现象的知识,如一个词的多种形式,它的同义词、反义词,一些习惯用语、词的层次关系等;二是本体论层,对概念的本体论定义与解释,概念之间复杂的语义关系;三是常识层,发现常识上的关联,例如疾病相关的病因、病机、诊断、治疗等。

基于信息资源知识描述与中医药语义搜索的双核驱动的方法,从数据外部与内在关联进行有机整合,为知识发现提供了重要途径。

4 面向专题的多类型数据整合服务

对用户来说,理想的状态是:通过一个界面即可迅速查到所需信息并加以取用,系统扩展整合功能可帮助用户实现其理想。系统扩展整合功能是指数据库开发商借助互联网,利用超文本技术,在不同的信息资源之间进行链接,将原本相互独立、但互为联系的信息资源与服务整合在一块,使之形成一个互动的有机整体。

中医药数据库的大小和其功能的强弱决定了数据库的利用价值,中医药信息数据库系统也将同其他的数据库系统一样朝着大型数据库系统发展。由于不同的历史时期建立的不同的数据库累积,形成了数据库之间的沟壑,每个数据库不同的服务方式,给科研人员带来了应用障碍。解决当前的问题,除数据库整合外,增加数据库的功能,可以弥补传统数据库系统诸多不足,满足诸多学科发展的需要。

中医药数据库需要扩充的主要功能为:①增加不同层次、级别的关系揭示与指引,揭示不同加工层次和文献级别的数字资源之间的关系,并基于这种关系,建立从二次文献、结构型数据库到一次文献的全文指引和链接。②扩充学科逻辑主线导航和指引,按学科或主题相关的聚合,建立适用于揭示资源的整体逻辑关系的智能导航,解决由于异构带来的关系阻隔。③研制对象互操作性挖掘内在、动态的复杂联系,预先发现并找出一种途径和线索来描述这些关系,将数字资源深层的内在联系挖掘与实现。④建立引证关系(引用、被引,同被引),揭示学科和主题的内在、广泛和深层的关联,特别是对于交叉学科、边缘学科、新兴学科,可以从多维角度反映学科间的相互渗透和相互交叉的关系,促进基于知识管理的研究团队的开放式链接和整合。

【参考文献】

[1] 崔 蒙.中医药行业数据库建设现状分析[j].中国中医药信息杂志, 2004,11(3):189-191.

[2] 郭 涛.如何应对数字宇宙膨胀的挑战[n].中国计算机报,2007-07- 12(21).

[3] mitch waldrop. big data:wikiomics[j]. nature,2008,(455):47.

上一篇:母婴健康与膳食营养60例对比分析 下一篇:自拟冠脉通口服液治疗老年人植入冠脉支架术后...