建立与运用基于口腔医学领域本体的知识挖掘模型的方法

时间:2022-08-27 09:35:59

建立与运用基于口腔医学领域本体的知识挖掘模型的方法

摘要: 本文简单介绍了口腔医学领域本体知识挖掘模型的建立方法,并以国家自然科学基金资助项目为例,运用模型进行知识挖掘。

关键词: 口腔医学;领域本体;知识挖掘

中图分类号:R-33文献标识码:A文章编号:1006-4311(2012)07-0303-01

国家自然科学基金(以下简称基金)是国家创新体系的重要组成部分,在激励创新研究、支持和培养创新人才、促进科技进步方面发挥了重要的引领作用,获基金资助的规模和强度已成为衡量原始创新能力的重要指标之一。基金作为我国扶持基础性研究的重要途径和国家性投资,历来是各高校、科研单位激烈角逐的目标。基金申报的数量在逐年增加,2010年基金集中受理期间,已接收全国各类申请共114955项。2011年项目申请量更是呈现迅猛增长态势,截止到3月20日上午,基金委已收到1973个依托单位通过网络申报的项目申请147449项[1]。在申请量井喷式增长而基金相对资助率并没有同步增长的情况下[2],如何提高自身(某人或某单位)的中标率?基金资助是学科发展的方向标,科研水平的公平秤。国家重点扶持的学科方向是什么?全国范围内某专业科研能力比较强的单位有哪些?这些单位的优势学科是什么?我们如何从历年中标项目名单中找到这些问题的答案?

知识挖掘(Knowledge Mining,KM)是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程[3]。它源于全球范围内数据库中存储的数据量急剧增加,人们的需求已经不只是简单的查询和维护,而是希望能够对这些数据进行较高层次的处理和分析以得到关于数据整体特征和对发展趋势的预测。目前,挖掘方法主要有两大类:一是利用智能、信息过滤和信息化Web等解决繁重的数据收集处理任务;二是将非结构化或半结构化数据转换为结构化数据,即数据库的数据,用传统查询方式进行挖掘,主要包括基于关键词的挖掘、文字特征值的挖掘和样本的挖掘三种方法。这两类挖掘方法都基于检索词或主题词,简单而便捷,但无法挖掘信息之间的内在联系,挖掘结果只是包含有用户使用的检索词或关键词的文档,得不到其他相关信息。要解决这些问题,关键在于进一步开发基于知识和语义的挖掘方法[4]。本体(Ontology)是概念化的明确的规范化说明[5]。它是一种新型的元数据和知识表达方式,通过捕获相关领域的知识,提供相关领域公认的概念集,并给出这些概念及其相互关系的明确定义。因此,本体能把知识表达扩展到语义层次,可以有效克服关键词表达的缺陷。领域本体(Domain ontology)是专业性的本体,提供了某个专业学科领域中概念的词表以及概念之间的关系,或在该领域里在主导地位的理论。构建领域本体有利于对特定领域知识进行知识挖掘,实现特定专业领域概念的自动抽取、关系发现和知识获取,把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持和知识服务。

本文在构建基于口腔医学领域本体的知识挖掘模型的基础上,以2004-2010年国家自然科学基金中标项目情况为例,对文本进行知识挖掘,分析基金资助的重点、热点,项目之间的关联,项目内容的时间变迁及重点、热点项目所对应的核心人物和核心机构等。研究步骤如下:

①收集口腔医学文献并做术语提取,以半自动化方式构建口腔医学领域本体;

②以概念为语言单位提取文本特征。比如“口”与“嘴”具有同义关系,通过计算语音的文本相似度,将两个词映射到同一概念。同理找出近义、从属等关系;

③将文本表示模型转换成概念转换模型;

④下载2004-2010年历年的口腔医学专业基金中标项目的相关数据包括:标题、学科方向、中标的作者、作者单位等信息,输入至数据库;

⑤用神经网络学习、朴素贝叶斯和本体推理结合的方法进行机器学习,挖掘出数据中所隐含的知识;

1)主题挖掘及主题关系挖掘;2)对不同主题自动分类并按年份进行时间分段追踪比较分析,有助于了解这些主题研究力量和内容的时间变迁;3)根据不同主题分析出研究相应项目负责人和研究机构的联系强度,可以确定该主题研究领域的核心人物和核心机构;4)统计分析具有相同主题的项目负责人群,可以了解这些主题研究领域在国内的分布和发展趋势;

⑥用准确率(返回结果中正确的比例)和召回率(表示所有正确结果中返回的比例)对知识挖掘的结果进行客观的评价。

影响基金申报命中率的因素除自身科研实力外,还涉及多方面因素,科学地分析这些影响因素,提出相应的对策,对提升基金项目申报质量,提高命中率具有重要的意义。《孙子兵法》有云“知己知彼,百战不殆”。对历年中标的总体学科方向进行知识挖掘,准确把握、正确预测项目资助的学科导向和发展趋势才能“知彼”;对所在高校中标项目的学科方向进行统计分析,挖掘自身学科优势才能“知己”。这种在学科资助导向的范围内,结合自身优势的前提下凝练的科学问题,提出的科学假设才能做到有的放矢、事半功倍。此外,通过对基金资助情况的分析,挖掘各高校的优势学科和各学科的知名院校,不仅可以检验学科发展的均衡性还能为研究生、博士生报考提供一定的参考依据。

参考文献:

[1]2011年度国家自然科学基金项目申请数已逼近15万.科学时报.www.省略.2011-03-21.

[2]华子春,王雨轩.基金相对资助率——反映国家自然科学基金竞争能力的一个新指标[J].中国科学基金,2009,23(1):50-55.

[3]Fayyad UM, Piatetsky SG, Smyth P. From data mining to knowledge discovery: an overview. In , 1-34 AAAI Press. 1996.

[4]何晓兵.本体指导下的网络文献信息内容挖掘模型[J].图书情报工作.2010,24(54):45-49.

[5]Gruber TR. A translation approach to portable ontology specifications. Journal of Knowledge Acquisition, 1993, 2:71-92.

上一篇:如何给大一新生上好专业导论课 下一篇:从学习策略的角度浅谈英语口语的教与学