基于h指数和知识图谱的学科研究热点分析

时间:2022-07-31 11:32:13

基于h指数和知识图谱的学科研究热点分析

〔摘 要〕文章以h指数的定义,来界定高被引论文,然后以CiteSpaceⅡ软件作为分析工具,以文献关键词作为节点。通过对关键词的频次和关键词之间的连接的分析,从而体现图情领域研究的热点和发展方向。

〔关键词〕h指数;知识图谱;CiteSpaceⅡ;研究热点

〔中图分类号〕G250 〔文献标识码〕A 〔文章编号〕1008-0821(2012)09-0163-05

h指数代表“高引用次数(High Citations)”,是在2005年由美国Jorge E Hirsch教授首次提出,它将数量指标(发文量)和质量指标(被引量)结合起来,更好地显示了科学工作者的科研成果。Hirsch将h指数定义为:一位作者的h指数等于其发表了h篇至少被引h次的论文,即一个作者的h指数表明其至多有h篇论文被引用了至少h次[1]。之后,Braun等将h指数用于评价期刊的质量,提出一种期刊的h指数等于该期刊发表了h篇每篇至少被引h次的论文,或者说一种期刊的h指数是该期刊所发表的全部论文中最多有h篇至少被引用了h次[2]。本文中,我们借鉴h指数的定义,认为某一学科领域某一年的h指数等于该领域在该年发表了h篇每篇至少被引h次的论文,或者说该学科领域该年所发表的全部论文中至多有h篇被引用了h次。然后以h值作为界定高被引论文的阈值。

知识图谱(Mapping Knowledge Domain),是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源极其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互关联[3]。CiteSpaceⅡ是信息可视化领域的权威专家陈超美博士开发的可视化软件,属于多元、分时、动态的第二代信息可视化技术。它能够绘制科学知识图谱,显示一个学科或知识域在一定时期发展的趋势与动向,形成若干研究前沿领域的演进历程[4]。

为了准确地分析本世纪以来我国图情领域的研究热点,本文引用h指数的定义,来界定高被引论文,然后以CiteSpaceⅡ软件作为分析工具,以文献关键词作为节点,通过对关键词的频次和关键词之间的连接的分析,从而体现图情领域研究的热点和发展方向。

1 数据收集及方法选择

本文利用CNKI数据库中的中国学术期刊网络出版总库,选取“图书情报与数字图书馆”分类,分别检索发表于2000-2011年的核心期刊研究论文,按照被引频次降序排列,根据前文中对h指数的定义,统计出图情领域2000-2011年各年的论文的h指数,统计结果见表1。检索时间为2012年6月11日。

将统计出来的528篇文献记录输出保存,转换成CiteSpaceⅡ可以识别的格式导入CiteSpaceⅡ,然后对需要的参数进行设置,选择时间跨度为2000-2011年,时间切片为1年,主题来源为标题(Title)、摘要(Abstract)、主题词(Descriptors)、标识符(Identifiers),主题词类型为爆发词(Burst Terms),以关键词作为节点,选取每一时区被引频次最高的前30个关键词,以最小生成树的方式对记录进行分析,绘制出聚类的图谱。2 结果分析

2.1 聚类图谱分析

根据网络节点的组配,绘制出图情领域高被引论文中文关键词的分析图谱,图谱由220个节点、225条连线组成。即分析文献中有220个关键词通过225条连线进行组配。如图1所示。

图1 图情领域高被引文献中文关键词聚类视图

(1)根据关键词的词频统计,出现频次较高的有图书馆、数字图书馆、信息服务、高校图书馆、学科馆员、知识管理、图书馆服务、网络环境、云计算、大学图书馆、公共图书馆、服务模式、知识服务、创新等,这和聚类视图中显示出的各个节点相对应。每个节点代表一个关键词,节点的大小表示这个关键词出现的频次的高低,节点的年轮颜色和宽度代表关键词在时间维度上出现与发展的序列和频次,节点之间的连线代表关键词在文章中出现的频次以及与其他关键词的联系。

(2)在图1上面没有显示出来的,还有一些散落在四周的小节点,它们与图谱的中心没有直接的关联,如语义网、知识自由、h指数、期刊学科分类、期刊评价等,但反映出我国近12年来图情领域的新兴研究以及与其他领域相结合的尚不成熟的研究。

2.2 时间线分析

对关键词聚类进行时间线分析,绘制出图情领域高被引文献中文关键词时间线图谱,如图2所示。在图2中可以看出,Modularity Q=0.5708,Mean Silhouette=0.7798。Modularity Q的取值范围介于0~1之间,越接近1,说明这个网络越具有模块性,可以很好的进行聚类,聚类内的联系越紧密,聚类间的联系越松散。Mean Silhouette的取值范围介于-1~1之间,越接近于1,说明这个聚类的主题越明确。这个聚类结果的Modularity Q和Mean Silhouette值说明这次聚类是合适的[5]。

通过图2,我们可以清晰地看到各主要关键词出现的时间分布及其中心性。在2000-2002年,数字图书馆、信息服务、高校图书馆、学科馆员等关键词都已经存在,并且在十几年间一直是研究的重点;而服务模式在2003年开始出现,说明相关方向的研究是从这时被重点关注的,而对云计算的

图2 图情领域高被引文献中文关键词时间线图谱

研究是从2009年才开始,这与计算机技术的发展密不可分,图书馆与计算机技术的结合成为图书馆发展的趋势。

2.3 时区图谱分析

对关键词聚类进行时区分析,绘制出图情领域高被引文献中文关键词时区图谱,如图3所示。时区图谱是由一系列表示时区的条形区域组成,时区按时间顺序从左向右排列,因而研究前沿指向知识基础[6]。

图3 图情领域高被引文献中文关键词时区图谱

通过图3,我们可以看到右上角显示的是最新热点研究的关键词构成的研究前沿,并可以看出研究前沿与知识基础之间的千丝万缕的联系。这些研究前沿的主题有职业资格、微博客、语义网、共建共享、期刊学科分类等。

上一篇:著作人身权的合理流转 下一篇:现代学科分类中的“文学人类学”