期刊h指数与载文量\引文量关系模型的实证与验证

时间:2022-10-06 10:45:53

期刊h指数与载文量\引文量关系模型的实证与验证

[摘要] 分析Schubert- Glanzela期刊h指数模型可能存在的问题,通过实际统计回归得出期刊h指数经验模型,通过实例验证其模型的准确性。在分析模型变化规律的基础上,对模型进行修正与描述。通过实例验证,指出经验模型对机构h指数同样具有较高的解释力度。

[关键词] 期刊h指数 经验模型 机构h指数 验证

2005年美国物理学家赫希 (J. E. Hirsch) 提出了主要用于评价科学家个人学术成就的一项新指标――h指数 (h-index)。该指标一经提出,便迅速得到国际科学界的高度关注,成为科学计量学与科学评价领域的国际热点问题。匈牙利信息科学与计量学研究中心、《科学计量学》(Scientometrics) 主编布劳恩 (T. Braun) 等人将h 指数加以扩展并应用于期刊影响力评价中 , 创立了期刊 h 指数,即: 对于一种期刊, 如果它发表的全部论文中有h篇文章 , 每篇被引用数至少为 h,同时要满足这个自然数为最大,那么该值即为该期刊的h指数[1]。A. Schubert与W. Glanzela在假设期刊文献被引分布规律遵循Lotka定律的基础上,推导出期刊h指数与载文量、篇均被引量的理论数学模型,如公式(1)所示:

…………(1)[2]

(h为h指数,c为常数,N为载文量,IF为影响因子,S为篇均被引量,a为Lotka指数)

并设Lotka指数a=2时,对其进行了验证,验证结果常数c约为0.75,且不存在学科差异。公式中涉及了载文量(N)、影响因子(IF)与h指数3个指标量,影响因子代表了期刊论文的质量,因此,该公式巧妙地将期刊h指数和载文数量与质量联系在一起,极富创意地解释了期刊h指数的内涵。但公式在推导过程中毕竟经过了多次的近似转换,尤其是公式中的常数c的取值,笔者也认为是1,从理论上来说也应该为1(当N=1、IF=1时,h=1),但作者在验证时得出常数c的取值约为0.75。笔者在仔细分析作者的验证结果后认为常数c小于1的结果是对载文量(N)或篇均引文量(S)的幂总体上高估了,为此,笔者从实例统计出发,力求对公式(1)作出修正,使得模型与实际误差更小、更精确。

1 期刊h指数模型的实证与验证

笔者利用《中国引文数据库》作为统计源,利用《中国期刊全文数据库》中的期刊导航分类目录,按类统计不同专业不同时间段载文量及分别至统计时的被引量与h指数,并以公式(2)回归。

…………(2)

先后共统计回归了45个不同样本,回归结果均遵循公式(2),这说明公式(1)中的常数确实为1,根据公式(1)可知N与S的幂的和为1( ,对45个样本回归结果为:0.997

…………………… (3)

…………(4)

……………… (5)

为了验证所得模型的准确性,分别取 为0.32、0.33、0.34、0.35、0.36, 分别为0.688、0.635、0.582、0.529、0.476,对所统计的样本逐一验证,并与公式(1)(a=2)对比,为了能够清楚地表达模型的准确性,本文使用统计学中的解释力度概念:

………… (6)

(h表示实际统计的h值, 表示模型估算的h值, 表示实际统计的h值平均数)

以《中国期刊全文数据库》中导航目录提供的数学类目录为样本,载文时间为2000-2001年,统计时间为2010年6月17日,如表1所示。

验证结果为: , ,即公式(3-5)对统计样本的解释力度为97.80%,公式(1)在c=1、a=2时对统计样本的解释力度为78.28%,取c=0.82时,公式(1)的解释力度为92.56%,这时已接近最大值。其他样本验证结果基本一致,公式(3-5)在 取不同的值时,对其他44个统计样本的解释力度均大于公式(1)在c取最佳值时的解释力度,且均大于92%。结果表明,公式(3-5)对各种学科及不同时间段的期刊h指数均有更高的解释力度,模型具有较高的可信度。

2 对公式(3-5)的解读与验证

为了直观地表达公式(3-5)在 取不同值时的变化,笔者设N=1 000,S分别取0.1-10.1,再分别以 取0.32、0.33、0.34、0.35、0.36, 分别取0.688、0.635、0.582、0.529、0.476,通过这5组数据分别计算h值,结果如图1所示。图中系列1- 5分别表示 取0.32-0.36。

从图1可以清楚地发现,当S在3.5-3.7之间、h在20-25之间时,5组曲线基本重叠,在S

…………(7)

为了进一步验证上述推断,以《中文社会科学引文索引(CSSCI)》2010-2011年来源期刊中经济学期刊目录为统计样本,通过《中国引文数据库》分别统计不同载文时间段载文量及至2010年7月18日的被引量与h指数,统计样本验证结果如表2所示。

再以2008年《中文核心期刊要目总览》中提供的作物、植保、林业、园艺、畜牧、水产类共80种农业期刊为统计目录,通过《中国引文数据库》分别统计不同载文时间段载文量及至2010年7月20日的被引量与h指数,统计样本验证结果如表3所示。

以《中国引文数据库》提供的高被引期刊统计表(统计时间为2010年6月10日),共提供了4 268种自然科学类期刊从收录年起的载文量、被引量与统计时的h指数,验证结果为:

=0.34, =0.582,

验证结果表明上文的推断基本正确,以2008年《中文核心期刊要目总览》中提供的作物、植保、林业、园艺、畜牧、水产类共80种农业期刊为统计样本,与以《中国引文数据库》提供的高被引期刊统计表提供的4 268种自然科学类期刊样本均以 =0.34时解释力度最高,以《中文社会科学引文索引(CSSCI)》2010-2011年来源期刊中经济学期刊目录为统计样本最高解释力度时 的取值与统计时的载文时间段存在明显的相关性,随着载文时间段与被引时间段的时间差逐步扩大, 的取值逐步由0.32趋向0.34。笔者认为这种情况是由于载文时间段与被引时间段的时间差较小,后期刊发论文实际上对h指数并没有多大的贡献,但这段时间相应的载文量增加,篇均被引量相应减少,这一增加与减小打破了公式(7)的平衡,便利 取值偏小,但并不是所有的样本都是这样,如2008年《中文核心期刊要目总览》中提供的作物、植保、林业、园艺、畜牧、水产类共80种农业期刊为统计样本中2004-2009年的统计结果并没有打破公式(7)的平衡。

综上所述,期刊h指数与载文数量(N)、篇均被引量(S)的关系可以描述为:

 当载文时间段与被引时间段有一定时间差时(2-3年),曲线基本遵循公式(7)的变化;

 当载文时间段与被引时间段差距较小时,公式(3-5)中的 取值可能较小,但当载文时间段与被引用时间段差距逐渐扩大, 的取值也逐步从0.32趋向0.34,即公式(7);

 考虑到实际的随机误差,当载文时间段与被引时间段有一定差距(2年以上),曲线的波动范围为 。

3 公式(3-5)对机构h指数的验证

以万锦等发表的《中国部分重点大学h指数的探讨》[3]一文中表1提供的利用美国ISI Web of Science中的SCI、SSCI和A&HCI 数据库计算得到的,国内50所高等院校在2001- 2003年中发表的论文在2001年1月至2006年12 月间在ISI 各数据库中的被引频次与h指数样本的验证结果为:

=0.34, =0.582,

以刘颖发表的《利用h指数及衍生h指数评价省级公共图书馆学术影响力》[4]一文表1中提供的国内省级图书馆统计数据为样本,数据来源于《中国引文数据库》与美国ISI Web of Science平台,检索时间为2009年3-4月,发文时间段为1998-2008年,验证结果为:

=0.33, =0.635,

以赵基明等发表的《一种新的科学计量指标――h指数及其应用评述》[5]一文中表2提供的h指数前20位国家的统计数据为样本,数据主要来源于美国《基本科学指标(ESI)》数据库,统计的发文时间段为1996年1月l日至2006年8月8日,验证结果为:

=0.34, =0.582,

验证结果表明,公式(3-5)不仅对期刊h指数有较高的解释力度,对样本量较大的机构h指数同样具有较高的解释力度。

4 结语

Schubert- Glanzela期刊h指数模型从理论上解释了h指数作为期刊载文数量与质量的综合性指标的内涵,揭示了期刊h指数与载文数量与篇均被引量的幂函数关系。笔者在这一理论模型的启迪下通过实证方法得出了期刊h指数的经验模型,并且分析了影响期刊h指数模型变化的因素。通过实例验证,经验模型对机构h指数同样具有较高的解释力度。

参考文献:

[1] Braun T,Glanzel W. A hirsch-type index for journals. Scientometrics , 2006, 69(1) : 169-173.

[2] Schubert A, Glanzela W. A systematic analysis of hirsch-type indices for journals. Journal of Informetrics, 2007,1(2):179-184.

[3] 万锦,花平寰,赵呈刚.中国部分重点大学h指数的探讨.科学观察,2007(3):9-16.

[4] 刘颖.利用h 指数及衍生h 指数评价省级公共图书馆学术影响力.图书馆建设,2009(11):77-81.

[5] 赵基明,邱均平,黄凯,等.一种新的科学计量指标――h指数及其应用评述.中国科学基金,2008(1):23-32.

[作者简介]汪跃春,男,1964年生,副研究馆员,20余篇。

上一篇:情报检索系统用户相关性判断的灰靶决策 下一篇:基于SAS/EM的图书借阅数据关联规则数据挖掘