计算机科学领域科研合著网演化分析

时间:2022-08-26 12:33:30

计算机科学领域科研合著网演化分析

摘要:[目的/意义]揭示计算机科学领域科研合作发展规律及特点。[方法/过程]以计算机科学领域1975―2014年约300万篇论文为基础构建合著网,以年为单位分析合著网演化特点,对比分析期刊论文合著网和会议论文合著网的特点。[结果/结论] 科研合作已经成为计算机科学领域的必然趋势和普遍现象,八成以上科研人员拥有两名或两名以上合作者;计算机科学领域的发展以2000年为界分为慢速发展和快速发展两个阶段;会议作为更为高效的科研信息交流方式,更有利于促进计算机科研领域的科学合作。

关键词:计算机科学 合著网 演化分析

分类号:G250

引用格式:邹鼎杰.计算机科学领域科研合著网演化分析[J/OL]. 知识管理论坛, 2016, 1(2): 130-135[引用日期]. http:///paperView?id=23.

随着科学研究的进一步发展,科研合作已经成为科学领域的普遍现象。科研论文是科研成果的主要表现形式,科研论文的合著能够从一定程度上反映科研合作状况。通过研究论文合著情况来了解科研合作现状,发现科研合作规律及特点,能够帮助科研管理人员加强科研管理,启发科研人员更好地开展科研合作。

国外的科学计量学专家普赖斯[1]和D. Beaver等[2]最早对科学合作和科研论文的联名发表情况进行了探究,普赖斯认为大多数高产作者提高他们的生产率是由于存在一个集体的领导而使他们能比单枪匹马时完成更多的工作量所致。国内的文献计量学专家王崇德[3]、汪冰[4]等运用统计分析方法对合著率、合著程度等指标展开研究,通过量化的方法研究科研论文合著现象。随后M.E. Newman[5]、A.L. Barabási等[6]提出用网络方法研究合著关系,基于社会网络分析方法的合著现象研究越来越受到重视。王福生、杨洪勇[7]基于2001-2006年期间发表于《情报学报》的科学研究论文作者数据构建合著网络,探索了该网络的小世界特性和无标度特性;李亮、朱庆华[8-9]以1998-2005年期间发表在《情报学报》上的880篇科研论文为基础构建合著网络,利用社会网络分析方法对该合著网展开中心性分析、凝聚子群分析和边缘-核心结构分析;随后刘蓓、袁毅等[10]以2000-2006年被收录在中国期刊网上“情报学”主题相关的9 806篇论文为样本建立合作网络,分析研究人员合作紧密程度等特性。

然而,现有研究对象大多集中在图情学领域且数据规模小、时间跨度窄,通常以静态方式分析,缺乏动态分析研究。本文以计算机科学领域1975-2014年发表的约300万篇论文为样本建立合著网络,以年份为单位分析该网络演化特点,对比分析期刊合著网络和会议合著网络差异,揭示计算机科学领域的发展规律及特点。

1 DBLP文献库及预处理

DBLP[11]是由德国特里尔大学开发和维护的计算机科学文献库,该文献库收录了计算机科学领域主要的国际期刊和会议论文,为计算机科研人员提供免费的文献检索服务。由于其更新速度快,收录论文质量高,很好地反映了计算机领域学术前沿方向,在学术界有很好的声誉,给计算机科研人员带来了极大的便利,其权威性也得到了研究界的高度认可[12]。截至2015年8月,该文献库已经收录超过140万名科研人员发表的约360万篇文献,其中期刊文献约120万篇,占46%;会议论文约160万篇,占53%。本文提取数据集中1975-2014年40年间发表的期刊论文和会议论文作为研究对象。

DBLP数据集以XML格式提供数据服务,每条数据记录包含论文标题、作者、发表刊物、发表日期等字段。期刊论文以节点标记,包含创建时间(mdate)和唯一标识(key)两个属性,以及作者(author)、标题(title)、刊名(journal)和发表年份(year)等子节点。一条典型的期刊论文记录属性见图1。会议论文以节点标记,所包含属性和子节点与期刊类似。由于各种原因,DBLP文献库收录时存在部分期刊或会议论文字段不齐的情况。笔者挑选出创建时间、唯一标识、作者、标题、刊名和发表时间这7个要素均齐全的所有记录,删除7个要素不齐全的记录。最终得到1975-2014年间发表的1 231 308篇期刊论文和1 607 382篇会议论文。本文运用java语言,采用sax大规模XML文档处理程序包处理所有文档。

2 合著网络构建

本文主要考察科研作者之间有无合作关系,不考察合作关系强弱,因此建立无向无权值合著网络。以姓名为作者标识,作为合著网的节点;对于任意两名作者,如果他们合著过论文,则这两名作者之间建立一条无向边。最初以1975年为基础构建合著网,然后以1975-1976年间为基础构建合著网,以此类推,最终构建1975-2014年间发表的论文合著网络,分析这40年时间内随时间推演网络规模、度分布等演化特点。针对特定论文数据集,构架步骤如下:①基于论文数据构建“作者―合著者”关联表;②根据关联表统计当前合著网络规模;③根据关联表统计节点度及该网络度分布;④基于广度优先搜索算法分析该网络连通区域,并统计最大连通区域节点占整个网络的比例。

3 合著网演化分析

3.1 整体网络属性

表1显示了以1975-2014年间完整数据为基础构建的期刊合著网和会议合著网的基本属性。期刊合著网作者人数约93万,共123万篇,平均每人3.55篇;会议合著网作者人数约107万,共160万篇,平均每人4.52篇。可以看出,计算机科研人员更倾向于以会议的形式发表科研成果,进行科研合作与交流。其原因是会议能够为计算机科研人员提供面对面交流机会,更有利于科研信息的快速交换,启发科学研究。会议合著网平均合作者为7.73人,高于期刊合著网的6.90人,说明科研人员在发表会议论文过程中更倾向于选择合著,这与会议论文的时效性和新颖性要求更高、同等质量论文需要更多科研人员参与才能完成有关。从连通性角度考虑,两者最大组元(组元指网络中的连通区域)节点数与网络总节点数比例均在80%以上,且第二大组元所占比例极低,说明合著网中除极个别的孤立节点外,绝大部分作者已经处于同一个连通区域,作者之间的联系越来越紧密;同时发现会议合著网的最大连通区域较期刊合著网大,会议论文的合著情况好于期刊论文。

本文认为产生上述特征的因素可能有以下3个:第一,科研难度增加以及科学家乐于合作共同解决难题是促进科研合作的主要原因。在一个研究领域发展早期,科研人员倾向于解决基本问题,这类问题比较直观、所需投入的人力较少;随着基本问题的解决,复杂难题需要科学家付出更多的时间和精力,而人类乐于合作的天性也促使科学家走在一起,以更为高效的方式共同解决难题。第二,2000年以来计算机和互联网市场的迫切需求刺激了该领域的发展。通过两类合作网网络规模的增长可以明显看出,2000年以后网络规模呈现出爆发式增长趋势,越来越多的计算机科研人员参与到该领域的研究中。本文认为出现这种明显变化的原因是2000年左右互联网和计算机技术的蓬勃发展吸引了一大批人员参与到计算机科学领域的研究中。第三,会议对论文的时效性要求更高,同等质量的科研论文需要在更短时间内完成,这样从客观上要求科研人员加强合作,提高科研效率;同时会议能够为科研人员提供面对面形式的科研信息交流,可能是吸引更多科研人员参与会议的原因之一。

基于海量数据的合著网分析能更加准确、全面地呈现一个学科合作的发展现状,但因为面临着数据处理难题,传统的个人电脑几乎无法完成一些常见指标(如网络直径等典型参数)的计算。在下一步工作中,笔者将进一步探索如何高效地进行海量数据处理和巨型合著网络的分析和计算。

参考文献:

[1] 普赖斯. 小科学, 大科学[M]. 宋剑耕, 戴振飞, 译. 北京: 世界科学社, 1982.

[2] BEAVER D, ROSEN R. Studies in scientific collaboration: part I. the professional origins of scientific co-authorship[J]. Scientometrics, 1978, 1(1): 65-84.

[3] 王崇德. 科学论文作者的研究[J]. 情报学报, 1982, 1(2): 220-225.

[4] 汪冰. 我国自然科学期刊论文合著现象研究[J]. 情报学刊, 1990, 11(5): 335-339.

[5] NEWMAN M E. The structure of scientific collaboration networks[J]. Working papers, 2000, 98(2): 404-409.

[6] BARAB?SI A L, JEONG H, N?DA Z, et al. Evolution of the social network of scientific collaborations[J]. Physica A: statistical mechanics and its applications, 2002, 311(3-4): 590-614.

[7] 王福生, 杨洪勇. 《情报学报》作者科研合作网络及其分析[J]. 情报学报, 2007, 26(5): 659-663.

[8] 李亮, 朱庆华. 社会网络分析方法在合著分析中的实证研究[J]. 情报科学, 2008(4): 549-555.

[9] 朱庆华, 李亮. 社会网络分析法及其在情报学中的应用[J]. 情报理论与实践, 2008, 31(2): 179-183.

[10] 刘蓓, 袁毅, BOUTIN E. 社会网络分析法在论文合作网中的应用研究[J]. 情报学报, 2008, 27(3): 407-417.

[11] [EB/OL]. [2015-11-08]. http://dblp.uni-trier.de/db/.

[12] 窦炳琳,李澍淞,张世永. 基于结构的社会网络分析[J]. 计算机学报, 2012, 35(4): 741-753.

Abstract: [Purpose/significance] This paper aims at finding out the characteristics of author cooperation in computer science. [Method/process] We built the author cooperative network with about 300 minions of papers from 1975 to 2014, and we analyzed the evolution of this network. We built two networks with papers in journals and papers in conferences, and compared the differences of two types of networks. [Result/conclusion] Co-author is a universal phenomenon, and about 80% scientists have more than three cooperators. There are two stages in computer science, the slowly developing stage before 2000 and the rapid stage after 2000. It is found that scientists are more cooperative in conferences than in journals.

Keywords: computer science cooperative network evolution analysis

上一篇:新课程改革下的高中生物教学探究 下一篇:试论在高中英语教学中为学生营造创新的环境