CNKI输出文件在文献计量中的应用

时间:2022-03-09 10:22:24

CNKI输出文件在文献计量中的应用

〔摘要〕针对文献计量研究中存在的来源数据多靠手工录入的瓶颈,介绍一种利用题录文件快速获取文献基本信息的方法。以CNKI中参考文献管理软件RefWorks提供的题录文件为数据来源,应用所开发的软件工具从中抽取相关文献信息并转化为所需格式,并据此进一步实现文献计量的基本功能。最后,以“个人知识管理”研究主题为例进行了实证检验,其结果验证了这种半自动文献信息的获取方法在文献计量研究中的有效性和实用性。

〔关键词〕CNKI RefWorks 文献计量 内容分析 个人知识管理

〔分类号〕G350

Application of CNKI Output Files in Bibliometric Analysis

Zhou Chunlei

Center for the Studies of Information Resources ofWuhan University, Wuhan 430072

Wang Weijun Cheng Jiangdong

Department ofInformation Management, Huazhong Normal University, Wuhan 430079

〔Abstract〕Referring to the difficulty in collecting the document data depending on hand-input in bibliometric analysis, this paper introduces a new method to solve the problem of acquiring basic document information in bibliometric. The article approaches a software (CnkiRef) which can extract related document information from one kind of CNKI output files produced by Refworks and fulfils some basic bibliometric functions. In the end, the paper provides a case study in the subject of personal knowledge management (PKM) to prove CnkiRef's efficiency and practicability.

〔Keywords〕CNKIRefWorks bibliometric analysis content analysis PKM

文献计量学从文献的外部特征出发,通过统计分析可以发现科学文献的生产、流通和应用规律,揭示学科发展趋势,但来源数据的获取一直是文献计量的瓶颈[1]。纵观以往以中国期刊网(CNKI)为数据源的文献计量研究,需要统计的文献基本信息多需繁琐的手工录入。由于来源数据获取不便,国内文献计量和内容分析相关软件的研制和应用大受影响[1]。受文献管理软件题录获取方法的启发[2-3],笔者发现CNKI提供RefWorks这一著名参考文献管理软件的题录输出文件中含有文献的基本信息,于是开发了一款名为CnkiRef的软件工具,从CNKI的输出文件中抽取所需信息并进而实现了初步的文献计量功能。经验证,该方法不仅可以快速地获取文献基本信息,而且能根据研究者的需要进行各种个性化文献计量研究,从而大大提高了研究效率。

1研究思路

研究目的主要是探索利用“中国知网”(CNKI)快速获取文献基本信息的方法。测试环境为KNS5.0数据库平台,用户类型为团体包库用户。在使用CNKI的过程中笔者发现KNS5.0数据库有一个RefWorks输出功能,可以提供默认名字为“RefWorks.txt”的文本文件,内容包括所选定论文的作者、篇名、期刊、年份、期、关键词、摘要等基本文献信息。经进一步了解得知这是CNKI为著名的文献管理工具RefWorks提供的文献信息输出接口[3]。

RefWorks是CSA(剑桥科学文摘)公司推出的联机个人文献书目管理系统,用于帮助用户建立和管理个人文献书目信息,很多著名的在线数据库都为它提供了文献题录导入接口。CNKI提供的接口方式是先将查询结果输出默认名字为“RefWorks.txt”的题录文件,然后在RefWorks系统中设置相应的过滤器后导入该文件。虽然RefWorks系统可以导入题录文件,但它没有进一步提供常用的文献计量功能[4]。

经研究发现,CNKI输出的“RefWorks.txt”是一种编码格式为UTF-8的半结构化文件,它包含被检索论文的作者、篇名、期刊、年份、刊期、关键词、摘要等文献基本信息。用记事本打开得到的输出文件(默认为RefWorks.txt),禁止“格式”里的“自动换行”,可以发现每条记录的保存格式是有规律可寻的。每条记录一般占10-12行。规范的学术性文章一般有12行:第1行是“RT Journal”,第2行是作者,第3行是文章题目,第4行是载文期刊名称,第5行是期刊缩写,第6行是文章发表年份,第7行是文章所在刊期,第8行是关键词,第9行是摘要,第10行是SN号,第11行是CN号,第12行是所在数据库。有的文章没有摘要和关键词,所以就只有10行或11行。

由此可见,CNKI的输出文件提供了基本的文献信息,这时如果有工具能从中自动抽取所需的文献信息,不就可以打破文献基本信息依赖手工输入的瓶颈么?基于这一思路,笔者自主开发了一种软件工具――CnkiRef。首先,从CNKI获取输出的题录文件;然后,利用CnkiRef从这些输出文件中抽取文献基本信息并合并保存为Excel文件;最后,从该Excel文件中选择相关的列,再次使用CnkiRef进行作者等信息的文献计量和内容分析研究。

2获取CNKI输出文件的步骤

获取CNKI输出的题录文件“Refworks.txt”的步骤如下:

利用CNKI(测试环境为KNS5.0,团体包库用户)进行常规检索,为了减少处理次数,可以让每页显示最大的50条记录(默认为10条),然后从显示结果中选择要保存题录的论文。

如果检索得到的结果均符合需要,可以依次点击“全选”、“存盘”按钮,然后在第一行的输出格式栏目中点击“RefWorks”链接,并更换文件名保存(默认为RefWorks.txt),该文件即为本研究的数据来源文件。

由于CNKI目前每次最多仅允许保存50条记录,所以在保存检索结果集中“下一页”的内容时要先点“清除”按钮以取消对“上一页”论文的选择,然后再如上所述依次点击“全选”、“存盘”等。这样,视检索结果集合的大小不同我们就可以得到一个或多个以TXT格式保存的输出文件。

3将输出文件转化为Excel文件

之所以要把CNKI的输出文件转化为Excel格式,主要是因为Excel文件不仅格式简单、便于编程而且有多方面的用途。它既可以长期保存供以后多次使用,又可以直接使用Excel进行统计研究、绘制各种图表,或者使用SPSS以及其它程序进行研究,还可以利用特定软件方便地转化为多种数据库格式以进行大规模的复杂研究。

用记事本程序打开输出文件,点击自编程序CnkiRef的“增加”按钮就可以从输出文件中提取出作者名、篇名、期刊名、年份、刊期、关键词、摘要等基本信息并转化为Excel文件格式,每条文献记录占一行,作者名、篇名等为列。每个输出文件提取完毕后程序自动关闭该文件以减轻手工劳动量。依次打开全部输出文件并处理,可以得到累加在一起的完整记录集。将该记录集复制并粘贴于一空白的Excel文件里,即得到所需的Excel文件,打开该Excel文件即可同屏呈现全部文章的相关信息。

本研究所用的自编程序CnkiRef是采用Delphi6编制的,针对输出文件中的记录错行现象进行了容错处理,使程序具有相当的健壮性。经过近万条记录的试验,所得Excel文件各列无错位现象。将CNKI的输出文件(默认为RefWorks.txt)转换成Excel文件的效果如图1所示。

图1 使用自编程序CnkiRef将CNKI的输出文件转换为Excel文件的过程示意

4使用CnkiRef进行文献计量研究

在数据抽取转换结束后,即可从获得的Excel文件中单独或联合选取作者、期刊、篇名、关键词、年份等相关列然后依次点击CnkiRef的“粘贴”、“作者统计”或“关键词年度统计”或“总趋势”等相应按钮即可实现各种针对作者、期刊、关键词等的文献计量研究。初步的应用如下。

4.1作者发文统计

从Excel文件里复制作者列,点击CnkiRef的“作者统计”按钮进行统计,可以得到独立作者、合作作者等的发文频率,可以发现核心作者及较固定的学术研究团体,还可以从联合研究情况推测研究群体的内部关系,甚至可以挖掘出多次以非第一作者身份出现的高频作者,这种基于研究者对数据意义理解的个性化文献计量研究有助于深入把握该领域研究群体的情况。

4.2年度或期刊发文量统计

从Excel文件里复制年份和期刊列,点击CnkiRef的“年度趋势”或“总趋势”按钮进行统计,可以分年度统计各期刊在某研究领域的年度发文量,也可以综合统计多年内的高频载文期刊,这些指标都有助于研究者确认该领域的实际核心期刊,从而不至于因“核心期刊”成见而漏掉优秀文章。

4.3关键词研究

从Excel文件里复制年份和关键词列,点击CnkiRef的“年度趋势”或“总趋势”按钮进行统计,可以分年度统计当年的关键词频率并按降序排列,也可以统计多年的总体情况,还可以看出相邻年度的共词情况。从中不仅可以发现各年的研究热点,发现某一术语在该领域最早出现时间,可以通过对比发现某一术语是如何在多个术语的竞争中得到广泛认可最终固定下来,还可以通过年度关键词的数量和增长情况发现该研究所处的阶段。一般而言,新兴的研究领域在最初几年的关键词数量一般都在100以下,相邻两年共同的关键词数量仅有数个;比较成熟的领域年度关键词多在数百,相邻两年共同的关键词数量至少有数十个之多。

此外,根据需要也可以进一步进行共词分析等深入的内容分析研究。

每次分类统计结束后,可以进一步把CnkiRef的统计结果整理成各种常规的表格形式以供深入分析之用。目前该程序在统计结果的可视化方面有待加强,需要借助人工进一步整理成最终的各种表格。

5实证检验

笔者于2006年10月31日,以“个人知识管理”为检索词在CNKI的主题里进行精确检索,共有相关记录112条。利用前文所述方法对检索结果进行整理和统计,从查询、整理到统计,仅需数分钟即可完成,从软件运行结果看上述文献计量功能皆可实现。统计结果如图2所示(限于篇幅,仅给出了作者和关键词统计结果示意图)。

6结语

通过以上对“个人知识管理”领域的文献计量,可以看出利用CNKI输出文件(默认为RefWorks.txt)获取文献基本信息的便捷性和可靠性。如果CNKI能一次提供全部检索结果,本文所介绍的方法将显示出更大的优越性。由于作为学术研究主要信息源的在线数据库往往为著名参考文献管理软件提供了题录获取接口,本研究虽然是基于CNKI为Refworks提供的接口文件开展的,但对挖掘其他提供题录输出接口的在线数据库的学术研究也是有一定借鉴意义的。相信本文所介绍方法可以大大降低文献计量研究的劳动强度,提高工作效率,降低错误发生率,使研究者可以集中精力于更有价值的文献内容的深度挖掘。

图2 使用自编程序CnkiRef统计作者和关键词的结果示意

上述方法虽较好地解决了文献计量研究中来源数据的快速获取问题,但所开发的软件工具仅初步实现了文献计量的基本功能,对于文献内容的深度挖掘和统计结果的表现形式还有待于进一步的研究。

参考文献:

[1] 邱均平,邹菲.我国内容分析法的研究进展//邱均平.文献计量与内容分析――2004信息化与信息资源管理研讨会论文选集,吉林:科学技术出版社,2005:3.

[2] 迈过文献管理软件的第一个坎!.[2006-12-08].www.省略/supportcn/cgi-bin/topic_show.cgi?id= 223&h=1&bpg=

1&age=0.

[3] 清华大学图书馆咨询台.如何实现将中国期刊全文数据库中的检索结果导入RefWorks?.[2006-12-08].vrs.lib.tsinghua.省略/pub/FAQ_View.asp?id=357&ClassId=& SearchStr=refworks.

[4] 清华大学图书馆.RefWorks――个人文献管理数据库及参考文献创建工具.[2006-12-08].www.lib.tsinghua.省略/database/refworks.htm.

〔作者简介〕 周春雷,男,1977年生,系统分析师,讲师,博士研究生,4篇。

王伟军,男,1965年生,教授,副系主任,博士生导师,博士后,56篇。

成江东,男,1978年生,工程师,硕士研究生,3篇。

上一篇:对外刊管理业务流程的再思考 下一篇:论公安情报系统的构建