基于共词分析的档案学关键词规范化研究

时间:2022-10-21 02:14:38

基于共词分析的档案学关键词规范化研究

摘要:关键词是学术文献表达研究主题的检索标识,为规范档案学专业关键词标引。本文分析了2016年5月8日于CNKI检索到的档案学研究领域的相关文献25990篇,运用共词分析方法,对部分文献关键词的不规范使用进行了分析,阐述了规范关键词标引的原则、方法和相关建议。

关键词:档案学 关键词 规范化 共词分析

共词分析是文献研究中常用的内容分析方法。它以任意两个词在同一篇文章中出现的次数为依据,进行聚类分析,得出词与词之间的远近关系,反映隐藏在这种远近关系背后的学科研究方向和主题结构的变化。共词分析法于20世纪70年代由法国文献计量学家提出,经过几十年的发展,已经被广泛应用于多个领域研究。

共词分析的基础是规范的关键词。我们发现,仅从共词分析的角度来看,关键词标注尚欠规范。如无改观,进行共词分析时,在数据源上便出现偏差,研究结果势必会与事实不符。文章的探讨重点,便是如何解决这一问题。

一、相关概念

(一)共词分析

共词分析是在大量文献中两两统计、共同出现的关键词,用统计数据来分析词与词之间的关联强度,并用结构图将这种关系形象直观地展示出来。同一篇文献中两个关键词出现的次数越多,使可认为其关系越密切。由此可以分析所在研究领域的研究热点,该领域各学科的发展过程、特点等。

共词分析大体可分为六个步骤。其一,确定分析的问题;其二,选取分析的词汇集合,如主题词或关键词;其三,筛选出高频词,即共现频次高的词;其四,统计词汇共现的频率,构建共词矩阵;其五,分析共词矩阵的特征;其六,得出研究结论。关键词架起文献数据和可视化分析的桥梁,如何准确、完整地选取关键词,便是成功进行共词分析的重要前提。正确的共词分析研究结果,能为我们提供良好的决策参考,是判断未来学科发展方向的依据。

(二)关键词

关键词,是指在表达文献主题方面起关键作用的词语。它取自文献标题、摘要或是文献全文,具有检索意义。关键词准确而直观地论述及表达文献主题,有助于文献检索,具备概括性、统计性、链接性等特点。

关键词的特征及功能决定了它是成为研究学科热点和学科发展趋势的重要方法。关键词重在标引。标引不当会影响检索功能,查准率低,造成共词分析数据源基础不牢,误导研究方向。从共词分析角度来看,现存关键词不规范现象,主要表现在分类不当、同义混用、达意宽泛等,有必要对关键词标注进行整改。

二、实证研究

本实证研究以档案学领域的研究热点为主题,通过比较研究法,说明关键词标引规范化在共词分析,乃至整个文献分析领域的重要性。

(一)数据来源

中国知网(China National Knowledge Infrastructure,中国国家知识基础设施,简称CNKI)与维普、万方并称我国三大中文数据库系统。中国知网CNKI以收录文献种类多、数量大,位居三大中文数据库之首。作为知识资源传播共享平台,中国知网获得99%的核心期刊、重要评价性数据库来源期刊授权,文献内容涵盖文史哲、工程科技、信息科技等十大领域。本文数据取自CNKI,采用1979年至2016年数据,即在“学科领域”中检索“档案学”,默认其他条件,于2016年5月8日检索到档案学研究领域的相关文献25990篇。

(二)研究方法

从CNKI下载格式为Refworks的文献题录。使用文本整理器和Editplus对文献题录进行去噪处理,形成BibExcel可以识别处理的文本格式,用BibExcel统计词频,再利用CiteSpaceШ进行聚类分析,绘制可视化图谱。

(三)数据检验

在Bibexcel中以DE为统计标签,统计得到档案学领域论文关键词共计36618个,关键词累计出现频次为176382次,平均频次为4.82次/个。统计分析中发现关键词存在问题如下:

1.词义混用

因为作者用词习惯不同,不同作者存在关键词差异,差异主要体现在同义词、近义词、缩写词等的运用上,如“档案管理”、“档案工作”、“档案事业”等。这些表述各异的关键词虽意义相同,但共词分析却不能共现,造成关键词零星琐碎,词频降低。应对措施是在词频统计前,进行规范化处理,如把“档案数字化”、“数字化档案”、“数字化工作”等统一表述为“数字档案”。

2.达意宽泛

有的关键词存在达意宽泛问题,如表1所示。这些关键词不仅不能说明研究主题,相反倒增加了共词矩阵的维数,使其过于繁琐,给后续数据统计分析带来噪音干扰。在此,我们把这类关键词视同是无关关键词,果断删除。

3.分类不当

分类不当又可以分为分类不细和分类过细。

(1)分类不细。如关键词“档案学研究”,单从词义理解,无从知道文章是研究档案学的基础理论与发展,还是研究档案信息资源的开发与利用,亦或是研究档案保护技术。理解有歧义,概念不清,分析便有偏差。我们要根据文献“题名”和“摘要”,研读文献内容,对这类关键词进行修正,力求具体、到位,如把“档案学研究”细化为“档案理论”、“档案利用”或“档案保护”。

(2)分类过细。如研究对象为国内外档案,“文书档案”、“科技档案”、“人事档案”、“数字档案”、“高校档案”、“教学档案”、“职专档案”、“教学档案”、“基建档案”等关键词,在做关键词共现研究时会因其频次过低而不得进入研究视野。因而,在做相关研究时,需下功夫调整关键词,如添加上位词“实体档案”、“数字档案”等。

(四)数据分析

我们抽取频次为300以上的高频关键词,建成表2,此表印证了关键词标引普遍存在的问题。

一是研究主题相同的关键词重复出现,如“档案数字化”、“数字档案”、“数字化档案”;“数字化”、“数字化工作”等。二是语意相近的关键词频繁出现,如“档案利用”、“开发利用”;“现代化管理”、“档案管理现代化”等。三是达意宽泛的关键词屡见不鲜,如“档案”、“建设”、“管理”等。表3集中汇总了表2出现的问题关键词的词频。

共词分析所取的关键词不建议过多,否则会生成高维矩阵,导致数据处理繁琐。聚类分析中如果选取300频次以上的高频词分析其共现情况,由于上述三类问题关键词的存在,势必会挤掉其他有研究意义的关键词,造成数据源偏颇,数据分析失误。

根据文章提出的对关键词规范化处理的原则和方法,对关键词作了删除、整合、增补等规范化操作,得到如图2所示基于关键词共现的多维聚类图。

依据CiteSpaceШ聚类分析结果,我们直观地将档案学研究主题分成了9类:档案事业研究、档案信息研究、事业单位研究、档案资料研究、档案馆工作研究、现行文件研究、文书工作研究、档案专业研究、情报工作者研究。如需详细了解各类研究内容以及未来发展趋势,还要对以上聚类结果做进一步研究分析。

三、规范关键词

(一)规范原则

关键词的标注不能凭一时喜好,从共词分析角度来说,规范关键词工作应遵循真实性、准确性、价值性、专业性原则。

真实。规范的关键词首先要具有真实性,真实体现文献的内容,真实反映作者的立意和结论。这既是对文献和作者的尊重,也是研究人员应遵守的最基本的行为原则。

准确。进行有效共词分析的关键词一定要准确,这样才能有效反映它们之间的相关性。因此,关键词应准确表达作者的研究成果、文献的本质特征。

专业。规范关键词标引需要研究人员具有相应的专业知识,了解研究领域的现状,熟悉常用的研究方法,掌握一般的研究步骤。有能力从文献题名、关键词以及摘要中文献的核心内容,准确增删核准关键词,具备规范关键词的专业素养。

价值。关键词的标注一般包括参考文献题名、摘要,因此题名摘要是规范关键词重要的信息源,要从中选取有价值的信息,形成关键词。共词分析需要的是这样的关键词,它不仅体现了文献的研究对象、研究内容、研究方法,还要包括研究过程、研究结论等信息。

(二)明确方法

关键词规范化标引不可一蹴而就,它工作量大,要有打持久战的思想准备,更需要耐心与细心,要从基础抓起。大致说来,关键词标引要经过审读、抽词、规范、审校四个流程。

审读。关键词标引的第一步是审读文献。要依据文献标题、摘要、引言、结论,继而浏览全文。要分析文献主题提炼关键词。

抽词。中国科协《关于在学术论文中规范关键词选择的决定(试行)》指出关键词一般按以下顺序抽取:一是研究所属二级学科名称,例如图书情报、档案管理的二级学科图书馆学、情报学、档案学等。二是研究成果名称或若干个成果的总类别名称。三是其他有利于检索和文献利用的关键词。

规范。关键词的选取要规范,一是对照国家标准《学科分类与代码》等词表,选取关键词;二是选择新学科、新术语为关键词,可通过CNKI数据库检索,网络搜索引擎查找,选用检索概率相对大的自由词。

审校。审校的目的主要检查文献关键词的提炼是否真实全面准确,有无遗漏关键词,是否随意选用通用词。二是标引顺序是否正确,是否为上位词在前,下位词在后,是否是反映论文研究目的、对象、范围、方法、过程的关键词在前,反映研究结果、意义等的关键词在后。

(三)相关建议

档案学研究的基础工作的重要组成部分是关键词标引。它是档案学文献获得的基本手段,其工作量之大,需要从作者到杂志审编人员,到图书馆关键词标引工作人员都要高度重视,要从细微入手,着眼大局,齐心协力来完成。

重视标引工作。关键词能够揭示文献内容。标引质量的好坏,直接影响到学术成果能否有效利用和广泛传播。因此,从作者到审编,再到图书馆工作人员要对关键词标引工作充分重视,并落实到具体行动上,众志成城,提高关键词标引的规范性和统一性。

提高人员素质。关键词标引工作业务性强,科研工作人员不仅要有档案学专业知识,还要有百科知识素养。这就要求我们不断探索积累经验,增进学习交流,强化业务素质,以认真负责的工作态度,根据档案学界公认的标引标准,做到不漏标,不过度标引。

加强标引管理。把关键词标引工作纳入科研及其相关管理的常规工作中去。稳定标引人员队伍,实施标引工作量化管理,定期对其进行总结分析,并举办专题讨论会推广经验,完善关键词标引工作规则。

规范标引操作。认真收集整理新增关键词,在充分讨论的基础上,邀请相关专家鉴定,完善《学科分类与代码》及《汉语主题词表》,增加档案研究领域中的新专业词汇,修订完善《中国档案主题词表》补充版。

四、结束语

从浩如烟海的文献中总结和回顾关键词标引研究成果,寻找有待完善的问题,目的是廓清关键词概念、明确关键词标引方法、指导促进关键词标引工作。任何一项研究都永无止境,关键词研究同样期待新成果,期待各级各类人员从观念上重视、行动上落实、成果上推广关键词标引经验,研究出切实可行、行之有效的关键词标引方法,进一步提高学术论文的检索效率,扩大其影响力。

参考文献:

[1] 王大伟.基于Pajek 的档案学研究状况的可视化分析[J].管理观察,2015(9上):180- 182.

[2] 叶济蓉.高校学报论文关键词的标引及其常见错误分析[J].学报编辑论从,2013(11):114- 117.

[3] 钟伟金,刘建滔.2002年《广东医学院学报》关键词标引的自查情况与分析[J].医学情报工作,2004(4):308-309.

[4] 档案学专业学术论文关键词的规范化亟待加强[J].科技情报开发与经济,2010(20):102- 103.

[5] 林清澄.关键词标引:要做就要做得最好[J].档案学通讯,2003(4):15- 16.

[6] 朱兴红.科技期刊论文关键词标引中的常常见错误及其规范要求[J].西北民族大学学报(自然科学版),2013(3):92- 95.

[7] 邢美凤.科技文献关键词冗余解决方案研究[J].现代图书管理情报技术,2012(1):35- 39.

[8] 吴立志.提高科技论文关键词标引质量的探讨[J].农业图书情报学刊,2010(9):210- 211.

[9] 杜香莉,王立宏,罗红彬.我国期刊全文数据库关键词规范化问题探讨[J].中国科技期刊研究,2007(18):612-614.

[10] 刘君君.学术论文关键词标引分析[J].新余高专学报,2005(6):100- 102.

[11] 江湘.学术论文关键词标引规范化问题探析[J].西安邮电学院学报,2008(13):142- 145.

[12] 吴立志.学术论文关键词的概念及标引方法辨析[J].现代情报,2009(29):7- 9.

[13] 仲崇民.学术论文关键词写作结构的规范化[J].鞍山钢铁学院学报,1999(22):1- 4.

[14] 高淑桂.医学论文关键词标引常见错误分析[J].山东医科大学学报社会科学版,1990(3):71- 72.

[15] 邵作运,李秀霞.共词分析中作者关键词规范化研究-以图书馆个性化信息服务研究为例[J].情报科学,2012(30):731- 735.

上一篇:家庭教养方式对大学生时间管理的影响及干预机... 下一篇:医患纠纷形成的原因与对策探究