基于数据融合技术的科技查新辅助工具的开发

时间:2022-10-29 07:33:21

基于数据融合技术的科技查新辅助工具的开发

摘 要:笔者研发的科技查新辅助查新工具是针对中国知网、万方、维普、中国知识产权局专利检索与服务系统设计的,通过编程实现基于EXCEL平台的查新辅助工具,该工具能够读取各数据库不同格式的数据、对数据进行去重、并在去重时抽取不同数据库的内容融合成最完整的数据进行保留,最后按照统一要求的查新格式导出。该工具相较于时下流行的辅助查新软件,其输出内容更完全,同时还具有方便快捷、无需安装、操作简单易学等特点。

关键词:查新 去重 EXCEL 数据融合

中图分类号:TP311 文献标识码:A 文章编号:1672-3791(2014)11(c)-0005-03

Based on Data Fusion Technology for Development of Novelty Search Auxiliary Tool

ZhangRui

(Library of Fujian Agriculture and Forestry University)

Abstract:The novelty search tools is aimed at deleting duplicate in the serch results of CNKI, WanFang and VIP database, The system based on EXCEL platform, and can read the database data in different formats, and delete duplicate, finally export the result according to the novelty format. This method is more convenient and quick compared with the popular novelty search software, and don't need to install, and easy operation etc., also can make up for the inadequacy of existing software at the same time.

Keywords:Novelty Search;Delete Duplicate;EXCEL Data fusion

随着文献数据的不断增长,科技查新工作变得越加复杂和重要。计算机辅助查新系统不仅可以帮助查新员节约大量重复工作的时间,还可以修正查新员在大工作量下容易犯的错误。

目前,国内的查新辅助软件主要集中在在线委托与查新档案的管理方面[1-13],检索结果去重和统一查新格式导出方面的软件较少,仅见哈尔滨工业大学图书馆应用JAVA语言开发了《图书馆中文查新智能去重系统》[14]。虽然许多收费软件如NoteExpress和NoteFirst均有去重功能,但购买费用较高,且在各大数据库所提供的基于NoteExpress和NoteFirst格式的数据字段不全的情况下,无法按照查新员需求输出符合规范的查新结果。一些国外收费软件如EndNote由于使用习惯不同,也不太符合国内查新员的需求。另一方面,国内的文献数据库检索平台的检索结果格式不统一,同一检索式得到的结果存在许多重复,若要人工一一筛选去重、整理格式,则费时费力,且容易出错。

1 目标

笔者研发的辅助查新工具是针对中国知网、万方、维普、中国知识产权局专利检索与服务系统设计的基于EXCEL平台的查新辅助工具,其通过双重的数据融合可使输出的数据内容最完整。

该辅助查新工具旨在实现以下目标。

(1)读取各个数据库(中国知网、万方、维普、中国知识产权局专利检索与服务系统、Innography专利分析平台)不同格式的数据,每个数据库的两种格式的数据将在同一在表格中融合,最后只以一张表格显示;

(2)导出各个数据库的数据,导出的数据应符合科技查新的参考文献著录规则;

(3)根据标题对数据进行去重,在去重时抽取不同数据库的内容融合成最完整的数据进行保留,去重结果直接显示在EXCEL表格里,方便查新员调整,若有不符合需求的数据可直接删除;

(4)按照科技查新要求的格式导出去重后的结果。

2 系统功能模块的实现

2.1 EXCEL宏语言简介

EXCEL宏可以使用VB Script指令集编写针对Office组件的小程序,它是VB编程语言的子集,可以使用VB的常用语句编写程序,编写方式与C++类似,依靠EXCEL原有的数据处理功能,可以编写出强大数据处理系统,而且编写出的系统根植于EXCEL平台,相似的平台操作模式,使使用者更容易上手。

2.2 中国知网、万方、维普数据库检索结果导入

读取各大数据库的检索结果,是该辅助查新工具所要实现的第一个功能。由于不同的数据库对检索结果提供了不同的保存格式,所以笔者要根据不同的保存格式编写不同的读取程序。同时,笔者发现中国知网、万方、维普这三大数据库对检索结果提供了多种保存格式,即使是同一数据库的不同保存格式之间所含的内容也不一样,存在互相包含和互相补充的关系。例如,中国知网数据库的检索结果的不同保存格式所包含的字段内容略有不同, CNKI桌面版格式中的专利文献包含专利类别名称和公开号却缺少文献页数的内容,而E-Learning格式中包含文献页数却缺少专利类别名称和公开号的内容。考虑到数据的完整性,笔者选择E-Learning格式和桌面版格式这两种较完整的数据格式进行读取,并融合两种数据得到信息最完整的数据。同理,笔者对万方和维普数据库也采用两种格式进行读取,万方数据库为万方查新格式、万方NoteExpress格式;维普数据库为维普NoteExpress格式、维普自定义导出格式。

读取检索结果的文本文件时,采取逐行读入的方式,每行以英文冒号“:”为分隔符分隔,存入数组“MyArr”中,然后比较数组中的第一个字符串,当它符合我们的需求时,把它填入相应的空格中。例如,文本第一行为“Title-题名:科技查新信息管理系统的设计与实现”,冒号将其分隔为两个部分“Title-题名”和“科技查新信息管理系统的设计与实现”,分别被填入数组“MyArr”的第1、2个元素中,当第1个元素即“Title-题名”匹配正确时,就可以将“科技查新信息管理系统的设计与实现”填入题名对应的EXCEL列中。

在使用该查新辅助工具前,需要先将CNKI E-Learning格式、CNKI桌面版格式、万方查新格式、万方NoteExpress格式、维普NoteExpress格式、维普自定义导出格式的检索结果保存为“CNKI-1.TXT”、“CNKI-2.TXT”、“万方-1.TXT”、“万方-2.TXT”、“维普-1.TXT”、“维普-2.TXT”六个文本文件,并存储在该工具所在的文件夹下。

然后,按照序号标示轮流点击“打开CNKI-1.txt”、“打开CNKI-2.txt”、“打开万方-1.txt”、“打开万方-2.txt”、“打开维普-1.txt”、“打开维普-2.txt”这六个按钮导入数据,如图1所示。数秒之后,即可在EXCLE表中见到导入的数据,分别存放在“CNKI数据”、“万方数据”、“维普数据”这三个表单中,如图2所示。若使用者只需进行各个数据库的格式整理,可以只选择相应的数据库进行导入,点击相应的按钮即可。

2.3 数据去重

数据去重是该辅助查新工具的最主要功能,为实现该功能,笔者采用EXCEL提供的CountIf函数对标题列中重复的数据进行删除。CountIf(range,criteria)函数会统计某个区域内符合指定的单个条件的单元格数量,其中range表示要计数的一个或多个单元格范围,criteria定义要进行计数的单元格的数字、表达式、单元格引用或文本字符串。在该辅助工具中,笔者以标题数据所在列为计数范围,以重复的标题内容为要进行计数的文本字符串,计算标题重复的个数,然后删除计数个数大于1的重复标题。由于中国知网、万方和维普的数据内容有所差异,通常中国知网中很少给出期刊的卷号,以及专利的申请号,而这些信息恰恰有收集在万方的数据中,所以在删除重复数据时,该工具会将首次出现的条目中没有的数据内容先复制到该条目中,然后再删除掉重复的条目。

查新员在使用时,只需点击“去重”按钮,EXCEL表中即可生成一个新表――“去重结果”,去重后的结果可在该表中查看。第三列“Source-来源”中会标引出哪些数据来自中国知网,哪些来自万方数据库,哪些来自维普数据库,以方便查新员阅读。

2.4 结果导出

经过去重后,点击“导出去重结果”按钮即可在同一文件夹下生成一个文本文件――“导出去重结果.TXT”;若不需要去重,只需对中国知网、万方、维普这三大数据库的检索结果进行格式整理,可以直接点击导入按钮右边的导出按钮即可,相同的,会在同一文件夹下生成相应的文本文件。

专利文献数据是查新员所依靠的重要文献数据,但是中国知识产权局专利检索与服务系统与Innography专利分析平台的检索结果格式均不符合查新报告要求的格式。为完善该辅助查新工具的功能,笔者特别增加了对这两个专利分析平台检索结果的格式整理,只需点击“导出中国专利”与“导出国外专利”两个按钮即可。

3 性能展示

笔者使用“题名=(程序or软件or系统) and 查新”检索式分别在CNKI、万方、维普上检索,在CNKI上检出文献140篇、万方上检出139篇、维普上检出120篇,一共399篇。点击“去重”按钮后,即得到181条去重结果。观察新生成的“去重结果”的表单,可以发现一些源自CNKI的条目中原来没有的卷号内容,已经被补充上了,如图4所示。

由于各个数据库收录的题录格式不统一,经常在英文大小写、空格、标点符号、英文缩写、有无副标题上不一致,甚至有些题录会有乱码的现象出现,所以还需要对去重结果进行人工微调。笔者利用EXCEL的排序功能,以标题为主要关键字,年份为次要关键字对去重结果进行排序,从而把相似的数据排列在一起,如图4所示,通过对比发现仍有15篇重复文献,同时发现两篇文献存在不同期刊重复发表的情况。笔者对比后,选择数据内容不够完整规范的重复题录予以删除,最终得到164个去重结果。

笔者所使用的电脑的主要参数如下:CPU: Intel(R) Core(TM)2 Duo CPU E8400 @3.00GHz 2.99GHz;内存1.84GB。

4 结语

该辅助查新工具虽然小巧,但在科技查新过程中可以节省查新员大量的冗余工作时间,而通过双重的数据融合可保留最为完整的数据内容。笔者通过一个多月的使用和完善,对各种BUG进行了修补,系统运行流畅,对科技查新工作起到了很好的辅助效果。

参考文献

[1] 师晓青,尉江星.基于JSP的在线查收、查引和查新检索系统的设计与实现――以山东大学(威海)为例[J].现代情报,2014,34(3):131-134,138.

[2] 刘莉莉.基于Web的科技查新管理系统设计与实现[J].甘肃科技,2014(4):14-16.

[3] 冯琳,张仁琼.基于.NET科技查新系统的设计与实现[J].大学图书情报学刊,2011(3):50-52.

[4] 林尔正,黄瑞敏.科技查新网上申报与管理系统构建研究――以福建中医药大学图书馆为例[J].情报探索,2011(12):78-80.

[5] 李海刚,谢毅.基于技术的科技查新网上委托及管理系统[J].企业科技与发展,2009(12):42-43.

[6] 李腾.基于技术的科技查新网上受理系统的设计与实现[J].情报探索,2009(10):74-76.

[7] 宋乐平,丁玉东.科技查新项目管理系统的设计与实现[J].情报探索,2010(2):70-71.

[8] 王权,张缨,杨生举,等.科技查新项目管理系统中嵌入Word的若干问题研究[J].甘肃科技,2006,22(11):73-74.

[9] 王重阳,许春芳.基于网络服务平台的农业科技查新检索系统简介[J].吉林畜牧兽医,2007,28(2):19-20.

[10] 吴玲.情报查新咨询管理信息系统的研发[J].科技情报开发与经济,2007(21):16-17.

[11] 张云坤.基于AJAX的科技查新管理系统[J].大学图书情报学刊,2008(6):30-32,43.

[12] 曾展鹏.基于ASP技术的查新报告管理系统的设计和制作[J].科技情报开发与经济,2008(2):68-70.

[13] 但旺,聂峰英,科技查新业务管理系统设计分析[J].图书馆学研究,2008(4):67-69,72.

[14] 李雪婷,李莘,王晓丹.基于JAVA的图书馆中文查新智能去重系统的研究与实现[J].图书馆学研究,2013(17):56-58.

上一篇:基于“绎课”的护理专业课理实一体化教学课堂... 下一篇:浅议铁道工程施工中常见的技术问题及解决对策