基于网络数据抓取的医院论文管理系统的设计

时间:2022-07-26 01:14:21

基于网络数据抓取的医院论文管理系统的设计

摘 要随着医疗技术的不断发展和更新,新的技术和成果不断涌现,医护工作者发表和参阅医学论文已然成为展示科研成果和获取最新技术的重要途径。对于医院,论文可以从一个侧面反映出医院的综合实力,同时也是评价医院科研能力和学术水平的重要指标。作为医院科教管理部门,科教科在职工考核、职称晋升等工作中都需要考察论文的发表情况,并且还需要时刻掌握全院的数据,并以此作出统计和分析,把结果作为证明医院科研能力和发展现状的依据。

【关键词】网络数据 系统

1 医院学术论文管理情况现状

随着计算机的广泛应用,绝大多数医院管理论文的方法已经从手工登记转变为使用计算机软件管理,其中最为普及的是使用Excel软件制作电子表格登记论文资料。这种方法可以较好地帮助工作人员解决查找和数据统计的问题。但是,数据的收集需要做大量的前期工作,由论文作者上报至科教科,再由科教科工作人员进行手工录入制成Excel表格,需要生成报表和统计数据的时候也必须手动操作。

大量繁琐枯燥的手工录入工作制成的Excel的本地文件,却并不能较好的实现数据共享。因此,随着网络的普及,部分医院建立了基于Web的论文管理系统。依靠B/S架构的Web论文管理系统,可以很好的解决数据共享的问题。相比于使用Excel文件记录论文数据,网络论文管理系统的优点在于只要有可用的网络,无论何时何地都可以通过手机或个人计算机进入系统,进行论文上报、登记、查询操作,使论文管理工作不仅限于办公室。并且依靠计算机技术也可以一定程度的简化手工工作,以鼠标点选、自动生成等方式优化录入、统计分析的过程。

2 基于网络数据抓取的医院论文管理系统

基于网络数据抓取的医院论文管理系统保留了普通网络论文管理系统的优点,着力优化和完善最为繁琐的数据录入过程,从国内权威的论文数据库中直接抓取需要的数据存入自己的数据库。

据了解,国内绝大部分正规期刊上发表的文献在见刊1-2个月后就会被知网、万方、维普等专业的文献数据库收录。普通用户通过检索,可以获取到论文的题目、发表刊物、见刊时间、作者姓名、单位、关键词、摘要等数据,足以满足医院论文管理系统的需求。只要实现并使用抓取功能获得需要的数据,就能大大简化手工录入的工作,同时能有效的避免论文漏报、错报。

2.1 系统的体系结构

目前基于网络的系统体系结构主要是C/S(客户端/服务器)架构与B/S(浏览器/服务器)架构。C/S架构将大部分的运算放在客户端处理,要求进入系统的计算机安装相应的客户端程序,对计算机操作系统等条件有特定的要求,限制了用户群,具有较高的安全性,但是灵活性不强,不便于后期维护和系统升级。B/S架构基于HTTP和TCP/IP协议,运用服务器完成大量的运算,将运算结果传输给浏览器显示,用户只需要使用浏览器就可以在个人计算机或智能手机上进行操作,不受局域网、软件和运行平台的限制,可以实现跨平台的使用,并且后期维护成本低,更新方便。

为了系统后期的维护及功能完善,本系统采用B/S架构,也更能适应目前信息系统的发展趋势。

2.2 系统的功能模块

如图1所示,本系统分为五个功能模块,分别为:部门管理模块、职工管理模块、论文抓取模块、论文录入模块、查询统计模块。

2.2.1 部门管理模块

部门管理模块的主要功能是通过添加、修改、删除操作设置医院部门信息,构建一个完整的部门树形结构,以便在查询统计时可以实现按照部门查询统计,有助于分析和比较各科室部门的情况。

2.2.2 职工管理模块

职工管理模块同样通过数据库的操作建立职工的花名册,并且将每个职工按照实际情况分配到科室和部门,如此便建立了论文、作者、部门的关系。

2.2.3 论文数据抓取模块

论文数据抓取模块使用网络数据抓取的方法,通过请求URL、对返回数据进行分析、提取论文相关数据,将其存入论文信息表,并与医院职工进行关联。

2.2.4 论文数据录入模块

本模块的主要功能是手工维护论文数据,以对论文数据的添加、修改、删除操作,提供是一个查缺补漏渠道,对数据抓取过程中出现的不完善数据进行人工修改。

2.2.5 统计查询模块

模块提供作者姓名查询、关键词查询、期刊查询、发表时间查询、科室查询等丰富的查询方法。统计各科室数量、各种期刊上的数量、关键词相关论文数量、任意时间段数量等以供比较分析。

2.3 网络数据抓取模块设计

数据抓取功能是本系统的特色和亮点,其设计原理类似于简化的网络爬虫,抓取数据更具针对性,抓取范围仅限于较权威的论文期刊数据库。以下介绍设计思路。

2.3.1 抓取模块涉及的数据库设计

为了能在网络上抓取数据,需要一个表存放URL信息,其中包括的主要字段有URL、URL的MD5编码、访问状态、请求的页面类型等。

另外需要一个存放论文信息的表存放抓取到的数据,包含题目、刊名、发表时间、作者、关键词、摘要等字段。

2.3.2 抓取数据的主要步骤

首先程序从URL表中取出一条访问状态为未访问的数据,请求此URL并接收返回数据,根据URL请求的页面类型做提取论数据或者提取URL数据的操作。

对于返回的是论文页面,需要提取论文详细信息,然后到论文信息表中查找,判断是否为已经抓取过的论文数据,若已抓取,则标记请求的URL为已访问,然后进行下一个URL的请求。否则将论文数据整理并入库,将作者与职工关联,之后请求下一个URL。

若非论文详情页面,则需分离提取页面中的URL,将提取到的URL逐个进行MD5编码后到URL表中,将非重数据标记为未访问然后入库。

3 实现本系统的意义

基于网络数据抓取的医院论文管理系统可以有效地减少论文管理过程中的繁琐工作,简化管理流程,为管理人员减负。同时,得益于系统采用B/S架构,可以实现跨平台、跨区域的管理。抓取来自论文数据库的数据相对全面,以此数据做出的分析统计能够更加有效的指导医院科研的发展方向和重心。设计并实现本系统,有效地提高了科教管理工作效率。

作者单位

F州省骨科医院 贵州省贵阳市 550007

上一篇:大数据在应急管理中的运用 下一篇:外转子Halbach阵列永磁电机有限元分析