专业学术期刊网站附加数据抽取探讨

时间:2022-09-01 06:20:39

专业学术期刊网站附加数据抽取探讨

摘 要: 探讨了如何对专业学术期刊网站的附加数据库进行半自动化抽取。文章以10本国际知名生物医学期刊作为分析对象,确认了学术期刊网站附加数据抽取的必要性和可行性。并提出了这些期刊网站附加数据的关键字段及组合规律,逐步讨论如何将网站附加数据抽取到本地的过程。

关键词: 附加数据数据抽取专业学术期刊网站

中图分类号: TP39 文献标识码: A文章编号: 1007-3973 (2010) 04-055-02

1 引 言

专业学术期刊以文献形式发表研究成果时,需要通过不同的途径来公布这些研究的数据,其中文献的补充材料是最普遍的方式。充分有效的利用这些资源,进行研究实验以促进行业的发展,显得非常必要。如何将附加数据与其相关信息抽取出来,转换为统一的格式,并最终加载到本地数据库供用户访问,成为亟待解决的问题??。

本文探讨以数据仓库技术中常用的ETL工具??解决生物医学专业学术期刊网站附加数据的收集整理问题,通过数据抽取,将附加数据从网站抽取到本地??。

2 需求及可行性分析

Web生物学信息的抽取??一直是计算机领域的技术难点,各数据源网页自治和半结构化的原因,排序不固定等,都向传统的自动识别抽取技术提出了挑战。

通过分析显示,绝大多数的期刊附加数据以电子格式在期刊网站的文献归档中,对10本国际知名生物医学期刊进行的调查,初步总结了附加数据的规律,如表1所示:

表1 附加数据规律分析

附加数据主要有以下特点:⑴层次性:多数期刊的文献归档具有层次性,依次访问归档入口、年归档、卷期归档和附加数据归档(或全文),便可到达附加数据的链接,少数期刊不具有层次性;⑵标记语言:期刊归档网页的标记语言为HTML或XML;⑶关键词:在卷期归档或全文页面中,可以找到链接到附加数据归档的附加数据关键词,但每种杂志的关键词不同;⑷分散性:附加数据与文献对应,由所属期刊维护,造成网页排版和数据形式多样;⑸时间限制:附加数据大多只能在一段时间内访问。

上述特点得出,一个成熟的附加数据自动抽取模块??应具有以下功能及特点:

⑴提供交互式的操作界面,实现“半自动化”的抽取;

⑵提供归档查询的功能,根据用户的选择,可从期刊的文献中解析出附加数据的URL;

⑶提供附加数据页面浏览功能,辅助用户筛选URL;

⑷可进行下载控制,将数据存储至本地;

⑸可获取附加数据对应的文摘信息;

⑹为以后数据导入主题数据库提供支持;

⑺将所有查询、浏览、筛选、下载等操作以工程项目的形式串联在一起,进行规范化管理;

3 具体实现方法

程序半自动化抽取而实现从互联网自动下载数据,其中系统流程是设计的核心,我将其划分为URL解析、文摘信息获取和用户判断三个重要部分,各部分间有着紧密的关联。

3.1 URL解析

附加数据的层次性、标记语言和关键词等优势,可为编程人员所利用。根据手动下载的经验,页面链接一条记录一般包含多个字段,分别为如下含义:

jouranlID:(4位流水号,每本期刊分配一个不变的id);

jouranlArchiveURL:(期刊文章存档URL);

yearURL:(期刊按年份归档的页面URL,含正则表达式);

volumeURL:(期刊每卷的URL,含通配符,可以匹配期刊每卷的URL);

dataURL:(附加数据的URL,含正则表达式的字符串,用以匹配下载数据的URL);

keywords:(此期刊附加数据的关键字,可以是多个,并含正则表达式,以逗号隔开);

可通过以下步骤到达附加数据的下载页面:

⑴提供期刊Archive地址,作为程序的入口;⑵ 进入期刊按年份排列的归档页面,解析出所有的年份;⑶ 进入某一年份按卷期排列的归档页面,解析出所有的卷期;⑷ 进入某卷期的文章列表页面,解析出所有的文章标题;若没有附加数据关键词,进行第⑸步,否则跳至第⑹步;⑸ 查看全文;⑹ 寻找关键字;⑺ 进入附加数据的归档页面;⑻ 将附加数据的URL列表返回给用户。

3.2 文摘信息获取

除解析URL以外,获取附加数据对应的文章信息也是不可缺少的部分,它直接影响到数据管理和工程导出等操作。本部分主要包括以下步骤:

⑴与3.1节的第⑷步联系起来,进入某卷期的文章列表页面;⑵ 解析出卷号、期号及文章标题??;⑶ 调用PubMed??提供的API,下载相应卷期的PubMed XML文件;⑷ 将文章标题与XML文件中的标准题目相匹配??;⑸ 根据匹配的正确标题,返回相应的文摘信息;⑹ 将文摘信息与附加数据相对应。

3.3 用户判断

这一部分是ETL技术中抽取和转换的有机结合,这是因为归档网页中存在着数据更新、链接错误和多重链接等情况,目前的编程水平还无法针对所有期刊提出统一的解决方案,所以在抽取过程中引入人工判断是十分必要的。

在附加数据下载页面中,存在多种形式的URL,抽取程序可以将它们从源文件中解析出来,但无法判断哪些才是真正的附加数据URL。因此,我们根据手动下载的经验,将URL分为5个级别,辅助用户进行判断: 1级以常见文件扩展名结尾的URL 多数需要下载;2级“DC”+num+“/”+num结尾的URL多数需要下载;3级文章提供附加数据下载链接的页面自身取决于是否有页面数据与数据描述;4级由本期刊网站维护的URL(参考性页面)仅少量需要下载;5级由非本期刊网站维护的URL(参考性页面)极少量需要下载。

对于附加数据URL分级策略,有以下几点需要注意:

⑴在工程管理区的数据记录中,Level项表示附加数据URL级别;

⑵第3级的URL将自动显示在查询结果中,若此类页面存在用标记语言实现的数据或重要数据描述,则需添加至工程;

⑶第1、2级的URL多数需要添加至工程;

⑷注意:文献的全文(.pdf)属于第1级URL,但不需要下载;

⑸第4、5级的URL仅少量需要下载,若本文数据确实由这些网页提供,则需要下载;

⑹某些期刊要经过多级链接才能获得真正的附加数据URL。

本部分主要包括以下步骤:

⑴与3.1节的第⑺步联系起来,首先将附加数据URL列表返回给用户;⑵ 用户根据事先制定好的规则,浏览网页,筛选URL列表;⑶ 将筛选好的URL列表添加至当前工程项目,即添加到下载队列;⑷ 下载数据;下载任务在杂志内串行,杂志间可并行;⑸ 将附加数据存放到本地;⑹ 与3.2节的第⑸步联系,将附加数据与文摘信息对应;⑺ 导出附加数据存放目录及数据信息表,最终导入数据库??。

4 结语

学术期刊网站附加数据抽取,是ETL工具对附加数据的应用,能为主题数据库提供更多的资源;其次,数据内容是统计分析的重要资源,而附加数据描述可作为文本挖掘的研究对象,为挖掘隐含知识提供支持,若能根据这两个方面的研究成果,扩充附加数据抽取的功能,就能成为具有自动分类和文本挖掘功能的综合软件。最后,以上述技术为背景,可逐步实现包含分类系统的附加数据主题数据库,为行业的发展提供强大的支持。

注释:

Santos C, Blake J, States DJ. Supplementary data need to be kept in public repositories[J]. Nature. 2005, 438(8).

周茂伟,邓苏,黄宏斌.基于元数据的ETL工具设计与实现[J]. 科学技术与工程,2006, 6(21).

黄利辉.文本挖掘在生物学中的应用[J]. 医学信息学杂志, 2006, 27(3).

成瑜,何洁月.基于本体的生物信息数据源的发现[J]. 微机发展,2005, 15(1).

张宁,贾自艳,史忠植.数据仓库中ETL技术的研究[J]. 计算机工程与应用, 2002, 38(24).

王斯锋,史波.XML技术综述[J].科技信息(科技教育版),2006(4).

PubMed网站[DB].www.ncbi.nlm.nih.gov/pubmed/.

周源远,王继成,郑刚,张福炎.Web 页面清洗技术的研究与实现[J].计算机工程,2002,9(50).

Nagarajan R, Ahmed M, Phatak A. Database Challenges inthe Integration of Biomedical Data Sets[J]. Proc of the 30th VLDB Conf,2004.

上一篇:EXCEL在精密水准测量中的应用研究 下一篇:ORACLE数据库性能问题查找方法探讨