基于BIBFRAME的数字图书馆语义搜索框架研究

时间:2022-09-25 06:42:58

基于BIBFRAME的数字图书馆语义搜索框架研究

摘 要:为满足数字图书馆语义化资源整合与发现需要,文章提出了基于书目框架(BIBFRAME)的数字图书馆语义搜索框架,并对资源的语义化描述、组织和搜索过程以及各模块的功能进行了设计和说明。最后,通过搭建实验系统对框架功能进行测试,实验结果表明,系统满足了预期的功能需求,提出的数字图书馆语义搜索框架具有较好的科学性和有效性。

关键词:书目框架;数字图书馆;关联数据;资源整合;语义搜索

中图分类号:G250.76 文献标识码:A DOI:10.11968/tsyqb.1003-6938.2017010

Abstract This paper proposes the semantic search framework in digital library to meet the needs of resource integration and discovery. On the basis, the author introduces the process of semantic description, organization, and search, as well as the function of each module. Furthermore, an experiment system is constructed to verify the function of the framework. The results show that the system meets the functional requirements, and the semantic search framework of digital library is scientific and efficient.

Key words BIBFRAME; digital library; linked data; resource integration; semantic search

随着分布式存储、云计算等信息技术的快速发展,互联网已经成为用户、获取信息的主要渠道,以知识服务为核心的图书馆正面临着用户流失的风险[1]。数字图书馆作为数字资源的存储、组织和传播中心,实现了图书馆功能向互联网的延伸,代表了图书馆未来的发展方向。然而,在网络信息高速发展的今天,数字图书馆仍然无法真正融入开放的互联网络,且面临着多个方面的发展困境,如:核心资源主要来源于长期的馆藏积累,数据量少,更新慢,且不完整;资源组织方面仍然采用图书馆特有的MARC元数据,编目信息缺少通用性和可读性,无法适用互联网多来源异构、多类型、多粒度资源的整合需要;仍然采用基于关键词的检索方式,缺少对检索语句的语义解读,无法发现深层的用户需求。

语义搜索是基于语义网技术提出的全新的资源搜索方法,其能够从语义层面识别用户的检索请求[2],以机器可理解的方式对资源及资源间的关系进行语义描述和组织,并通过逻辑推理实现资源的语义检索[3]。本体是实现语义搜索的基础,其与关联数据的结合可以有效解决多来源、多领域、多类型资源的整合问题[4]。书目框架(BIBFRAME)是美国国会图书馆提出的新一代编目本体。与MARC元数据不同,BIBFRAME采用本体的方式对资源进行描述,并通过关联数据进行。本文基于BIBFRAME提出了一种数字图书馆的语义搜索框架,该框架融合了关联数据、自然语言处理、SPARQL搜索等相关技术,实现了信息的语义整合、需求的语义识别和资源的语义搜索。以为解决数字图书馆语义整合和搜索提供了经验。

1 数字图书馆语义搜索分析

1.1 语义搜索概述

语义搜索的出现源于语义网这一概念的提出[2]。根据蒂姆・伯纳斯・李的构想,语义网环境下所有的资源具有唯一的URI,资源之间通过语义关系进行关联,整个互联网被聚合成为一个巨大的数据库,通过语义搜索为各个领域提供知识发现和决策支持服务[5]。语义搜索作为语义网环境下新一代的知识获取方式,涉及信息检索、人工智能、语义网挖掘等众多研究领域[6],许多研究者将本体、关联数据、自然语言处理等技术应用于语义搜索,取得了丰硕的研究成果[3]。

在资源组织方面,本体是语义搜索的基础[2],本体中的抽象概念可以对资源进行聚类,属性可以描述资源间丰富的语义关系,基于本体构建的概念模型是结构化、语义化资源组织的重要工具。目前,许多研究者探索了本体在非结构化信息描述[7] 、元数据转换[8]和移动语义搜索中的应用[9-10]。在语义编码方面,关联数据是本体和映射的主要方式,其采用三元组对语义关系进行描述,通过RDF对概念模型进行编码,并支持以RDF图的形式进行基于推理的关系发现和语义检索[11-16]。在自动化处理方面,自然语言处理技术提供了高效和智能的语义处理,可以解决搜索过程中的语义标注[17-18]、语义识别[19-21]、语义排序[22]和搜索评价[23]等问题。

1.2 数字图书馆语义搜索

语义搜索具有广阔的发展前景,许多研究者从互联网、生物、医疗、旅游等众多领域探索了其在网络内容监管[24-25]、极地数据分析[26]、用户生成内容挖掘[27-28]、学科知识服务[29]等方面的应用。在数字图书馆领域,我们认为语义搜索同样具有重要的价值:(1)在海量资源管理方面,基于本体的资源描述可以更好的实现数字图书馆资源的组织与整合;(2)在编目数据序列化方面,基于关联数据的编目信息具有更好的通用性和可读性。通过关联数据云技术,数字图书馆可以更方便的分享馆藏信息,提高互联网环境下的资源可见度;(3)在资源语义检索方面,基于语义的检索方式可以更有效的发掘资源内涵、理解用户需求,提供更全面、更准确的知识发现服务。

同时,笔者也J为数字图书馆在实现语义搜索方面存在着巨大的优势:(1)数字图书馆采用结构化的资源描述和组织方式,专业人员编辑的书目数据提供了丰富的语义信息,这些信息在揭示资源内涵方面发挥着重要的作用;(2)语义网一直是图书馆领域的研究热点,许多受控词表、本体模型已经通过关联数据进行。BIBFRAME是美国国会图书馆基于关联数据的新一代编目本体,其代表了编目格式未来的发展趋势。通过上述分析,笔者认为BIBFRAME作为图书馆领域的编目本体,具有强大的语义描述和组织功能,如果将其与语义搜索技术结合将可以有效的推动数字图书馆知识服务的创新与变革。

(2)模型映射模块。模型映射模块主要负责从结构和内容两个方面对外部异构信息进行整合。BIBFRAME提供了作品、实例、单件构成的层次模型,每个核心类分别对应了不同的描述主题(见表1),能够实现不同粒度的资源描述。

①整合策略。系统需要根据外部资源类型选择合适的概念层次对信息进行整合。对于海量的网络用户生成内容(User Generated Content,UGC)由于缺少明确的出版和馆藏信息可以在作品层进行描述,通过添加标题、作者、主题等信息实现数字图书馆对网络资源的整合。对于出版机构可以在作品层和实例层进行描述,实现数字图书馆与出版机构资源的交互与共享。对于图书馆同行之间的信息整合可以在作品、实例、单件三层进行,实现完整的书目信息整合;②整合方法。在结构方面,对于非结构化的外部信息,系统需要根据整合策略为其补充相应的描述信息。对于基于不同本体的异构信息,系统首先需要设置本体之间的等价关系(等价类、等价属性、等价实体),然后通过推理实现本体模型和实体数据的整合。在内容方面,利用BIBFRAME提供的主题、事件、集合等抽象概念,从内容上对资源信息进行整合。

(3)模型编码模块。模型编码模块主要通过关联数据的方式对之前构建的概念、实体模型进行编码,生成机器可识别的RDF文件。概念、实体模型的关联数据编码主要包括两项内容:①为所有的类、属性和实体定义全网唯一的URI,从而实现资源的唯一定位。URI由前缀和对象名两部分组成;②生成RDF编码。资源描述框架(Resource Description Framework,RDF)是W3CM织的语义网资源描述标准,其采用三元组的方式(主语、谓语、客体)对资源间的关系进行描述,生成机器可理解的关系模型。目前,DC、DCTERMS、BIBFRAME等元数据和本体词汇集都已经通过RDF进行。

(4)语义存储模块。语义存储模块负责对生成的RDF数据进行存储和管理。由于RDF特殊的数据结构,传统的关系数据库无法对其进行有效管理,所以需要专门的三元组数据库进行存储。三元组数据库主要采用SPARQL语言进行管理,能够提供对RDF数据的插入、删除、修改和查询操作。区别于传统数据库的处理方式,三元组存储器主要通过图模式匹配的方式执行SPARQL操作。

(5)检索语句处理模块。检索语句处理模块负责检索句的命名实体提取和本体标注[37]。因为编目信息中已经包含了完整的本体和实体定义,所以系统主要采用基于规则和用户词典方式进行分词。具体方法是将全部的命名实体和本体词汇存入用户词典,以优化用户检索语句的分词。分词后所有的命名实体和本体词汇将被单独切分,对此还需要构建实体索引和本体索引。实体索引以类为单位进行构建,索引表的名称为类的名称。本体索引主要包括本体名称和URI两个关键字段,分别存储类和属性的相应信息。通过对分词结果进行实体和本体检索,系统就可以识别检索语句中的命名实体和本体词汇。

(6)检索语句转化模块。SPARQL转化主要负责将提取的命名实体和本体标注结果转化为SPARQL语句进行语义搜索。SPARQL是W3C针对RDF提出的查询标准和数据访问协议,主要由PREFIX、SELECT、FROM和WHERE四部分构成。PREFIX用于设置前缀,SELECT用于设置检索的对象,FROM用于设置检索的位置,WHERE用于设置检索的条件。检索语句的转换涉及较为复杂的句法分析,目前本研究仅针对简单句提出了若干转换规则,对于复杂句的处理还需要更深入的研究。

(7)SPARQL搜索模块。SPARQL搜索模块主要负责对构建的SPARQL检索式进行语义检索。区别于传统的检索方式,SPARQL检索的对象是RDF三元组。检索过程中,SPARQL搜索引擎首先将数据库存储的三元组数据转化成RDF图,然后通过图搜索算法进行检索。目前,常用的SPARQL搜索引擎是Apache开发的fuseki。另外,也可以通过调用JeanAPIs对JenaTDB进行检索。为了提高系统检索质量,还可以采用推理机提高系统的语义发现能力。目前,JeanAPIs主要支持基于规则的推理,而RACER、FaCT++、Pellet等则可以在OWL2 RL规则的约束下进行更专业的推理。

4 语义搜索框架测试

为了验证上述语义搜索框架的效果,本研究搭建了基于该框架的验证系统,并设计了多个实验对系统的运行效果进行检验。

4.1 验证系统的搭建

(1)本体模型的构建及序列化。采用protege5.0对概念模型进行构建,并在模型的基础上进行实体和实体属性的定义。概念模型主要基于BIBFRAME进行构建,除此以外还复用了DC、EVENT、FOAF等常用的本体词汇集;根据实验需要,选取了网络用户、图书馆和出版机构等多个来源的信息,如书籍的出版信息、馆藏信息和用户评论等;构建完成后系统生成RDF格式的序列化文件。

(2)检索语句处理及转换。采用NLPIR2016进行检索语句的分词,用户字典采用系统自带的UserDict文件;命名实体索引和本体索引采用MySQL5.7.14数据库进行存储和检索;SPARQL转换通过JAVA代码实现。

(3)RDF存储与检索。采用JenaTDB+Fuseki+Tomcat的架构。JenaTDB主要负责RDF数据的存储;Fuseki是开源的SPARQL搜索引擎,提供RDF查询服务;Tomcat主要提供WEB服务,在使用前需要先导入Fuseki的WAR文件。

4.2 实验测试

为了验证系统效果,本研究设计了三个实验分别对系统的语义描述、语义整合和语义检索功能进行测试。

(1)语义描述功能测试。为了验证系统的语义描述功能,本研究从豆瓣、中国图书网、中国国家图书馆等网站获取了与书籍相关的书评、出版和馆藏信息,然后采用基于BIBFRAME的概念模型对上述资源进行了描述。具体描述了采用的类和属性(见表2),生成了书评和书籍RDF数据(见图3)。

实验结果表明,BIBFRAME提供了丰富的类和属性定义,Work、Instance和Item三个核心类能够较好的满足书评信息、出版信息和馆藏信息的描述需要。同时,测试也显示BIBFRAME具有适度的描述弹性,在描述责任者、分类标记、作品名称时,允许使用者自己定义需要的类型。如BIBFRAME设置了Contribution类和role属性,通过定义Contribution实体和该实体role属性的值,使用者可以定义需要的贡献者类型。此外,VarientTitle、Source也都采用了类似的定义方法,能蚨砸延械谋晏夂捅昙抢嘈徒行扩展。

(2)语义整合功能测试。为验证系统语义整合功能,本研究收集了多个来源的图像、视频、报告、期刊等资源的描述信息,每种信息均采用了不同的本体描述结构。为解决异构信息整合问题,笔者采用owl:equivalentClass 、owl:equivalentProperty和owl:sameAs对异构本体进行映射,并通过FaCT++推理机和BIBFRAME中的事件类实现了资源在结构和内容上的整合。为了验证整合效果,笔者以“2001年7月13日北京申奥成功”为事件进行检索,结果显示了所有与该事件相关的资源信息(见图4)。测试结果表明基于等价关系的本体映射和BIBFRAME的概念、属性能够对异构资源进行有效的整合。

(3)语义检索功能测试。为了验证系统的语义检索功能,本研究采用了多条检索语句进行实验(见表3),以测试系统各个环节的运行效果。

系统通过对检索语句分词实现了实体和本体词汇的单独分割(见表3)。系统对检索语句的转换结果(见表4),通过对SPARQL搜索结果进行验证(见图5),确认系统获取了较为准确的结果,达到了预期的语义检索效果。

上述实验结果表明,本研究基于BIBFRAME提出的数字图书馆语义搜索框架具有较好的科学性和有效性,根据其构建的验证系统能够较好的实现数字图书馆资源的语义描述、组织和检索,满足了预期的资源整合和发现需求。同时,测试也显示验证系统在深层语义发现和复杂语句识别方面存在不足,这主要由于两个方面的原因:①验证系统主要针对实体间的显性关系构建概念模型,对资源深层语义的发现存在不足;②系统虽然能够处理常见的简单句查询,但是由于缺少句法分析导致系统对复杂语句的识别存在不足。

5 结语

为提高数字图书馆对互联网资源的整合与发现能力,本文提出了基于BIBFRAME的数字图书馆语义搜索框架,实验结果表明,本研究提出的数字图书馆语义搜索框架具有较好的科学性和有效性,能够有效解决数字图书馆面临的资源整合和发现难题。目前,本文提出的框架还存在深层语义发现和复杂语句处理两个方面的不足。后续研究中,我们将继续对框架进行细化,并尝试采用推理、概率统计的方法提高系统对潜在语义的发现能力;在检索语句处理方面,将尝试增加句法分析功能,提高系统对复杂语句的处理能力。

参考文献:

[1] Pesch O,Miller E.Using BIBFRAME and library linked data to solve real problems:an interview with eric miller of zepheira:edited by oliver pesch[J].The Serials Librarian,2016,71(1):1-8.

[2] 苏明明,宋文.基于本体的语义搜索引擎解决方案研究新进展[J].现代图书情报技术,2008(11):24-28.

[3] 郭卫宁,司莉.国外语义搜索引擎调查与分析[J].图书情报工作,2013,57(23):121-129.

[4] 王硕,周华琳.基于语义搜索引擎的数字图书馆服务优化研究[J].图书馆学研究,2012(14):41-45.

[5] 文坤梅,卢正鼎,孙小林,等.语义搜索研究综述[J].计算机科学,2008,35(5):1-4.

[6] Wei X,Zeng D D.Exna:an efficient search pattern for semantic search engines[J].Concurrency and Computation:Practice and Experience,28(15):4107-4124.

[7] Hu Y,Janowicz K,Prasad S,et al.Enabling Semantic Search and Knowledge Discovery for ArcGIS Online:A Linked-Data-Driven Approach[M].Agile 2015.Switzerlan:Springer,2015:107-124.

[8] Koutsomitropoulos D A,Solomou G D,Kalou A K.Herding linked data:semantic search and navigation among scholarly datasets[J].International Journal of Semantic Computing,2015,9(4):459-482.

[9] Shin S,Ko J,Eom S,et al.Keyword-based mobile semantic search using mobile ontology[J].Journal of Information Science,2015,41(2):178-196.

[10] Song M,Eom S,Shin S,et al.Enriching Mobile Semantic Search with Web Services[C].Semantic Computing (ICSC),2015 IEEE International Conference on Image Process.Quebec:IEEE,2015:452-455.

[11] Stanchev L.Semantic Search Using a Similarity Graph[C].Semantic Computing (ICSC),2015 IEEE International Conference on Image Process.Quebec:IEEE,2015:93-100.

[12] Stanchev L.Fine-tuning an algorithm for semantic search using a similarity graph[J].International Journal of Semantic Computing,2015,9(3):283-306.

[13] Tablan V,Bontcheva K,Roberts I,et al.Mímir:an open-source semantic search framework for interactive information seeking and discovery[J].Web Semantics:Science,Services and Agents on the World Wide Web,2015(30):52-68.

[14] Cohen T,Widdows D,Rindflesch T.Expansion-by-Analogy:A Vector Symbolic Approach to Semantic Search[C].International Symposium on Quantum Interaction.Filzbach:Springer,2015:54-66.

[15] Fatima A,Luca C,Hobbs M.Free-Text User Queries for Semantic Search[C].2015 IEEE 13th International Conference on Industrial Informatics (INDIN).Cambridge:IEEE,2015:838-843.

[16] El-gayar M M,Mekky N,Atwan A.Efficient proposed framework for semantic search engine using new semantic ranking algorithm[J].International Journal of Advanced Computer Science and Applications,2015,6(8):136-143.

[17] Berlanga R,Nebot V,Pérez M.Tailored semantic annotation for semantic search[J].Web Semantics:Science,Services and Agents on the World Wide Web,2015(30):69-81.

[18] 罾鲦,肖航.汉语深层语义理解与知识表示-面向语义搜索的语料库语境信息标注研究[J].语言文字应用,2015 (1):107-116.

[19] Davelaar E J.Semantic search in the remote associates test[J].Topics in Cognitive Science,2015,7(3):494-512.

[20] Hong K J,Kim H J.A Semantic Search Technique with Wikipedia-Based Text Representation Model[C].2016 International Conference on Big Data and Smart Computing (BigComp).Hong Kong:IEEE,2016:177-182.

[21] 陈国华,汤庸,许玉赢,等.基于词向量的学术语义搜索研究[J].华南师范大学学报(自然科学版),2016,48(3):53-58.

[22] Shabbir U,Kanwal T,Malik R,et parison between SSTC and LINGO Algorithms in Clustered Based Semantic Search for Browsing Scholarships[C].International Conference on Frontiers of Information Technology.Islamabad:IEEE Computer Society,2015:53-58.

[23] Elibedweihy K M,Wrigley S N,Clough P,et al.An overview of semantic search evaluation initiatives[J].Web Semantics Science Services & Agents on the World Wide Web,2015,30(C):82-105.

[24] Laura L,Me G.Searching the web for illegal content:the anatomy of a semantic search engine[J].Soft Computing,2015(534):1-8.

[25] Ma B,Zhang N,Liu G,et al.Semantic search for public opinions on urban affairs:a probabilistic topic modeling-based approach[J].Information Processing & Management,2015,forthcoming(3):430-445.

[26] Li W,Bhatia V,Cao K.Intelligent polar cyberinfrastructure:enabling semantic search in geospatial metadata catalogue to support polar data discovery[J].Earth Science Informatics,2015,8(1):111-123.

[27] Ma B,Zhang N,Liu G,et al.Semantic search for public opinions on urban affairs:a probabilistic topic modeling-based approach[J].Information Processing & Management,2016,52(3):430-445.

[28] 柯叶青,马志柔,伍海江,等.一种简历语义搜索系统的实现方法[J].计算机科学,2015,42(12):56-59.

[29] 盛东方,孙建军.基于语义搜索引擎的学科知识服务研究―以GoPubMed为例[J].图书情报知识,2015 (4):113-120.

[30] 刘炜,夏翠娟.书目数据新格式BIBFRAME及其应用[J].大学图书馆学报,2014,32(1):5-13.

[31] 夏翠娟.面向语义网的书目框架(BIBFRAME):功能需求及实现[J].大学图书馆学报,2014,32(6):61-69.

[32] 夏翠娟,刘炜,张磊,等.基于书目框架(BIBFRAME)的家谱本体设计[J].图书馆论坛,2014(11):5-19.

[33] 安晓丽.BIBFRAME图书馆工作的变革[J].图书馆建设,2015(10):40-42.

上一篇:优质护理应用于前列腺增生患者护理中的效果观... 下一篇:重症脑出血患者进行优质护理干预的临床效果分...