知识组织最新研究与实践进展

时间:2022-09-28 02:05:44

知识组织最新研究与实践进展

[摘要]选取知识组织领域的几个前沿问题,反映其在理论研究和实践应用方面的最新进展。首先,书目记录功能需求(FRBR)深刻影响着AACR2和ISBD的发展,并促进了全球智力资源的共享;本体作为一种工具广泛应用于知识组织乃至信息检索领域,使用本体改造受控词表成为热点问题之一;受控语言与自然语言的融合,网络环境下传统知识组织工具的改造与应用亦为这一领域研究的前沿和重点;随着草根理论的兴起,大众分类法也逐渐进入研究者的视野,在促进用户信息交流和知识共享中起着重要的作用。

[关键词]书目记录功能需求 本体 网络分类法 术语 自由分类法

[分类号]G352

知识组织是情报学的重要前沿领域之一,所覆盖的范围十分广阔,本文仅选取近5―10年来发展迅速的几个分支进行评述。同时,这一领域体现出明显的理论和实践相互影响促进的特征。理论方面,书目记录功能需求和本体是这一时期研究的重点;实践方面,对网络知识组织工具,尤其是自Web2.0诞生以来,对自由分类法的研究成为领域的前沿和热点。此外,作为理论和实践连接的桥梁,自然语言与受控语言融合的研究一直为研究者所关注。本文选取上述方面,以从“精英”到“草根”为逻辑线索,对这一领域进行评述。

1 关于“书目记录功能需求”的研究

“书目记录功能需求”(FRBR)是IFLA在20世纪末推出的一个概念框架,旨在提供一个明确定义的、将书目记录中的数据与用户需求关联起来的结构化框架。它向国家书目机构推荐书目记录所应具有的基本功能。FRBR提出10年来,对图书情报界的影响日益增大,其概念结点和关系的定义对知识组织系统的完善有十分重要的作用,导致AACR2和ISBD也根据FRBR的概念框架进行了修订。这是IFLA长期致力于改善书目工作,促进全球编目统一化的必然结果,将有助于全球知识的无障碍共享。

目前,对FRBR的研究主要侧重在以下三个方面:①FRBR的适用性研究。FRBR是一个概念框架,其适用性仍然有待时间来检验。国内对FRBR的适用性研究逐渐增多,为其应用奠定了一定的基础。②FR-BR对编目工作的影响研究。Mimno等人研究了FRBR在书目记录中的实现问题,认为基于FRBR的等级目录结构在数字图书馆中具有很大的优势,但同时也可能增加检索的复杂程度。他们还认为,标识符在这样的(等级)目录中起到了非常重要的作用。③文献编目的发展研究。FRBR的出现引发人们思考一个问题:编目工作将向何处去?对AACR2的修订和对RDA的研究能说明一些问题。RDA的目的是支持FRBR用户任务,提供FRBR用户任务无法提供的服务,帮助用户恰当地发现和使用资源。

我们发现,FRBR所影响的不仅仅是编目工作本身,而且,通过书目关系的深刻揭示和书目控制的进一步强化,可以促进全球知识资源的共享。其具体理由是:①FRBR对书目关系的揭示。由于FRBR采用ER模型而非全部依赖描述性分析,FRBR中的实体通过等级结构和关系构成概念网络,实体成为概念网络中的结点,具有自身的属性,实体之间通过关系构成网络的边。这样,就使得它对书目关系的揭示更为深刻,就有可能为用户提供更为准确、全面的检索结果。②FRBR对书目控制的强化。在FRBR中,作品与底层的资源实体相分离,强化了对智力(或艺术)作品的描述,使书目记录与规范文档的联系更加密切,使图书馆和其他的信息资源生产者、持有者能更好地管理和利用隐藏在知识海洋中的智力资产,能更好地反映书目资源、文献资源和智力资源的配置状况,并促进信息资源共享。

2 关于本体与传统知识组织工具改造的研究

2.1本体最新研究进展

本体(论)是一个古老而又年轻的研究领域。从古希腊时代开始,各个时期的哲学家对这一哲学命题都有较多的讨论。到近现代,认识论渐渐取代本体论在哲学中的主导地位。随着计算机科学技术和网络技术的发展,本体开始受到科技界的重视。20世纪90年代以来,计算机科学、信息科学和情报学对本体(论)均进行不少的研究及应用探索。不同的是,这一次本体脱去了形而上学的神秘面纱,以一种器具的形式为研究者所接受。其中,情报学界对本体的研究侧重于以下三个方面:①领域本体的构造。在数字图书馆领域,人们研究了如何构建面向数字资源组织的领域本体,用来取代传统的知识组织工具和提供检索服务。对于大规模本体的研究开发工作,贡献更多的则是知识工程领域的专家,以Noy和Gruber的研究为代表。②传统知识组织工具的改造研究(见本文2.2小节)。③本体在信息检索中的应用研究。笔者在本刊2008年第3期的一篇文章中讨论了本体在情报检索中的主要应用,包括自然语言语义和跨语言信息检索等。此外,一些研究人员还探索了本体在网络搜索和专门领域信息检索中的应用,取得了一定的效果。

2.2传统知识组织工具的改造

随着本体的研究越来越热,情报学界对传统知识组织工具的本体化改造这一课题也越来越感兴趣。这方面的研究者看重的是本体所蕴含的丰富的语义关系和强大的推理功能。与本体相比,传统的知识组织系统的语义关系显然不够丰富,推理功能亦受到语义关系丰富度的限制而难以实现。在实践探索中,传统知识组织工具的本体化改造主要有三种模式:①使用本体对传统知识组织工具进行表示。曾新红使用OWL语言对《中国分类主题词表》进行本体化改造的研究侧重于语义表示层。她详细地阐述了在改造过程中如何建立概念模式、定义类和属性,以及深层语义的表示问题。②使用实例数据丰富现有的知识组织工具。王军研究了如何利用题名和文摘中的主题信息和词汇去丰富原有的知识组织系统(分类法和主题法)的技术。他通过挖掘以题名和文摘形式出现的文献替代品中的词汇共现信息及其它特征来丰富知识组织系统的关系。③在已有知识组织工具的基础上丰富其语义关系和结构,进而建立本体。这方面的研究和实践以UMLS为代表,这是一个宏大的系统工程。

目前,传统知识组织工具的本体化改造已经取得了一批重要成果,但尚未确立相应的规范和标准,使得已有的理论和实践成果难以推广应用和取得更好的应用效果。为此,应防止为了改造而改造的倾向。传统的知识组织系统(分类法和主题法)在图书馆和信息机构中已经并将继续起到非常重要的作用,其适应性亦经受了长期的检验。只有在合适的环境和需求下,如数字图书馆和网络环境以及对智能检索的需求,它的改造才更有意义。

3 关于受控语言与自然语言融合的研究

随着网络的兴起和网络搜索引擎应用的普及,编制适用于网络信息资源管理的检索工具和主题词表或分类表,成为研究热点。张琪玉先生提出应积极为自然语言与情报检索语言的结合创造条件,建议大量编制自然语言词表。焦玉英和李法运尝试通过使受

控语言兼容化、组配化、标准化和系列化的方法优化受控语言,同时对自然语言施以控制的方法优化自然语言。张俊则通过结合关键词和主题词的方法讨论信息检索系统结构(尤其是词表结构)的优化。鉴于为浩繁的网络信息资源编制一个庞大的受控词表成本过高,并非十分现实,所以,张琪玉先生主张:“自然语言自由标引模式是三种语言(类名、主题词和关键词,笔者注)一体化系统的较好选择”。这些理论研究和尝试为推进两者融合起到了一定作用。

人们普遍认为,自然语言中的术语专指性高,有助于表达独特的检索需求和提高查准率。同时,网络用户在进行网络搜索时倾向于使用术语进行搜索。对术语的研究可以成为自然语言与受控语言融合的突破口。术语的特征是规模较为稳定,增长和更新速度较之日常生活用词汇要慢许多。有研究表明,在网络环境下使用术语做提问词改善查准率是可行的。谷歌也使用术语来优化检索和缩小检索结果的范围,提高查准率。

但术语仅为语义检索提供词汇基础。要真正实现语义检索,仅依靠术语是不够的,还需要有功能更强大的逻辑工具。本体及其他类似的逻辑工具的引入,不仅在传统的知识组织工具的改造方面,而且在支持自然语言检索和促进受控语言与自然语言融合方面都有可能起到重要的作用。另外,还要看到,解决自然语言与受控语言融合问题,还需要深入研究逻辑学和语言学,借鉴和引进这两个学科的研究方法和成果,深入分析受控语言的词汇、句法结构和语义结构。从更基础和宏观的视角考察自然语言、受控语言和用户的查询语言在信息检索系统中所起的作用。

4 网络环境下知识组织研究

4.1网络分类法

《中国图书馆分类法》、DDC和LCC等通常都是以一定的哲学思想为指导,以知识或学科门类的划分为基础,逐级展开的分类体系。这些分类法在图书情报界传统的信息管理中,其优势无庸置疑。然而,面对互联网,其局限性就很明显了。主要是因为信息资源特征不同,网络信息资源的异质性要远高于图书馆馆藏资源,网络信息资源动态性强,使传统分类法的适用性受到了很大挑战。

尽管存在上述问题,人们仍在不懈地探索分类法在网络中的应用可能性的解决方案。其中,较为有效的方案有三类:第一类是使用DDC编制的网络信息导航网关,以BUBL LINK和CyberDewey为代表;第二类是提供较为成熟的分类导航(指南)网站,以ODP为代表;第三类是门户网站为组织其信息资源并为用户提供服务而设置的导航结构。

4.2网络术语与知识检索工具

网络分类法在互联网中所起的作用与传统的分类法在图书情报机构中起作用有所不同,它的主要功能是分类导航。而传统的主题法与网络中的术语工具的作用则大不相同,这类术语工具提供的是知识和常识内容。对于这一新兴的词汇控制工具的研究主要集中在两个方面:一是对其中所包含信息交流和协作机制以及它的权威性和对其它信息服务的借鉴意义的研究;二是对其涉及信息和信息检索服务的质量问题进行深入的研究。随着用户对知识性、常识性信息的需求增加,这种网络术语工具正成为一种新兴的知识检索工具,其代表,在国外,有维基百科;在国内,有百度百科、百度知道、新浪爱问和雅虎知识堂。这类术语系统的编辑以网络用户贡献为主要方式,其内容的正确性和更新的及时性已经部分得到了公认。这类工具的兴起,预示着网络信息检索服务的发展方向:自动化的信息处理与网络用户的协作共同为网络资源的丰富、质量的提高和服务的改善贡献力量。

5 Web2.0与自由分类法

随着Web2.0的出现和应用,标签技术、网络书签、博客等成为互联网中的热门应用或服务。因为受控词表复杂而且成本高,本体“可操作性欠佳”,2004年8月由信息构建专家Vander Wal提出的自由分类法(Folksonomy),因其体现了“有胜于无”的理念而得以广泛应用。

5.1自由分类法及相关问题

自由分类法是“个人用户为了其检索的需要,对信息或对象自由添加标签的结果”,用户添加标签的行为是“在一个社会化的环境中进行,即这个环境是开放和共享的”。根据自由分类法的不同应用,可以分为“宽自由分类法”和“窄自由分类法”两种类型。自由分类法可以看作“本体论的新学派”,因为自由分类法可以被看作是一种“社会化的本体”,本体的构建不需要再依赖专家,而可以从丰富的用户数据中提取。同时,自由分类法的表现形式――标签,则是由用户产生的元数据,区别于以往由专家或网站作者产生的元数据,它能够直接、迅速反映用户的词汇和需求及其变化。

但是,研究发现,由于取消了严格的词汇控制和等级结构,自由分类法存在语义模糊、检索的准确率和查全率低、多语种支持不足以及标签滥用、信息垃圾等问题。还有学者提出“知识树”的概念来描述分类法的不同类型和发展阶段,并将标签和自由分类法比喻为从树上飘落的“知识树叶”。

5.2自由分类法的运行机制及实例研究

自由分类法是用户基于个人信息管理的目的,使用自己的词汇对信息进行标注,以便再次查找和使用。除了准确定位个人信息,相同的标签能够聚合整个信息空间中的所有相似内容,实现资源的共享,标签的浏览使用户获得意外的发现。用户在资源的共享过程中能够找到与自身拥有相同兴趣的人群,得到关于标签使用的反馈,从而影响其未来的行为。自由分类法的形成和发展具有明显的社会化的性质。

网络书签是自由分类法的最早应用。目前较为成熟的案例主要是对Del.icio.us或Flickr等的研究。国外的许多学者从上述书签网站中抽取一定量的样本,通过统计和个案分析,研究标签词汇的语言特征、标签使用中存在的规律、特定系统中用户、资源或标签的特点及相互关系,以及用户行为模式等内容。国内学者梁桂英认为“开放式标签系统”的工作程序是“若干个用户使用若干个标签,从而逐步形成自由分类法”的过程;周荣庭较为深入地分析了自由分类法有效运行背后的主要机制,将其归纳为两个步骤:“开放性元数据”和“自然语言社群聚类”。

5.3自由分类法的优化及发展前景

为改善自由分类法的应用效果,学者们提出了自由分类法与分类法或词表结合、增加同义词控制、对检索结果进行排序整理等构想。同时,学界提出针对自由分类法信息组织体系的检索和排序算法,并通过对检索结果的结构化整理发现特定的社会群体。为了弥补自由分类法平面化结构、缺乏词间关系揭示的不足,又提出了语义关系的挖掘方法,包括在自由分类法中发现等级式主题关系的方法、通过自由分类法中词汇的共现关系发现某种等级结构的方法、自动标签聚类法等等。

目前自由分类法的应用前景主要有以下几个方面:①是对元数据的有力改造和增值;②在有共同知识背景的企业层面上支持知识共享;③基于窄自由分类法构建学科门户;④利用自由分类法构建本体。

6 结语

知识组织是情报学中最为深厚、实践性又十分强的一个前沿分支。短短的一篇综述也实难反应这一领域研究的全貌。尽管受到网络环境海量信息资源带来的极大挑战,知识组织这一前沿在互联网、各类组织机构、图书馆和各类信息中心的业务中仍然发挥着核心作用。对知识组织的研究也在不断丰富、发展和完善之中。

上一篇:新世纪信息计量学研究进展评述 下一篇:人类信息行为研究的几个主要问题