基于内容揭示的信息资源控制的演进

时间:2022-08-03 03:27:39

基于内容揭示的信息资源控制的演进

[摘要]信息资源的内容控制是通过信息内涵知识的揭示所进行的实质性控制,是信息资源控制的主体和核心。语义web技术在信息资源控制中的应用,使寻求高效化的信息资源控制理论成为可能。信息资源内涵的知识描述与揭示成为信息资源控制理论新的生长点。信息资源内容控制呈现知识单元化、集成化、多元化和智能化的发展趋势。

[关键词]知识描述 内容揭示 信息资源控制

[分类号]G203

信息资源控制是将无序的信息资源规范化和有序化的过程,旨在提供可控性的高效信息服务。网络环境下,不断增长的海量文献信息与人们特定知识需求之间的矛盾日益尖锐。同时,现代计算机技术、通信技术和远程数据处理技术的发展,为文献内涵信息的全面提取、组织、加工和利用提供技术支撑。信息资源控制的内容与方法基于环境的变化而不断深化发展。

1 传统信息资源控制的不足

控制的基本含义不仅仅局限于信息资源客体本身,还包括以信息资源为中心的各种控制,其主要内容有:①信息资源客体控制(简称信息资源控制);②信息资源过程控制;③信息系统与工作控制;④信息用户及其活动控制。其中,对信息资源客体控制是基本的…。在其他信息资源控制中,人们亦采用了类似于文献信息资源控制的方法。如对信息过程、信息系统和信息用户等方面的控制,基本也是以书目控制为核心。

传统的文献控制方式可归纳为外部描述控制和内容特征控制两类。“外部描述控制”通过文献外表特征的揭示将文献信息有序化,以达到控制文献的目的,其中描述内容包括作者、时间、类型、来源等。理论研究和实际工作的结果表明,这种描述控制是完全可以实现的。“文献内容控制”远比“外部描述控制”复杂,这是一种通过文献内涵知识信息的揭示所进行的实质性控制,是文献控制的主体和核心。鉴于知识结构和演化过程的复杂性,其基本问题作为传统目录学、文献学和现代知识信息处理理论的中心,是学术界和实际工作部门长期探讨的主要课题。

随着社会信息化发展,社会对信息资源控制质量提出越来越高的要求,信息资源内容控制作为信息资源控制的核心环节,其传统方式正受到来自各方面的挑战。传统分类法和主题法中知识揭示方式的局限性日益凸显,表现在:①难以适应科学技术“微分化”和“积分化”的趋势;②难以适应对信息内涵的全面揭示;③难以适应以知识单元为基础的计算机智能组织系统的信息控制;④难以适应知识形成和演化过程的控制。事实上,信息资源内容控制的工作重心已逐渐转移到高价值的活动,特别是通过对目前未能得到充分利用的信息资源内涵知识的揭示,使之为更多用户获取,为信息资源提供更高的价值。

以上情况表明,研究新的信息资源内容控制方式已成为关系信息资源工作全局的关键课题之一。同时,网络技术的发展和新的信息处理技术的出现,使寻求高效化的信息资源控制理论成为可能。其中,信息资源内涵的知识描述与揭示成为信息资源控制理论新的生长点。

2 信息资源控制中知识描述与揭示的发展

随着互联网技术的发展,语义互联网(semanticweb)正逐渐将Internet变成一个巨大的全球化知识库。语义互联网环境下,信息资源的内容控制可概括为两点:①对语词的规范化处理;②显示概念之间的关系。这两点可通过知识描述与揭示方法来实现。在语义网环境下,知识描述与揭示的方法主要有可扩展标记语言(XML)、资源描述模型(RDF/RDF Schema)、主题图(XTM)和知识本体(Ontology)等。这些适合语义Web技术的知识描述和揭示方法提供了信息内容表示的标准化框架,通过标准的语义规范使计算机自动读取和处理信息资源,为基于Web服务的智能共享提供基础。

知识描述与揭示方法决定了信息资源内容控制的精度和深度,只有根据求解问题的性质和方法灵活地选用合适的知识描述表示方法,才能使信息资源内容控制取得较高的效率。表1展示了XML、RDF、XTM、Ontology的技术根源、数据模型、处理信息方式及其应用的主要区别。事实上,XML、RDF、XTM、Ontology在信息资源的描述与揭示体系中处于不同的层次,对信息资源内容控制发挥不同的作用。

与分类法、主题法等传统知识描述与揭示方法相比,XML、RDF、XTM、本体等知识描述与揭示方法的根本区别在于系统中的概念、特性、限制条件等内容都是计算机可读(懂)的。同时,在这些知识描述与揭示方法中,概念之间关系的表达要比主题法、分类法更广更深,这是由于基于语义网的知识描述与揭示主要是为机器增加“智能”进而实现自动处理信息、知识分享和再利用而建立,所以在数据模型和表述语言方面,它的结构与数据库很接近,通过简单的处理即可以将整个系统转成数据库而直接实施到信息系统的开发和建设中,为知识采集、知识库建立提供框架平台,这是传统图书馆主题法、分类法所不能及的。

3 基于内容揭示的信息资源控制的深化

由于传统的书目控制理论运用于信息资源内容控制存在着局限性,随着知识描述与揭示技术的发展,信息资源控制的技术、主体、方法都发生了变化,主要体现在以下方面:

3.1控制内容的知识单元化发展

文献信息资源记录的知识内涵丰富,从应用角度和知识产生角度看,它并非如布鲁克斯所描述的静态结构,而是具有动态结构的特征。从知识的性质上看,文献单元是相对静止的,而知识单元是衍变的,一篇文献不仅包含许多知识单元,体现知识单元之间的各种有机联系,而且反映文献作者对各种知识的处理、加工、思维和推理过程,反映了知识的演化。文献信息资源所含的这些动态性信息,对于使用者来说比静态知识结构信息(如结果)更重要。事实上,在现代科学技术条件下,用户利用文献往往不是为了查询单一的、固定的知识概念,而是为了借鉴文献并未明确表达的作者思维和创造活动的方法,从中得到启示,激发灵感。对于这种知识过程的揭示,任何静态控制方式都显得无能为力,其问题的解决必然求助于新的模式。

迅速普及的网络技术和数字技术使任意层次的任意信息元素、信息单元和信息集合体系正在逐步以计算机可识别和可理解的方式被定义、描述、指向、链接、传递和动态组织。信息资源内容揭示的对象不仅停留在对信息特征的描述,而且深入到知识单元,信息资源内容揭示的深度和广度得到极大拓展,通过多层次、多方位的描述与揭示控制信息资源,促进信息资源的合理利用。可见,当前信息资源内容控制的对象已从文献整体控制向知识单元及其知识组织控制方面延拓,因知识产生、老化和利用周期缩短,知识信息控制已成为信息资源内容控制的重点。同时,语义Web技术的出现及其在信息资源知识组织与控制中的应用,带来了知识揭示与组织工具的变革并重构了知识组织控制

体系,知识组织控制从物理层次上的文献单元上升到认知层次的知识单元,从单纯的语法处理(主题法、分类法)转变为语义处理(如本体等语义网络表示法),从语义处理到“模拟个体知识记忆结构”的考虑语境的语用处理方式;基于内容揭示的资源控制必将实现“语法-语义-语用”的新跨越发展。

3.2控制方法的集成化发展

在信息资源内容控制中,分类法和主题法(包括由此派生的关键词法、叙词法和元词法等)是文献信息资源控制通用的基本方法,其要点是按一定的知识处理法则将文献有序化。分类法在揭示文献所含知识方面,虽然具有较强的系统性,但缺乏应有的灵活性和揭示深度;主题法从某种程度上弥补了分类法的缺陷,却缺乏系统性。当前,科学技术高度发展,其知识领域愈分愈细,愈来愈专。与此同时,任何一个狭窄的专门领域又必然涉及多方面的知识门类。这一现实在文献中的体现便是文献内容(知识)的高度专门化与高度综合化趋势的并存。科学技术和其他知识领域学科发展中的“微分化”与“积分化”效应是人类知识高速增长、迅速分化和组合的结果。面对人类知识生产的变化,无论是分类法还是主题法,分别用于控制信息资源的效果必然会愈来愈差。

传统书目控制的局限性表明,在信息资源内容控制中必须借助多种方法和手段的集成运用,必须求助于普遍适用的控制理论。信息资源的充分开发和利用和人类信息实践的极大丰富,为信息资源内容控制理论和方法的发展和完善奠定了实践基础,现代信息技术和通信技术的发展,以及建立在语义网络技术基础上的知识描述与揭示方法的完善,为信息资源的内容控制提供了必要的物质和技术条件。

在以本体为核心的语义Web技术的驱动下,信息资源内容控制方法不再仅仅局限于传统的分类法、叙词表、编目规则等,而是出现了能够更好适应数字环境的新型知识组织工具:概念地图、语义网络、实用分类法等。语义web技术在信息资源内容控制中的应用,为资源控制提供了新的思维方式和新的理念,基于信息内容揭示的资源控制方法随着信息资源揭示与组织技术的发展而不断深化拓展,网络环境下信息资源的内容控制必然是多种方法的结合使用。

3.3控制主体的多样化发展

在信息资源的内容控制中,无论是传统的分类法、主题法(关键词法、单元词法还是叙词法等),还是用于数字资源描述与揭示的元数据,大多是由专业人员制定和标引。网络环境下,数字化存贮、网络途径获取已成为人们利用信息资源的主流方式,信息资源内容控制的主体也随之扩展到专业不同、层次各异的各种终端用户。基于信息内容揭示的资源控制逐渐呈现出开放性、共享性、交互性的特点,体现专业化与社会化控制并存的发展趋势。

以下我们通过元数据和大众分类法的对比分析说明信息资源内容控制的多样化发展。大众分类法(Folksonomy)是一种由用户参与和主导的信息资源组织控制方式,作为构筑下一代互联网(Web 2.0)的核心要素,大众分类法由用户自发的用标签(Tag)对感兴趣的资料进行分类,并与他人共享标签的过程和结果。它扬弃了以往信息资源控制事先确定大纲的方式,由用户自由选择关键词甚至颜色来分类和描述信息内容。

作为网络环境下数字化信息资源内容控制方式,如果说元数据是“关于数据的数据(Data about Da―ta)”,那么大众分类法就是“关于数据的标签(Tag a―bout Data)”。两者的出发点都是组织信息以便利用户的使用,但前者是通过专业人士以标准化方式推行,后者则更多依赖大众的参与和“重量级应用”。图1展示了基于元数据的标准化控制和基于用户标签的自由化控制模式。

“元数据”通常采用结构化、规范化或标准化的方式对“数字资源”进行标识,由专业机构专业人员制定。当前,由于元数据种类繁多,相互之间缺乏有效的互操作机制,从而影响了元数据控制信息资源的效率;“Tag标签”由用户根据个人需要在提交汇聚数字资源过程中,对数字资源加上个性化的标识说明,“Tag标签”在应用过程中不断生成优化,而非采用预设的结构模式。事实上,在元数据标准化控制模式和用户标签控制模式中,“用户”应用的社会互联效应不同。在“用户Tag标签模式”中,用户不仅是信息资源的使用者,同时也是信息内容的建设汇聚者,在应用与建设“数字资源”与“Tag标签”的过程中,用户之间能够不断建立社会联系。基于用户标签自由控制模式,我们完全认可信息资源的内容控制系统将成为一个合作的、分布式的、国际化的、基于网络的生态系统。

目前,无论是元数据还是基于Tag的大众分类法,还没有从全局或者根本上解决信息资源组织控制问题,从某种程度上讲,大众分类法提供了新的视角来看待如何控制信息资源以及用户的参与对信息资源控制的影响。总体而言,信息资源的控制总是处于有序和无序、标准和自由之间并保持某种动态均衡。

3.4控制技术的智能化发展

目前,信息资源内容揭示主要以文献单元为基础和以数据(各种事实、概念、数值的总和等)单元为基础,大多是静态的、列举式的。未来信息资源内容控制将以专家系统为基础,具有动态联系、判断、分析、比较、推理等新型的知识处理与组织功能。

解决信息资源智能化揭示与控制的主要困难,首先是信息按思维程序要求的有效排列和多方面处理之间的矛盾;其次是输入文献知识单元的处理和判断,以及人工智能的智能化水平的提高。当代人工智能技术的发展为信息资源的动态结构揭示和智能化控制提供了可能。

当前不断发展的专家系统被称为体外大脑,其中的知识库相当于人脑的知识存储结构,是接受新知识的必要条件,其推理机构类似于人脑的特殊思维活动机制。专家系统对输入知识的处理和判断可以类比人对知识的处理过程。基于这一事实,如果向系统输入文献中的静态知识单元,并提出显示知识组织和推理的要求,则系统可以显示文献作者的推理和思维信息,而这正是所需求的动态知识信息。智能系统将知识揭示与文献控制融为一体,除提供动态知识外,还可以在更广的范围内进行知识组织与处理,将反映相关知识的信息资源进行有机结合,从而取得浓度很高的高层次知识信息。应该说,这是信息资源控制工作的一场变革。当前,这一研究尚处于初级状态,在某些方面仅仅存在某些学者和用户的设想。

人工智能技术促进了信息内容的挖掘与深层次揭示,以更好满足不同用户的各种需求,提供个性化的信息服务。从信息中采掘知识,再将知识转变为社会财富,体现信息资源内容控制深化发展的方向,目的是向人们提供便于利用的、可以帮助解决问题的序化知识,实现从信息层次向知识层次的根本转变。

上一篇:信息权利救济:信息权利实现的程序化保障 下一篇:国外基于大众标注系统的标签研究