论知识链接的建立规则

时间:2022-08-17 06:23:38

论知识链接的建立规则

摘要 把信息单元视为文献单元和知识元之间的桥梁和纽带,以文献单元间的参考文献链接和知识元名(或与知识元相关的文字)到知识元的知识元链接为研究对象,重点分析这两种链接的建立过程、建立规则以及技术难点。认为从理论上研究知识链接的建立规则对知识链接系统和知识服务系统的开发大有裨益。

关键词 知识链接 参考文献链接 知识元链接 链接规则

分类号 G356

所谓链接是指某一个对象A链接到另一个对象B。对象A和B之间的链接意味着它们之间存在着某种关系或关联。为便于表述,本文把提供链接的对象称为链接源,将被链接的对象称为链接对象。链接的建立需要链接系统的支持。所谓链接系统,就是一种根据某种规则自动地在链接源和链接对象之间建立正确链接的程序或应用软件。链接的建立有助于用户理解链接源或者引导用户阅读与链接源相关的内容。本文所要讨论的就是链接系统在建立链接时所依赖或依据的关联规则。从理论上讲,研究链接的建立规则和相关标准可以促进知识链接系统和知识服务系统的深入研究,为开发知识服务系统、制定开放的支持知识链接的电子文献(文档)标准及其阅读软件提供建设性思路。

1知识单元的演变与知识链接

知识单元的发展经历了从文献知识单元(以下简称为文献单元)到信息知识单元(以下简称为信息单元)继而到知识单元(知识的内容单元,以下简称为知识元)的演变过程。文献单元指以知识的载体――文献作为知识管理的基本处理单元;信息单元是指以文献知识的某些属性特征(包括文献的外形特征信息和内容特征信息)作为知识管理的基本单元;知识元是指在知识管理中用来处理知识的最小的、不可分隔的、独立的基本单元,是指文献中相对独立的、表征知识点的一个元素,它可以是一段文字、一幅图表、一个公式、一章或一节、一段动画、一个程序等,也往往直接指知识产品(图书、论文、专利等)中的概念、论点(观点)、论据(数据、资料)、论证(方法、模型)、结论等知识核心和知识创新点。知识单元之间并不是独立的,而是存在各种复杂的关系,基于这些关系可以在不同的知识单元之间建立链接。

1,1文献单元

文献单元之问的关系主要是指文献单元之间的引用和被引用的关系。用户点击文献后参考文献链接就可以获取该参考文献对应的全文、文摘等。这种链接是最常见的也是使用最多的知识链接,更多的时候被称为参考文献链接。链接源是来源文献,链接对象是该参考文献对应的全文或文摘或相关服务。参考文献链接既可以让用户快速而直接地获取文献,同时也可以让用户去了解某个研究主题的来龙去脉,深受文献信息服务系统和用户的青睐。

1,2信息单元

信息单元之间一般不会出现类似于来源文献与参考文献那样的关系,即用一个信息单元去解释或参考另外一个信息单元。描述文献的信息单元,如关键词、主题词等,很可能就是一个知识元的名称或者与某知识元有着密切关系。基于这种关系,建立从信息单元到到知识元的单向链接可以引导用户去阅读知识元,对用户理解信息单元,从而更好理解文献单元是很有用处的。这样,信息单元就充当着文献单元和知识单元之间的桥梁和纽带。

1,3知识元

知识元之间也有可能出现类似于来源文献与参考文献那样的关系,即一个知识元需要引用另外一个或多个知识元。单纯地在知识元之间建立链接可以形成一个封闭的超文本系统,用户可以通过该系统实现非线性阅读。在开放的互联网环境下,如果能够在全文文献中建立知识元名(或与某知识元相关的文字)到知识元的开放性链接,就可以把全文文献与知识元数据库连接起来,从而有效地扩大用户的知识面或知识结构,帮助用户更好地理解文献单元。

信息单元到知识元的链接与全文文献中的知识元名(或与知识元相关的文字)到知识元的链接,链接对象都是知识元,但链接源不同,设置链接的位置也不同。但设置链接的位置(以下称为链接锚,即Anchor)都可以视为字符串(可以是信息单元、知识元名或与知识元相关的文字)到知识元的链接。本文把这两种链接统称为知识元链接。一些文献中提到的知识链接更多地是指参考文献链接。参考文献链接和知识元链接都是知识链接的一种。无论是参考文献链接还是本文所指的知识元链接,链接系统都必须解决一个最根本的问题:在链接源和链接对象之间建立链接的规则或标准是什么?以下分别阐述参考文献链接和知识元链接的建立规则。

2参考文献链接的建立规则

参考文献链接泛指文摘索引与所标引文献、文后参考文献与被引用文献间的链接,目前更多的是学术论文之间的链接或者学术论文到图书的链接。在数字学习环境中,用户可以通过参考文献链接直接从文摘索引、文后参考文献链接到相应的电子版全文。如果没有相应的电子版本,链接系统可以引导用户链接到图书馆书目目录服务、文献传递机构的目录数据或可以提供该文献的相关服务系统。无论是文摘索引还是文后参考文献,都有相应的元数据,即前面提到的信息单元。借用这些元数据信息,链接系统可以唯一确定一个目标文献单元。例如第一作者、刊名、出版年、出版期、起始页的组合就可以唯一确定某篇期刊论文,第一作者、书名、出版社、出版年就可以唯一确定一本图书。这样,链接系统在建立链接时需要判断一个文摘索引记录或一条参考文献(通过元数据来表示的)与另外一本篇图书或一篇期刊论文是不是相同文献。这个判断标准就是参考文献链接的建立规则。

以期刊论文为例,从理论上讲,通过参考文献的元数据和全文文献的元数据的比对判断它们是不是同一篇文献的标准很多。例如“第一作者+刊名+年份+期数+起始页码”就可以判断是否同一篇文献,并且不会出现错误链接,即“误配”。但这个标准太严格了,尽管不会出现“误配”,链接系统会出现“失配”现象:参考文献和全文文献指的是相同文献,原本是可以建立链接的,但链接系统却判断它们不是相同文献。出现‘失配’现象的原因有很多,如论文作者在著录参考文献时或者是文献数据库加工过程中,参考文献的题目、起始页码经常出现小错误。如果换一种较宽松的标准,例如“第一作者+刊名+年份+期数”,不包含页码,链接系统会把原本不相同的文献判断为相同文献从而建立参考文献链接。尽管不会出现“失配”,却可能出现“误配”。例如,第一作者可能在同一本期刊(相同年份、相同期数)上发表两篇论文,而这两篇论文被误判为同一篇文献。原则上讲,编辑部一般不会安排作者以第一作者的身份在同一期杂志上发表两篇文章,但实际上这样的情况并不少。

对于链接系统而言,选择恰当的链接建立规则是非常关键的。数据质量的高低直接影响链接规则。如果数据质量高,条件可以严格些。在信息爆炸的时代,原则上允许出现“失配”,但不应该出现“误配”,以免浪费用户的时间。中国知网(CNKI)链接系统在处

理外文文献时,是把刊名、题名、第一作者、卷数和期数的组合作为判断条件的。尽管文献题名也会出现一些错误(因为不是规范字段),但如果在字符串匹配时引入容错机制,如英文单词的拼写错误,就能在保证链接正确性的前提下,极大地减少出现“失配”的概率。

参考文献链接建立主要依赖于元数据匹配。无论是基于DOI的CrossRef还是基于OpenURL的SFX,都有这样的处理过程。CrossRef的工作原理是:提取参考文献的元数据,然后在CrossRef中心元数据库(存有数字文献的DOI标识和元数据)进行查找匹配;如果匹配成功(找到),就在参考文献链接的URL地址中置人DOI唯一标识符,以引导用户看该参考文献对应的电子版全文。SFX是从包含有参考文献元数据的OpenURL提取元数据,然后把元数据发送到SFX服务组件(Service Component),根据用户所在图书馆实际情况由SFX服务组件生成恰当链接(Appropriate link),生成恰当链接的过程中同样有元数据匹配。至于这些系统具体的匹配算法,由于商业原因,还无法得知。

3知识元链接的建立规则

知识元链接包括两类:一类是从信息单元到知识元的链接;另一类是知识元名(或与知识元相关的文字)到知识元的链接。

3,1信息单元到知识元的链接

不同类型的信息单元所能够链接的对象是不一样的。以期刊论文为例,有必要建立链接的信息单元有著者、主题词、关键词等,而出版年份、出版期数、摘要等是没有必要建立链接的。这里所说的链接不是把信息单元作为检索词的链接,而是链接到知识元的链接,如著者简介、主题词、关键词解释及相关知识等。

3,2知识元名到知识元的链接

与第一类不同的是确定链接锚的方法不同。第一类的链接锚是确定的,即已经存在的信息单元,而第二类则是链接系统在全文文献中自行寻找合适的文字来设置链接锚。如何在全文文献中寻找那些待建立链接的知识元名(或与之相关的文字)呢?方法不外乎以下两种:①对全文文献进行切分词,去除停用词(stopwords),把剩下的词都作为待建立链接的链接锚;②依次取出知识元数据库中的知识元名(或相关的名字),在全文文献中查找,找到的文字视为待建立链接的链接锚。这两种方法各有优缺点,可以根据具体情况酌情采用。同一个词在不同的专业领域其含义是不一样的,如ALA既可以指美国图书馆协会(American Librar-y Association),还可以指美国后勤协会(American Lo-gisties Association);不同的词可能表达相同的含义,如“Integrated Library System”与“Library Management Sys-tern”、“电子政务”和“电子政府”等。如果只是简单地字符串匹配,链接对象与链接锚之间可能出现大量的“失配”或“误配”现象,严重影响用户的使用积极性。以凤凰网财经频道为例,如果新闻网页中出现“物价”一词,其链接引导用户去看“居民消费价格总指数”,那么该链接系统就不是简单地字符串匹配了,而是有一个专业本体库(Ontology)或专业叙词表支撑着的知识检索系统,在“物价”和“居民消费价格总指数”之间建立了链接。为了避免“失配”或“误配”,凤凰网没有在综合性新闻频道上设置知识元链接。

一旦确立待建立链接的链接锚,剩下的问题就是找到正确的链接对象,也就是在知识元数据库中寻找与链接锚相关的知识元。知识元链接的建立规则就是判断是否匹配的算法或规则。为实现这个算法或规则,链接系统除维护不同领域的知识元库外,还得维护相应领域的本体库。给出一个待建立链接的词,链接系统可以通过本体以及推理来确定属于哪个专业领域的,从而建立正确的链接。从理论上讲,如果知道某全文文献所属的专业领域,链接系统就不用再去判断该全文文献的专业领域,有效地降低技术复杂度。所以凤凰网是分频道来设置知识元链接的,如财经频道和汽车频道,这相当于预先知道了全文文献的专业领域。如果不知道全文文献的专业领域,链接系统就必须依赖计算机系统来判断所属专业领域,然后在相应专业领域的知识元数据库中寻找正确的链接对象,或者是直接在综合性的知识元库中寻找正确的链接对象。这样,出现“错配”或“误配”的概率就大很多。

4参考文献链接和知识元链接的几个范例

4,1参考文献链接实例分析

很多大型文献服务系统都提供参考文献链接,如CNKI、万方数据网络服务系统、基于DOI的Cross-Ref、基于OpenURL的SFX等。这里介绍一下CNKI的链接系统。CNKI知识服务系统在显示一篇论文的参考文献时,如果链接系统在对象资源库中找到相应的参考文献,则在该参考文献上建立链接。CNKI的文献资源有两种:自己拥有的资源(一般是中文)和通过网络来获取的资源(一般是外文)。不同来源的文献资源,链接系统建立链接的规则和实现技术是不一样的。

例如,有一篇中文参考文献“刘钢,从信息的哲学问题到信息哲学,自然辩证法研究,2003(1),”,链接系统在论文题名上建立了参考文献链接,对应URL是“http://epub.省略/grid200S/detailret.aspx?filename=ZRBZ200301010&dbname C3FD2003&filetitle=%e4%bb%8……5%ad%a6”。其中,filename相当于一个全文文献的唯一标识符,由表示期刊名的四个英文字符,四个数字组成的出版年、二个数字组成的期数以及二个数字组成的顺序号构成。其余两个是数据库名(dbname)和论文题名(flIetitle)。因为filename已经是一个唯一标识符,所以论文题名并没有起到什么作用。这个filename就是链接系统根据参考文献信息自动找到对应的文献的唯一标识符,类似于数字对象标示符(DOI),但具体规则尚不可知。

如果参考文献不属于CNKI拥有的资源,链接系统利用文献来源名(sid)、论文题名(title)、第一作者(aufirst)、年卷号(volume)和期数(issue)作为建立链接的规则,动态建立相关链接,引导用户查看著录信息以及遵循OpenURL标准的链接。因为OpenURL嵌有规范的元数据信息,可以让其他文献服务系统解析OpenURL链接并给出相应的处理结果,如ProQuest、国家科技文献中心(NSTL)、Google、百度等,链接系统具有很强的开放性,如图1所示:

例如,有一篇英文参考文献“Salton G,Lesk M puter evaluation of indexing and text processing,Jour-

nal of the ACM,1969,15,15(1):8-36,”,链接系统在其论文题名上建立了参考链接,对应的URL是“ht-tp://211.151.93.省略/WebForms/WebDefines,aspx?searchword=%e4%bf%a1%e6%81%af%e6%a3%80%e7%b4%a2”。如图2所示:

根据多次测试分析,发现该系统是把“信息检索”作为检索用词,把在概念知识元库中检索的结果作为链接对象呈现给用户,至于是否“误配”就只能靠用户自己来判断。

与CNKI相似,万方数据服务系统也在关键词(信息单元)上建立“知识脉络”链接,提供该关键词的研究趋势图和相关信息。如对某篇文章的关键词“机构库”,万方数据服务系统提供的链接对象如图3所示:

4,2,2知识元名(或与知识元相关的文字)到知识元的元链接凤凰网的财经频道和汽车频道在报道相关新闻时,为某些专业名词术语、人物和品牌等建立了知识链接,如“中国石油”、“国内生产总值”等财经类的股票名或术语,“元素”、“吴绍明”等汽车类的相关名词或人物等。链接系统在分析网页全文(相当于全文文献)内容基础上为用户建立知识元链接,引导用户查看相关信息,如股票的实时数据、人物专题报道等。严格上讲,链接对象还不是知识元,但也不妨碍把其归于知识元链接。为降低系统复杂度,避免错误链接,链接系统根据频道类型选择相应类型的知识库或本体库,例如汽车频道类的“元素”链接只会出现在汽车类新闻当中,而不会出现在财经类新闻中。

与CNKI和万方数据的链接系统不同,凤凰网的链接系统是在分析网页(文献)全文的基础上找出链接锚(链接文字),而不是直接在已知的信息单元上建立知识元链接。其链接对象可能是网络服务、子网站等,如图4所示:

某网页上“国内生产总值”的链接提供“国内生产总值”的解释及其相关内容。目前凤凰网的链接系统是在现有的网络相关标准和技术上实现的,如果实现这种分析全文文献内容并在全文文献中建立开放型知识元链接的链接系统,必须开发出支持开放链接的电子文献(文档)标准及支持这些标准的阅读软件。

上一篇:知识链接的构建方式研究 下一篇:知识链接理论与实践的三次嬗变探究