基于动态演化模式的词表组织设计与实现

时间:2022-09-28 07:16:44

基于动态演化模式的词表组织设计与实现

摘 要:本文在词表的机器存储中,专门设计了对应字段描述关键词和主题词的映射关系,用该方法构建的词表既增添了能反映领域最新发展的新词,又保留了传统词表中丰富的词汇和词间关系,在一定程度上克服了通过统计方法识别出的词间粗糙问题,减轻了编表负担,促进词表更新。

关键词:主题词表;词汇演化;机器组织结构

中图分类号:F279.21

随着网络化文本存储的时间跨度越来越长,从几十年到几百年的文本均已电子化。随着文本中词汇的增多和文本长度的增长,按照传统方式存储词表,则后组式索引构建所花费时间将与检索文本的时间持平或超过检索消耗时间。同时,如仅考虑词表的关联性进行查询扩展和检索,则会得到许多曾经相关、目前语义发生变化的记录结果。例如,“情报中心”一词,1999年发表的标题名为《由“藏书馆”到信息情报中心──对图书馆建设的几点认识》的论文中,根据确定概念可分别用“情报中心”、“图书馆建设”来标引该文献。而当该概念发展到了2008年,提到该概念的文献常与概念“信息共享服务平台建设”共同出现。随着国内学者王军[1-7]等人的研究的提出,从文献标题中抽取关键词,从已标引的结构化语料库中提取专业领域词汇自动丰富现有词表的方法已逐渐成熟。

1 面向词汇演化分析的词表机器结构

在实际操作中,主题词表是按照字段、对象、属性等,按照词表存储在物理存储和组织的数据库中。在机器存储中不能用多张表来直接存储,这样会显得冗可利用叙词表中的等同关系来检索未被标引的数据库。“计算机”、“电脑”、“数字计算机”这些词具有等同关系,用其中的任意一个来查询,需要在词表存储结构中查找三个词条对应的唯一标识,进行检索式查询扩展和联合检索操作。

Uniform Resource Identifier,简称“URI”,是一种通用资源标识符。URL文本链接可实现相关记录的直接跳转。上述两种来源于网络资源的存储结构,在表述词表的层次关系的机器结构时,能将主题词内的层次组织关系辐射为网状,克服叙词表线性的、一维的组织结构在表达知识点分布时的缺陷。通过使用URI的唯一标识符号,可基于某命名空间通过名称指定资源。例如,标识URN urn:isbn:0-395-36341-1表示国际标准书号ISBN的唯一资源。因此,这种结构能很好的实词条分类或等级结构浏览,和显示层次的展开或收缩。通过URI中提供的域名和目录的不同,可明确区分集成词表中叙词表的来源和选词构建组织依据。例如,urn:汉语主题词表:社会科学//文化事业//#情报中心,表示指向《汉语主题词表》07K编号的范畴索引中情报中心词条的标识符。该标识符可在分析不同词条的相关关系,等级关系等时,与URL超链接绑定实现与词条相关的款目的显示、检索与映射。笔者利用URI标示符设计了表1对应的词表机器结构,用于知识服务下的词表组织。

2 检索实例

如图1所示,各词条采用URI标识作为该词条在表中的地址标识,urn:情报“检索与主题词表:社会科学//文化事业//#情报检索”表示《检索与主题词表》中“情报检索”一词的标识地址。当进行基于知识服务的检索场景时,输入“信息检索”一词,可通过读取词表机器存储中的altlable来判断该词是叙词还是非叙词。在图1中,“情报检索”的altlable值为“信息检索”,说明“信息检索”的正式表述为“情报检索”。可通过构建urn:情报检索与主题词表:社会科学//文化事业//NARROWER TERM#信息检索作为标识,找到表中信息检索词条对应存储地址,正如图1中箭头1所示。同理,“自动化检索”和“情报检索”词汇之间存在“层次关系”这种关联类型,可通过机器存储中transitive字段进行相关词条的映射和跳转,“情报检索”的下位词对应地址为urn:情报检索与主题词表:社会科学//文化事业//NARROWER TERM#自动化检索,如图中箭头2所示。在图1中,自动化检索词条仅出现在词簇索引中,因此用concept Label的值urn:汉语主题词表:字母排序#Q进行标识,随后可通过查找表中PingYing字段首字母为Q的记录集合进行检索与排序。同理,情报检索一词在进行基于范畴索引的索引时,只需根据concept Label字段的值urn:情报检索与主题词表:社会科学//文化事业//#07K,将词条在identifier字段的地址表示中,包括字符串“检索与主题词表:社会科学//文化事业//”的词条集合返回即可。

上述词表机器存储结构,将词条的基本属性、关系属性用叙词表类组属性和叙词表组合属性两类结构化数据表示区分对待。在保证了语词存储的单一性的同时,最小程度缩小了词条冗余信息的存储与表示,在检索时不仅返回查询词“信息检索”得到的文本检索集,也要返回该查询词映射而得的规范主题词“情报检索”、“自动化检索”相关的文本集合,从而很好的实现了知识检索的用户服务需求。

3 结语

在智能检索中,所设计出的词表知识组织形式,不仅要能够根据用户的关键字进行检索,还要能根据存储结构分析用户查询词的语义形成数据字典,从而将关键字映射到对应的主题词和术语表中,真正返回给用户其想要的检索结果。在知识挖掘过程中,需要在词表的知识组织中考虑主题词在不同时间点的语义变迁。不同时间点词条的语义变化对检索结果相关性会造成重要影响。随着RDF、OWL等半结构化数据的语义格式的广泛使用,如何在机器存储中既不放弃现有电子化的主题词表,又能在主题词表和分类表的语义化描述加入现有词表数据库中,都是有待研究的、较有价值的问题。

参考文献:

[1]王军.基于分类法和主题词表的数字图书馆知识组织[J].中国图书馆学报,2004,03:41-44.

[2]曾新红.《中国分类主题词表》的OWL表示及其语义深层揭示研究[J].情报学报,2005,24(2):151-160.

[3]刘春艳.语义Web环境下基于SKOS的叙词表到本体的转换研究[D].长春:吉林大学,2006.

[4]Tudhope D,Koch T,Heery R.Terminology Services and Technology:JISC state of the art review[J].2006.

[5]杜慧平.国外计算机辅助编制叙词表软件评价[J].现代图书情报技术,2009,09:17-21.

[6]盛苏平,刘春燕,赵新力.《电子政务主题词表》编制及应用系统开发[J].中国信息导报,2006(03):37-39.

[7]张红梅.论计算机软件数据接口的应用[J].计算机光盘软件与应用,2013(1):122-122.

上一篇:浅谈汽车对环境的污染 下一篇:大空孔掏槽爆破技术在硬岩快速掘进中的应用