国外基于大众标注系统的标签研究

时间:2022-03-05 05:15:11

国外基于大众标注系统的标签研究

[摘要]认为标签是一种自由形式的关键词元数据。作为一种标题词,它具有直接揭示内容、提供查找功能、表达精炼(多为词或短语)等特点。从标签的基本理念,标签的呈现界面,标签的组织对象,包括网页(主要是博客)、音频视频资源等,以及标签与信息检索(检索结果处理、相关度排序、搜索引擎、语义处理)等角度揭示国外基于大众标注系统的标签研究进展。

[关键词]标签 大众标注 研究进展 大众标注系统

[分类号]G250.76

1 引言

“大众标注”由“Folksonomy”一词翻译而来,是Web2.0环境下信息组织的一种新方法。与传统的信息组织方法相比,大众标注是指使用标签(Tag)对自身创建或他人创建的网络信息资源进行标注,以供标注者自身或者他人检索信息资源的过程或结果。大众标注系统是大众标注理念实现的技术途径,是基于大众标注的理念与方法构建起来的、允许用户对数字资源或网络资源进行自由标注的网站或系统平台。作为大众标注系统功能加以具体实现的重要手段和大众标注系统的核心组成要素,标签是一种“Free-form Key-word Metadata”(自由形式的关键词元数据)。目前,国外学者围绕大众标注系统中标签的研究主要集中在研究标签的基本理念、标签的呈现界面、标签的组织对象(网页资源,主要是博客;视频资源;音频资源等)以及标签与信息检索(检索结果处理、相关度排序、搜索引擎和语义处理)等方面。

2 有关标签基本理论的研究

自大众标注开始进入国外学者的研究视野以来,有关其底层支撑――标签的基本理论研究主要集中在研究标签的定义、标签与元数据的区别、标签的优点与不足以及使用标签的心理动机等方面。

2.1有关标签定义的研究

标签的基本含义是“标明物品名称”,具有标示作用。对于标签的内涵定位,多数学者认为,作为大众标注系统功能得以实现的手段,标签是一种自由形式的关键词元数据,赋予标签的过程可看作一种标注行为。在大众标注的理念下,赋予标签的标注行为实际上已经既能直接揭示内容,又能为日后提供查找,因此具备了标引功能。而对于标签的外延,Noruzi A认为标签可以是概念(Concepts)、类别(Categories)、分面(Fac―ets)或者是实体(Entities)。Scott A.Golder等认为标签的种类主要包括:表明事物范围的标签,表明标注对象类型的标签,表明所有者的标签,对类别进行归纳的标签,表明事物的性质或特征的标签,自我识别之用的标签以及表明事物用途的标签等。

2.2标签与元数据的区别

元数据作为关于数据的数据,其创建与使用都离不开专业人士的参与,而且需要遵循一定的标准。利用元数据来组织网络资源,其根本目的是使因特网更加有序化。有学者评论指出,元数据是专业人士的“万全之策”,但往往会将简单问题复杂化。与此相比,从严格意义上说,标签也是关于数据的数据,只不过标签的创建与使用没有元数据严格,它鼓励大众参与,并不需要遵循严格的标准与规范。利用标签来组织网络资源,其根本目的是使因特网更加有趣。有学者评论指出,用户使用标签的根本目的是寻求组织因特网信息的最佳方案,最终使得信息组织更加简单化。

2.3标签的优点与不足

自由创建、自由使用是标签与生俱来的突出优点。Prentiss Riddle论述了标签的种种优点。包括:标示,可以方便查找;指代,索引中指代原件;聚类,可以提供关联度;分面标引;体现集体智慧等。ChristopherH.Brooks和Nancy Montanez研究认为,标签已经成为一种用于注解和组织包括博客在内的各类网络信息资源的重要工具。大众标注允许用户自行创建、选择标签对自身感兴趣的资源进行标注,这虽然有利于信息组织的自由,但却在无形中导致标签标注质量的下降。Noruzi A认为,大众标注中标签的主要缺点是歧义多(polysemy)、同义多(synonymy)、单复数滥用以及专指度不够。

2.4使用标签的心理动机

研究用户使用标签的心理动机主要是从社会学的角度研究用户使用标签的偏好,包括对相同主题的资源是否使用相同的标签进行标注、对资源对象进行标注时使用的标签数是否相同等方面。George W.Fur-nas对当前较为流行的几个大众标注网站系统(Flickr,Del.icio.us,RawSugar)在实用性上进行验证,考察了这些网站的运作原理、用户激励机制以及标签的生命力和为大众接受的认可性,对用户使用标签的动机进行了研究。

3 有关标签呈现界面的研究

时至今日,很多提供大众标注的站点已经能够通过标签为用户提供管理和共享用户感兴趣的url、图像、视频、音频等功能。但是,如何高效地在海量标签中查找到符合自身需要的资源成为人们关注的普遍问题。从目前多数网站在标签呈现方面采取的处理方式来看,在首页面采用标签云图(Tag Clouds)汇集一定数量(具体数量由各个网站确定)的热门标签、不同标签所标注的资源数量多通过标签的字体与颜色与来呈现,是较为普遍的方式。围绕这一点,国外学者开展了较为热烈的研究。A.W.Rivadeneira等指出,标签云图是对一组词语,也就是诸多标签进行可视化揭示的一种方式。在标签云图中,词语的字体、大小和颜色可以反映标签的被使用频率以及与之相关的各种标签之间的关系。Martin J.Halvey则评估了标签呈现技术的应用效果。Ben Shneiderman等分析了如何通过构建合理的界面设计策略来支持大众标注、浏览和资源共享。

4 有关标签组织对象的研究

在大众标注出现伊始,标签多用于个人博客中的资源组织、标注。随着人们对大众标注理念的进一步熟悉,标签的组织对象已经从早先的博客资源向图片资源、音频资源以及视频资源等多媒体资源进一步拓展。

4.1标签用于组织博客资源

目前,标签已经成为了一种用于标注和组织包括博客在内的各类网络信息资源的重要工具。Christo-pher H.Brooks等以Technorati网站为例,抽取了使用率最高的350个标签进行分析,判断同一标签所标注的所有博客网页是否具有主题上的相关性。Gilad Mishne开发了一款名为AutoTag的工具,它可以通过合作过滤的方法,为用户在标注博客时提供更为合适的标签。在此基础上,通过配合博客信息的相关控制机制,可以使得用户的标注过程更加简单,而且可以保证标注的质量。此外,有学者研究认为,利用标签来揭示主题,借助标签语义上的相似性来确定使用相同标签的博客在主题上具有相关性,而由于两个博客可能在主题上的相关性,进而可以推断其可能在

随后的标注过程中会使用相同的标签云图。

4.2标签用于组织图片资源

随着标签标注对象的进一步扩展,如何提高标签标注图片资源的效率也成为国外学者较为关注的问题。2007年6月,Bageshree Shevade介绍了如何使用个性化的社会化网络文本对图像进行标注的框架。这个框架相当有意义,它能够提高人们标注图像的效率。这种背景信息能够帮助相关用户非常方便地理解标注者所使用标签的真实含义。而Andrew D.Miller则对flickr开展研究,指出flickr为一些用户提供一些不同主题的图片或照片集、大众标注体验以及独特的隐私保护方式。这种服务策略有别于以往的图片共享风格。另外,文章还进一步研究了照片或图片标注者的一系列行为,包括图片或照片的描述、组织、发现、共享和接收等。

4.3标签用于组织音频资源、视频资源

使用标签组织音频、视频资源进一步扩大了研究标签组织对象的学者的研究视野。Jane Murison介绍了BBC England消息板新功能,即允许用户使用词组或短语对对话记录进行标注。这是一种分面浏览的方法,它可以成为当前浏览方式的有益补充。当前的消息板所采用的自上向下的编辑架构缺乏足够的灵活性,而且不能持续一致地揭示内容,用户往往很难发现资源的具置。此外,也有学者投入到标签标注视频资源的研究中,包括研究如何提高标签在播客资源中的描述、组织与检索效率。

5 有关标签与信息检索、语义处理的研究

随着标签应用的广泛发展,如何提高标签的信息检索与语义处理效率逐渐成为标签研究的热点。

5.1标签与信息检索

包括del.icio.us在内的多个支持大众标注的网站为用户提供使用标签标注网页资源的功能,以便用户在线自行组织其感兴趣的网页资源。在大众标注系统中,标签主要有两个作用:标注与索引。标注的最终目的是为了通过索引为用户进行信息检索与信息发现提供方便。大众标注在提升网页搜索效率上具有两方面的表现:标签是主题相关的网页资源的一种概要性描述;同一标签的使用量可以显示出该主题下网页的数量规模。Taciana A.Vanderlei具体描述了大众标注理念在搜索引擎中的应用情况,并指出大众标注理念可用于改进搜索质量,同时描述了一组使用大众标注加以实现搜索引擎查找与检索的条件。2006年,RyanBarrows在其文章中介绍了基于整合的搜索,即如何将标注、分类和浏览加以集成,以便提高终端用户进行检索的效率。

5.2标签与相关度排序

大众标注是一项新兴的网络服务。它能够帮助用户共享、分类和发现自身感兴趣的网络资源。Yusuke Yanbe介绍了一个可以提高检索效率的概念模型,在该模型中,来自大众标注系统的各种标签数据被系统进行开发与抽取,以便用于检索性能的改进,同时,他开创性地提出将基于点击排名网站的等级机制与大众标注对同一网站的标注强度相结合的解决方案。Sung Eob Lee研究指出,大众标注为信息过滤和信息检索领域带来一种全新的性能。通过研究用户的标注行为,文章得出结论,大众标注可以被进一步应用到数字资源的相关度排序中。随着标注系统的逐渐流行,标签垃圾对标注系统的影响日益明显,具有误导性的标签虽然可以提供某些资源的显示度,但却使用户深受其扰。Georgia Koutrika构造了一个框架用于对标注系统和用户标注行为进行建模,并提出一种基于可信任标注的名誉,用于对同一标签所汇集的所有文档进行相关度排序的方法。

5.3标签与语义处理

如何从网页资源中挖掘出计算机可以理解的语义信息是当前的一个研究热点。大众标注作为网络资源有效组织与查找的一种方法,能否通过标签建立标签本体以进一步提高大众标注系统的语义处理性能,是近年来国外学者将标签与语义处理结合起来开展研究的聚焦点。继Sheung-On Choy研究了大众标注系统中的语义信息检索性能之后,David Laniado、Paul Alex―andru Chirita、Michel Buffa等学者纷纷撰文开展此方面的研究。David Laniado通过建立标签的本体,整合了标签的导航界面,为各个标签提供显性的语义关系。Paul Alexandru Chirita指出,语义web能否成功实现取决于大众标注实现过程中用来注解网页的标签的有效性,并提出了P-TAG的方法。Michel Buffa以wikis为研究的切入口,研究标签与语义技术结合在wikis的信息查找方面的应用。Sabnna Geissler的研究则进一步推进了标签与语义处理的研究。在其文章中,Sabrina Geissler探讨如何增强合作性的工作和学习环境――虚拟知识空间以及如何使得虚拟知识空间具有语义注解功能。为了实现这一目标,文章通过显性的语义标注和用户行为的合作过滤提出了计算机处理可查找网络资源的操作原理。

6 基于大众标注系统的标签发展趋势探析

自出现伊始,人们对大众标注所寄予的厚望即是自由。也就是说,与以往必须由图书情报专业人员制订分类体系(如国内的中图法、科图法、人大法等分类体系),再由专业人员进行分类、标注的信息组织方法相比,大众标注应该能够允许普遍民众不用经过专业培训、不需具体专业分类知识就可以采用自然语言等非受控语言来标识各种数字资源,以适应Web2.0环境下普遍民众既是信息资源的接受者、又是信息资源创建者与组织者这一形势的需要。作为传递大众标注理念的媒介,用户能够使用标签实现哪些功能以及大众标注系统能够对标签进行哪些操作,均是标签研究者的研究核心。从当前的情况分析,未来的大众标注系统将更加注重于既能有效防止标签垃圾又能让用户充分享受到自由标注的乐趣。同时,根据标签之间的主题相关性,进而汇集语义相关的信息资源,从而增强用户通过标签共享信息资源的功能,使得大众标注系统能够根据标签所标注的资源规模确定标签云图中各标签的字体、颜色与大小。此外,在本体等信息组织方法的推动下,根据不同领域的知识元构建标签本体并以标签本体为基础,实现基于标签的语义检索将是未来大众标注系统研究者继研究标签垃圾有效处理、基于标签的相似度排序、标签界面可视化效果等之后对标签进一步关注的研究内容。而基于大众标注系统的标签在功能上也将在这一研究方向下继续向前推进。

7 结语

用户对大众标注系统功能期望值的不断上升进一步推动了大众标注系统的发展。随着近年来大众标注系统在功能上的多方面提升,比如,社区身份识别、本体创建、用户与文档推荐等。大众标注方法很有可能成为支持机构或者相关组织开展知识管理的技术基础架构。与此同时,网络资源被赋予多个标签的情况已经变得相当普遍。因此,分析网络资源之间的关系以及网络资源与标签之间的关系显得相当重要。如何建立一个基于多个标签对同一网络资源进行标注的概念模型,并通过使用多个标签对网络资源进行描述的工作流进行建模,得出依靠对这些标签的分析进而抽取出被这些标签所标注的网络资源的相关属性(主题、摘要等),将进一步成为标签研究者继续探索的主题。

上一篇:基于内容揭示的信息资源控制的演进 下一篇:主编絮语 第1期