用户标注的词语网络与语义描述

时间:2022-09-06 04:38:06

用户标注的词语网络与语义描述

[摘要]用户标注具有简洁、交流与共享、自由表达、推荐与检索等特点,但是它的平面结构使其很难适应语义网的需要,因而有必要进行语义建构,建立用户标注模型和语义联系,以便使用元数据与本体语言对用户标注进行语义描述,使之成为标签本体,以适应新一代因特网的发展。

[关键词]用户标注 词语网络 用户标注模型 标签语义描述

[分类号]G254

1 用户标注的特点与语义处理的意义

1.1 用户标注的特点

用户标注是因特网用户对自己的资源或收藏的他人资源添加标签的活动。标签是用户选取的、代表被标注资源的符号,它可以是文字(大多数情况下是文字),也可以是其他符号的,这要看个别用户的习惯和表达需要。用户标注是迄今为止最为自由的资源标引活动。因为以前的标引是或多或少“受控”的,一般都需要一个词表或字典,自动标引在很多情况下也需要一个机内词典来控制标引。用户标注则是完全自由、自我的,不需要任何事先制定的词表制约。

用户标注本身的技术含量并不高,它是与关键词技术类似的一种词汇标引方法。那么它为什么在web2.0中成为主流的组织和检索工具,并广泛渗透到传统网站,成为一个重要的查询窗口呢?答案很简单,因为它简易,是用户的交流工具。更重要的背景是:因特网进入了“从用户到机器”(user to machine)的时代,即以用户为中心,由用户创建资源的第二代因特网时代,用户创建资源并标注自己的资源是很自然的。

用户标注形成代表每件资源(文件、视频、照片、音频等)的标签,符合一定阈值的标签聚合到一个按字顺排序、按标注频率显示字体大小的查询窗口――标签云(tags clouds)中。代表用户标注结果的标签云是一个简洁的文件组织和检索工具,它代表了用户标注的一般特征:

・简单方便,不受控制,普通用户不用学习就可以掌握标注方法,标注效率高,是受用户普遍欢迎的标注方法,在web2.0中得到广泛利用。

・立足于交流和共享,用户使用的标签是一个话题推荐工具,每个标签把相同话题(内容)的资源集中在一起,很容易形成具有共同兴趣和关注点的用户交流群体或知识交流圈。

・着眼于自由表达,用户标注是用户表达交流意向和内容的符号,用户群围绕标签(标注符号)表达每个人的意见和观点。所以一个或一组标签不但是标记资源的符号,更是表达观念的表意符号。

・推荐与检索功能,用户标注形成的标签云用字体大小显示每个标签的使用率,大字体标签表达它的价值、流行性,因而具有强烈的推荐作用;标签云的平面查询窗口非常适应浏览器屏幕的平面特征,可以检索到全部或大部分标签;每个标签都是一个查询窗口,点击即可调出相关资源的页面。

1.2 用户标注语义处理的意义

为什么要对用户标注进行语义处理?因为用户标注存在天然缺陷:用户标注使用的标签可以方便汇集使用相同标签的用户群以及汇集他们创建的资源。但是由于它没有经过语义处理,所以不能创建标签间的联系。这意味着,用户标签只是一些没有语义联系的孤立符号,无法建立具有语义结构的资源体系,更不能在语义网(semantic web)环境中实现智能化的检索。就是说作为新一代因特网代表性技术的语义网,将无法处理大量的用户标注资源。作为孤立的标签符号,用户标注只能一个标签下实现有限的聚类;这样各个用户群和资源集合也将是孤立的,无法在语义上形成更广泛的意义联系。

用户标注的语义处理将克服这些关键性的缺陷,它的主要意义和应用是:①通过标签间的语义联系建立相关用户群和资源的关系网络;②通过标签间的语义处理(相同、相关、等级关系等)建立标签本体,作为网络本体语言(OWL)的描述对象,为建立标签的语义网奠定基础;③通过标签间的语义处理,建立类似等级分类资源体系;等等。

2 用户标注形成的词汇网络与语义处理

2.1 用户标注的词汇网络

由于自由标注不受控制,用户标签可能出现极为复杂的聚类情况,形成资源或知识之间的交叉网络。这里仅举一个简单的例子来说明这种情况。如果用户要标注张爱玲的《小团圆》,在自由标注情况可能会出现名目繁多的标注方式。如小团圆、张爱玲、小说、自传体小说、文学传记、传记小说、长篇小说、家史小说等等。这些词语可以组成一个由各个结点组成的语义网络,如图1所示:

图la是张爱玲自传体小说《小团圆》的用户标注情况,当然并没有完全列举出所有可能的情况,但是这个图已经清楚地说明用户标注的复杂情形。要说明的是,这些标注还没有列出最复杂的情况,比如“张爱玲作品”、“张爱玲回忆录”等错误标注。b图是根据a图的标注词列出的词汇网络图,并给出了一般性的语义表示(简单的等级关系表示)。b图列出了两个语义系列图,分别是“文学”和“历史”,并按照标注词的外延大小分成等级,在上的为泛义词,在下的为狭义词。显然,“历史”系列并不准确,但是有一定联系,它实际上是一个误标注。

图1 a说明了用户标注的语义网络的一些复杂情况:①由于用户标注是不受控制、甚至是随心所欲的,会出现失去控制的情况,甚至出现完全错误的标注。比如,假如所有用户中的大多数用户认为《小团圆》是传记,这本书就可能会出现在历史的传记类。因为用户标注是以用户为中心、以用户为标准的,不管是用户手工标注还是机器自动标注,都是按照用户标签使用的统计频率决定的,所以错误标注的标签数量超过一定阈值时是无法纠正的。因为用户标注以交流为目的,如果一组用户认为《小团圆》是传记,他们就会在“传记”这个标签下聚集这类资源并进行交流。②用户标注的用语非常不规范,这正是自由分类法(folk-sonomy)的特征。比如上例中有的使用了比较宽泛的上位词(如使用“小说”),有的使用过于狭义的词(如“自传体小说”),有的使用了错误的词(如“传记”)。③用户标注最关键的问题是标签之间缺乏语义联系,在标签云窗口中每个标签都是独立的,标签之间没有等级、等同、相关关系,这使标签之间缺乏语义关联,不能实现语义网所要求的语义检索。④用户标签作为单个检索窗口脱离了资源、标注者等语境联系,查询时无法了解这些具体情况,无法进行知识处理。

2.2 用户标注词汇网络的语义结构

图1b说明了用户标注的词汇网络的结构特征:①用户标注一个文件时,会出现很多组不同选择的标注符号,这些标签可能会全部成为检索窗口(习惯上称为标签云[tags cloud])中的标签,也可能少部分甚至大部分被淘汰,这要看用户使用标签的水平和兴趣;用户水平一般地决定标签的差错率,用户兴趣则决定标签的使用频率从而决定标签是否能够进入标签云或栏目。②用户标注可以使用简单的应用软件进行等级分类,以便使用描述语言如OWL、XML、RDF等进行语义描述,语义描述可以把用户标签变成某种可控的标签

本体,从而对标签进行控制和管理。

从结构上来看,图1b的两个语义网络都具有很好的结构特征,其中“文学”类标签有四级结构,“历史”类标签有三级结构,这些结构虽然没有分类法那样规范,但与网络上流行的主题树相比,还是毫不逊色的。其中,某些横向关系也有一些隐含的交叉关联,如“小说”与“张爱玲”、“文学作品”与“作家”等,这些丰富的关系经过OWL描述后,可以被机器自动做成关联索引。所以可以毫不夸张地说,用户标注在进行一定的关系处理和本体描述后,可以成为正在成长的语义网一种重要的本体类型。

目前用户标注虽然在web2.0上得到广泛使用,但是对用户标签的关系处理尚未得到充分的重视,用户标注后的标签,根据使用频率处理后,按字顺显示在标签云窗口供用户查询。这种方法虽然简单并深受用户欢迎,但是它的平面结构不能适应大型网站组织全部资源的需要,也不适应中小型网站组织积累起来的资源组织。尤其重要的是,用户标签是一个没有语义关系的、结构松散的词汇表,所以不能适应未来语义网组织和检索资源的需要。正如前面指出的,用户标注可以进行一定的语义关系处理,把用户标注的所有标签按一定关系(等级、等同、相关等)进行结构化处理后。就可以成为一个语义相关的词汇网络。这个词汇(或标签)语义网络既可以作为网站资源的组织体系,又可以作为语义描述的根据。这样就涉及到用户标签的语义表示问题,本文将在后面的部分论述。

2.3 网络流行语和热门标签的语义处理

用户标注是基于交流的,所以用户选取的用语不但如前述存在着语义方面的错误,而且大量用户标注用语倾向于交流互动和交流行为,所以正规词语往往被用户变形为特指的形式,以加强交流效果。这些词语中,第一类是着重表达行为的词语,如英语中出现了相当数量的表示动作的词汇,如groupme、howdo,汉语中则出现了“图”、“髁”等流行语,但是这些词语只是表达中的用语,大多数情况下不会成为代表文件内容的标签,即使成为标签,也可以用“流行语”作为这些词语的一般分类标签;另一类是描述社会事件或现象的流行语,这些流行语往往具有表达性和描述性,如“范跑跑”、“打酱油”、“周老虎”等,这些词语通常描述社会事件或现象,所以很有可能成为网络上的热点标签,很多网站经常直接把这些热门标签作为热门话题或网络热点。

网络流行语是用户标注最普通的选用标签,所以对它的语义处理和分类应考虑两个方面:一是流行性,由于它是用户关注和感兴趣的标签,所以不能作为一般标签看待;二是描述性,这类标签对用户交流群体和形成资源集合有很大作用,同时围绕这些事件的话题会有多个方面和学科的用户参与,从而形成涉及复杂内容的资源。

在对这两类标签进行语义处理或分类时,流行性热门标签可以作为一种语言现象看待,作为“社会语言学”或“流行语”进行语义处理;而描述性热门标签原则上可以按事件涉及的内容进行语义处理。比如,“范跑跑”这个标签,如果讲的是当时地震时范美忠的个人经历,可以作为“地震”或“汶川地震”的下位概念;如果是讨论关于“范跑跑”现象的道德问题的,可以作为“社会伦理”或“职业道德”的下位概念进行语义处理。

3 用户标注的模型与语义表示

用户标注语义处理研究目前的重点是标签的模型化,用模型概括标签集的共同元素,即把标签行为和标注的实体对象以及对象间的关系描述出来。常见的有标签的三元组模型及其改进模型。

3.1 用户标注的模型

标签的三元组模型由Mika等人于2005年提出,2006和2007年Halpin等分别从不同角度研究了这个模型。这个模型是:Tagging:(u,T,R)。三元组由用户、标签和资源组成,其中u表示参与标注标签的用户集合,T表示已经标注的标签集合,R表示被标注的资源集合。后来Gruber提出了标签的扩展模型:Tag-ging:(object,tag,tagger,SOUrCes,+or-)。其中,前三项与三元组模型相同,sources表示标引对象的来源或标引者加注标签使用的标签空间,正负参数表示垃圾标签协同过滤的参数配置。

标签模型与RDF描述框架相当契合,它的特点是把标签、标签的用户群(标注者)和资源看作是一组相关的元素,所以可以用OWL或RDF(s)进行描述。我们可以把标签指向的资源看作一个Subject,标签则可以看作是RDF的属性陈述predicate,而用户组则可以是属性对应的一个值object。如果是OWL语句描述标签三元组,则可以把标签看作一个类(),把资源和用户组看作它的两个属性类。

3.2 用户标注的语义表示

目前数字环境中词汇处理的主流技术是关系处理,语义网中的XML、RDF、OWL及其他本体技术都采取结构一关系处理模式来规范类与属性之间的关系,所以用户标注的词汇处理采用通行的描述方法是一个经济的办法。下面的片断就是采用叙词表的OWL语义描述方法的一个实例。

a tag consist of all literary works

在表1中,左列是标签及其关系列表,右列是OWL描述语句,在左列列出了一个叫Tagset的类,和一个叫tag的类个体individual;PT是正式标签的符号,BT是上位标签的符号,RT表明标签之间存在某种联系,UF是非正式标签的符号,NT是下位标签的符号。

需要注意的是:用户标注中的正式词和非正式词与叙词表中不同,不是相互代替而是联系起来。即非正式标签也作为一般标签使用,也有自己的资源。因为在以用户为中心的情况下,如果非正式标签为部分用户使用,就不能只作为入口词指向正式标签,而是联系起来。表1的右边是一些简单的描述代码,它定义了两个类“文学作品”和“作家”。它们的共同上位标签是“文学”,同时用NT语句描述了这两个类的下位标签,用RT语句描述了两类之间的联系。

4 结 语

用户标注是围绕用户群的自主交流和共享建立起来的符号体系,结构上的简洁、表达上的自由、推荐与检索功能的强大,使它成为用户喜爱的工具。它的主要缺点是结构上的平面化和标签的孤立化,这使它很难与语义网为代表的新一代因特网融合起来。用户标注的语义构建就是针对这种缺陷建立起来的标签本体或语义结构网络,这种方法将使用户标注成为元数据和OWL可描述的对象,从而使用户标注成为网络本体语言的一种类型。目前处理用户标签的技术主要是建立用户标注模型,从而使标注的各个元素成为元数据描述的模型;第二种方法是建立用户标签之间的语义联系,从而形成一个结构化的语义网络,并使用本体语言对其进行描述和处理。这种描述将使用户标注成为语义网的一部分,为新一代因特网的发展准备条件。

上一篇:可嵌入用户环境的学科信息门户框架设计 下一篇:服务本体驱动的MA-DDSS模型研究