自由分类法实例研究

时间:2022-10-23 11:03:37

自由分类法实例研究

[摘要]从信息组织和检索语言的角度对自由分类法的概念、发展、特征、功能和运行机制进行分析。以中文博客网站BlogBus为例对自由分类法进行实例研究,初步揭示中文自由分类法的语言特征,验证自由分类法对幂律分布的遵循,并与英文领域类似研究的发现进行简要比较。

[关键词]自由分类法 标签 网络

[分类号]G302

1 自由分类法研究综述

2004年8月,信息构建专家Thomas Vander Wal首先提出了“Folksonomy”(“自由分类”)这一名词。自由分类法的概念提出后,引起了众多学者的关注和讨论,Clay Shirky、David等人都以博客的形式发表了对这一新的信息组织方式的论述文章。Emanuele QuintareIli在总结已有的各种观点的基础上,将自由分类法与传统的等级列举式分类法和分面组配式分类法进行了详细的对比。指出三者适用于不同的资源和用户,自由分类法不会替代传统分类法,而是提供一个新的角度看待信息的分类组织方式以及用户的新信息需求和行为,此外本体构建学者Tom Gruber认为,用户产生的标签数据体现了群体智慧,但也是不规范和非形式化的,使用本体对这些数据进行形式化描述,有利于系统的互操作和知识的共享,并可以从中提取出丰富的语义信息。

国内关于自由分类法的讨论也始于博客之中。他们认为,对于用户来说,自由分类法最大的价值就是简单、实用,而在信息组织与检索中存在的缺陷可以通过后台系统的技术手段来解决。自由分类法与传统信息组织方法的关系也是国内研究者所共同关注的问题。较为一致的观点是,自由分类法与传统的分类法、主题法相比,是一种完全由用户自发的、使用自然语言、不受控制的信息组织方式,简单易用,更容易被大众用户所接受;但另一方面,自由分类法由于取消了严格的词汇控制和等级结构,存在语义模糊、检索的准确率和查全率低、多语种支持不足以及标签滥用、信息垃圾等问题。同时,为改善自由分类法用于信息组织与检索的效果,增加后控制手段也被认为是必要的,学者们提出了自由分类法与分类法或词表结合、增加同义词控制、对检索结果进行排序整理等构想。

2 自由分类法实例研究的方法与内容

2.1 实例研究的基本方法

实例研究是国外学者对自由分类法的一种重要研究方法。实例研究选择某一个特定的社会化标注系统,在掌握其主要功能和使用方法的基础上,通过对用户、资源和标签实际数据的收集、观察和分析,揭示该系统中自由分类法的特征。作为最早支持自由分类法的成功应用,Del.icio.us和Flikcr是选用频率最高的两个研究对象。

数据收集的过程是根据研究目的从系统的用户、资源和标签三种数据集合中收集一定量的样本。标签是最核心的研究对象,一般可以通过两种途径获取:“用户一标签”途径,即首先选取一定量的用户,通过直接Web访问或定制RSS输出获得每个用户的标签数据;“资源―标签”途径,即首先选取一定量的资源,通过直接Web访问或定制RSS输出两种方式获取与每项资源相关联的标签。用于最终分析的数据中可能包含用户、资源或标签的三种类型的实例以及三者之间的关系。

由于自由分类法处于不断的动态变化中,数据收集的工作一般在一定时间范围内进行,获得的数据反映也是该系统在这一时间范围内的状态,并具有不可重现性。数据规模的大小一股根据研究的目的、条件和时间决定。

对实例数据的分析包括定性和定量两类方法。前者通过对实例的观察,并可参照某种词典或标准,归纳概括出自由分类法的本质特征;后者在一定规模的统计数据基础上,借助SPSS等工具对数据集合中的数量关系进行分析,挖掘、描绘出其中的某种规律、趋势或数据间的相关关系。

2.2 实例研究的主要内容

基于实例数据可以展开多种分析,目前主要的研究内容可以归纳为以下三个方面:

・对标签特征的研究,例如构成标签的词汇的性质、形态、结构、功能,以及整个系统中标签使用量的分布规律。

・对用户标签使用行为的研究,例如用户对一项资源使用几个标签、用户标签集合的规模与用户的资源数量之间的关系,标签的动态变化与用户需求变化之间的关系。

・对资源与标注它的标签之间关系的研究,例如标签与资源之间的固定模式、对同一资源最常使用的标签等。

由于不同的应用系统针对不同的用户需求提供不同的功能,特别是在资源类型和用户行为上可能存在较大差异,因此上述后两方面的研究往往针对特定系统制定目的和方法,数据分析的结果倾向于反应该系统的状态和特征。而对标签词汇的研究则能够在一定程度上揭示自由分类法作为一种信息组织方式和检索途径所表现出的共性以及某种语言文字的特性。

3 实例样本数据选取

3.1 样本简介

本文选择的实例研究对象是中文博客网站BlogBus。BlogBus于2004年初开始试运行,其提供的首要功能是和管理博客文章。自由分类法是BlogBus为用户提供的一种组织博客文章的方式,用户每一篇文章可以最多添加5个标签,每个标签的长度为100个字符,多个标签使用空格间隔。

3.2 实例数据的收集与说明

本文从BlogBus的标签数据集中抽取一定量的样本,通过研究中文用户如何使用标签来描述资源,以总结中文自由分类法的语言特征,并对标签使用频率的分布规律进行描绘和分析。实例数据收集主要集中在2008年3月2日至8日间,随机选取30个BlogBus用户,通过Web访问的方式记录每个用户的标签,获得每个用户的标签列表信息,同时去掉其中纯英文的标签。将30个用户的标签去重,可以得到一个标签集合,共351个标签。系统提供了使用每个标签的用户数,体现了每个标签在整个系统空间中的使用情况,将这一数据记录下来。例如访问www.省略/tags/旅游,可以获得所有使用“旅游”作为标签的博客文章列表,页面上同时显示“共有2241篇日志,598个Blog使用了该Fag”。将所有标签集合按照使用人数降序排列,数据中第一列“RANK”表示序号,第二列“TAG”表示标签,第三列“SCALE”表示该标签的使用人数。

4 数据实例分析

4.1 标签语言的特征

观察样本数据中的标签,可以发现中文自由分类法的以下特征:

首先,标签具有多种语法结构,包括词、短语,甚至句子。由2~3个语素构成的合成词和多个词构成的短语是最普遍的标签形式,例如“心情”、“生活”等。也有部分标签由单个汉字构成,例如“梦”、“雨”等。还存在少数情况直接以一个完整的句子作为一个标签。

用于标注博客文章的标签可能来源于文章中存在的文字,也可能是由用户揭示的文章的隐含意义。这些中文标签的语

法结构反映了一种用户对语句进行分词的现象。例如,对关于“我的心情故事”这类主题文章,用户可能使用{“我的”、“心情”、“故事”}三个标签,也可能使用{“我的”、“心情故事”},或{“我的心情故事”}。从以上例子中可以发现,用户根据个人的认知和需求,将语句划分为不同“粒度”的标签,从而形成了多种语法结构。从不同结构的标签所占的比例和每个标签的使用人数上看,大部分用户分词的结果是较为规范的词语,少数用户将单字或句子作为标签,这样的标签仅由用户本人使用。

其次,标签具有多种词性。在词语形式的标签中,绝大部分是代表不同抽象层次概念的名词,例如:“日记”、“音乐”等。描述事物特征的形容词也较为常见,例如“美丽”、“漂亮”。由于一些用户直接将文章中的标题或句子切分成若干标签,于是出现了个别动词、介词,甚至助词性质的标签。这些标签也是用户分词的结果,但对资源的有效标引和检索都不具有明显意义,从使用情况上看这类标签也仅存在于少数用户的列表中。

最后,从功能上区分,中文自由分类法中的标签可以划分为以下类型:

・标识资源的主题,可能是原文中存在的关键词,也可能是用户对资源的命名。

・表示资源的类型。

・表示资源的功能或作用。

・专有名词,例如人名、地名等。

・代表资源的属性或特征。

・仅作为类目标识,没有具体意义,例如“默认分类”。

・修饰其他类目,没有独立意义。

除上述特征之外,笔者在对标签的观察中还获得了以下发现:收集到的数据中既包含了网络文化中的新名词,例如“网赚”、“恶搞”,也体现了当前的社会热点问题,例如“物权法”、“钉子户”等。通过特定的标签能够很容易地发现拥有相同兴趣或关注领域的用户群体,例如“电影”、“音乐”、“佛教”等。

此外,语义控制和类目间关系的缺乏给基于标签的浏览和检索造成了不便。例如,拥有多种含义的“苹果”将不相关的内容聚合到了一起;存在同义词关系的“超女”和“超级女声”、包含关系的“小说”和“网络小说”却不能将相关的内容聚集和联系,而是独立分散于系统信息空间的不同位置。

4.2 标签使用量的分布规律

将样本数据中RANK和SCAI正两列的数据取值映射到坐标系中,RANK(标签的序号)作为自变量x,SCAI正(标签的使用人数)作为因变量y,用平滑曲线将坐标系中的散点连接,图像呈现出明显的幂函数的特征。假设x和y的函数关系式为y=axb,利用SPSS进行回归分析,得到b的取值约为2.16,a的取值约为5.7×105,R平方值为0.83,说明这一函数拟合具有较高的可信度。

x轴代表RANK,即标签的序号,y轴代表SCALE,即标签的使用人数。排序在前几位的标签具有较大的使用人数,但这样的标签仅是极少数,使用人数超过1000的标签仅8个;随着Rank值的增大,对应标签的使用人数减少,且这一下降趋势非常迅猛,使图像的前半部分具有很大的切线斜率绝对值;在接下来的一段Rank取值区间中,图像经过一个短暂的过渡后,走势逐渐趋于平稳,使用人数超过100的标签仅96个,更多的标签使用人数在100以下;图像的后半段形成了一条基本与x轴平行的“长尾”,使用人数为2或1的标签为116个。

用户个人的标签在整个系统空间中聚集后呈现出了上述特征或规律。其中,使用人数最多的标签“默认分类”是系统功能促成的结果:在应用标签技术之前,BlogBus允许用户将博客文章划分为若干分类,每篇文章只能被归入一个分类,对没有归入特定分类的文章,系统自动将其组织为一个“默认分类”;开始推行自由分类法后,系统自动将用户原有的类目转换为了标签,因此“默认分类”相当于系统自动添加的一个标签,而且大多数用户保留了这一标签。观察使用人数超过“2”的标签,它们中的一部分反映了用户在撰写博客文章时常见的共同目的或思想,例如“随笔”、“日记”等,这类标签的使用人数一般在200以上;另一部分标签反映了用户共同关注的事物或兴趣,例如“摄影”、“诗歌”、等。后一类标签将用户聚集形成了目的和规模各不相同的社群,例如使用“摄影”的用户有711人,使用“诗歌”的用户有392人。最后,观察使用人数为“1~2”的标签,不常见的词汇以及短语、句子的情况越来越多,基本上仅对使用它们的用户本人具有意义。

以上的数据分析验证了标签的使用量遵循幂律分布,这实际代表着用户对标签的选择遵循幂律分布。这一特征与文献计量学中的齐夫定律很相似。统计物理学家将这类现象称为“无标度现象”,即系统中个体的尺度相差悬殊,缺乏一个优选的规模。现实世界中的众多网络系统也存在这种无标度现象,例如互联网、人际网,这些网络中不同节点所拥有的连接数遵循幂律分布。这类现象的形成依赖于两个机制:增长性和择优连接性。前者表示整个系统的规模并非保持不变,而是不断有新的节点加入;后者表示节点之间建立连接关系时,都倾向于选择已经拥有较多连接的节点,其结果符合“马太效应”。随着系统用户和资源规模的扩大,不断有新的标签进入系统;而用户在使用标签时由于受到社群的影响,会“择优”或“从众”选择,于是形成了标签使用的这种无标度现象。

受基本运行机制影响,不同应用系统中的自由分类法都普遍遵循幂函数分布规律,但不同应用系统服务于不同的目的、存在不同的用户群体,也具有各自的特性,例如社群或系统影响力的不同强度。这些特性的一种体现即是上述幂函数表达式中系数a和指数b的不同取值。

5 中英文自由分类法标签特征的比较

5.1 英文自由分类法实例研究中关于标签特征的发现

在目前的应用中,每个由空格间隔的单词被作为一个独立的标签。单词是英文语言的基本组成单位,而一些复杂的概念需要多个单词的组合才能表达。从功能上区分,英文自由分类法中的标签类目包括以下几种类型:

・标识事物是什么/关于什么,表达不同抽象层次的概念。

・表明事物的类型。

・标明事物的所有者。

・用于修饰其他类目。

・表示事物的性质特征,主要使用形容词。

・提供自我参考的功能,主要使用合成词、自造词。

・提供任务组织的功能,将与特定目的或任务相关的信息组织在一起。

以上7种类型中,前4类体现的是事物的外在特征,对多数用户具有意义,也容易在多数用户中达成共识,后3类体现的是用户个人对事物内在性质的理解,用于满足个人描述和组织信息资源的目的,因此往往仅对个别用户有意义。

对Flickr的样本数据的统计分析发现,标签的使用情况类似于一个幂函数的图像。x轴代表样本数据中的标签,y轴代表每个标签的使用人数。少数标签被大量用户使用,对应极大的y值,而大部分的标签仅被少数用

户使用,y值急剧下降;更大规模的标签仅被1个或2个用户使用,使图像的末端成为一条y取值接近1的长尾。

5.2 中英文自由分类法标签特征的异同

基于其他学者在英文自由分类法实例研究中的发现和上文中数据分析的结果,下面对中英文自由分类法进行简要比较。

在功能类型的划分上,中英文自由分类法具有相似之处,表现出中英文用户在事物认识和描述上的共同点。各种功能的标签是用户对资源不同分面含义的表达,用户通过标签的组配来描述一项资源。在中英文自由分类法中,最多的类目名称都是名词性质,表达不同抽象层次的概念。此外,中英文自由分类法中标签的使用情况都遵循幂律分布,大多数用户的选择仍然是较为规范和常见的词语,同时也存在一些体现用户个性化的标签,例如英文中的合成词、中文中的生僻词和句子。

以上中英文自由分类法的共同特征也说明,虽然没有了专家或权威的规范和控制,自由分类法并没有出现混乱失效的局面,而是充分发挥了用户的智慧,并在用户的利己与协作之间达成某种平衡,满足不同的需求。

但是,中英文自由分类法在语言结构上存在较大的差异。英文中,由空格间隔的每个单词是最基本的语言单位,名词词性的单词能够独立代表一个基本概念,同时也存在复杂概念需要多个单词组合表达的情况,因此英文自由分类法中出现了较多的用户自造合成词的现象,用户还有在标签中使用特殊符号的习惯。而中文自由分类法中的标签则是用户分词的结果。在中文语言的自动处理中,分词是需要解决的首要问题,也是难点问题。标签是用户根据自己的理解对资源进行标引的结果,可以认为是将分词的工作交给用户完成,用户完全根据个人的认知和需要,将语句划分为不同“粒度”的标签,这种分词方式的成本极低,结果也更加符合用户的需求和语言习惯。但是,由于用户需求的各异和知识背景的参差不齐,用户分词的结果并不是都能很好地揭示资源的意义,并不一定利于有效的检索。

6 主要结论

自由分类法是个人网络信息组织需求和社会化的网络环境共同作用的结果,它既是用户个人对事物认知的产物,也是社会群体共识的体现。自由分类法具有大众化、自由化和社会化三方面的内涵。

中文自由分类法中的标签具有多种语法结构、词性和功能。中英文自由分类法中的标签可以被划分为相似的功能类型,都以表达不同抽象层次概念的名词居多。但中英文自由分类法在语言结构上存在较大的差异:英文用户将多个单词合并构成一个标签以表达一个完整的概念,而中文用户则是根据需要将语句划分为不同粒度的标签。

自由分类法的运行机制使标签在使用量上呈现出无标度现象,即遵循幂律分布。具有较高资源标引和检索价值的标签被多数用户使用,并能成为热门类目被“推荐”给更多的用户,而标引和检索价值低的标签,或者满足用户的个性化需求,或者被用户以协作的形式“过滤”,保证了信息空间的有序性。这种规律的形成源于两点因素:一是自由分类法的动态变化、标签体系的不断扩充,二是用户在使用标签时的“择优”或“从众”行为。

自由分类法与传统信息组织方法的主要区别在于:资源不被集中管理和控制,资源组织的权力由权威、专业人员转交给大众用户,不需要使用复杂严格的标准保证标引和检索的准确、全面,而是为用户提供一种简单易用的信息组织方式,充分发挥用户在信息检索系统中的作用,自由分类法不会完全替代传统分类法,而是提供一个新的角度看待信息的分类组织方式以及用户的新信息需求和行为。

上一篇:论信息资源管理研究的制度转向 下一篇:学术用户的数字信息需求研究