微内容序化方法与应用实例

时间:2022-09-04 03:25:41

微内容序化方法与应用实例

[摘要]以Web2.0技术产生的微内容杂乱无序、难以利用的问题为出发点,应用信息组织理论和序化思想,研究如何对微内容进行汇总、序化加工,形成有序的、易于理解与利用的综合信息,包括:设计对微内容加工的方法,构建Web2.0信息加工框架,为Web2.0网站建设及改进提供依据,并探索微内容信息利用的方式。

[关键词]微内容 序化 指标 信息加工

[分类号]G203

Web2.0技术使普通网民成为信息的接收者和信息的提供者。但是,广大网民提供的Web2.O信息(简称微内容)呈现无序化、去中心化的特点。对网民来说,序化的微内容是更有意义、更有利用价值的,因此微内容序化和中心化成为新的研究问题。

Cmswiki将微内容定义为:“微内容包括个人所形成的任何数据:比如一个简单的链接、一篇网文、一幅图画、一段音频、视频、收藏的书签、喜爱的音乐列表,等等”。熊回香认为,微内容是指在网络上至少拥有一个唯一地址或编号,以及只含有极少数中心概念的元数据和元数据的有限汇集。

序化即增加系统的有序度,是指系统的所有组成元素按照特定的逻辑法则进行顺序排列的过程。张如法认为,有序化是指发现事物或现象之间的各种联系,而将它们作一定的排序和连接。信息序化,又称为信息整序,和信息组织的概念密不可分。吴华欣、于雄杰指出,社会信息的生产和流通具有无序性,主要特点表现为信息从局部上看是有目的、有计划的,但从整体上看则不然。这种无序性对信息的利用造成了极大的障碍。王松林认为,信息序化就是通过对信息外在特征和内容特征的表征和序化,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合。

在应用方面,如何挖掘微内容的商业价值也逐渐成为研究的热点。Chen和Xie认为,微内容是由大众知识导向的,对其进行加工而得到的信息产品,对企业有重大的商业价值。当无序、杂乱的微内容被加工后,Tam和Ho认为,这些信息产品就可以极大地影响普通网民和企业的认知和决策。

1、微内容的分类

根据微内容的表现形式的差异,将传统的微内容概念进行扩充,分为信息微内容和用户微内容两类。信息微内容即传统意义的微内容,包括用户创造的记录、对其他微内容的评论等。同时本文将用户微内容定义为:在网络中,标识每一个用户的多个角度的元数据集合。

“用户”指在Web2.0网站中过微内容的用户(简称信息提供者),区别于普通网民(个体序化信息接受者,简称个体接受者)中不提供信息的用户,例如只在Web2.0网站浏览而不生产内容的用户,和对Web2.0信息有更高层次需求的企业序化信息接受者(简称企业接受者)等,如豆瓣网和优酷网。

相比于信息微内容,用户微内容有特定的结构和意义(如用户的注册信息等),但如果不对这些孤立的信息进行序化加工或信息组织,就没有实际的应用价值。将用户微内容与信息微内容区分为不同类型,一方面可以对用户信息进行序化,这同样应作为Web2.0信息序化必不可少的一部分,尤其在社交网站中应用较多;另一方面,由于网络中存在部分用户借助Web 2.0平台广告、虚假信息或不负责任的评论等,用户微内容在过滤这些信息的创造者方面亦发挥重要作用。

Web2.0用户分类和微内容分类如图1所示:

综上所述,用户微内容来自Web2.0用户中的信息提供者自身,信息微内容来源于信息提供者的Web2.0信息。将这两部分微内容进行序化加工之后得到的序化结果,可以被两部分Web2.0用户所使用——作为个体接受者的网民注重从微内容中获得清晰、有序的信息,企业接受者则注重从微内容中得到具有商业价值的信息。

2、微内容序化指标

微内容是杂乱、无序的,微内容的序化即通过一定线索将杂乱的信息进行整合,从一个或多个维度将信息组织在一起,使孤立的信息处于不同维度的信息序列之中。这些维度就是对信息序化加工的依据,即微内容的序化指标。经过对多个主流的Web2.0网站的微内容进行汇总和抽象,可以发现,虽然各个网站的序化指标的名称各有不同,但本质上主要包括以下方面:

2.1 用户微内容的序化指标

2.1.1 用户基本信息 用户基本信息是最基本的用户微内容序化指标,一般是在注册时就需要用户提供,如姓名、性别、单位等,方便网民在Web2,0网站建立自己的人际网络。

2.1.2 标签 标签的内容是任意的。通过标签,可以构建一个多维的超空间(一般标签可以最多设置8至10个),每个用户都是这个空间的一个多维交叉点,在用户基本信息之外设置了新的用户序化角度,使用户在杂乱的Web2.0用户群中快速发现感兴趣的结果。

除了用户基本信息,还有很多指标可以刻画用户的网络行为特点,比如用户可信度、活跃度等,相关指标如下:

2.1.3 认证情况 现在大部分微博都提供了认证的功能,主要是为了确保微博的信息真实、准确,鼓励用户对自己言论的真实性负责。

2.1.4 微内容数量 用户创造的数量越多,表示用户在Web2.O网站中越活跃。

2.1.5 被关注数 一个用户的被关注数越大,就能代表他在人际圈中越活跃。

2.2 信息微内容的序化指标

2.2.1 微内容的质量 “微内容的质量”用来度量微内容自身的优劣程度。不同的用户由于能力或者态度的差异,会创造出不同质量的微内容。通过设置这一指标,可以将质量高的和质量低的微内容区分开,从而使质量高的微内容被保留,质量差的微内容被淘汰。

2.2.2 微内容的受关注程度 一个质量很高的微内容也许并不是很受关注的,受关注程度高的微内容更容易引起用户的重视,对用户的价值更高。

2.2.3 时间价值 一般来说,距当前时间越短的信息越有价值。使用时间价值可以方便用户追踪最新的最有价值的新闻,避免用户接收时间久远的大量无效信息。

2.2.4 标签 类似于用户微内容的标签指标,信息微内容的标签也可以从多个角度,尤其是传统分类方法不能涵盖的角度对微内容进行刻画,以便对微内容进行序化。

2.2.5 用户微内容的综合结果 不同类型的用户的微内容的质量有很大差别,一般活跃用户的微内容质量较高。另外,通过这个指标也可以将一些恶意的Web2.O用户的微内容过滤掉。

3、微内容序化层次

在获得了微内容的序化指标之后,就可以从不同维度对微内容进行序化加工。熊志云认为,信息整序过程,是根据人类已有的关于序化的知识体系,根据不同的序化目的,采用合适的方法,加工无序的对象并使之有序的过程。目前,主流的Web2.0网站中将微内容的序化加工分为三层。

3.1 单一指标的加工

第一层是对单一指标进行加工,得到序化结果。比如将“微内容的质量”指标由高到低进行排列,就可以得

上一篇:文本挖掘工具述评 下一篇:人文社会科学研究中文本挖掘技术应用进展