微博数据平台研究

时间:2022-10-24 08:03:58

微博数据平台研究

摘要:分析了微博平台的特点,描述了基于事件的微博数据记录与组织方式,界定了微博平台的核心信息行为、信息事件及信息实体,并对各类实体信息组织中所需要的核心维度进行了定义。从微博数据空间导航和信息单元展示的角度探讨了微博平台人机交互接口,最后提出了微博数据组织的发展趋势。

关键词:组织模型;数据组织;微博

中图分类号:TP301 文献标识码:A 文章编号文章编号:16727800(2014)001001503

作者简介作者简介:张咏梅(1977-),女,硕士,西华师范大学网络中心实验师,研究方向为网络应用。

0 引言

随着互联网的发展,以微博、SNS、微信等社交网络平台为代表的典型应用,在网友的日常生活中越来越重要。这些平台以社交网络为基础,组织各类文本、图像、声音、视频信息。伴随着便携移动终端的普及和无线网络的广泛布局,微博在近两年发展势头迅猛,微博平台创造了海量信息资源,而微博平台的信息组织展现出新的模式、方法和规律。

1 微博的特点

1.1 微博对用户的作用

微博作为松散、开放式社交网络支撑下的媒体平台,它是用户、信息内容和资源的集合体,使其成为理想的信息交流平台。从满足用户需求的角度看,微博平台的功能体现在如下方面:①与朋友和同事保持联系。关注他人,通过评论微博、转发微博、私信等方式保持联系;②使自己的信息被知晓。个人信息,自己的粉丝就可以马上获知;③根据兴趣和职业,获取有用信息。通过微博寻找新闻线索、潜在的科学问题和用户需求等;④寻求帮助和建议。类似于问答平台,通过微博问题,获得粉丝的帮助;⑤减压。浏览适当的信息内容,放松身心,减轻压力。

除了个人用户外,机构也是微博的用户,包括公司、报社、政府部门等,这些机构通过微博公开信息、征求意见、推广品牌、促销产品。因此,微博也是机构信息和互动的重要平台,我们将微博用户统称为“主体”(Agent),以囊括个人用户和机构用户。

1.2 微博的基本特征

微博与博客、BBS、SNS、即时通讯等都具有相关性,同时也有明显的不同。从主体的信息行为上看,其典型的特征包括:①主体信息。通过多种设备访问,个人用户和机构用户可以方便地短小的信息内容;②实时更新,现场直播。移动便携终端的普及,信息可以实时更新,具有现场直播的功能。

从信息传播的角度来看,它具备如下特征:①同步异步。微博是异步沟通工具,通过消息(评论、私信)的推送又能实现同步效果;②广播。微博条目是自己所见、所闻、所感的记录,每条微博都会广播给所有粉丝;③内嵌在社会网络之上。用户彼此关注形成社会网络,信息沿着社会网络的结构进行传播。

从信息格式及技术方案看,微博具备如下特征:①格式简洁。微博限制长度在140字,易于通过移动便携终端和阅读,降低了使用成本;②移动阅读,随时随地阅读。通过智能移动终端的应用接口,不受时空限制地使用;③基于微博用户的RSS种子。主体的微博被关注后,

就类似于RSS种子向粉丝推送信息。

1.3 微博的本质特征

上述基本特征除了微博具备外,许多其它信息平台也具备。与之相比,微博独具的特征如下:①与即时通讯相比,微博更开放,用户间易于彼此关注。而即时通讯以信息交流为目的,私密性强,社会网络结构具有小圈子特性和排他性;②与博客相比,二者内嵌于社会网络上,都以信息为目标,但从信息的多样性、方便性和社会网络的核心地位上看,微博更胜一筹;③与SNS相比,SNS在社交网络关系上更倾向于熟人网络,网络结构也具有一定的排他性,微博的公开性导致的信息传播性和新闻性更强,使之成为重要的新闻传播平台。

综上所述,微博区别于其它类似平台的本质特征是:①开放性。任何用户可以关注任何用户的微博数据,任何用户可以转发任何用户的微博数据。开放性强促进了信息传播与信息交流;②信息格式短小,方便和阅读。由于开放性和阅读方便性,使用户将其作为记录个人生活、记录机构行为的工具,相比其它媒体,信息内容多样化,如:个人所见所闻所感、机构公开信息、媒体信息等等,都能在微博上找到;③以社会网络为核心构架。微博通过粉丝方式,激励用户维系其社会关系网络并保证主体微博的受关注度,也因为社会网络的结构,导致信息的转发、订阅能够利用社会网络的特性,广泛传播。

2 面向信息事件的微博数据组织

微博作为信息、主体交流的平台,其信息组织不仅涉及信息本身,还涉及信息主体及其构成的社会网络,而信息的产生和网络的构建都是在一系列信息事件基础之上完成的。因此微博数据组织在微观层面需要解决微博平台的信息事件记录方式和模型中不同实体的表达方式。

2.1 微博数据是各类事件的记录

用户在微博平台中的行为会产生一系列信息事件,这些事件构成了微博数据事件集合,以事件为基础可对微博平台的各类信息进行有效组织。信息事件包括如下组成部分:事件主体、事件类型、事件发生时间、发生地点、信息单元内容、关联资源。

①事件主体:信息事件的执行者和参与者;②事件类型:根据不同信息行为对应的类型,类型不同,事件的描述方式不同;③事件发生时间:信息行为发生的时间;④发生地点:事件发生的具体地点;⑤信息单元内容:每个主体的信息内容,对应用户的每条微博;⑥关联资源:微博数据单元中引用的各类资源总称。

2.2 不同层次的信息事件组织

事件类型与表1中每层的信息行为相对应,可被微博平台记录的信息事件包括:

(1)社会网络层事件:①关注他人:主体1、主体2、时间、地点;②加入群组:主体、群组、时间、地点;③邀请好友:主体、好友列表、时间、地点;④推荐好友:主体1、主体2、好友列表、时间、地点。

(2)信息单元层事件:①微博:主体、时间、地点、信息单元、资源列表;②转发微博:主体、时间、地点、信息单元[转发微博]、参考信息单元;③评论微博:主体、时间、地点、信息单元[评论微博]、参考信息单元、资源列表;④回复评论:主体、时间、地点、信息单元、参考信息单元[评论微博]、资源列表;⑤投票:主体、时间、地点、信息单元、投票单元、资源列表;⑥私信交流:主体1、主体2、时间、地点、信息单元、资源列表。

(3)资源层事件:①上传资源:主体、时间、地点、资源列表;②标注资源:主体、时间、地点、资源ID、资源描述单元。

2.3 信息事件中的核心实体

通过对信息事件的描述,可以从中抽取出核心实体,并为实体添加属性信息描述。

(1)主体(Agent):主体是信息事件的执行者和参与者,作为实体,其具备分类体系,同时具备相应的属性信息。在用户注册时,会初始化这些属性信息。主体具备的信息包括:

[ Agent分类,Agent属性标注(职业、兴趣标签、年龄……)]

(2)群组(Group):群组是由某个主体创建的用户组,它由多个主体构成,按照兴趣、行业等标准进行分类,具备分类体系,同时具备群组标题、兴趣等信息。群组具备的信息包括:

[ Group分类,Group属性标注(标题,群主,管理员列表,群简介……)]

(3)信息单元(Information Unit,IU):信息单元是用户的微博,可以根据微博目的予以分类(如:转发微博、评论微博、原创微博),也可按照微博内容的主题进行分类。信息单元具备的信息包括:

[ IU分类,IU属性标注(转发数,评论数,收藏数,……)]

(4)资源(Resource):资源是信息单元的基础,信息单元是对资源的集成,资源可按照媒体形式分类,也可按照资源内容主题分类,而每个资源都可以采用通用的元数据标准(如DC元数据)加以标注,其具备的信息包括:

[ 资源分类,资源属性标注(链接、主题标签、资源拥有者、创建日期、语种……)]

2.4 语义网络构建

在语义网络层,包含主体、信息单元、资源之外的其它类型的实体,如机构、公司、会议、比赛等,这些语义实体多种多样,涉及领域知识。社会网络层、信息单元层、资源层的信息行为将生成大量事件记录,通过这些记录以及相关的信息单元和资源,利用内容分析、语义对象提取、语义关联提取算法和工具,可以构造语义网络,实现语义检索、语义组织和语义推理,使微博数据资源的利用上升到语义层面。语义网络层以前三层为基础,通过语义实体识别和关系抽取算法,并辅以群体协作的方式,通过群体智能实现语义网络的构建。

3 微博数据组织核心维度

在微博平台中,根据上述层次模型和事件模型,选择核心实体的重要属性作为微博数据组织的核心维度。这些维度包括:时间维、地点维、类目标签维、主题标引维、社交网络属性维、资源网络属性维、信息单元网络属性维、语义网络属性维等,如表1所示。

社交网络属性维[]从社会网络分析的角度,提取相关的属性维度,如(入度:粉丝数;出度:关注数;中介中心性:跨组传播能力),这些维度,可以成为某类实体重要的序性指标

信息单元网络属性维[]信息单元之间相互参考和引用,通过转发、评论行为,形成信息单元网络,信息单元网络与社会网络紧密相关,又独立存在,转发数、评论数等属性,是信息单元排序和展示的重要维度

资源网络属性维[]资源包括图像、视频、音频、文本等,这些资源之间的关系包括:引用关系(一个文章参考另一个文章)、共被引关系(2个资源在一个信息单元中同被引用)等,这样形成资源网络,这些属性可以作为资源节点及其网络的序性指标

语义网络属性维[]语义单元之间彼此关联,形成语义网络,这些语义网络中的语义单元及其关联,构成了新的信息组织维度,同样通过映射复杂网络中的相关指标,作为序性指标,可用于语义层面信息统计分析、挖掘和预测

4 微博平台信息组织发展趋势

微博成为日益重要的信息平台,其信息组织的方式和方法也围绕微博平台功能升级和微博用户的高层需求不断发展,从信息组织的目的上看,它的发展趋势如下:

4.1 地理信息可视化与分析

地理信息的使用日益广泛,微博与移动平台的整合使地理信息的采集变得方便,微博数据组织也应朝着地理信息可视化、分析、挖掘与利用的方向演进,并催生一系列基于地理信息的应用。

4.2 语义提取与挖掘

随着第三代互联网语义网(Semantic Web)的发展,各类信息资源的组织和应用也将朝着这个方向演进。微博平台的信息组织也需要采用相关的语义内容表达、存储规范和标准,使其能在语义层面上得到有效组织。

4.3 信息空间可视化表达

随着可视化技术的广泛应用,微博数据空间也将朝着可视化方向发展。为用户提供更易识别和理解的信息界面,同时有效地展示网络结构的信息和树状结构的信息。

4.4 网络分析

复杂网络研究引领了各个领域的研究热潮。微博平台的社会关系网络和信息单元网络都属于复杂网络的范畴。充分利用已有的复杂网络和社会关系网络的研究成果,进行网络分析,提取合适的序性指标和分类指标,是微博数据资源利用发展的趋势。可进行的网络分析包括:社会网络分析、语义网络分析、资源网络分析、信息单元网络分析等。

参考文献参考文献:

[1] 陆伟,魏泉,寇广增.基于Blog的网络信息组织[J].情报科学,2005(2):260263.

[2] 王树义,王鑫.基于微博客Twitter的企业竞争情报搜集[J].情报学报,2010(3):522545.

[3] 曹平.微博客的信息组织建设及对图书馆的启示[J].甘肃科技,2011(12):8991.

[4] 余波.微博的情报学意义探讨[J].图书情报工作,2010,54(22):5760.

上一篇:MOOC课程模式及其对高校的影响 下一篇:基于事件触发的六边形分布式分簇多跳路由协议