微型内容:微格式的解决思路

时间:2022-08-22 09:02:03

微型内容:微格式的解决思路

【摘要】基于微型内容的发展现状,文章分析了微格式的意义和作用,认为微格式体现和拓展了对信息内容分割、结构分块的思考和尝试。详细探讨了微格式的信息分割处理功能,指出微格式在微型内容的识别和提取过程中所处的地位,展望其应用于微型学习的发展前景。

【关键词】微格内容;微格式;信息识别;信息分割;信息提取

【中图分类号】G40-057 【文献标识码】A 【论文编号】1009―8097(2011)03―0095―05

网络环境中微型的、片段化的内容,以其更易、更易流传、相对更高语义密度等特征,吸引了新一代网民的积极关注。如社会化网站和应用中的“状态栏”服务,专门推送短小内容的Twitter、微博等网络服务等,在短时间内就受到了热烈的追捧。仅微博一项,早在2010年9月,新浪《中国微博元年市场白皮书》引用DCCI网络调研数据预计:到2010年底,中国互联网微博累计活跃注册账户数将突破6500万,2011年中将突破1亿,2013年底这一数字有望突破4.6亿[1]。

为了更轻松更快捷地获得微型内容,除了提升终端设备的硬件性能外,微型内容获取和处理过程也越来越引起关注。在向用户推送微型化的内容之前,必须面对几个问题:如何便捷地进行信息分割?如何自动地从宏内容抽取微型内容?如何提高微型内容的语义密度?本文将简单介绍微格式这一概念,以及微格式在面对以上问题时的解决思路。

一 微型内容与宏内容

1998年Nielsen提出微型内容的概念时,将其定义为用来概括宏大内容的短小精要的东西[2]。一篇新闻的标题、网页的标题介绍、E-mail的主题等都可被看作是微型内容。在Web2.0的新媒介环境下,微型内容被认为是“小片段、松散连接、一直处于动态重组中”的信息单元,也称作微内容[3]。只要能够满足实用目标的某个自包含的知识组块即可看做是微内容,首先,这些知识组块可以来自任何一种信息,一则新闻、一段解释、一个小游戏,甚至一组微型测试题。其次,微型内容不限定信息呈现形式,可以是一小段文本、一个图片或图像、一小段音频或视频片段或者就是一个链接。微型内容的生产和传播过程表现出“自媒体”的特征,主要依靠用户自己创建。服务提供商是直接面对和处理用户产生的微型内容,而不是从非微型内容(即宏内容Macrocontent)中抽取微型内容。内容的微型化实际上由用户或者专门者完成,网络服务只负责微型化后的推送传播。宏内容和微内容之间的转化沟通过程依靠的是人类智能。如图1(a)所示。

微内容的提取最初是为了快速预览,在搜索引擎等信息检索领域得到发展。尽管新浪的《中国微薄元年白皮书》宣称以微博为代表的微内容服务呈现欣欣向荣的趋势,但宏内容的信息毕竟在积累上更深厚,从信息“重用(reuse)”的角度来看,“对宏内容进行分解或抽取”也值得为之努力[4]。像搜索引擎的优化趋势一样,微型内容的生成必然会越来越多地依靠机器智能从宏内容中自动生成,如图1(b)所示。

微内容兴盛于宏内容之后,两者的发展存在时间差距和结构差别。微内容向宏内容中整合似乎更易实现,反之则不然。目前宏内容信息向微内容站点嵌入采用引用链接跳转的方式,这种方式技术门槛低,但没经过信息识别和提取,只是全盘引址。要想通过机器读取方式从宏内容中获取微内容,并进一步进行移动终端的推送服务,需要解决一个最核心的问题:如何让机器读懂宏内容中不同类型不同结构的信息。

二 微格式及其解决思路

微格式(Microformats),简单地说是一种元数据,它是用来分割、标注信息内容的数据格式。微格式官网上对其的解释为“秉持着人类优先、机器次之的设计概念、建立在现有的且被广泛采用的标准之上的一系列简单、开放的数据格式。”[5]实际上,微格式是注入到Web页面中的小段信息,通过语义相关让信息块内容人机可读。微格式不是新的标记语言,它是在标准 XHTML代码中嵌入结构化数据[6]的一种新方法,其实质还是XML语言。微格式的技术体系如图2所示。

虽然将微格式看作是跨入语义网(Semantic Web)时代的标志还过于乐观,但其在语义结构化方面带来的极大影响是不可忽视的。微格式在分割信息和网页结构化方面存在巨大潜力,这正是抽取微型内容的立足点。

1 微格式对信息的分割标注

微格式是一种网页信息标记语言,对于浏览网站页面的用户来说是完全“透明的”,它的价值在于构建Web站点时,完成了对小片段信息的分类整理工作。用户并不能从网页上看到编写者在哪里运用了微格式,但当信息在网站的各个功能模块之间流通时,统一的、合理的微格式设计就能够更有针对性更高效地引导信息。

从普遍意义上来看,所有的网站都有“item lists”,即将人、物、事等信息以列表的形式列出,这种方式一目了然方便查看。比如:

某位联系人的姓名、职务信息、email地址等联系信息;

某次聚会的主题、地点、时间、注意事项等事件信息;

某个群体内部各个成员之间的关系等关系信息;

……

如果是将数据读出显示在页面上,这种列表很容易完成,但外部的应用程序要从某一页面上将这些信息读出来时则会有机器无法识别的问题。对于机器来说,读到一串数字对它没有任何附带的实际意义:它无法分辨当前读到的数字是一个门牌号码、电话号码,还是物品价格等等。我们可以设想每个应用程序都配置一整套识别方案,但如此做工作量浩大。微格式的使用和处理使得数据项目可被列表、查找、保存和对照,进而也可以实现重复使用和组合使用[7]。

在标注网页信息时,根据具体数据类型不同(如上文所列出的联系方式、事件、关系等),应选用不同的微格式子集。目前已开放的较稳定版本的微格式子集如下表所示。

其中,hCalendar和hCard下文将会详细介绍。除了表中所列,还有更多的其他微格式子类型,大多处于不断更新的草稿状态。如用于标注地址信息的adr、用于标注地理位置经纬度的geo、用于同步标注博客等内容更新信息的hAtom……

通过微格式技术体系 ,可以定义和标记任何可以在网上的数据类型,或多数据类型组成的信息集合[8],实现第三方工具的抽取、转换。微格式提供了“一种简单可行、易于操作的语义之路”[9],提供了参照性的编码格式和标注语言。

2 微格式分割信息的好处

(1) 标注和分割页面信息

以最常用到的hCalendar为例来看。早在微格式概念被提出的2005年年底,Yahoo就已经收购了一个采用了微格式的网络服务Upcoming(upcoming.省略),该网站就大量使用了hCalendar(甚至是rel-tag)来规范和结构化成千上百条事件(event)的信息,使得用户能够搜寻和跟踪这些信息并且可以以事件为核心构建网络虚拟社区。我们可以从Upcoming了解一下微格式具体是怎么分割信息并实现数据的结构化的。先来简单了解一下hCalendar。它是基于已被广泛使用的iCalendar标准(RFC2445)的一个标准格式。主要使用的类(class)名有:根类名vcalendar和事件类名vevent。为了编码便捷,允许没有vcalendar类的时候将vevent作为根类名进行解码。hCalendar常用属性有很多,开始时间dtstart、摘要summary、地点location、链接地址url、结束时间dtend、持续时间duration等等不一而足,其中前两项为必备属性,其余可选。来看个简单的,按照某个特定标签(tag)或者是地点来列出事件信息的页面。图3展示的是Upcoming网站的一页截图,根据用户要求的标签(Mobile)以及地点(All Places)给出的订阅事件列表。这个列表尽管简单,但每一条事件记录都采用了hCalendar来进行数据标注。

抽取其中一条记录背后的代码(有删减)来看,我们可以了解hCalendar是如何分割开每条记录的。

Oct 27+

Webit Expo & Conferences 2010

Sofija

4

从以上代码中我们可以看到每条记录都使用了hCalendar中的vevent类来进行包装和区分,使用了必备的dstart和summary,以及可选的location属性。设想一下,如果需要设计一个应用来读取该页面上的事件列表,如何告诉程序待读取的记录从哪里开始?该代码中当然是以vevent作为标志,该标志让程序编写者有了统一格式的识别目标,这就是使用微格式带来的便捷。微格式的这种解决方案是从站点编写者的举手之劳建立起第三方程序开发者的逻辑便捷。拓展到Internet的网站网页海洋,其聚集起来的省力效果是可观的。

再看一个详细介绍某条记录的页面,见图4。这是一个叫做Social Media Masters Class的在线课程event,该页面包括了事件标题、时间、所在地、详细介绍等等。这是一个依托于普通社会站点的在线课程例子,从它看来,我们完全能够使用微格式来常规的娱乐、会议、商务、教育活动、讲座等等信息。

(2)浏览器的信息提取导出服务

基于微格式的信息提取和推送已经有不少应用。举例来讲,火狐的扩展中就有不少地址查询、网址分析和微格式信息汇总导出等服务。在其附加组件中查找microformats能够找到它们,如图5所示。其中的Operator应用扩展,能够识别、提取、导出当前浏览页面中的微格式信息,支持联系人(vCard)、事件(hCalendar)、地理位置(geo)等多种微格式子集,见图6。

(3)跨平台和服务的信息处理在Emerging Technology Conference(ETech)上,微软推出了其Windows Live系列产品新秀Live Clipboard[10]。顾名思义,该产品提供的是在线剪贴板服务功能,但又与普通概念的复制粘贴不同。Live Clipboard可以跨越不同站点平台、不同浏览器,以及本地PC应用程序之间,提供结构性信息的流通服务。这里的结构性信息,正是借助了微格式分割并结构化后的“信息块”。举例来说:Hotmail、Yahoo以及本地电脑的Outlook都提供Calendar服务,以方便用户安排工作日程和团队工作,通过Live Clipboard,用户可以在这三者之间任意进行日程安排信息的交换,与普通复制粘贴不同的是,用户得到的结果将按照目的程序的条目结构直接写入目的日程表中。在Live Clipboard的网站(www.省略),我们可以找到其开放的程序源代码和页面显示代码。其示例页面上能够看到Live Clipboard至少支持微格式的hCard 和hCalendar子集,其样例和部分页面代码如图7所示。

三 总结和展望

运用微格式可以更快速准确地将数据分类传输,迎合微型内容的松散组合要求。图8总结并展示了微格式在信息处理过程中的位置和作用。

微格式并不是一个专注于技术挖掘的高深概念,理解并不难,使用也越来越容易。部分微格式子集(hCalendar、hCard和XFN)已经有了专用的代码生成工具,称为Creator,用户只需将关键信息填入表单,就可得到符合微格式的代码。

微格式不仅在网站建设、浏览器扩展、跨平台服务方面具有优势,在与移动情境融合方面也存在广阔的应用前景。虽然移动终端服务方面起步较晚,但随着各类移动应用的发展,用于用户个人信息、通讯录、备忘录等结构化信息交换越来越频繁,可以将微格式标注的统一格式信息发送到手机等移动终端的技术(如诺基亚开发的移动Widgets等)也已经相当成熟,可以实现将网站中用户订阅的event自动对应写入手机中的日历备忘栏中等等。

在微型学习领域,由于使用移动终端学习要求学习内容短小精悍,微型学习在很大程度上基于微型内容,我们不妨将应用于微型学习的微型内容称为微型学习内容。从设计的角度来看,微型学习内容,在内容层面刚好可以容纳一个小的实用性学习主题;而在技术层面上,则可以由机器识别和提取,并推送至某种移动设备上清晰呈现[11]。当涉及到小屏幕、小容量、低速率的微型移动学习终端时,微格式所致力的微型内容识别和提取技术成为微型内容与微型学习发展的关键技术之一。我们不妨设想,使用微格式定义和标记微型学习的有关信息,如课程对象、教师信息、资源分类等等,能够更加优化学习资源的索引和调用,并允许第三方应用程序将读出的结构化信息进行简单的整理,推送到移动终端,带来更令人满意的学习和交互体验。

参考文献

[1] 蔡伟.新浪中国微博市场首份白皮书――微博成熟还需再等三年[N].南方日报,2010-9-10(A17).

[2] Jakob Nielsen. Microcontent: How to Write Headlines,Page Titles, and Subject Lines[EB/OL].

[3]What is microlearning[EB/OL].

[4] Arnaud Leene. The MicroWeb-using microcontent in theory and practice[DB/OL].

[5] What are microformats[EB/OL].省略/wiki/what-are-microformats.>

[6] Jack D. Herrington.Separate Data and Formatting with Microformats:Create Simple, Pragmatic Formats for the Semantic Web[EB/OL].

[7] Microformat-Wikipedia[EB/OL].

[8] 李书宁.基于微格式的信息组织与处理框架[J].图书情报工作, 2007,(8) :35-37,112.

[9] Danny A. The short path to the future web[J]. IEEE InternetComputing, 2006, (11-12) : 77-79.

[10] Nat Torkington. ETech: Ray Ozzie[DB/OL].

[11] 顾小清,顾凤佳.微型学习策略 :设计移动学习[J].中国电化教育.2008,(3) :17-21.

MicroContent: Microformats' Solution

XIE Ming-ying GU Xiao-qing

(School of Education Science, East China Normal University, Shanghai 200062,China)

Abstract: Base on the development of microcontent, this article analyzed the meaning and role of microformats, took microformats as an approach that can embody and expand people's thinking and trying in information division and structure. It investigated what can microformats do in identifying, dividing, and extracting information, and then summarized the important role of miroformats and their potential in the heated new microlearning area.

Keywords: microcontent; microformats; information identification; information division; information extraction

上一篇:基于SOP的网络课程平台管理模式的研究与实践 下一篇:现代教育技术公共课教学内容组织的探讨