“北大博文”的思路\做法及思考

时间:2022-10-08 12:10:24

“北大博文”的思路\做法及思考

摘要 介绍了国内首个收集整理博客文章的数据库“北大博文”的创意思路、可行性调查、具体做法,以及所使用软件平台。并对博客收集范围,博客文章整理的方式等进行了思考。

关键词 北大博文 网络资源 博客

2010年9月23日,北大图书馆白建数据库“北大博文”(http://bowen.lib.pku.省略/)正式对外。顾名思义,“北大博文”是汇集北大人博客文章的特色数据库。

据笔者粗略的调查,“北大博文”是国内首家收集整理博客文章的数据库,是网络资源整理开发的新的尝试。作为此类数据库的探索性建设,“北大博文”虽然并不完美,但它却具有一定的探索和借鉴意义。笔者不揣浅陋,拟就“北大博文”的建设思路、具体做法及相关思考三方面略加介绍,以就教于方家。

1 建设思路

1.1 最初的创意

“北大博文”是由北大图书馆特藏部创意建设的。最初的灵感来自对“博客”这一日渐流行的网络交流传播形式的关注。

“博客”是继E-mail、BBS、ICQ之后出现的网络交流媒介之一,大约2000年左右在中国开始流行,在网上开设博客一度成为时尚。博客之所以吸引大众的参与,在于它自由的表达方式和平等的发表环境。但毋庸讳言的是,精英博客的影响力一般远远大于普通人的博客。

在关注博客的过程中,我们注意到,北大的很多学者都开设了自己的博客,并且显示出越来越巨大的影响力,这与他们以及北大在学术界的声誉地位有很大的关系。从我们的深入调查看,虽然有的学者浅尝辄止,但仍有不少学者对博客这种自由便捷的思想表达和传播方式情有独钟,数年下来,“积攒”了数百篇博文的学者大有人在。陈平原、饶毅、张维迎、曹文轩、贺卫方、孔庆东、何怀宏、吴国盛、王岳川、张颐武、郑也夫、林毅夫、汪丁丁、姚洋,……这些北大的名师,不仅在学术圈内声名显赫,他们的博客在普通人群中也具有很强大的号召力,拥有众多的爱好者、支持者。

北大学者博文的内容,我们可以借用“北大博文”的广告词来概括:“这里有独坐书斋的玄思冥想,这里有放眼天下的激扬文字,这里有苦辣酸甜的北大往事,这里有睿智幽默的人生感悟。”应该说,“北大博文”的内容正是北大学术文化传统的很好的体现。众所周知,北大学者既潜心学术,苦苦求索,又以天下为己任,关心时事。翻开北大的百余年历史,我们可以看到以北大教授为核心的《新青年》编辑部同仁对中国思想文化的巨大影响;可以了解回国之初发誓“二十年不谈政治”的胡适,于1922年创办《努力周报》,忍不住公开批评时政;可以发现抨击孔、宋权贵,被称为“傅大炮”的傅斯年……。可以说,北大的学术思想的影响,不仅限于北大,也不仅限于学术界,已经扩展到中国思想、文化、政治等广阔领域。正是由于这种积极人世、关心天下事的传统,北大学者的博文往往关注当下的时事问题,如国家发展研究院、光华管理学院、经济学院的学者经常对当前经济热点问题提出自己的看法,北大法学院的教授则对时下的法律热点问题进行解读或批评等等。他们既具有广博的专业知识,又具有敏锐的现实洞察力,因此发表的博文往往分析透彻,切中要害,深受喜欢思考现实问题的读者的喜爱。

从北大学者博客的内容看,这些博文相当于书写时代的日记、札记、随笔等,这些资料不仅是他们个人的学术史和传记的重要资料,也是北大学术史,乃至中国思想文化史的重要资料,这些博客将成为未来历史学家研究我们这个时代的重要参考。此外,由于博客的自由随意的特点,很多博文更能反映北大学者的真性情,这些文字是在正式出版的著作、论文中难得一见的,因此更显珍贵。

从目前北大学者的博客看,他们一般都散见于不同的网站,如新浪、搜狐、网易等,而且很多人的博客都经历了几次“搬迁”,这就给阅读者带来很大不便。

另一方面,由于博客服务提供商的不稳定性,而且由于他们提供的是免费博客托管,往往对博客服务的安全性和稳定性不承担任何责任,一旦博客服务提供商出现问题或者中断服务,后果可想而知。因此,博客在长期存取方面存在很大的隐患。

鉴于上述原因,我们认为有必要对北大学者的博客进行收集整理,保存这些珍贵而易被忽视、遗失的资料,同时为读者浏览提供方便。

1.2 可行性调查分析

据笔者调查,目前国内讨论图书馆收藏博客资源的论文仅有浙江传媒学院图书馆朱丹阳的《博客作为图书馆馆藏资源的可能性初探》。此外,武汉大学图书馆的谢春枝探讨了博客长期存取的问题。实践方面,据介绍,英国2004年开始的第一个公众网络信息保存计划UKWAC就包括博客的归档保存,而新加坡国家图书馆则计划于2010年前对在新加坡注册的所有博客进行存档。

在确定对北大学者博客进行收集、整理、保存的必要性之后,我们对此项创意的可行性进行了调查分析,主要包括以下三个方面。

1.2.1 硬件保证

就现在博文的情况而言,一般以文字为主,即使涉及图片,一般都比较小。因此,博文数据库对于计算机和网络等硬件方面没有太高的要求。

1.2.2 读者群

随着网络的普及,网络阅读已经成为很多人的重要阅读方式,这其中就包括博文的阅读。而北大学者博客现在和潜在的影响力都不容低估,他们的博文会受到校内外读者的喜爱。

1.2.3 现有博文的规模

所谓“巧妇难为无米之炊”,“北大博文”能否成功的关键在于北大学者的博文是否已经具有一定的规模。据我们不完全网络调查,北大学者拥有自己博客的至少有70余人,其中经常坚持更新的有30余人,累计博文在一百篇以上的有22人,其中三人的累计量更是高达七八百篇。从上述调查情况看,“北大博文”已有数千篇的基本积累,并且可以保证每天数篇的更新量,既有一定规模,又有一定的发展前景。

如果说上面讨论的三个方面大致相当于“北大博文”建设的天时、地利,那么可以说,“北大博文”还具备了建设的“人和”因素。首先,特藏部提出的“北大博文”创意得到北大图书馆领导的肯定和大力支持。其次,特藏部和系统部积极协作,特藏部负责“北大博文”的总体设计,系统部负责软件平台的开发维护。于是,在各方面条件都很成熟有利的情况下,“北大博文”顺利建成。

2 “北大博文”具体做法

2.1 博文收集和

在进行了一定的博文阅读,并经多次协商讨论之后,我们决定采取先经网络聚合器收集,再人工遴选的办法,对于没有收集的旧博文和没有订阅地址的博客,则采取人工收集的方式,然后在平台整理。

此外,我们认为有必要对博文的内容进行一定的分析归类,为读者的阅读提供一定的引导和帮助。经过研究,我们设立了六大类栏目:人文时事、人生百味、北大往事、燕园论学、休闲娱乐、职场经验。为方便读者,“北大博文”首页设有分类检索和按院系浏览栏。

2.2 软件平台

“北大博文”主要分为收集和两大环节,由于目前无法做到将二者结合,一步到位,系统部设计了采集和两个平台,均采用开源软件。在软件平台的选择上,我们做了综合考虑:一是数据要有很好的互操作性,便于管理和维护,避免出现“信息孤岛”。二是软件平台需要有非常好的开放性,便于图书馆本地设计界面风格、增减功能。现分别加以介绍:

2.2.1 开源采集平台Gregarius

Gregarius是一款基于Web的RSS/RDF/AT-OM新闻聚合器。通过它可以收割来自不同博客源的数据。同时可以OPML标准导人/导出数据。

2.2.省略/extend/themes/)和功能插件(http:// /extend/luginsf),也可以本地开发相应主题和插件。除此之外,在数据互操作性方面也非常友好,用户可以利用WordPress自带数据工具导出XML格式的数据,还可以利用开源社区的功能插件,如Export Post插件、PhotoGallery XML Export插件等与其他数据系统进行数据互操作,避免系统成为一个信息孤岛。

2.3 具体操作

“北大博文”的操作比较简单,首先利用“北大博文聚合服务器”实时收集更新博文,然后通过Word-Press控制台编辑博文。主要需要操作的各项包括添加博文题名,编辑博客文本,添加博主姓名、博客地址、博文时间、博主所在院系等内容,给出博文分类等。

3 一些思考

“北大博文”自以来,已博文1300余篇,引起读者的关注,受到读者的好评,读者浏览量也不断上升,月浏览量已经上升到近9000次(2010年11月24日至12月23日)。从2010年11月24日至12月23日一个月的调查统计看,访问者52%来自北京,其余则来自北京以外各省市,以河南、广东、江苏、山东等省为多。

“北大博文”后,也吸引了一些读者积极参与,经济学院、马克思主义学院两位老师主动联系我们,要求添加他们的博客。同时,也有读者与我们联系,提出改善意见。

在进行博文的收集整理过程中,笔者也对遇到的问题进行了一些思考。

3.1 组织形式

收集博文的形式问题,是采取我们目前的收集整理重新的方式,还是采取网络聚合的方式?应该说这两种方式各有利弊,前者便于工作人员对博客内容进行一定的筛选,并为读者阅读提供一定的引导,不足是要一篇篇手工添加,比较费时费力,而且不能保持博客的原貌。后者只要添加订阅地址,后续工作由网络聚合器自动执行,比较方便易行,不足是不能对博客内容进行管理控制,而且对于没有订阅地址的博客无法收入,也无法回溯旧的博文。

3.2 遴选标准

博客是全部照收,还是有所挑选。笔者现在执行的原则是坚持原创性,对于转贴的文字一律不收。在具体内容上,一些与博文没有直接关系的照片不收,一些容易引起歧义或争执的博文暂时不收。这样的做法,无疑会对保持博文的完整性产生影响,具体应该如何处理,还须进一步探讨。

3.3 收藏内容

从收藏内容看,高校师生博客可以看作高校文库的新的潜在收藏资源。从这一意义上说,“北大博文”现在的收录范围还是比较狭窄的,需要扩充到学生和更多的老师。另外,由于人力有限,我们目前收录的以北大人文社科的学者的博客为主,而且以最新博客为主,他们往日的积累还没有完全回溯。因此,我们认为,“北大博文”还有很多工作要做,具体包括:

3.3.1 收集和征集更多的博客

(1)教师博客

由于教师博客一般采用实名,这就为搜索他们的博客提供了方便。下一步准备对理工科各院系老师的博客实行“地毯式搜索”,进一步发现新的博客。此外还要通过一定的形式宣传“北大博文”,征集博客地址。

(2)学生博客

学生博客一般不使用实名,即使采用实名,由于重名者很多,给辨别博主是否为北大学生带来很大困难。北大学生思想活跃,他们的博客也是不容忽视的重要资源,因此必须想办法通过诸如公开征集、深入调查等方式来收集他们的博客。

3.3.2 已经收集博客的回溯

由于目前博文采取人工拷贝粘贴的方式,旧博客的回溯非常费功夫,需要一定的人力保障。

3.3.3 关注并考虑是否收录“微博”

“微博”由于技术门槛低,途径多而颇受青睐。北大人的微博现状如何,需要加以调查,并根据实际情况决定是否收入“北大博文”。

“北大博文”是我们对网络资源整理开发的一个尝试,它多少体现了E时代图书馆人在资源整合方面的重要作用,同时也提醒我们关注新的媒介资源,及时加以收集、整理和保存,并提供相应的服务。

最后,我们希望“北大博文”能够起到“抛砖引玉”的作用,期待更多同仁加入到博客的收集整理行列,彼此互通有无,共同提高。

作者单位:北京大学图书馆,北京,100871

上一篇:复旦大学图书馆期刊回溯项目管理 下一篇:科技期刊页码编排体系及其未来演变探析