中文古籍数字化的主体构成及协作机制初探

时间:2022-07-17 09:10:09

中文古籍数字化的主体构成及协作机制初探

摘要:通过网络和文献调研,将中文古籍数字化主体归为图书馆、学术机构和数字企业三大类型。以表格的形式展示了各大主体的古籍数字化成果,分析了它们各自的数据类型、系统功能及选题分布方面的特点,指出它们之间存在很强的互补性。以理论探讨的方式,提出了古籍数字化协作机制的构建途径。

关键词:古籍 古籍数字化 主体构成 协作机制

中图分类号: G255.1 文献标识码: A 文章编号: 1003-6938(2010)01-0034-11

A Tentative Study on Subject Formation and Cooperative Mechanism of Chinese Ancient Book Digitization

Li MingjieYu Youyou(School of Information Management of Wuhan University, Wuhan, Hubei, 430072)

Abstract: The subjects of Chinese ancient book digitization are libraries, academic institutions, and digital enterprise through network and document investigation. This paper reveals, in the form of tables, the respective digital achievements of the three kind of subjects, analyzes their characteristics of data type, system function, and topic distribution, and points out the strong complementarities of them. The construction way of cooperative mechanism for ancient book digitization was put forward with theoretical probe.

Key Words: ancient book; ancient book digitization; subject formation; cooperative mechanism

CLC number: G255.1Document code: AArticle ID: 1003-6938(2010)01-0034-11

中国古籍数字化始于20世纪80年代初,历经近30年的发展,已完成了以下三个转变:数字内容由单一的书目数据向全文数据、图像数据和图文数据相结合的转变;载体形式由单机版向光盘版、网络版的转变;系统功能由检索工具向知识工具、研究工具的转变。迄今为止,不少学者已撰文对中国古籍数字化的总体发展作了总结,如李国新《中国古籍资源数据库的进展与任务》、[1 ]潘德利《中国古籍数字化进程与展望》、[2 ]陈力《中国古籍数字化的现状与展望》、[3 ]段泽勇《古籍数字化的回顾与展望》、吴家驹《中文古籍数字化的进展与主要成果述评》等,[4 ]对中国古籍数字化的发展阶段、成果类型、存在问题等作了宏观考察,并对古籍数字化发展方向进行了展望。鉴于此,本文不再赘述以上内容,而是从古籍数字化的主体构成入手,分析每种主体古籍数字化成果的数据类型、系统功能、选题分布等方面的特点,探讨各种主体协作开发数字化古籍的可能性及具体的协作机制。

笔者通过网络调研和文献调查发现,参与古籍数字化的主体主要由三类机构构成,即图书馆、学术机构和数字企业。从构成数量来看,图书馆最多,有79家,占65.3%;学术机构其次,有33家,占27.3%;数字企业最少,只有9家,占7.4%。以下是对这三类主体的古籍数字化产品的具体调研情况。

1图书馆及古籍数字化成就

根据调查结果,我们将国内外各类型图书馆所建古籍数据库的情况,按来源、数据库名称、数据类型及数量制成表1。

表1显示,各类型图书馆共建有古籍数据库121种。从数据类型来看,纯书目型数据库最多,有72种,占59.5%;图文型数据库有13种,占10.8%;纯文本的全文型数据库、纯影像数据库及书目与影像相结合的数据库均为12种,占9.9%。这说明图书馆主要是提供书目数据,部分能提供全文与影像信息。从功能来看,图书馆所建古籍数字化系统大多只能进行一般的书目检索和全文或影像的浏览。这表明,图书馆的古籍数字化水平还比较低,仍停留在揭示馆藏的层面,但不容否认,图书馆在古籍数字化领域的潜力非常巨大。从选题来看,公共图书馆非常注重根据自己馆藏的地方特色来开发本土文化资源,特别是地方文献(方志及家谱等)的数字化得到了重视,如贵州省图书馆、重庆图书馆、绍兴图书馆、常熟图书馆、湖州图书馆、吴江图书馆等开发了地方志数据库,山西和安徽两省图书馆、绍兴图书馆、福州图书馆等开发了谱牒数据库,较好地满足了人们了解乡土文化的需求。一些具有专业特色的数据库较好地满足了人们专业研究的需求,如首都图书馆开发的明清北京城垣资源库、清华大学图书馆的科技典籍全文库、中国农业大学图书馆的农书古籍全文数据库、南京图书馆的中国传统体育图片数据库、苏州大学图书馆的中国汉代画像石砖数据库等。从整个数字化成果的分布来看,以小型数据库居多,资源开发重复率小,公益性和地域性是其特色。

2学术机构及古籍数字化成果

科学研究是实践的先导。早在上世纪70年代,一些学术机构(个人)就开始研制古籍机编索引。通过文献调研及对相关网站的访问,我们回溯性地列出了相关学术机构在古籍数字化领域取得的成果,如表2所示。

从表2可以看出,学术机构开发的古籍数字化系统具有以下特点:一是时间跨度比较长,参与的机构和个人数量比较多;二是注重满足教学和科研的实际需要,选题多集中在古典文学和历史研究领域,非常具有针对性和实用性;三是系统功能参差不齐,早期开发的系统一般只有简单的字词索引功能,而后期的古籍数字化系统功能比较强大,有的甚至突破了全文检索的信息提供模式,如北京大学开发的《全宋诗》分析系统具有重出诗提取、格律诗标注、字及字组的频率分布统计、用户自作诗的格律分析等功能,带有智能化特点,在数据深层挖掘和知识发现方面具有开创性意义。该系统提供多维的检索分析方式,为中国古代文学、古代汉语、文献学等研究领域提供了可靠的分析数据。它标志着计算机科学在中文信息处理应用方面由全文检索的信息提供模式开始转向智能分析模式。

3数字企业及古籍数字化产品

随着信息技术的发展和出版体制的放开,一些新兴的数字企业凭借其掌握的数字出版技术,借助现代企业运作模式和管理手段,很快就在古籍数字化领域立稳了脚跟。表3展示了国内数字企业及其古籍数字化产品的基本情况。

表3调查的结果显示,数字企业开发的古籍数字化产品以大型的综合数据库(如中国基本古籍库、国学宝典)和丛书数据库(如《四库全书》、《四部丛刊》、《二十五史》等)为特色,比较成系统,功能强大,基本没有书目型数据库。除了能进行多途径的全文检索外,一般都配备有各种知识辅助工具,如联机古汉语字典、年号与公元纪年对照表等,有的还提供字数、字频、词频的统计信息,行文风格特点的概率统计,参考数据的汇聚;有的还能提供不同版本比勘校对的接口、异体字的汇聚显示、读音的自动标注和朗读、在线标点断句、背景音乐等功能。这些知识工具极大地改善了古籍研究条件,也带来了研究者研究思路和方法的革新。作为古籍数字化的一支新兴力量,参与古籍数字化的数字企业数量虽然不多,但取得的成绩却令人刮目相看。这与数字企业的灵活的市场运作模式有很大关系,它们或依托图书馆的古籍善本资源,或吸纳文史专业研究人员参与研发,或与高校学术机构联合成立电子文献研究所,通过大规模、成系统地将常用基本古籍数字化,很大程度上满足了专业研究人员的需要。但需要指出的是,它们开发的数字化产品,选题重复情况比较严重,一味追求资源的规模和总量,有地方特色和专业特色的数据库不是很多,彼此之间缺少协作。

4跨行业的古籍数字化协作机制初探

主体身份的多重性,带来的必然是古籍数字化价值取向的多元化。作为事业单位的图书馆,其从事古籍数字化活动更多的是出于保存民族文化的职责,追求的是社会效益;作为科研单位的学术机构,其从事古籍数字化研究和实践,更多的是出于科研和教学的实际需要,追求的是学术价值;而作为商业单位的数字技术企业,追逐的当然是商业利润的最大化和产业规模的扩张,即所谓的经济效益。通过对上述三类古籍数字化主体的分析,我们发现它们之间存在很强的互补性。对于公益性的图书馆而言,丰富的古籍馆藏是其优势。据不完全统计,全国图书馆系统保存的古籍有2750万册,其中可列入善本的超过250万册。足以弥补传统古籍出版存在的版本低劣重复的缺憾。图书馆拥有的古籍鉴定与整理的资深专家,亦堪称宝贵的人力资源;学术研究机构在古籍资源的甄别选择、选题策划、内容整理、系统功能的规划等方面是无可替代的;数字企业则在数字出版技术、资金的运作和投入、电子商务营销等方面具有不可替代的优势。而且,图书馆和科研机构可以成为古籍数字化产品最大的用户群。它们通过合作与融合,完全可以达到资源共享、优势互补、互惠共赢的目的。但关键是要有一个全国性的跨行业的协调机构,它既要跨行业,又要有一定权威性。为此,笔者建议仿照1958年成立的“国务院古籍整理出版规划小组”,在文化部社会文化司下成立“古籍文献数字化规划小组”,由它来统一组织和协调全国范围内的古籍文献数字化工作。

图1古籍数字化协作机制示意图

如图1所示,古籍数字化主要由版本资源、内容专家、技术专家三大要素构成,分别由图书馆、学术机构、数字企业提供。由于古籍数字化仍属古籍整理和学术研究的范畴,[6 ]因此在整个数字化过程中,内容专家应处于主导地位,应由他们提出选题并进行科学论证,对古籍数字化对象进行版本鉴别和文本校勘,对系统目标和功能进行整体规划,而技术专家只是服务于内容专家,使这些目标和功能顺利实现。这好比建筑师与建筑工人的关系,由建筑师设计好图纸,建筑工人只负责施工。而“古籍文献数字化规划小组”处于整个古籍数字化协作机制的核心地位。在它的统一领导下,对全国古籍数字化工作进行整体规划,具体包括以下工作:

(1)制定古籍数字化中长期规划。古籍数字化是一项保护和弘扬中华文化遗产的工作,具有强烈的公益性色彩,不能完全走市场化的道路,进行合理的规划是必要的。这样做既可以避免选题重复开发,也有利于古籍保护。在传统古籍整理出版领域,古籍整理出版规划小组先后制订了《整理和出版古籍十年规划(1962-1972)》、《古籍整理出版九年规划(1982-1990)》、《古籍整理出版十年规划(1991-2000)》,对古籍整理出版工作进行全面安排和统一部署。古籍文献数字化规划小组可以借鉴此类做法,组织古籍专家对古籍进行定级和筛选,制定阶段性的古籍数字化规划,优先将文物价值、学术价值和艺术价值高的善本数字化,并有计划按步骤地推进该规划的实施。建议在古籍文献数字化规划小组下设立学术委员会,委员由一些学术机构知名的古籍整理专家担任。由他们负责制定古籍数字化中长期规划,提出各阶段古籍数字化的目标、措施,制订选题计划并遴选古籍版本,就系统的目的和功能提出建设性方案。

(2)制定和推广古籍数字化行业标准和规范。当前古籍数字化领域存在的一个突出问题就是数据格式繁多的问题。这种“各自为政”局面,不利于古籍数字化的发展及古籍数字资源的共享,一些新开发的系统不得不考虑与其他文档格式兼容的问题。但从长远来看,建立并规范古籍数字化的元数据标准是必由之路。从2002年开始,由科技部委托国家科技图书文献中心协调,中国科学院文献情报中心、中国科学技术信息研究所、国家图书馆、CALIS管理中心等21家单位联合进行了数字图书馆的相关标准规范研究,其中直接与古籍有关的包括:《舆图描述元数据著录规则》、《舆图描述元数据规范》、《拓片描述元数据著录规则》、《拓片描述元数据规范》、《家谱描述元数据著录规则》、《家谱描述元数据规范》、《古籍描述元数据著录规则》、《古籍描述元数据规范》、《地方志描述元数据著录规则》、《地方志描述元数据规范》等。此外,还制订了不同类型数字资源的加工标准和规范,如对古籍、拓片、舆图、字画、手稿、文牍、契约以及甲骨、金石、竹简、陶器等实物的三维造型等。如果成立了古籍文献数字化规划小组,组织协调工作就可固定由它来做,包括这些标准和规范的推广教育工作等。

(3)建立古籍数字化项目招标机制。在制定了古籍数字化整体规划后,应向社会公开选题方案,通过招标的方式向全社会征集有资质、技术力量强、开发经验丰富的数字技术企业来承担该系统的设计开发。通过公平、公开、公正的有序竞争,使得各种资源得到最优配置,保证古籍数字化的质量。

(4)建立古籍数字化产品信息平台。由于缺乏相应的沟通、交流渠道,古籍数字化领域存在比较严重的重复开发问题。为提高古籍数字化效率,减少不必要的资源浪费,有必要建立国内外中文古籍数字化产品的信息通报机制。通过权威部分的信息,不仅可以共享产品信息,同时也可以对产品进行宣传和推广。

(5)建立古籍底本使用补偿机制。古籍作为超过版权法保护期限的特殊文献,其数字化复制不存在版权问题。但即使这样,相关障碍依然存在。2005年发生的所谓“苏图事件”给了我们的一个警示:古籍的保藏与利用仍是困扰当前图书馆界的一个普遍问题。图书馆对古籍虽然没有版权,但拥有保管权,并为保管古籍付出了一定的经费和代价。图书馆常常借口保护古籍善本,或出台制度限制底本的使用,或收取高额的底本费。因此,笔者建议,可以在古籍数字出版的收益中提取一定比例,作为提供古籍底本单位的经济补偿,使之成为一项制度确立下来。这样,既可以保障古籍善本征集渠道的畅通,又照顾到图书馆保护古籍文献的付出,符合文献资源公平共享的原则。

(6)建立民间古籍善本的征集制度。除了各类图书馆、档案馆等官方文献收藏部门,有相当一部分数量的古籍流落到民间私人收藏者手中。如何对广泛存在于海内外私人藏书者手里的孤本、善本进行征集和数字化?这就需要对私人收藏者的利益有所考虑,就需要协调国家、机构与个人的利益关系,建立相应的补偿机制。国家应该从制度上着手,建立因底本使用而取得合理补偿的制度,并确定合理的缴纳报酬的比例,避免由于底本垄断而阻碍古籍数字化进程。由于在古籍数字化的利益分配过程中,部分古籍文献所有者无法得到合理的补偿,因而不愿意把自己掌握的资源与他人分享,这种情况在珍本、善本古籍文献上表现的尤为突出,严重阻碍了古籍文献数字化的进程。补偿制度的建立在很大程度上可以消除部分人的顾虑,有利于择优选择版本,提高数字化古籍的质量。

参考文献:

[1]李国新.中国古籍数字化资源的进展与任务[J].大学图书馆学报,2002,(1):21-26.

[2]潘德利.中国古籍数字化进程与展望[J].古籍整理与研究,2002,(7):117-120.

[3]陈力.中国古籍数字化的现状与展望(上、下)[J].古籍整理出版情况简报,2004,(4、5).

[4]段泽勇,李弘毅.古籍数字化的回顾与展望[J].图书馆理论与实践,2004,(2):37-39.

[5]吴家驹.中文古籍数字化的进展与主要成果述评[J].南京师范大学文学院学报,2004,(9):178-183.

[6]李明杰.中文古籍数字化基本理论问题刍议[J].图书馆论坛,2005,(5):97-100.

作者简介:李明杰,男,博士,武汉大学信息管理学院副教授,硕士生导师,研究方向:文献学、中国出版史与出版文化;俞优优,女,武汉大学信息管理学院2008级硕士研究生,研究方向:文献与出版。

上一篇:怎样引导中小学生正确应用知识 下一篇:公共图书馆业务统计工作探讨