古籍数字化范文

时间:2023-03-20 05:00:35

古籍数字化

古籍数字化范文第1篇

关键词:古籍;数字化;图书馆;进程;趋势

中国是一个文明古国,浩如烟海的古籍文献记录了中华文化的历史沧桑。保护和利用这些古籍文献,对于弘扬民族精神、传承经典文化具有重要意义。有学者统计,我国现有古籍文献近13万种,减去重复部分,至少也有10万余种。如何保存与整理古籍文献,怎样开发与利用古籍资源,古籍数字化就显得十分必要和迫切。

一、古籍数字化建设的必要性

古籍数字化就是采用计算机技术,对古籍文献进行加工、处理,制成古籍文献书目数据库和古籍全文数据库,为古籍的深度开发和广泛利用奠定良好的基础。

1.古籍数字化是保护和传承古籍文献的重要手段

目前国内的许多图书馆由于诸多原因致使大量的古籍文献受到严重损坏。切实保护现有古籍文献,已成为图书馆界面临的迫切问题,而古籍数字化可以使这一问题迎刃而解。

2.古籍数字化是解决古籍文献藏与用矛盾的有效途径

古籍作为图书馆的特殊文献,收藏单位往往重藏轻用,秘不示人。古籍数字化可以让读者对古籍不直接接触,即可浏览阅读善本,还能够提供下载打印、远程全文传送等多方面的服务,从而使古籍善本成为雅俗共赏的读物。

3.古籍数字化是古籍文献检索与利用的有利条件

数字化古籍信息容量巨大、检索快捷方便,是文明传承最快捷和最完整的方式。用传统的手工查询方式导致古籍文献的利用率不高。采用数字化技术对古籍文献进行管理,可以充分发挥计算机在资料储存、整理、检索和数据的统计以及索引的编制等方面的优越性,有利于开发古籍文献中蕴藏的特有信息资源。

二、古籍数字化的实施过程

古籍数字化是一个需要经过较长时间才能完成的庞大工程,。目前为止古籍数字化的实施已经达到了一定的水平和相当的数量。

1.古籍数字化阶段

20世纪70年代,《中国古籍善本书目》的编辑和出版,在古籍数字化方面具有里程碑意义。1988年,南京图书馆开始《中国古籍善本书目》机读编目的尝试。到1988年底,台湾地区已有超过8万条书目的数据录入中央图书馆资讯网络。在北美地区,1980年美国图书馆协会提出编制《中国古籍善本国际联合目录》,北美的13所高校和中国大陆的5所高校积极响应倡议,纷纷加合编制的行列。

2.古籍数字化发展的过渡阶段

1994年10月,台湾中央图书馆建立了记录150万条数据的中央图书馆资讯网。南京图书馆先后建立了《中国古籍总目》、《中国古籍善本书目》和《南京图书馆藏地方志目录》的数据库。

3.古籍数字化发展的成熟阶段

1998年,上海人民出版社与香港迪志文化有限公司合作开发了电子版的文渊阁《四库全书》。四川大学在编纂《全宋文》检索系统的同时,还整理出了电子版《宋会要辑稿》。北京大学刘俊文教授组织编纂的中国基本古籍库全文电子信息版光盘系统,收集了上自先秦、下迄民国的重要典籍1万余种,整个系统共有光盘550张,内容总量相当于3部《四库全书》,可称为规模空前、名副其实的中国历代典籍总汇。

三、古籍数字化过程中存在的问题

经过20多年的发展,我国古籍数字化工作已经取得重大阶段性成果,但在实施过程中还存在许多亟待解决的问题,主要表现为以下几点:

1.数据格式不统一

许多图书馆和研究单位在古籍数字化工作实际进行过程中,限于某些技术条件和出于其他因素的考虑,全文数据大都各自采用不同的格式,给使用带来了极大不便,也不利于古籍文献全文数字资源的共享乃至古籍数字化的发展。

2.没有统一的规范和合理的规划

我国的古籍数字化建设至今还没有形成一个比较符合国情的真正有价值的规范体系,没有一个职能部门或权威机构牵头对古籍数字化进行合理规划,影响了整个古籍文献数字化的进程和后续的资源共享建设。

3.完善技术尚需时日

一是字库问题掣肘古籍数字化发展的障碍。二是数字化转换还存在图像质量不高、扫描速度慢、识别率低等技术性问题,这些都有待于开发者加大研究力度,尽快完善相关技术。

4.缺乏专门人才

古籍数字化必须以古籍整理为前提,要求从事古籍整理工作的人员,既要具备丰富的古汉语知识和深厚的古代历史知识,还要了解古籍版本学、校勘学等知识及古籍数字化所需要的计算机知识与技术。因此,培养复合型专门人才是古籍数字化过程中迫切需要解决的问题。

四、古籍数字化的未来发展趋势

为适应网络化这一古籍数字化的未来发展趋势,现时需要做好以下几项工作:

1.按照数字图书馆模式组织古籍数字化

古籍的数字化加工既要遵循现代图书统一的标准规范,也要根据古籍的特殊性在统一标准规范的框架下进行细化,建立古籍数据库。所有资源要能够在同一平台上共同使用和互相调用,古籍与现代图书的知识库应实现共享。

2.古籍整理要建立自动完成集成系统

通过对古籍文献内容和形式的专业化处理,实现古籍版本的自动校勘、自动断句、自动标点、自动注释和自动白话文翻译的数字化。

3.检索系统成为研究和开发的重点

建立和完善强大的检索系统,实现从检索研读到下载打印的一体化,以满足用户的多途径检索和多方面需求。同时拓展格式转换、版本转换和个性化输出等方面的技术研究。

4.走社会化、国际化的联合开发之路

现在藏有古籍文献最多的图书馆,往往因资金和人才问题,使得一些古籍数字化项目难以开展。因此,图书馆应实行多方位合作,建立项目研发联合体,走资源与收益共享之路。同时可以开展国际性合作以解决资金、技术等瓶颈问题。

经过多年的尝试与探索,古籍数字化的发展势头良好,取得了有目共睹的成果。但古籍数字化是一项长久、艰巨而系统、复杂的工程,还需要我们不断地努力探索,使古籍数字化的明天会更好,进而使我们优秀的民族文化得到更好的继承和发扬。

参考文献:

[1]王冠中.中文古籍数字化成果与展望[D].东北师范大学,2005.

古籍数字化范文第2篇

关键词 古籍数字化 古籍使用 建设模式 历史文化遗产

分类号 G255.1

中文古籍数字化工作已经在国内开展了30多年,各种形式的数字化古籍已经在市场上纷纷涌现。同时,有关古籍数字化的方案、技术和理论,学界也取得了丰硕的研究成果。尤其是数字化古籍的优缺点、古籍数字化的成果总结、古籍数字化的技术实现、古籍数字化工作的重难点以及对于古籍数字化工作的反思等,都是学者关心的话题。笔者主要从事中文古籍的整理和研究工作,不可避免地要接触到数字化古籍,因此对古籍数字化工作的现状也曾略有留意。目前笔者正在参与国家社科基金重大项目《荆楚全书》的编撰工作,并负责宜昌地区古文献的点校,对数字化古籍的利用情况又有了切身的体会。因此,笔者从一名使用者的角度,结合实际工作中使用数字化古籍的感受,谈谈目前古籍数字化工作的几点问题。

1 版本

古籍的版本对于其学术价值有着决定性的影响,学术研究所采用的古籍版本也是学者专业水平的体现。当前的古籍数字化工程大多注重题材的选取,而忽视古籍版本的价值。就以香港迪志文化出版公司与上海人民出版社合作出版的“文渊阁《四库全书》”电子版为例,这的确是一个很有吸引力的题材,但精心制作而成的数字版本却很少被学术论著所引用。主要是因为《四库全书》在编撰过程当中,清廷有意删改原书,使其版本价值大打折扣。实际工作中,文史研究者往往会选择其它精校本,而不是《四库全书》本作为参考文献。如要引用正史材料,学者一般会采用中华书局点校本《二十四史》;如需引用诸子,学者也多会选择中华书局点校本《新编诸子集成》。哪怕是专门的文献整理和研究者,在选择底本或者参校本时,《四库全书》本往往也不是最佳的选择。比如刘韶军先生点校《太玄集注》,是以明抄本为底本,“以道藏本、大典本、张士镐本及胡注残卷对校前六卷”[1],以五柳居本为参考点校后四卷。《四库全书》本《太玄经》出自明朝本,其版本价值不及明抄本,故而不用。再如王利器先生撰《新语校注》,所用《新语》以浮溪精舍刻宋翔凤校本为底本,校以明李廷梧刻本、子汇本、程荣刻《汉魏丛书》本、《两京遗编》本等[2],尽管四库本也有可取之处,仍然弃而不用。而对于古籍数字化来说,耗费极大的人力和物力,完成一项浩繁的工程,成果却不能很好地应用于学术研究,这其实是造成了严重的资源浪费,也有违古籍整理工作的宗旨。

从事古籍整理与研究的学者对古籍文字的要求是相当苛刻的,因此数字化古籍的校勘质量是其版本价值的重要指标。值得肯定的是,香港迪志文化出版公司的“文渊阁《四库全书》”电子版校勘精细,是目前校勘较好的古籍电子化产品之一,其它产品均难达到这一境界。有学者指出古籍电子化产品的学术水准应以进入专业研究者的参考文献为最高目标,这是很有道理的。但目前的数字化古籍产品普遍存在校勘不精的问题,使之与参考文献的标准相去甚远。以中国国际图书贸易总公司《中国历代典籍总目分析系统》中的《二十五史研习系统》为例,其校勘欠精之处甚多。如《史记・武帝本纪》:“太史公曰:学称五帝,尚矣。”“学”后脱一“者”字、一“多”字。又《后汉书・光武本纪》开篇就是“东观记林作临字yydd按”,文本及格式错乱不堪,不知所云。且于“赵缪王子林说光武”之前连正文带注阙数千字,殊为草率。一般的数字化古籍电子都达不到《四库全书》的校勘精度,以上所举仅见一斑。也许是因为高精度的全文检索系统制作成本太高,超出了一般企业或研究单位所能承受的限度。这样的数字化古籍当然无法满足学术研究的文献需求,更不能成为专业研究者的参考文献。版本质量将会成为古籍数字化产品向高端迈进的瓶颈。

2 检索

检索快捷这也是数字化古籍的一大优势,有学者乐观地认为:“与传统学术研究的辛苦查找、梳理资料相比,当代的文史研究工作者可以轻轻一点鼠标而资料就会呈现在眼前,省去了寻找资料的辛苦。”[3]于是,当前的古籍数字化工程大多追求全文检索功能的实现,具体的做法就是将数字图像转换成电子文本,以便于全文检索。这对于现代文献和外国文献来说是很容易实现的技术,但是对于我国的古代文献来说却是一项非常复杂和困难的工作。

首先是汉字处理问题,也是古籍数字化工作最早遇到的问题。中国的古文字至为复杂,为了保持古文字的原貌以客观再现古籍内容,目前业界大多采用Unicode作为文字处理的标准,Unicode已经定义了7万多汉字,而且还在不断扩充,仍然不能完全满足古籍文本的转换需要。这已经是一项不小的工程,但如何处理古籍在传抄、刊刻过程中所产生的异形字、避讳字、通假字等问题,在技术上仍然存在不小的难度。哪怕是“文渊阁《四库全书》”电子版也有处理不了的文字问题,多处有“字位过密无法显示”字样,比如史部地理类《陕西通志》。既然汉字处理的问题不能完全解决,全文检索功能必然要打折扣。

其实,就算能够完全实现古籍文本的数字化,全文检索的命中率依然不会很高,因为还有中国特有的语言文化的问题。对于西方或者现代文献来说,在大多数情况下,字面所反映的基本上就是事物的真实意义;而对于中国古代文献来说,字面所反映的并不一定是事物的全部内容,如果要了解事物的全部内容,则必须从字里行间去寻找“言外之意”或者“微言大义”。因此,一些用于现代文献、外国文献的数字技术和方法可能对于中文古籍来说并不十分适用。即使数字化工作能将古籍文字以数字方式再现,对于学术研究来说仍然显得不够。这应该是数字化古籍在实际学术研究中利用率不高的一个重要原因。

3 阅读

易于储存和携带这是数字图书的优势,但阅读舒适性低也是数字化图书的通病,数字化古籍尤其如此。有研究者指出:“无论是利用电脑还是借助于掌上阅读器,数字化图书阅读的舒适性与方便性都远远不及纸质图书。无论界面设计如何完善,总会有光强度、分辨率、运行速度等各种技术因素的影响,无法达到传统图书的舒适与方便,直接干扰了读者的思绪。”[4]这是因为传统的纸质文献,尤其是古籍,作为人类数千年文化的积淀和人类积累文化的主导方式,对于人们的阅读习惯也产生了根深蒂固的影响。因此我们更加习惯于直接面对书籍,尤其是直接去感受古代典籍带给我们的历史文化气息。

虽然随着图书数字化工作的普及和深入,阅读习惯也正在发生着改变,但这种改变是不可能在短时期内完全实现的。所以现在很多古籍虽然已经有了数字版本,很多读者还有将数字本打印下来进行阅读的习惯。而专门从事古籍整理和研究的学者,更是坚持要将数字图像本古籍一页页打印成纸本,然后进行阅读、点校和研究,最后又将成果重新转化为电子文档。在一些特别的古籍整理与研究工作中,比如古籍修复、版本鉴定,原版的纸质古籍更是数字化古籍无法取代的。因为古籍不仅仅是用单纯的文字符号给我们传达知识,其中的每一个细节都是我们了解历史文化知识的重要信息源。

但出于古籍保护工作的需要,研究者和整理者又要尽量避免对古籍原本的直接操作。因此在实际工作中,笔者和同事都是先将古籍逐页扫描成图片,再将图片打印出来作为工作本进行阅读和点校。只有高仿真的古籍复制品才可以代替原本称为研究者和整理者的工作对象,因此古籍影像远比电子文本更有学术价值。

4 保真

鉴于数字化古籍存在的种种问题,很多学者对古籍数字化工作也进行了反思,提出了一些修正意见,尤其强调在古籍数字化工作中要坚守保真原则,“有效保全古籍中的原生态信息”[5]。古籍整理的主要任务就是要促进古籍的保护和利用,古籍数字化工作的任务当然也是这样,既要使古籍所承载的知识能够有效地服务于学术和研究,又要让古籍本身不至于受到损坏。两者之间存在矛盾,只有以保真为原则对古籍进行电子化,使数字古籍能够替代古籍原本成为阅读和研究的对象,才可以将两者统一起来。

国内的古籍数字化工程大多注重全文检索功能的实现和完善,目的在于使研究者能够方便快捷地从文献中检索出符合条件的材料。就笔者从事古籍整理与研究工作的经验来看,有观点、思想乃至思想体系才是最难的,这是人脑的工作,也是电脑无法取代的,收集资料则次之。为了完成特定的科研任务,难度又在广泛收集相关的文献上,而从已有的文献资料中剥离出可用的材料则又次之。目前的数字化古籍最大的长处无非就是能迅速从文献中检索出符合条件的材料,但对于专业的研究人员来说,这其实无需花费太多的时间和精力。暂且不说数字化古籍全文检索功能的命中率,我们要将一大堆貌合神离的材料加以仔细的分析、整理和研究,才能形成高质量的科研成果,这也是电脑无能为力的地方。

从国外的中文古籍数字化成果来看,大多注重影像数据库的建设。美国国会图书馆《AmericanMemory Pilot Project计划》将该馆21万件馆藏予以数字化处理,转化成数字化图像;英国图书馆《British Library Images Online计划》将馆藏珍罕文献影像数字化;日本国立国会图书馆制定《国立国会图书馆数字图书馆计划》,至2003年已建有500余件中文古籍图像数据库。中文古籍的数字影像虽然不具备全文检索功能,但显然比全文文档具有更高的保真性,提供的数据也更具有完整性和准确性,其学术价值显然也远胜于全文文档。因此,迪志的“文渊阁《四库全书》”电子版还同时配备了图像光盘,这才是该产品的最大价值所在。

5 结语

古籍数字化范文第3篇

【关键词】 中医古籍;数字化;古籍数据库

中医古籍是中医药学传承和发展的载体,既具有重要的学术价值,又具有相当的文物价值。最新出版的《中国中医古籍总目》共收录中医古籍13 455种,基本上反映了当前我国中医古籍的存世和分布现状。如何在保护的基础上更好地利用这些珍贵的中医药资源是中医药研究人员的历史使命。通过数字化处理,既实现了对中医古籍的永久保存,又可为方便、快捷、无损地开发和利用这些宝贵资源搭建起研究平台。中国中医科学院中医药信息研究所自2002年始,对馆藏中医典籍进行了数字化再生性保护和利用研究,目前,已建成“中医药珍善本古籍多媒体数据库”、“中医药古籍资源数据库”,实现了部分中医古籍的数字化保护与利用。

1 “中医药古籍资源数据库”建设

1.1 研究背景

中医古籍是中华民族几千年来防病治病宝贵经验的结晶,是中华民族的优秀文化遗产。中医药古籍文献中所收载的理法方药、养生保健知识是取之不尽、用之不竭的宝库,具有极高的实用价值。古籍属于不可再生的文化资源,近年来,尽管我国加大了对于古籍的保护力度,使古籍的保存环境得到改善,但随着历史的推进,古籍还是会悄无声息、不可避免地出现损毁,乃至消亡。中医古籍整体保存环境较差,各藏馆保存条件良莠不一,中医古籍保护和传承令人担忧。

鉴于此,用数字化手段对中医古籍进行处理,既可以使中医古籍的原图原貌永久保存,又可以通过数据库和网络广泛利用,避免阅读原书对古籍造成的损伤。因此,中医古籍数字化是中医古籍保护和利用的理想方式。中国中医科学院图书馆所藏中医古籍占存世中医古籍数量的一半以上,其中中医珍善本古籍就达2万余册。中国中医科学院中医药信息研究所利用该资源优势,构建了“中医药古籍资源数据库”,现已收录1 500种中医古籍的元数据信息和其中的850种中医古籍的原文图像,已经可以通过中医古籍阅览系统实现电子阅览,为中医古籍数字化保护和利用开辟了途径。

1.2 “中医药古籍资源数据库”建库流程

1.2.1 中医古籍书目的选取

根据中医古籍的年代、版本价值、文献价值、保护等级等确定收录标准,对破损严重的珍善本古籍优先进行数字化处理。

1.2.2 数据库结构设计

考虑到对古籍的再生性保护,我们

以古籍原文图像作为主要数据来源,部分古籍实现全文本化。由于图像要求的存储空间较大,我们采用支持多媒体数据的oracle 9i数据库系统,并对系统结构进行优化,基本解决了运行速度问题。

1.2.3 元数据加工

根据古籍文献的特点,按中医古籍的分类、题名、责任者、出版年代、出版者、版本项、版式、卷数、馆藏地、书籍特征、保存状况、复制状况等进行著录,著录规则参见“我国数字图书馆标准规范建设”项目研究成果——古籍元数据著录规则(cdls-s05-014),对收录古籍撰写提要,力求建立完整的古籍书目数据库。

1.2.4 数字化处理

包括古籍的扫描、质检、图像处理、文本录入等。为实现保存和利用双重目的,扫描时采用全彩模式,300 dpi,jpeg格式保存,按页码顺序重命名,对扫描后图像的顺序、偏斜度、完整性、清晰度进行检查,并进行纠偏、去污、裁边等处理。对部分古籍进行文本录入,实现图文对照。

1.2.5 古籍原文图像标引

采用自主开发的古籍编辑器对文中有效的检索点进行抽取和xml格式标引,如病证方药的名称、索引信息、各级标题等,力求实现图像的全文检索,避免标引过繁或过简,影响检索效果。对标引后数据进行审核。

1.2.6 数据

将图像数据、元数据、标引数据、文本数据合成、入库,形成中医古籍电子书,到阅览系统后进行数据库测试,实现中医古籍的数字化保护与利用。

1.3 采用技术

数据库采用oracle 9i,数据搜索采用oracle text技术。整个系统采用基于java的web应用技术,结合基于j2ee的struts 和实现数据持久化的hibernate框架的mvc设计模式,构建了高内聚、弱藕合、可维护和可扩展的中医古籍数字化系统[1]。

2 中医古籍数字化存在的障碍

2.1 中医古籍中生僻汉字的处理

汉字从产生至今经历了漫长的演变过程,由此也产生了大量的繁简字、异体字、古今字、通假字等。中医古籍数字化过程中遇到的字体障碍有两个方面,一个是对字体的认知障碍,生僻汉字的准确录入需要很深的中医文献学功底,而对于一般的操作人员很难办到;一个是技术障碍,unicode字符集虽然可以解决字库问题,但是很多软件不支持,常用的输入法和搜索引擎不支持大字符集,很多生僻字仍不能正确显示和检索。用造字的方法费时费力,而且很难共享和检索,生僻汉字的处理仍是中医古籍数字化过程中的一大障碍。

2.2 全国古籍数字化标准尚待建立

目前,虽然参与中医古籍数字化工作的单位较多,但几乎都处于各自为战的状态,所采取的途径多样,因此产生的数字化成果形式多样,不利于中医古籍数字化发展,也不利于中医古籍数字化资源共享。究其原因,除了缺乏统一的协调规划外,没有可参照的行业标准也是其中重要的原因。

2.3 中医古籍数字化软件有待改进

软件功能是否强大对中医古籍数字化过程和成果具有直接影响,选择合适的软件可以起到事半功倍的效果。目前,可供选择的数字化加工系统很多,扫描和图像处理技术已较为成熟。而ocr软件对古籍中部分繁体字和不规则用字的识别效果很差,辅以人工校对则需要大量的时间和人力,如何提高ocr在古籍字符识别上的准确率是古籍数字化面临的一大难题;数据加工软件在批处理、大字符集、内容管理等方面存在缺陷;检索系统如何根据中医古籍的特点提高检索速度和精准度也是值得进一步研究的问题。

2.4 古籍信息的精准检索

快速、准确地检索到所需要的内容是古籍数字化应有的基本功能,也是评价其优劣的重要指标。全文本的数字化古籍可以实现任意字符的检索,但是数据准确度小、检索噪音大的问题尚待进一步解决;图像版可以保证信息的准确无误,但在全文检索上存在一定缺陷,通过对有效检索点的标引可以在一定程度上弥补上述不足,但仍不可避免地要遗漏某些信息。由于中医古籍中病、证、方、药的同名异义、异名同义现象普遍存在,使内容的精确检索更加困难。如何建立后控词表,实现关联检索也是中医古籍数字化面临的一个难题。

2.5 研究支持功能尚不完善

研究支持功能是指能够提供有关古籍内容本身科学、准确的统计与计量信息,提供与古籍内容相关的参考数据、辅助工具,这些信息、数据或工具都是古籍内容的增值或补充[2]。中医古籍具有极高的研究价值,其研究支持功能应更强大。除常用的中医古籍研究辅助工具外,还应具有不同版本和相关数据的链接。对病、证、方、药的参考数据进行汇聚,对生僻字进行注解,建立学术论坛等,都是研究支持功能的重要组成部分,而目前的中医古籍数字化成果在此方面尚显薄弱。

2.6 深度开发不够

中医古籍数字化不应仅仅满足于对古籍的阅览和查询。古代中医药文献是一个知识宝库,在数字化的基础上挖掘古籍中的宝贵知识财富,实现知识发现和知识拓展,更好地为中医药事业的发展和人类健康服务是中医古籍数字化的最高目标。

3 中医古籍数字化建设的建议

3.1 图文关联是实现中医古籍数字化的较好方式

图文关联是将古籍文献分别存储为图像、文本两种形式。图文关联是将文本对应放在与之相匹配的图像之下,并建立索引关系,实现图文对照。此种方式可以弥补“图像”在检索和内容编辑上的不足,又可以校对“文本”的准确性,使读者既能看到原书原貌的古籍文献,又可以快速准确地查到所需要的内容。尤其对于研究者,对原始版本信息和文本的准确性要求更高,而通过图文对照便可很好地解决这一问题。

3.2 中医文献与计算机专业人员的通力协作

中医古籍数字化是古典文化与现代技术的结合,需要有精通中医古籍整理、目录学和版本学知识的人才与掌握计算机网络知识和多媒体技术的专业人员通力协作。中医古籍数字化虽属新的古籍整理方式,但仍归于中医文献整理范畴,离不开文献整理的知识。在整个过程中,中医知识不可或缺;同时,在数据处理、数据库设计、应用平台构建等方面都需要计算机专业人员参与。中医文献专家的需求和建议能指导计算机技术人员对整个系统的设计,进而改善中医古籍数字化系统的功能。上述两方面人员的深入合作是创建理想中医古籍数字化模式的前提。

3.3 重视统一标准的研究和制定

建立完整的中医古籍资源库需要全行业的合作。因此,有必要建立统一的标准,包括中医古籍的分类法、著录规则、软件和数据库的使用、数字化加工标准、加工和利用平台等。统一的标准是实现中医古籍数字化资源共享的基础,也是促进中医古籍数字化建设进程的有力保障[3]。

3.4 统一规划,共建共享

中医古籍数字化是对中华文化遗产的保护和弘扬,具有强烈的公益色彩。各单位需要在统一的协调和领导下,建立一个整体的规划。整体规划应包括数字化对象的内容,确定工作重点和合作分工,同时包括相关标准、规范的统一,而恰好这两方面问题在目前的工作中较为突出[4]。解决了这两方面问题,就避免了重复建设和资源浪费,才能实现共建共享。

4 结语

中医古籍数字化是一项长期的系统工程,需要中医药科研人员付出长期的艰辛和努力。虽然在建设过程中还有许多问题有待解决,但随着研究的深入,信息技术的飞速发展,中医古籍数据库建设和利用将呈现广阔的前景。

【参考文献】

[1] 符永驰,李 斌,郭敏华,等.中医古籍电子化系统的研究与实现[j].中国中医药信息杂志,2008,15(2):103-104.

[2] 李国新.中国古籍资源数字化的进展与任务[j].大学图书馆学报,2002, (1):21-26.

[3] 吉 聪.中医古籍数字化建设问题探讨[j].长春中医学院学报,2004, 20(3):64-65.

古籍数字化范文第4篇

[关键词]博物馆;古籍文献;数字化建设

doi:10.3969/j.issn.1673 - 0194.2016.20.112

[中图分类号]G255.1 [文献标识码]A [文章编号]1673-0194(2016)20-0-02

经过5000年的历史沉淀与积累,我国拥有很多古籍文献,是无比珍贵的史料,也是重要的古代文化遗产。但是由于受到环境及人为因素的影响,一些传世的古籍文献遭到了损坏。当前博物馆中的许多古籍文献资料都是破损的,为此为了更好地收藏古籍文献,对其进行科学的研究与利用,发挥其价值,就应使用数字信息化手段对古籍文献进行整理加工,建立数据库,实现数字资源的共享。

1 博物馆古籍文献数字化建设的重要价值

1.1 有助于保护古籍文献资源

我国有着丰富的古籍文献资源,这是我国古代文化的宝贵资源,必须要提高重视,加强保护。当前尽管我国已经投入了大量的人力、物力开展古籍保护,但是这项工作依旧是比较困难和艰巨的。古籍文献是不可再生的文化资产,随着时间的推移,其数量会逐渐减少。当前文献资源逐步实现网络化、数字化发展,古籍文献也应使用新的载体,数字化建设能够实现古籍文献的永久保存,有助于古籍文献史料价值的顺利实现。

1.2 实现古籍文献资源的高效利用

古籍文献是我国几千年的文化精华,是前辈留给当代人的宝贵遗产。由于年代久远,博物馆收藏的很多古籍文献的纸张已经变质,不能再继续流传,有些珍本、孤本需要珍藏,不能流通使用。在防虫、防霉工作的基础上,通过禁止使用古籍文献,从而对古籍文献进行保护。但是这种方式与“书是为了使用”的原则相违背。对古籍文献进行数字化建设能够无限地检索、复制使用,不需要直接使用古籍文献原本,能够长期保存,还有助于古籍文献的传播,对于开发利用是极为有利的。

1.3 能够全面揭示古籍文献信息

实现古籍文献的数字化建设能够对古籍文献中的信息资源进行有效开发。传统的古籍文献目录只能依据书名、种类等进行检索。古籍文献的书目数据库著录书目涉及的信息比较广,有题名、资源形式、种类、来源、责任者及相关资源等。古籍文献书目数据库能够组配检索,全面揭示古籍文献书目信息,能够更好地开发利用古籍文献。

1.4 能够为使用者提供便利的检索形式

古人治学不注重学科的细化,文、史、哲不分家,如果用手工的形式对古籍文献进行检索,不仅速度慢,而且查准率也比较低。为了查找一段引文、一件事会花费大量的时间。利用数字化的检索系统,可以将任何的字符作为检索的着手点,不仅是关键词检索还是模糊检索都能够有良好的效果。全文检索系统能够对结构化及非结构化数据进行有效处理,能够将文献中的各种成分展示出来。这种检索方式速度快,同时可以实现模糊检索,在古籍文献检索中应用是极为有利的。

2 博物馆古籍文献数字化建设的有效策略

2.1 制订计划方案,进一步优化管理机构

工作开展前需要有完善的计划方案,并明确工作的具体流程,能够从实用性、整体性及效益等方面进行综合分析,然后通过文档的方式进行展现,工作中保证严格按照计划进度推进,因此在古籍文献数字化建设前,博物馆及相关单位需要针对工作流程进行细致的探究和分析,保证工作计划及时间表的详细完善。当前,博物馆已经积极推进古籍文献的数字化建设,但是博物馆都是各自为政,彼此间的交流沟通不到位,而且缺少统一的领导者,不能对古籍文献进行统一的指导。这时就需要发挥政府部门的作用,成立古籍文献数字化小组,对博物馆古籍文献数字化建设的情况进行分析,制定统一的标准,为今后古籍文献资源的利用奠定基础。

2.2 做好人才的培养工作

博物馆的工作人员基本都是古文字、历史文献及图书馆等专业出身,古籍文献数字化建设是比较系统的工作,需要长期推进,将传统的方法与现代化的信息技术相结合。因此,博物馆工作人员不仅需要掌握历史文献及古文字等相关知识,还需要熟练操作计算机。因此,应积极加强复合型人才的培养,建设专业化的博物馆管理队伍建设,使其更好地为古籍文献数字化建设服务。

2.3 优化数字化技术

第一,科学地选择检索方法。相比于阅读,古籍文献的查找检索更多,古籍文献数字化产品要求检索系统比较强大,因此需要明确通过各种方式古籍文献的数字化,以此为依据确定检索方法。可以将检索方法分为传统、全文及整合三种。

第二,制作图像资源。主要有两种方法,一是拍照,二是扫描。对特大开本或者卷轴的古籍文献进行拍照,像素保证在2 000万~3 300万像素之间,文件格式为RAW格式,拍照时需要避免光照影响图片质量,图片的颜色应正常,拍照人员也需要具有专业拍照技术。扫描古籍文献资源时,首先,需要选择扫描的方式,主要分为灰度扫描和彩色扫描两种。其次,设计扫描参数,比如:色彩、位深及扫描精度等,这些参数的设置需要与图像的用途相适应,数据库的图片,其分辨率需要达到150 DPI,而需要永久保存的图片,其分辨率需要达到300 DPI以上。再次,确定扫描仪,由于古籍文献都是线装的,并且不能拆装,所以一般使用零边距的扫描仪。最后,要对扫描后的图片进行拼版、裁切,在工作中需要保证图片是完整的、清晰的,不能错位,要将古籍文献的原貌如实地反映出来,使古籍文献数字化后依旧能够保真。

第三,识别古籍文献中的文字。OCR识别技术对于古籍文献的识别率比较低,特别是抄稿本,需要对识别后的文本进行核对,如果古籍文献的版本比较特殊还需要还原版本,这一工作会消耗更多的人力及财力。但是不管是人工录入还是通过文字识别方式在识别字时都会遇到问题,比较繁体字、异体字、避讳字等,以此在将古籍文献文字转化为文本信息时还有很多问题需要解决。

第四,挑选辅助功能。古籍文献资源数字化建设中,还需要研发辅的功能,比如:联机的字词典、年代表、人物介绍、古今地名对照表及相应人物链接等,开发这些辅的功能能够使研究者更加便利地使用数字化资源,有助于古籍文献价值的发挥与凸显。

3 结 语

现如今,博物馆中的很多古籍文献都是通过纸质方式进行保存的,这种保管形式如果在保存使用中存在不当操作,就极容易使古籍文献受到损坏,因此需要对这些古籍文献进行数字化管理,实现全文扫描录入,做好古籍文献的数字化建设能够实现资源的有效共享,使古籍文献的价值得到充分的开发利用。在数字化建设过程中还需要有统一的机构、计划,培养高素质水平的人才,加强相关数字化技术的研究与应用,提高博物馆古籍文献资源数字化建设的效率。

主要参考文献

[1],蓝韶清,张晓旭.中医药古籍数字化建设的探索与实践――以广东中医药博物馆为例[J].大学图书情报学刊,2012(1).

[2]薛立静.东北地区公共图书馆古籍数字化的实践与展望[J].农业图书情报学刊,2012(11).

[3]禄玉萍,吴勰,黄卫华.论黔西北彝文古籍文献数字化建设[J].毕节学院学报,2010(9).

[4]朱成林,袁曦临.中国古籍的数字化导读研究[J].图书馆建设,2014(11).

古籍数字化范文第5篇

[关键词]古籍保护;数字化;传统文化

[中图分类号]G250.72 [文献标识码]A [文章编号]1005-3115(2011)014-0102-02

一、古籍分类及概况

古籍有广义和狭义之分,狭义的古籍是指1911年以前产生的写本和印本;广义的古籍是指1911年以前产生的内容为反映和研究中国传统文化的文献资料和典籍,包括甲骨文拓本、青铜器铭文、简牍帛书、敦煌吐鲁番文书、唐宋以来雕版印刷品等。按保存质量,古籍可分为善本古籍和一般古籍;按版本形态,古籍可分为写本、刻本、活字本、石印本、铅印奔、影印本等;按著作形态,古籍可分为点校本、辑佚本、校释本、选注本、今译本等;按装订形态,古籍又有线装本、平装本、精装本之分。

尽管我国古籍浩如烟海,但由于历史久远,又由于战争、自然灾害等各种原因,很多古籍遭到了破坏,留存至今的古籍百不存一。据不完全统计,目前我国馆藏留存的古籍数量在2700万册以上;而大量存于民间、流失海外的古籍,还未进行统一普查登记,估计数量在4000万册以上。然而,随着时间的流逝,这些历经千百年之久的古籍早已被岁月侵蚀得斑痕累累、弱不禁风,大部分书叶纸张发黄、脆化,动辄碎裂。据测试,一部宋元古籍离开专用书库,置于普通的阅览室中供人翻阅一小时,其寿命就会缩短数月。

古人云:“读书难,藏书难,藏之久而不散,则难之难矣。”可见,如何保护、开发利用这些典籍,是我们不得不面对的一道难题。

二、古籍的保护历史

在我国,自从有了书籍,书籍的保护问题就随之出现。众所周知,纸张为最主要的书籍制作材料,纸质的好坏决定书籍的质量与书籍寿命的长短。现代科学研究结果证明,造成书籍纸张老化变质的罪魁祸首就是酸性。因此,古人在造纸的过程中,除了注重选材,还经过沤、泡、蒸、煮、漂等环节,几乎把果酸脱除干净。这样造出来的纸张纤维长、拉力强、不易老化,能达到“纸寿千年”。同时,古人还非常注重书籍本身的保护问题,针对可能造成“书厄”的温、湿、水、火、 兵、 虫、 尘、 光等因素,都有较为科学合理的应对之策,总结出了一整套行之有效的经验和方法,采取染黄、浸椒、砾光、涂布、装皮做套、函套(盒)、木箱(盒)、 洞置窟藏、通风、晾晒、放置驱虫物等办法,基本解决了当时条件下书籍的保护、保存问题。此外,针对残破古籍的修复,古人也总结出了补书法、去污法、托裱法、水洗法等专门技法,修补时还遵循严格的程序。可以说,5000年中华文明之所以薪火相传、生生不息、绵延不断、博大精深,主要是中华民族的发展史上很早就产生了书籍,更重要的是古人很早就重视和懂得保护书籍,给后人留下了赖以继存的宝贵精神财富。

三、古籍的现代保护

没有书籍,人类社会是不可想象的。英国的波普尔说过:“假如世界毁灭了,只要书籍还存在,这个世界仍有重建的希望。”面对经过前人精心呵护保存下来的这笔财富,保护好、研究好、利用好它,具有重要的现实意义和深远的历史意义。新中国成立以来,党和政府高度重视古籍的保护工作,特别是改革开放以来,我国古籍保护工作取得了显著成绩,而且如火如荼、方兴未艾。

由于古籍具有文物价值与文献价值的双重属性,因此,古籍保护也包括两方面含义:一是原生性保护,二是再生性保护。所谓原生性保护,是对古籍原件的保存与养护,包括修复残破古籍、改善保护环境,对现存原本古籍进行定级、分级保护等。应在继承古人经验和方法的基础上,结合现代科学技术,对古籍原件进行保存与养护,在涂布增寿、脱酸保书、装皮做套、防虫杀虫、书库通风、清污除迹、修补书页等方面摸索出一套可行的办法。但是,古籍是古代流传下来的古典文献,本身具有不可再生性,损坏一件就会少一件。同时,古籍本身也有寿命,即使采取再好的保护措施,也难保万全。所以,围绕古籍本身的保护,更多强调的是它的文物属性。而这种保护导致的结果是几乎所有的古籍收藏馆(所)对古籍的使用都采取了更加严格的限制。很多古籍,尤其是善本古籍,基本上处于停止借阅的状态,实际上就是被束之高阁,几近名存实亡。古籍与其他文物不同,其价值最终是要通过使用加以体现。显然,这种保护从客观上限制了人们对古籍的利用,使古籍的文献价值难以发挥。因此,古籍的再生性保护便应运而生。

再生性保护是指通过影印、缩微和数字化处理等现代技术手段,将古籍的形式和内容进行复制转移和再揭示,让古籍“走出深闺,化身百千,延年益寿,久传于世”, 让广大读者不必依赖原件就可以了解古籍尤其是善本古籍的面目和内容。这既有利于保护原有典籍,又可以妥善解决古籍图书藏与用的矛盾,是古籍保护、传承方面的一次变革。

影印是用照相制版技术对原书无差别、原汁原味地复制;缩微是用专门的设备、材料和工艺,把原书信息原封不动地以缩小影像的形式摄影记录在感光材料(通常是胶片)上,经加工制作成缩微品保存、传播和使用。其共同特点是可以将古籍原件的形状、内容、 格式、字体以及图形等原貌忠实地记录下来,保留古籍原有的信息,同时,稳定性强,效果好,适用范围广。自现代印刷出版技术和摄影照相技术传入我国以来,影印与缩微在古籍的保护、整理和利用方面发挥了巨大的作用。

四、古籍的数字化

古籍数字化是继影印和缩微之后现代科学技术在古籍再生性保护方面成功应用的又一范例。从字面理解,古籍数字化就是对古籍信息的数字处理,古籍是主体,数字化是手段,古籍与数字化是内容与形式的关系。但从实质而言,就像数字化使人类社会在各个方面都正在发生着前所未有的深刻变化一样,古籍数字化已不仅仅是一个古籍再生性保护所能涵盖的问题,它正在使古籍的保护利用、整理研究和弘扬发展孕育并发生着重大的变革。

古籍数字化最早是从计算机技术发达的美国开始的。20 世纪 70 年代末,美国先后推出《朱熹大学章句索引》、《 王阳明传习录索引》、《戴震原善索引》等数据库,揭开了中文古籍数字化的序幕。我国古籍数字化始于 20 世纪 80 年代初。30多年来,四库全书、中国基本古籍库、国际敦煌项目、数字方志、中美百万册书数字图书馆等大型数字化项目相继建成,古籍数字化取得了阶段性成果,其规模之宏、形式之多、数量之巨、范围之广都是前所未有的。这些产品的开发使古籍实现了电子版本无限制地复制使用,成为一种取之不尽、用之不竭的文化资源。四通八达的计算机网络使古籍文献实现网上远程共享,避免了运输、分配和存储问题;快速便捷的全文检索功能,为古籍的阅读和利用提供了意想不到的便利,既为 “纸寿千年”的古籍赋予了新的生命,也为中国传统文化的传承与发展提供了新的途径,不仅更加有效地保护了古籍,而且在丰富人们的学习资源、提高学术研究的质量以及扩大中国文化的影响诸方面,无疑发挥了积极的作用。

伟大的实践离不开科学的理论指导。在古籍数字化项目建设如火如荼开展的过程中,学术界也在古籍数字化的理论研究方面取得了实质性进展,界定了古籍数字化的涵义、性质和功能定位,确认了古籍数字化的标准程式和体系结构,完成了数据库检索系统、辅研究支持系统,确定了书目数据库的标准和规范,完善了汉字字符编码系统和规模录入技术,实现了国际性的古籍资源合作与资源共享,形成了跨领域、跨学科的专业研究队伍,为古籍数字化建设奠定了坚实的基础。

目前,学术界对古籍数字化的普遍认识,就是以保存和普及传统文化为目的,在对传统介质古籍进行校勘整理的基础上,利用现代信息技术将其转换成可读、可检索以及实现语义关联和知识重组的数字化处理过程。从这个意义上讲,古籍数字化属于古籍整理研究的范畴,涉及图书馆学、文献学、情报学、信息学等多种学科,具有边缘性、综合性、交叉性的学术特点。古籍数字化将传统文化与现代信息技术结合,在社会分工日益明确的今天,顺应了人类社会全面发展的需求。

随着数字技术的不断发展,在已取得成果的基础上,人们完全可以用移动硬盘或类似的便携式存储设备随身携带一个中型图书馆,甚至可以随时随地查阅互联网上丰富的文字资源和世界各大图书馆的藏书。同时,可远程访问数据库的不断增加,高质量的数字化图书也在迅速增加,过去由于距离、费用等方面的因素无法实现的阅读愿望,现在可以通过网络随时获取。另外,在计算机全文检索和快速定位功能的帮助下,辅助必要的人工阅读,不仅可以省缺翻检之劳,迅速查询到有价值的信息,而且还可以保证绝无遗漏,以前从未被人提及的资料有可能在计算机的协助下重见天日。这样的获取方式和使用方式,对古籍的普及应用无疑具有划时代的意义,眼界的极大开阔又必然带来古籍整理方法和研究范式的进步,进而推动传统文化的传承和发展。

[参考文献]

[1]李景仁.我国古代的图书保护[J].晋图学刊,1988,(2).

[2]刘朝志.关于图书馆古籍管理利用的思考[J].科技资讯,2009,(35).

[3]秦磊.关于基层图书馆古籍保护工作的思考与建议[J].科技风,2010,(18).

[4]王冠中.中文古籍数字化成果与展望[D].东北师范大学,2005.

[5]王立清.中文古籍数字化研究[D].北京大学,2006.

古籍数字化范文第6篇

关键词:古籍文献;数字化建设;对策

中图分类号:C93 文献标志码:A 文章编号:1673-291X(2012)27-0239-02

古籍文献是中国历史的产物,是中国古代文明的标志。它记载着中国各个民族的历史文化和社会政治经济发展情况,具有重要的学术价值和历史文物价值。由于人为因素和自然因素的长期作用,大部分古籍存在不同程度的损坏,甚至破旧不堪,从而影响了古籍的利用。现在,人们可以通过现代信息技术将古籍加工成数字化产品,使读者在不接触到古籍实物的情况下,同样能够研究和利用古籍,有效地解决了古籍保存和利用之间的矛盾。随着文献信息载体向数字化、网络化发展的趋势,古籍的数字化存储和网络化服务将成为中国数字图书馆发展中的一个重要组成部分。

一、古籍文献数字化建设存在的问题

1.古籍文献分类方法繁多

古籍文献浩如烟海、内容庞杂,概括起来可分为经、史、子、集四大部分;但是,建立古籍文献数据库采用何种分类法一直是争论的焦点。在手工编目时期,各图书馆便采用不同的分类法,如《中图法》、《四库法》、《人大法》、《刘国钧线装书分类法》等。甚至有的馆咳出现了同馆数法的现象,如在线装书中,善本书利用《四库法》分类,善本书以外的线装书利用《中文普通线装书分类表》进行分类。目前图书馆界专家学者的意见主要有两种:一种主张利用《中图法》,一种主张利用《四库法》。古籍文献分类的不统一,给古籍文献数据库的共建共享带来很大的困难。《四库法》集中国古代图书分类法之大成,有较完善的分类体系,在学术研究方面可以达到“辨章学术,考镜源流”的目的。但其分类较粗,类目较少,尤其是近代出现的一些科技方面的图书利用《四库法》就存在无法入类的问题。《中图法》科学性强,编制技术先进,体系完备,且不断修订,适应科学技术发展的需要,也适合广大读者的检索习惯。但由于古籍文献常常是文史哲不分家,因而有的古籍不能恰当地按《中图法》进行分类。对古籍编目而言,两种分类法各有千秋,也各有利弊。笔者认为,在古籍文献数据库建设工作中,对一部古籍文献,既著录《中图法》的分类号,也著录在《四库法》中的类目,形成两个完整的分类检索体系,使古籍分类更趋完善,更能满足读者的阅读需要。

2.古籍文献数字化产品的保存风险问题

古籍文献数字化建设是一项非常复杂巨大的系统工程,其成果数字化古籍产品无疑是众多专家学者的心血结晶。因此,古籍文献数字化的保存相当重要。据笔者了解,目前全国关于数字化古籍保存风险的讨论甚少,更谈不上制定古籍文献数字化产品的保存规范。众所周知,传统古籍存在单独实体,平时能够总体把握实体的损毁情况。数字化古籍储存在硬盘、光盘或其他载体中,由于长期的物理和化学过程也会造成载体的物理劣变、机械磨损或毁坏;不可预料的自然灾害(如火灾、洪水、地震等)以及数据保存人员的变动等均可造成难以逆转的数据丢失。

3.古籍文献数字化建设中的重复投入问题

前人留下的古籍文献数量繁多,而且比较分散,因此仅靠一个单位或组织进行古籍数字化工作是不现实的。目前中国的古籍数字化工作缺乏统一的机构协调指导,加上开发单位,尤其是一些急功近利的商业机构加入到古籍数字化队伍中,造成热点项目重复建设,冷门项目无人问津的现象。要避免古籍数字化过程中的重复投入,就应该走协同合作之路。可成立全国性的古籍数字化建设领导小组,将与古籍有关的教学研究机构、收藏机构以及进行古籍数字化工作的商业机构纳入管理范围,多家参与联合共建,以统筹规划古籍数字化建设工作。

4.古籍文献数字化的人才培养问题

在古籍数字化过程中,最重要的工作是要在录入文本前对古籍进行整理。古籍整理人员不仅要掌握中文古籍文献的分类、版本鉴定、编目,而且还要会编制数据库,懂得计算机网络、多媒体等现代信息技术,能利用现代化的科技手段来研究古籍文献。而目前较为普遍的现状是古籍整理专业人员不懂信息技术, 而信息技术人员对古籍知识又缺乏一定的了解。国家图书馆陈力研究馆员曾提到该馆进行“数字方志”项目时,由于录入人员水平有限,将大量的异形字、异体字和简繁字视为不同的汉字加以录入,不仅增加了录入工作量,更对检索系统产生重大影响,同时也阻碍了数字化古籍“知识发现”功能的实现。古籍数字化对从事古籍整理的研究人员提出了更高的要求,为确保古籍数字化工作的顺利进行,图书馆要加强古籍数字化专门人才的培养,目前业界急需一批既精通古籍知识又能熟练运用信息技术的复合型人才。

二、古籍文献数字化建设发展对策

1.成立古籍文献数字化建设领导小组

古籍文献数量庞大,且分散各地,仅由一个单位或组织来负责完成某一专业领域的古籍数字化建设是非常困难的,需多方合作才能进行。而目前国内古籍数字化工作尚缺乏全国性的权威机构统一协调和指导,导致各开发单位各自为政,热点项目重复建设,冷门项目无人问津等现象。如1998年光盘版的《四库全书》在国内至少出现了三种,造成大量人力、物力和财力的浪费。为此笔者建议,要由国家古籍保护中心、全国古籍整理出版规划小组和全国高校古籍整理研究工作委员会联合成立古籍文献数字化专门领导小组,负责审批全国范围古籍文献数字化建设的选题和立项工作,加强宏观调控和指导,剔除重复的古籍文献数字化项目和意义不大的古籍数字化项目,将有限的资金用于有意义的重点的古籍数字化建设项目,减少古籍文献数字化的重复建设、资金浪费等问题。

2.加大古籍文献数字化建设的开发力度

古籍文献不同于一般的文化遗产,它的艰涩难懂和“深闺秘藏”使其在研究开发和利用等方面都存在一定的局限性。近年来,国家有关部门与省市和部分高校图书馆做了大量的古籍文献数字化建设工作,如山东省图书馆于1996 年至1998 年4 月完成的善本书目的回溯建库工作;上海大学图书馆在1996 年将善本古籍以图像形式扫描,制作成全文光盘;国家图书馆建立了《二十五史艺文经籍志目录电脑检索系统》,为读者提供现代化的古籍目录检索手段,但大量的古籍文献仍处于象牙塔之巅。因此,要加大古籍文献的宣传和开发力度,广纳资金,扩大古籍文献数字化建设范围,积极拓宽古籍文献的开发利用渠道,充分发掘古籍文献的价值与财富,以更好地传播中国文化。

3.注重古籍文献数字化建设的人才培养和管理

古籍文献数字化建设工作是一项艰巨而复杂的系统工程,它不仅要求研究人员要掌握古籍文献的分类、版本鉴定、编目,还要会编制数据库, 懂得计算机网络、多媒体等现代信息技术, 即需要既懂古籍文献整理又精通计算机网络技术的专门人才。对这些专门人才的培养,可以通过调整高校相关专业人才培养目标和培养方案得到解决。如可在古典文献学专业中加大现代信息技术和计算机知识的内容和深度,也可在图书馆学专业、古典文献学专业中适当吸收计算机专业人才攻读硕士研究生。另外,对在职的图书馆工作人员则可通过参加各种形式的培训方式来提高古籍文献工作人员的业务水平。

古籍数字化范文第7篇

关键词:数字化;古籍软件;成就;挑战

中图分类号:G250.76 文献标识码:A 文章编号:1007-9599 (2012) 13-0000-02

一、引言

自古以来,古籍是我们的祖先留给我们的最珍贵的精神财富遗产。据不完全统计,古籍的存在,有大约130,000种。他们有一部分的收集掌握在私人手中,也有一部分分布在各地的图书馆中以及国外和国内的科研院里面。在很早以前古籍整理都依赖手工,这样不仅低效、而且费力。

二、古籍数字化工程的主要成就

古籍的数字化,其实质就是怎么用数字化媒体来承载古籍。我国的古籍数字化至今已走过20多年的发展历程。它起步于20世纪80年代,发展于90年代中后期。从目前的情况下看,在国内古籍数字化的工作还是主要依赖于如社科院文献信息中心等学术型研究机构和北京大学等学校,如迪志、汉文化联盟的出版社,还有一些像北京书同文、超星等专门技术公司,以及公共图书馆(如上海图书馆、北京图书馆),并且已经有大量的优秀的成果问世。

(一)为古籍整理的检索提供了高效的工具

以《国学宝典》为例,《国学宝典》大型古籍文献数据库全文检索系统,含二千多部重要古籍文献,具有全文逐字索引、字词频统计、智能模糊查询、自动卡片生成等功能,极大地满足了科研开发和学术研究的需要,在统计分析、主题查找、古书辑佚辞书编纂、等方面具有极大的辅助作用。《国学宝典》不仅为古籍整理后研究成果的出版创造了方便条件,同时也为古籍资源整理提供了高效的工具。

(二)解决了古籍的保护与使用之间的矛盾

我国古籍是我们的前人给后人最宝贵的遗产,数量一般不会有大的增加。一直以来,我们对估计进行物理和化学保护,实行防霉、防虫等基础工作,为了保护古籍,许多古籍保存单位严格限制古籍使用这就使得书不能不使用,不能发挥它应有的作用。古籍保存是一个问题,但是数字产品却易于保存,所以只有通过将古籍制成数字产品就可以真正的达到永久保存的目的,这些史料就会被人们充分的利用和共享。

(三)目前已经完成和开发了大量的古籍数字化相关工程

在我国古籍数字化在20世纪90年代中期以后才算是真正的得到迅速的发展。当时一些比较大的商业公司、学术机构和出版单位开始对古籍的数字化产生兴趣,开始着手古籍数字化的工作,所以就开始迅速扩大古籍数字化的规模。例国学公司推出了《国学宝典》等系列产品。如北京大学图书馆推出了“秘籍琳琅”项目,北京大学“中国基本古籍库”光盘工程。该工程正式启动于1998年,共500张光盘库,分哲学、史地、艺文、综合4个子库20个大类,范围涉及先秦至民国的重要典籍1万余种,并提供多重检索功能,每种典籍有1个通行版本的全文信息,另附1-2个珍贵版本的图像数据,预计全文20亿字、版本图像2千万页。书同文公司推出的《四部丛刊》的全文检索版。中华书局正在进行的中华古籍语料库的建设。

另外还有一些个人和机构都对古籍进行了数字化工作。在整理的过程中,人们对古籍实现数字化的原则、数字化古籍资源的特征等基本问题的认识都会有一定的加深,这些个人和机构经过持续的研究和试验,对我国古籍数字化实现的一些关键性技术也做出了不少的贡献,使得估计数字化也取得了很明显进展。

三、古籍数字化工程所面临问题

在我国古籍数字化是具有很大的现实意义,在充分挖掘古籍的史料价值和文化价值的基础上,对古籍的长久保存发挥重要作用,但是也面临这很大的问题。

(一)重复建设严重

我国分散各地,并且古籍数量十分庞大。目前,我国的数字化古籍整理没有一个统一的结构,来做出一个统一的协调与指导。一般都是单独开发。而古籍数字化工作基本上处于一种缺乏宏观调控和管理的状态,古籍整理出版规划也并没有明确规定古籍数字化的规划问题,重复性建设严重。很多开发单位各自为政,也大量的造成冷门项目少有问津,热点项目重复建设。就拿《四库全书》为例,它是我国历史上规模最大的从书,单是1998年一年内就至少出现了3种不同的光盘版,这就造成了很大的浪费,很大程度上阻碍了我国古籍数字化的发展。

(二)录用字时的识别和检索问题

古籍汉字识别的规模一般是很大的,这就使得工作变得困难重重,所以专家就要对古籍汉字识别进行严格控制,对于一些大型古籍数据库,由于操作人员本身的知识水平,就很难识别古籍中的异形(体)字、俗字,不得不“照搬照画”,其结果就是大量生造的字,这不仅仅增加了检索“模糊度”,还会出现一大堆生造的繁简字、俗字、异形(体)字。这些生造的字,对资源的共享造成了很大的困难,另外还有一些制作单位,可能会因为一些识字,采取替代法来代替一些疑难字符,这就很大程度上违背了真实性。另外,从目前看来,现行的繁简字转化系统是一种单一的一对一对应关系,没有办法解决繁简字的一对多、多对一的对应关系,所以简化字对繁体字进行转化输出时出现错误或一些其他的有歧义的字。

(三)古籍数字化缺乏一定的引导

在古籍数字化迅速发展的同时,是缺乏一定的引导的,并且在数据内容、数据质量等方面也存在不足:

1.缺少复合型人才。目前看来,从事这种古籍整理工作的人才不多,尤其是不仅仅可以熟练的应用信息技术又具备很强的古籍整理知识的人才。

2.缺少统筹规划。在我国国内是缺乏一个统一的协调和指导,缺乏一个统一的机构,各个开发单位就可能做一些重复建设,这就浪费了很多的时间。

3.急需统一标准。在目前看来,不同的单位在设计数据库时是采取的不同的标准,所以在进行数据交换时不能进行,这就不可能实现资源共享。

古籍数字化范文第8篇

古籍数字化就是利用现代信息技术对古代文献进行整理、研究与保护,并以电子数据的方式传播与使用。据了解,台湾地区的中文古籍数字化建设先声夺人,香港地区的古籍数字化工作紧随其后,而相比之下,大陆地区起步较晚。但近年来,凭借丰富的文献资源和人才优势,大陆的古籍数字化建设得以迅猛发展。近20年来,古籍的数字化和数据资源整合开发项目层出不穷,其中最具代表性的包括《国学宝典》、《文渊阁四库全书》、《四部丛刊》、《中国古籍基本库》等。

具有百年历史的中华书局,作为国内主要的古籍出版社之一,也在古籍的数字化建设中异军突起。据中华书局副总编辑顾青介绍,古籍数字化是社内一项坚持不懈的工作项目,并一直参与国家项目。

古籍实现数字化,是继古籍整理出版之后,对学术界的又一重大贡献。顾青说,跟传统的纸质古籍产品相比,古籍数字产品有着更多优势。首先,数字化技术带来了强大的存储功能,“能够存储海量的信息,现在的学者,只需要一个移动硬盘,一台电脑,就能浏览整个图书馆的古籍。”其次,快速检索的实现。在海量的信息面前,只需要简单的操作,使用者就能够找到自己需要的部分,这样“一个学者对知识的掌控能力、搜索能力就大幅提高,搜集资料的强度也随之大大减轻。”

然而,古籍数字化在不断发展的同时,也面临很多问题。第一,重复建设严重。各个机构各自开发,缺乏整体的调度和规划,热点项目重复建设,冷门项目鲜有问津。第二,文件格式缺乏统一标准,这不但不方便读者使用,也不利于资源的共享和交流。第三,文本质量不能保证,目前网络上的古籍出错率很高。对于造成这一现象的原因,顾青认为是在于“现在很多做古籍数字化工作的机构,都沒有利用古籍整理的成果,而是直接用原始文献整理,所以数字产品的质量低于已有的出版书。”在文本不能保证准确的情况下,海量信息的快速检索结果也存在出错的可能性。因此,在顾青看来,这种低水平的数字化反而是古籍整理出版的倒退。

此外,国内古籍数字化还面临着很严重的盗版问题。对此,中华书局也做出了自己的应对措施。顾青介绍,古籍出版社联合会一方面向国家版权局提出,要求在第三次著作权法修订过程中,加强对古籍数字化盗版问题的打击力度,“在法律上把篱笆扎得更紧些,为打击盗版提供更多法律依据”。另一方面,也在行业内部加强宣传,希望同行遵纪守法,充分尊重版权人的权利。

古籍数字化范文第9篇

关键词:图书馆 古籍 数字化管理

古籍是我国几千年文化的传承,是我国极为宝贵的精神和智力财富。为了更好保护和利用这些财富,很多大型图书馆,都利用了现代化的计算机技术,将古籍中的语言文字及图形转化成能为计算机所识别的数字符号,以此来制成古籍文献书目数据库以及古籍全文数据库,即对古籍进行数字化管理。这也将是今后图书馆古籍管理的一个发展的必然趋势。

一、古籍数字化管理的必要性

1、古籍数字化管理有利于古籍的保护,解决“藏”与“用”的矛盾

古籍经过几千年的辗转流传至今,往往具有唯一性并且不可再生,因此在保护古籍方面除了提高古籍的保存技术使其免受损坏外,也应借助现代化的科学技术,让这些珍贵的文化遗产得以永久的保存。另正是由于古籍的唯一性以及不可再生性,因此它们不仅具有罕见的文化价值,而且还有珍贵的文物价值。因此图书馆为了避免古籍遭受破坏,往往“重藏轻用”,造成“藏”与“用”的矛盾,不利于古籍文化的传播。

2、古籍进行数字化管理,可使古籍中蕴藏的特有信息资源得到充分利用

古籍的目录的分类、编排与检索方法与现代的都不同,如果用传统的手工检索方法来检索古籍,不仅速度慢,而且查全、查准率也较低,很可能会花费好几个小时甚至几天来查找一个人或事,或者一段引文。如果引进数字化管理,便可改进古籍的检索方式。从而更有利于对古籍中所蕴藏的特有信息资源进行开发,提高了阅读古籍的广度和深度,使古籍得到了充分的利用。

二、古籍数字化管理方法

1、古籍书目数据化及古籍全文的数据化

(1)古籍书目及古籍全文数据化方法及注意事项

古籍数量大,语言繁琐,而且在分类排架和管理上都不同于一般的图书,检索方法也很复杂,很多古籍犹如“天书”,极大的影响了读者阅读利用古籍文献的积极性。利用计算机技术,建立古籍书目数据库,便简化了古籍书的检索方法,而且新增了许多检索途经让读者对图书馆内古籍藏书一目了然。古籍全文数据库的建立,便可方便读者更简单的阅读古籍资料,并可快速准确全面的找到所需的资料。因此,古籍书目数据化及古籍全文数据化是实现古籍数字化的必要条件。

古籍书目数据化是指以书目内容:书名、责任人、版本、卷数、刻印年代、藏地等为数字化对象,对古籍的存储做源数据描述。古籍全文数据化是指以揭示古籍内容为目的,对古籍全文进行数字化处理,从而方便读者全文阅读、检索或进行智能分析。

古籍全文数字化有三种形式:一是图像版全文数字化即将古籍书页原文扫描成图像后进行存储,为读者提供相关阅读、检索服务;二是文字版数字化即将古籍书页转换成文本文字形式后进行存储,为读者提供相关阅读、检索服务;在文字版数字化中遇到生僻字可通过photoshop 等造字程序进行造字,然后再利用windows系统自身带的输入法编辑器进行生僻字的输入;三是图文版数字化,即图像版和文字版的结合,它是最理想的古籍数字化模式。

古籍数字化后的数据格式繁多,除了常见的xt、doc、html以外,还有pdf、exe、wdl、pdg、ebk、edb等,而这些格式的文件大多要自己单独的阅读器才能阅读,这样极不利用户对古籍的使用,以及古籍数字化后的资源共享,阻碍了古籍数字化的发展,因此图书馆在进行古籍数字化工作时,应建立统一的数据格式,如文本格式可采觅pdf格式,图片格式的资料可采用tiff,jpeg格式,以方便读者使用。

(2)古籍数字化存储相关技术支持

为了保证古籍的“原汁原味”,在对古籍数据化存储时,就要以图片格式进行存储,这些图片又不可进行压缩,从而导致古籍数据库异常庞大,常用的磁盘储存器很难实现。这时可根据图书馆古籍数据库的大小采用机器手光盘库或机器手磁带库这样的第三级存储器,如果第三级存储器也不能满足,便可采用san(存储区域网络)战略。存储区域网络即位于服务器后面的存储网络,它是一个主要负责存储传输的“后端”网络,所有服务器均可通过此网络对存储介质任意读取及写入,并可将多个系统连接到存储设备以及子系统。此方案可采用千兆以太网,其网速与光纤路径技术相当,且价格相对较低,建设周期相对较短。

2、图书馆古籍数字化管理中的分类法

古籍分类法是一种检索语言。任何单一的检索语言只能从某个侧面片面地、近似的反映某一网络体系,只能对多维、复杂、动态发展的人类知识文化进行线性、简化、静态滞后的反映及描述,难免存在缺陷以及不足,其准确性是近似的、相对的。现代计算机技术完全允许多种检索语言并存并且互补,如果各种检索语言自身便具有最低限度的适用性及互补性,就有助于全面揭示古籍文化的精髓,反映人类知识文化的多维体系。因此,要想构建高效灵活的古籍检索系统,就应把握各种检索语言的内在联系和相互制约作用,以此为出发点,研发各种不同的检索语言互补互用的最佳方式,为实现最终目标提供有效的技术支持。

3、图书馆古籍工作者应加强知识更新,尽快掌握新技术

图书馆古籍进行数字化管理的前提条件就是古籍工作者要更新知识结构,适应数字化的管理需要。其中计算机知识的学习是首当其冲的,只有这样才能更主动、更快捷、更有针对性的为读者提供服务,使服务水平上一个新台阶,也能为古籍数字化管理开创一个新的局面。

三、结语

图书馆古籍数字化管理虽然是近几年才提出的,但随着计算机技术的发展,古籍数字化管理也将逐渐走向成熟,从而为读者提供更优质的服务,使古籍这几千年的文化沉淀得到更好的保护以及更充分的利用。

参考资料:

[1]陈微.对我国图书馆古籍管理数字化的三点认识[j].图书馆论坛.2008(3)

古籍数字化范文第10篇

其一,古籍数字化养育出许多读者不读原典的风气。古籍数字化虽然给读者带来了便利和效率,但也在悄无声息地弱化读者、尤其是青年读者的古籍阅读能力,甚至养育出许多不读原典,只会检索的学术“懒人”。在急功近利世风的影响下,越来越多的读者不去认真阅读原著,只是根据预设的想法,在数字化古籍中检索、复制、下载能证明或支持自己预设想法的文献材料。断章取义,曲解材料,不考虑句意、语篇,不了解古籍中相关事项的其他论述,只是根据检索结果,任意剪裁文献,对问题的理解不恰当或是得出的结论似是而非的现象很突出。

其二,古籍数字化使读者勤于检索,少于思考。系统地阅读一本书与从一本书中检索出特定的资料,是两种不同性质的学习或研究过程。前者是与典籍作者对话,在阅读中思考,在阅读中提升自己的知识水平和思想境界,而后者只是一些特定信息的获取。传统阅读的卡片记录和批注,暗含着读者对事物的认识态度和分类意识,而数字化古籍以信息检索为基本内容的阅读方式带给人们的是囫囵吞枣式的阅读。

其三,古籍数字化易使读者用电脑代替人脑,不重视隐性资料。数字化检索功能带来的另一个问题是误引、误用成为常事。现在一些读者不是逐书翻检,只输入关键字词,点击鼠标。殊不知,这样检索的结果,并不都是可靠的。中国古代文献由于汉语的模糊性和不确定性,容易产生歧义,字面所反映的并不一定就是事物的真实意义,如果要了解事物的全部内容,则必须从字里行间去寻找“言外之意”或者“微言大义”。这就需要我们去仔细阅读原典,细心体会文献中的隐意,再强大的检索也无法代替。

其四,质量低劣的数字化古籍产品误导读者。一是错字错句多;二是正文和注混在一起;三是疏于校勘。四是古籍中一些特殊字词古今混用。

总之,我们对古籍数字化给读者带来的一些负面影响也应该有清醒的认识和正确的评估,并通过一些行政的、学术的手段和技术革新把这些负面影响降到最低程度,保证学术文化事业的不断进步,保证古籍数字化工作的可持续发展。(陈得媛)

上一篇:油田数字化范文 下一篇:数字化展示范文

友情链接