资源描述:
《古籍数字化的若干成就及问题分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、古籍数字化的若干成就及问题分析阙薇薇上海博物馆201306邮寄地址:13501661855上海博物馆信息中心【摘要】伴随信息技术的发展和进步,古籍数字化相对来说是一个新领域,它与文化传承、文献保护、古籍整理紧密相关。本文首先谈起了古籍数字化的主要成就,然后介绍了目前中文古籍数字化工程所面临的问题,并进一步对古籍数字化进程中的问题给出了一些建设性的建议,为同行作参考。[关键词]数字化;古籍软件;成就;挑战引言自古以来,古籍是我们的祖先留给我们的最珍贵的精神财富遗产。据不完全统计,古籍的存在,有大约130,000种。他们有一部分的收集掌握在私人手中,也有一部分
2、分布在各地的图书馆中以及国外和国内的科研院里面。在很早以前古籍整理都依赖手工,这样不仅低效、而且费力。1.古籍数字化工程的主要成就古籍的数字化,其实质就是怎么用数字化媒体来承载古籍。我国的古籍数字化至今已走过20多年的发展历程。它起步于20世纪80年代,发展于90年代中后期。从目前的情况下看,在国内古籍数字化的工作还是主要依赖于如社科院文献信息中心等学术型研究机构和北京大学等学校,如迪志、汉文化联盟的出版社,还有一些像北京书同文、超星等专门技术公司,以及公共图书馆(如上海图书馆、北京图书馆),并且已经有大量的优秀的成果问世。1.1为古籍整理的检索提供了高效
3、的工具以《国学宝典》为例,《国学宝典》大型古籍文献数据库全文检索系统,含二千多部重要古籍文献,具有全文逐字索引、字词频统计、智能模糊查询、自动卡片生成等功能,极大地满足了科研开发和学术研究的需要,在统计分析、主题查找、古书辑佚辞书编纂、等方面具有极大的辅助作用。《国学宝典》不仅为古籍整理后研究成果的出版创造了方便条件,同时也为古籍资源整理提供了高效的工具。1.2解决了古籍的保护与使用之间的矛盾我国古籍是我们的前人给后人最宝贵的遗产,数量一般不会有大的增加。一直以来,我们对估计进行物理和化学保护,实行防霉、防虫等基础工作,为了保护古籍,许多古籍保存单位严格限
4、制古籍使用这就使得书不能不使用,不能发挥它应有的作用。古籍保存是一个问题,但是数字产品却易于保存,所以只有通过将古籍制成数字产品就可以真正的达到永久保存的目的,这些史料就会被人们充分的利用和共享。1.3目前已经完成和开发了大量的古籍数字化相关工程在我国古籍数字化在20世纪90年代中期以后才算是真正的得到迅速的发展。当时一些比较大的商业公司、学术机构和出版单位开始对古籍的数字化产生兴趣,开始着手古籍数字化的工作,所以就开始迅速扩大古籍数字化的规模。例国学公司推出了《国学宝典》等系列产品。如北京大学图书馆推出了“秘籍琳琅”项目,北京大学“中国基本古籍库”光盘工
5、程。该工程正式启动于1998年,共500张光盘库,分哲学、史地、艺文、综合4个子库20个大类,范围涉及先秦至民国的重要典籍1万余种,并提供多重检索功能,每种典籍有1个通行版本的全文信息,另附1~2个珍贵版本的图像数据,预计全文20亿字、版本图像2千万页。书同文公司推出的《四部丛刊》的全文检索版。中华书局正在进行的中华古籍语料库的建设。另外还有一些个人和机构都对古籍进行了数字化工作。在整理的过程中,人们对古籍实现数字化的原则、数字化古籍资源的特征等基本问题的认识都会有一定的加深,这些个人和机构经过持续的研究和试验,对我国古籍数字化实现的一些关键性技术也做出了
6、不少的贡献,使得估计数字化也取得了很明显进展。2.古籍数字化工程所面临问题在我国古籍数字化是具有很大的现实意义,在充分挖掘古籍的史料价值和文化价值的基础上,对古籍的长久保存发挥重要作用,但是也面临这很大的问题。2.1重复建设严重我国分散各地,并且古籍数量十分庞大。目前,我国的数字化古籍整理没有一个统一的结构,来做出一个统一的协调与指导。一般都是单独开发。而古籍数字化工作基本上处于一种缺乏宏观调控和管理的状态,古籍整理出版规划也并没有明确规定古籍数字化的规划问题,重复性建设严重。很多开发单位各自为政,也大量的造成冷门项目少有问津,热点项目重复建设。就拿《四库
7、全书》为例,它是我国历史上规模最大的从书,单是1998年一年内就至少出现了3种不同的光盘版,这就造成了很大的浪费,很大程度上阻碍了我国古籍数字化的发展。2.2录用字时的识别和检索问题古籍汉字识别的规模一般是很大的,这就使得工作变得困难重重,所以专家就要对古籍汉字识别进行严格控制,对于一些大型古籍数据库,由于操作人员本身的知识水平,就很难识别古籍中的异形(体)字、俗字,不得不“照搬照画”,其结果就是大量生造的字,这不仅仅增加了检索“模糊度”,还会出现一大堆生造的繁简字、俗字、异形(体)字。这些生造的字,对资源的共享造成了很大的困难,另外还有一些制作单位,可能
8、会因为一些识字,采取替代法来代替一些疑难字符,这就很大程度上违背了