古籍数字化的保真问题

古籍数字化的保真问题

ID:25582500

大小:52.00 KB

页数:6页

时间:2018-11-21

古籍数字化的保真问题_第1页
古籍数字化的保真问题_第2页
古籍数字化的保真问题_第3页
古籍数字化的保真问题_第4页
古籍数字化的保真问题_第5页
资源描述:

《古籍数字化的保真问题》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、古籍数字化的保真问题【摘要】保真问题是在古籍数字化过程中,业内专家面临解决数字化古籍使用者所关心的首要问题。本文从实践出发,探讨了数字化过程中的古籍载体转换以及古籍发布形式两个环节上面临的保真问题,并提出了解决保真问题的新思路。【关键词】古籍数字化保真古籍数字化的保真问题分为两方面,一方面要客观地反映古籍原貌,另一方面要真实地传递其中蕴涵的知识信息。关于保真问题,业内专家进行了多方面的探索和实践,但目前古籍数字化的保真工作仍未完全摆脱机械性的束缚和技术依赖的误区。本文在众多专家研究成果的基础上,尝试提出新

2、的解决思路,希望能为古籍数字化的保真工作提供有益的启示。  古籍数字化保真问题的由来  历史的变迁、地域的差异、传抄刊刻过程中的讹误,以及人为地增删篡改,都给后人阅读古籍造成了障碍,因此书非校不能读也。通过校勘训诂修正错讹,还原古籍中所要传达的真实信息,同时忠实地记录下古籍原来的面貌,以供后人进一步研究甄别,这种校勘训诂的严谨态度,尤以清代学者著称。而且这一传统一直影响到当代的古籍整理工作,古籍数字化载体的优势为古籍的保真提供了更好的解决方案,同时也带来了新的问题,这就是今天古籍数字化保真问题的由来。  

3、古籍数字化保真的现状  古籍数字化的保真问题,突出体现在古籍载体转换和数字化古籍发布两个环节。  1.古籍载体转换环节的保真问题  古籍数字化工作的第一步是完成传统载体向数字化载体的转换,这一工作的中心环节就是实现汉字的数字图形向数字字符的映射。然而古籍中异体、避讳、通假、俗字、繁体等文字现象,以及传抄刊刻过程中的错讹,造成大量非标准汉字的存在,给这一过程造成了极大的困难。目前对于这一问题的处理出现了以下两种倾向。  转换过程过于机械。比如古籍中的异写字:“半”上的两点或作八,“疽”字下的且或作旦,再如古

4、籍中的缺笔避讳字:“通”缺中间一竖,“丘”缺中间一竖等。对于这种字形上稍有变化的字都要求反映在数字字符上。陈力先生在国家图书馆的古籍数字化工作中就发现,如果按照这种“依样画葫芦”的做法,即使Unicode字符集扩展到十万字以上也不能完全满足这种机械性的古籍数字化的需求。更重要的是,这种机械性的保真将影响到检索的可信度和精度,并造成数据库在开放、共享方面的困难。因为使用者在检索时并不清楚某部书中某字的具体写法,甚至一部书中同样的字也可能有许多种变体[1]。  另外古籍中的通假字,只有具备相关专业知识的专家才

5、有能力甄别,比如:《素问·痹论》“凡痹之类,逢寒则虫,逢热则纵”。本句中,“虫”通“痋”,亦即“疼”字。如果照搬原文,直接转换为“虫”字,那么普通读者读到此处时仍然会是一头雾水。  还有古籍本身的错误,比如:乾隆集思堂本《尚论后篇》“在太阳则寒伤管之症”,“管”字实为“营”字的讹误。“大不后,六、七日不大便”,“不”显为“下”字之讹。像这种错误如果不加甄别地转换到数字文本中,反而会使原书失真,从而造成不必要的学术困惑,甚至产生新的错误。这样的保真名为负责,实际上是一种失职,是不负责任的表现。  无论古籍中

6、的字写成什么样,甚至不管对错,都要求找到一个与之字形一致的数字字符相对应。技术人员的出发点是好的,但这种机械性的方式显然不是最佳的解决方案,在目前的技术条件下也是不太可能实现的。  与之相对应的是转换过程过于随意。古籍数字化工作中的技术人员往往不太懂古籍,他们生怕改动古籍的一点一画,只好千方百计发挥自己的技术潜能,希望能将古籍原原本本地转换为数字文本,而不太考虑读者的实际需要。一旦技术水平达不到完全保真的程度,他们就会做一些“大胆”的变通处理,结果就难免错乱。  技术人员的变通方案无非“形近替换”,但形体

7、近似者未必功能相同,形体差别很大的有时反而功能相同。比如:敦煌医药卷子《灸图法》中有一字,形近“念”(第四笔的横折为横,第五笔的点为横),但此字跟“念”没有任何关系,而是“俞”字写作“愈”后再草写讹变而成[2]。再如:《四库全书》中“惠”字有三种写法,除通行体外,一种写法没有“心”上的挑和点,中间的竖画下面不出头,另一种写法也没有挑和点,但中间竖画出头。字符集中只有通行体和竖画不出头的编码,遇到竖画出头的那种写法时,根据“形近替换”的原则,要用竖画不出头的写法替换,而不是选用通行的“惠”来替换。这种做法实

8、际上并未达到保真目的,反而忽视了规范原则。  其他变通的方案,一是将这些没有编码的字不做处理,在数字文本中暂时空缺。但这样的话,我们就人为地为古籍制造了一个“数字残本”,古籍数字化的意义就会大打折扣。或是保留图像添补到数字文本中的空缺中,这样表面上是保证了古籍的完整性,但计算机是“读不懂”这些图像的,因此也就无法进行检索、统计等处理,这样将来就无法精确实现数字化古籍的“研究支持功能”[3]。  2.数字化古籍发布环节的保真问题

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。