欢迎来到天天文库
浏览记录
ID:9427791
大小:51.00 KB
页数:5页
时间:2018-04-30
《古籍数字化过程中汉字字库不足的解决思路》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、古籍数字化过程中汉字字库不足的解决思路 古籍数字化是加快古籍流通,有效保护古籍的重要手段。中文古籍数字化肇始于1978年,美国人PJIvanhoe使用电子计算机编制了《戴震孟子字义疏证索引》《王阳明大学问索引》《王阳明传习录索引》《朱熹中庸章句索引》《朱熹大学章句索引》机读目录。 目前在美国,由北美36家图书馆组成的美国图书馆研究学会,拥有25000条数据的数据库做到了馆际资源共享,并还在不断地扩充完善中。哈佛燕京图书馆拥有的线装古籍计算机检索系统中的1000余种家谱的资料,目前已经编目完成。在英国,大量中国珍
2、贵文献和古籍收藏在大英图书馆,大英图书馆开发的古版书简明标题目录是当前全球古籍文献数据库最大的联机数据库。以上这些成果为我国古籍数字化建设提供了宝贵的经验。 据2010年不完全统计,我国大陆地区有179家单位从事古籍数字化,形成各类数据库(包括各种古籍书目数据库、古籍全文数据库等)415个,许多数据库的字数都在1亿以上。较权威的统计表明,2012年我国公藏机构已经拥有超过20亿字的数字化文本格式的古籍。一些已成规模的大型古籍数据库还在原有基础上不断拓展和完善。 中国大陆地区开始中文古籍数字化工作以来,制约古籍数
3、字化进程的主要问题是汉字字库问题。业界就这一问题进行了深入的研究和探讨。 1国内外古籍数字化过程中对汉字字库问题的研究概况 1.1汉字字库的研究情况 我国从20世纪50年代就开始了计算机中文信息处理的理论和技术的研究,自20世纪70年代中期开始,我国逐渐加快在计算机中文信息处理方面的发展步伐,在汉字键盘输入技术、汉字输出技术、汉字编码技术、汉字储存、检索和识别、电子照排、中文平台等多方面取得了一系列重大成就。陆续开发的汉字键盘输入方法,解决了汉字进入计算机的难题;汉字输出实现了多字体、多字号;汉字字库的制作也
4、由点阵字库、矢量字库逐步过渡到曲线轮廓字库;汉字自动识别技术达到国际先进水平,并有商品投入市场;ISO/IEC10646的CJK字符集,由早期的20902个CJK统一汉字逐步扩充,扩充集A和扩充集B已经完成,现在正讨论扩充集C1。待扩充集C1完成后,中日韩编码汉字已经7万多。这些成就,促进了中国计算机的普及,为发展计算机应用技术和信息化创造了基本条件。 1.2汉字字库的不足 中国古籍数字化经过近30年的努力,汉字字库得到了飞速发展,并开发出了超大字符集字库。在汉字信息化标准制定方面,国内外相继制定了多个汉字编码
5、标准。最新的GB18030-2005标准可以涵盖70244个汉字。然而,古籍中的汉字大约有10万多个,GB18030-2005的字库还是远没有覆盖所有汉字。因此,在古籍数字化时依然会碰到不少缺字现象,补字工作不可避免。汉字字库的不足是影响古籍数字化质量及进程的主要问题之一。 2我馆古籍数字化过程中应对汉字字库问题的策略 井冈山大学地处素称江南望郡、金庐陵、文章节义之邦的吉安,一直以来注重庐陵文化相关文献资料的购买和收藏,为充分挖掘庐陵文化的精髓和内涵,又组织力量对相关的馆藏资源进行数字化加工,建成了特色数据库,
6、为研究者提供了更快捷、更丰富、更深层次的服务。 所谓庐陵文化,主要是指读书人多,建功立德者多,文教设施多,发表著述多等等。在数字化庐陵文化名人的古籍作品时,比如在《欧阳修文萃》的数字化过程中,尽管安装了超大字符集字库,对计算机也作了相应的设置,但还是碰到不少问题。故笔者将三年来数字化庐陵古籍文献中的实践经验进行总结,希望对从事古籍数字化的同仁有所启发和帮助,以期更多的古籍文化得以展示和传承。 2.1选择合适的输入法 在古籍数字化过程中,安装大的汉字字体库,能解决大部分汉字的输入与显示问题。目前比较成熟的输入法
7、有很多,但任何一种输入法都难以囊括字体库中的所有汉字。因此,对输入法的选择至关重要。合适的输入法,不但决定了汉字的输出能力,更影响着古籍数字化的效率。 笔者建议选择极点五笔输入法,其一,此输入法既可单独进行五笔字形、拼音输入法的选择,也可选择五笔拼音输入法,在这种输入状态下,对于那些目前还不能通过五笔输出的汉字,可直接输入该字的拼音进行输出,省去了在五笔和拼音之间来回切换的操作;其二,该输入法的繁简切换非常直观、明了、方便,对于那些不是很熟悉的繁体字,通过输入其简体字就能显示对应的繁体字,这样建库人员能很快地确定
8、其正误。比如齋和齊,不仔细区别感觉像是同一个字,但实际上它们分别是斋和齐的繁体字。 2.2偏僻字的录入技巧 目前汉字字库中有大量的生僻字,无法通过五笔输入法输出,需通过拼音输入法才能输出,此时可在and命令进行拷贝操作,当然如果造字程序或自造字文件处于运行状态,则拷贝操作无法进行。 4、结语 古籍数字化建设是一项艰巨而复杂的系统工程,尽管目前古籍
此文档下载收益归作者所有