对古籍数字化进程中若干问题的思考论文

对古籍数字化进程中若干问题的思考论文

ID:25528053

大小:53.00 KB

页数:7页

时间:2018-11-20

对古籍数字化进程中若干问题的思考论文_第1页
对古籍数字化进程中若干问题的思考论文_第2页
对古籍数字化进程中若干问题的思考论文_第3页
对古籍数字化进程中若干问题的思考论文_第4页
对古籍数字化进程中若干问题的思考论文_第5页
资源描述:

《对古籍数字化进程中若干问题的思考论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、对古籍数字化进程中若干问题的思考论文default.htm)。该工程1998年正式启动,全套光盘库共500张,分哲学、史地、艺文、综合4个子库20个大类,范围涉及先秦至民国的重要典籍1万余种,并提供多重检索功能,每种典籍有1个通行版本的全文信息,另附1~2个珍贵版本的图像数据,预计全文20亿字、版本图像2千万页。(4)汉文化联盟“汉文化资料库”工程()。内容涵盖历代重要古籍,按照经、史、子、集进行分类,精选底本勘校而成。与单纯的全文检索不同,资料库中包含《龙藏》(部分)、《历代书法全集》(图、文)和“汉文化考

2、证检索系统”,极富特色。(5)台湾典藏数字化计划()。由中国复旦大学历史地理研究中心、美国哈佛大学、哈佛燕京学社、澳大利亚格林菲斯大学亚洲空间数据中心等机构合作开发。项目目标是建立中国历史时期基础地理信息系统数据库,使其成为中国历史GIS数据的基础平台。这是一个研究性、工具实用性都很强的开发项目,与单纯的把古籍转化成图片或检索文本的数字化不同,也显示出另一种古籍数字化的发展方向。(7)“国际敦煌学”项目(pg/)。由美国伊林诺斯大学文理学院米歇尔哈特倡议,始于1971年。计划对世界上的一些经典古籍进行数字化,

3、其中包含了中国经典文学、历史和地图等方面书籍和资料的数字化内容,如《论语》《桃花源记》《三国演义》等。其中国境内访问的镜像站为ftp://ftpbook.dhs.org/mirrors/gutenberg/。此外,像超星数字化图书馆和一些公共图书馆也在其电子图书中不断增添新的古籍,一些古籍研究机构和个人也在工作中将相关文献变成电子文本,这也是古籍数字化队伍中不可忽视的力量。3在古籍数字化处理过程中需注意的若干问题毫无疑问,古籍数字化的最终目的是更大范围、更便捷、更有效地让古籍文献为人们所利用。然而,由于用户群

4、体的不同,其需求也存在较大差异,因此这个“用”也显示出不同的层次。为了满足多层次、多方面的需求,我们在研制和开发检索快、功能全、质量高的古籍数字化产品时,必须要注意以下几个问题。3.1制订并规范古籍数字化的元数据标准元数据在不同的领域有着不同的定义和应用,在图书馆界和信息界被定义为:提供关于信息资源或数据的一种关于结构化的数据,其功能为描述数据本身之特征或属性,用以规定信息的组织结构,便于对数据进行标准化处理,也为与其他信息系统的对接和共享数据提供必要的接口。但由于古籍整理和古籍数字化属于比较特殊的种类,规模

5、相对较小,目前尚无相关标准。因此,从事古籍数字化的图书馆必须主动与IT领域联合,共同制订并规范元数据标准。包括:1)版本信息,如版本类型、年代、版式、字体、刊刻地点、刻工姓名等;2)收藏信息,如该文献收藏于哪个或哪些图书馆,以方便那些从事版本学研究的专家到馆查看实物;3)作者信息,古籍数据库应该对其中的作者进行严格的辨析并提供相应信息,包括作者姓名、朝代、生卒年、籍贯、著述等;4)作品信息,如作品的作者、体裁、创作年代、字数等,便于读者统计、分析。3.2统一古籍数字资源的文件格式目前用于存储古籍数字资源的文件

6、格式有纯文本(txt)、超文本(html)、便携式文档(PDF)、电子书e-book(CEB)、超星图书(PDG)等,名目繁多,甚至有些从事古籍数字化的专业机构或公司出于产权保护的需要自行开发数据系统并制订相应的文件格式。这无疑对数据共享是一个极大的障碍。因此,从古籍数字化的长远目标来看,我们应当统一其文件格式,这种格式既要适合汉字尤其是繁体字的存储,又要具备足够强大的加密功能,以保护各自的知识产权。同时,为保证数字化古籍的科学、严谨、规范,这种文件格式还应该能够方便地进行汉语拼音标注和人名、地名标记。另外,

7、这种文件格式应有利于进行全文检索,并能够对检索出的字词予以凸显或标记。3.3建立完善的汉字字符代码集汉字种数约有十万左右,其中常用字不过三四千,绝大多数字属于僻字,而这些不常见的僻字是计算机无法识别的。因此,在古籍整理及数字化处理过程中遇到无法录入的僻字时,常常用方框、黑块等符号表示空缺,或者用数字代替,链接到字形图片,或者说明偏旁的上下左右内外等,这就给阅读造成了极大障碍。目前,《国家“十一五”时期文化发展规划纲要》在“重大文化产业推进项目”中列有“中华字库”工程——建立全部汉字的编码和主要字体字符集,希望

8、能够解决此类问题。3.4尽量找“全”、找“准”古籍文献以《国学宝典》为例,目前收录的电子文献已经不少,容量相当可观,但仍遗漏了许多应该收录的内容。比如“宋初四大书”,其他三种都已收录,唯独文学价值最高的《文苑英华》未收。又如,诗话类著作收了一些,但重要的《沧浪诗话》却未收录,尤其是别集类文献。对于研究者来说,事实上别集往往比总集更重要、更有用。总集通常用以检索,别集则是阅读和研究的依据,但大量收入别

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。