《古籍数字化技术》ppt课件

《古籍数字化技术》ppt课件

ID:40027602

大小:2.15 MB

页数:23页

时间:2019-07-17

《古籍数字化技术》ppt课件_第1页
《古籍数字化技术》ppt课件_第2页
《古籍数字化技术》ppt课件_第3页
《古籍数字化技术》ppt课件_第4页
《古籍数字化技术》ppt课件_第5页
资源描述:

《《古籍数字化技术》ppt课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第六章古籍数字化技术古籍数字化实践•合理目标定位–古籍数字化能否成功,合理的目标定位至关重要。–对于以文字为主的中国古籍来说,它的数字化绝不是纸张载体版本的翻版。扫描是必要的,但扫描在很多情况下只是数字化的预处理。–把古籍的内容数字化并使之与多种有效的检索、处理工具完美结合,奉献给读者知识宝库和卓有成效的研究手段,使学者多出成果,快出成果,这才是古籍数字化的目标。–还有一点不可忽视的是,古籍数字化后的文字,差错率应达到出版界规定。古籍数字化处理流程与体系结构古籍数字化处理流程与体系结构体系结构:一个基本的古籍数字化系统至少包括两个子系统:数字化子系统和检索浏览子系统。数字化工具•(1)国际

2、标准ISO/IEC10646(GB13000/Unicode)是古籍数字化的适用文字平台–国际标准ISO/IEC10646的全称是:信息技术-通用多八位编码字符集(Informationtechnology-UniversalMultiple-OctetCodedCharacterSet)。在IT界另一通俗称呼为Unicode。–目前已商品化字符集:ISO/IEC106461:2000/Unicode3.0。–其中包括汉字27484个。用户区(EUDC)汉字5000余个,共计32000余汉字,已成功用于《四库全书》、《四部丛刊》等古籍数字化,但不包括小学类字书用字。–2001年11月正式颁

3、布:ISO/IEC10646-2:2001(E)/Unicode3.1,收入汉字七万余个,除甲骨文、篆文外,可满足世界各地汉字使用需要。数字化工具•(2)采用OCR技术,实现图文数码转换–所以选用OCR技术实现古籍文字的数码转换,其原因是:•对古籍汉字中简繁、异体字的输入,OCR较之人工录入有优势(十选识别率可以达到99%,其中的90%可以正确识别,另外的9%可以通过点击而不是键盘输入解决)。因此数据加工人员不需再做大量的古籍文字手工录入工作,重点转向文字校对工作。•通过OCR可以建立图-文之间形影不离的一一对应关系,便于实现高效率高质量的电脑辅助校对。•有成规模的加工批量。即使初期在OC

4、R前后处理的软件研发中要有一定投入,但效率与质量总的效果比人工录入好。数字化工具•(3)用软件工具辅助人工校对•校对作业一般是在网络环境下在屏幕上进行的。–提供的是将古籍原稿的电子图像与数码化的文字对照比较,使校对工作无纸化。其中有页(原稿图像)对页(数码)、列/行(原稿图像)对列/行(数码)、字(取自不同页的原稿图像)对字(取自不同数码页)的形影不离的校对方式,并辅以联机异体字字典,有效地减少了校对者的视觉转移,便利于版面与文字查错,提高工作效率,减少疏漏。同时还提供横向的聚类校对,即把不同页处的同一图像文字取出,看其转换的代码文字是否正确。•为了给总校人员提供有效校对工具,还用数理统计

5、的方法,根据文字识别可信度的统计结果,将易产生差错的字重点提示,将不易产生差错的字隐蔽淡化,使总校工作突出了重点,不仅提高了工作效率,而且使差错率达到低于国家出版行业万分之一的指标。数字化工具•(4)采用XML作为文献内容的标识语言•XML(ExtensibleMarkupLanguage)即可扩展标记语言,是一种元语言。它是国际互联网联盟(W3C)开发的用于网络环境下数据交换、数据管理和网页设计的新技术。它是国际标准SGML(StandardGeneralizedMarkupLanguage[ISO8879])的一个子集,一个实用标准。•《四库全书》、《四部丛刊》数字化开发的实践表明:–

6、XML非常适合非结构化文献的全文处理,易于表达文献资料;XML将资料的存贮与显示相分离,可支持同一资料不同格式的显现、输出,支持多种应用程序的处理;XML可直接应用于因特网,便于开发网络版电子出版物;XML有良好的层次结构和约束,处理起来很容易,极大地减少软件开发成本;XML基于资料内容进行标识,因而可被不同程序用于不同用途;XML具有很强的链接功能,可定义双向链接、多目标链接、扩展链接和文件间链接,非常有利于实现各种关联检索和图文的链接处理;XML提供了从小配置文件到大规模资料仓库的可扩展性;XML支持ISO/IEC10646/Unicode。数字化工具•(五)数据库+知识工具库多种信息

7、关联的全文检索引擎•《四库全书》在全文主体数据库的基础上链接了《中华古汉语字典》、《四库大辞典》、《四库全书简明目录》、“SuperCJK汉字库”以及“古今纪年换算”等知识库和工具库。•《四库全书》电子版不仅可以实现传统的特征检索(题名、作者、关键字词语检索)以及由这些特征构成的布尔组配检索,还可以实现由一个字到另一个字、由书目到全文、由著作者条目到其作品、由相关作者到相关作品的关联检索,还可实现对读者不解的文字立即提供

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。