欢迎来到天天文库
浏览记录
ID:57100662
大小:115.00 KB
页数:9页
时间:2020-08-02
《国家数字图书馆中文信息处理.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、国家数字图书馆中文信息处理☐翟喜奎/国家图书馆业务管理处北京100081摘要:国家数字图书馆负有重点收藏和长期保存中文数字资源,建立中文数字资源保障中心,建设中文数字资源查询基地的责任。因此,中文信息处理在国家数字图书馆中的应用具有重要作用。本文对中文信息处理以及国家图书馆数字图书馆中文信息处理标准规范进行介绍;指出中文信息处理标准规范在国家数字图书馆建设中的必要性和重大意义。关键词:数字图书馆,中文信息处理,汉字属性字典1引言数字图书馆是面向未来互联网发展的信息管理模式。以数字资源的制作、存储、管理、传输和服务
2、为主要特征的数字图书馆技术,是21世纪国际科技文化竞争的焦点之一。中国国家图书馆数字图书馆是信息技术和网络技术发展的必然结果,是传统图书馆在信息网络时代的拓展与延伸。根据国家图书馆的职能,国家图书馆数字图书馆在数字资源建设方面,全面收藏中文文献信息,是全球最大的中文文献提供中心;负有重点收藏和长期保存中文数字资源、建立中文数字资源保障中心、建设中文数字资源查询基地的责任[1]。因此,中文信息处理在国家数字图书馆建设中具有重要作用。中文信息处理包括汉字编码字符集、中文信息输入、输出、中文信息处理基础研究等各个方面。
3、为了规范、指导数字图书馆建设,国家图书馆制定了一系列数字图书馆的相关标准规范。中文信息处理是国家图书馆数字图书馆标准规的一部分。主要包括五个方面内容:1、汉字属性字典规范;2、古籍用字规范;3、生僻字、避讳字处理规范;4、计算机中文信息处理规范;5、中文文献全文版式还原与全文输入XML规范。通过数字图书馆中文信息处理标准规范的制定与实施,指导数字图书馆数字资源制作、存储、管理、传输和服务完整过程的建设。2汉字属性字典规范汉字属性字典规范是确保数字图书馆建设的重要标准规范之一。针对数字图书馆文献类型复杂,使用汉字字
4、符数量大等特点,汉字属性字典规范要求处理的汉字范围为GB18030-2005(UNICODE5.1、ISO10646-2003)所包括的全部汉字。 汉字属性字典规范的基本内容是汉字字型标准化、汉字标准发音、字型特征(包括汉字总笔画数量、汉字起笔至末笔笔形值、部首笔画数量、部首序号、部首外起笔至末笔笔形值、异体字数量、异体字字型等)、各种编码(包括四角号码、输入编码、其他汉字字符集编码等)以及构词和使用频度等。汉字属性字典规范应解决①代码转换;②为检索提供规范;③汉字排序;④字音转换;⑤为文字研究提供汉字的基本属性
5、;⑥提供汉字电子工具等应用问题。汉字属性字典规范是建立汉字属性系统的基础,是汉字信息处理系统的一个重要组成部分,可以使计算机处理中文信息的功能更为齐全,提高效率,促进标准化。对汉字属性字典规范的研究和利用是中文信息处理技术不断深入发展以及数字图书馆深入应用的必然结果。因此,对汉字属性字典规范的研究与应用具有很重要的意义。2.1汉字属性字典规范与其它规范的关系汉字属性字典规范是中文信息处理的基础;也是古籍用字规范、生僻字和避讳字处理规范、计算机中文信息处理规范的基础。古籍用字规范、生僻字和避讳字处理规范、计算机中文
6、信息处理规范是汉字属性字典规范的具体应用。2.2汉字属性字典研究现状在汉字属性研究方面,自80年代中期,我国相继研制出了一些具有应用价值的汉字属性字典、汉字属性库和汉字属性系统。基于GB13000.1《信息技术通用多八位编码字符集》即(ISO/IEC10646.1-1993)、UNICODE1.0的汉字属性标准研究已经完成,解决的汉字数量只是基本集20902个汉字。但是,基于UNICODE5.1(ISO/IEC10646:2003)的汉字属性标准研究,当前还是空白,除了已经解决的汉字基本集20902个汉字之外,还
7、要解决的汉字数量是扩充A集6582个汉字、扩充B集42711个汉字。要加速该方面的基础研究,满足数字图书馆资源建设以及实际应用的需求。为了适应未来数字图书馆的发展和应用,已有的汉字属性研究还需要进一步拓展和深入。首先,需要将汉字属性研究的汉字数量从20902字扩大到70195字;需要对汉字属性研究的内容根据应用的需求不断扩充;需要对汉字的有些属性,根据ISO/IEC10646进行相应的调整、补充;需要加强对属性数据的维护与更新。国家图书馆汉字属性字典规范要求处理的汉字范围为是GB18030-2005(UNICOD
8、E5.1、ISO10646-2003)所包括的全部汉字(即7万多字),要求满足数字图书馆资源建设以及实际应用的需求。汉字属性字典规范是中文信息处理的基础,为中文信息处理提供基础数据,为中文信息处理应用提供支撑。目前,国内外对汉字属性字典研究在7万多字范围的还是空白,因此,在处理难度上可想而知。2.3代码转换汉字编码字符集是汉字的存储和传输码,一般又称为汉字内码,也叫做汉字
此文档下载收益归作者所有