目前唯一可在微软平台上支持超大字符集

目前唯一可在微软平台上支持超大字符集

ID:11563629

大小:67.00 KB

页数:8页

时间:2018-07-12

目前唯一可在微软平台上支持超大字符集_第1页
目前唯一可在微软平台上支持超大字符集_第2页
目前唯一可在微软平台上支持超大字符集_第3页
目前唯一可在微软平台上支持超大字符集_第4页
目前唯一可在微软平台上支持超大字符集_第5页
资源描述:

《目前唯一可在微软平台上支持超大字符集》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、目前唯一可在微软平台上支持超大字符集可进行自然语言全文检索的实现编辑功能的典籍类数据库龙语瀚堂典籍数据库社科文献出版社北京时代瀚堂科技有限公司北京龙戴特信息技术有限公司联合制作一、龙语瀚堂典籍数据库开发缘起㈠、古籍整理与研究的现状随着现代计算机技术的发展和人们对传统文化的重视,在中国传统文化领域里利用信息技术对古籍数据库建设的工作得到高度重视和快速发展。众所周知,传统的二字节编码技术只能处理2万多汉字,而汉字在古籍中种类总量超过五万,这还没有包括甲骨文、金文、简帛等出土文献研究中使用的无法隶定的汉字。因此,现有的计算机

2、技术在使部分古籍实现了数字化、网络化的同时却依然对大量的生僻字、古字束手无策。就像我们在探究汉字起源时所经常用到的《说文解字》、《康熙字典》等字书类、小学类古籍就是因为含有大量的生僻字,至今仍无法很好的实现通用的数字化版本,更有大量甲骨文、金文等历史文献,仍然处在手工化研究的阶段。研究人员在遇到电脑上无法检索或编辑的生僻字的时候,往往利用造字、利用符号表示、利用手工制作卡片、利用语言对字的组成的描述等手段来表述,从而给学术之间的交流和传播带来了极大的不便。㈡、目前古籍数据库的应用现状数据库供应商和机构自建是目前古籍类数

3、据库资源建设的两个主要渠道。常见的古籍数据库有《国学宝典》、《中国基本古籍库》、《四库全书》等。这些古籍数据库均是以资源量取胜。《国学宝典》收录3800余套历代典籍,《中国基本古籍库》更是以万余套古籍的收纳成为目前国内最大的古籍数据库。我们在肯定这些数据库对古籍数字化的贡献和典范作用的同时,不可否认的是这些它们在技术上的瓶颈——对于生僻字的处理没有达到完全数字化,使其在内容方面有着不可避免的缺陷——对生僻汉字出现频率较高的字书类、小学类、金文类等古籍的处理均被长期搁置。汉字经过数千年的发展和演化,目前流传下来的总数量大

4、约7万左右,大量的汉字由于使用人群和领域的狭窄,被归结为“死字”。但是这些生僻汉字大量的存在于中国的古代典籍中,与常用汉字一起构成“汉字”这一中华文明的载体,它们对于历史和文明的考证有着不可或缺的作用,其本身也是文化遗产的重要组成部分。在一般的古籍中约有1‰的汉字属这类“死字”,而在诸如《说文解字》等小学类古籍中,它们出现的频率甚至高达3%以上!因此,舍弃了生僻字而建构的这些中文知识库都不是真正完整的!二、龙语瀚堂典籍数据库开发意义㈠、龙语瀚堂典籍数据库标志着汉学研究进入四字节时代为了解决古汉语数字化处理的瓶颈问题,人

5、们在编码和计算机技术的结合方面做了很多的工作。首先,大量的生僻字已经被置于四字节的编码区并确定了统一编码。其次,在微软的OfficeXP简体中文版中也预装了四字节的字库。《龙语瀚堂典籍数据库》处理系统正是在此基础上,采用了基于Unicode的四字节编码和自然语言全文检索的典籍文献数字化构建技术,解决了四字节实际应用中的一系列相关问题,从而使四字节技术真正得到开发和应用,不但结束了古籍研究手工抄写、图片替代、生硬造字的历史,也标志着计算机汉字处理开始进入到了四字节字符的领域。由于该系统使用了国际通用的基于Unicode的

6、文字编码,使得它不但能够很好地支持二字节编码的常用汉字,而且彻底突破了古籍整理和研究中生僻汉字数字化的瓶颈,开创性地实现了对所有汉字通用的典籍文献数字化。㈡、建立在数据库层级的学术研究的意义在用户群较为集中的高校领域内,以往的学习和研究,往往人手一册《说文解字》或《集韵》、《广韵》,在研究的过程中,无论是学生还是老师,总是处于一本一本翻书查找资料、手工加书签、做卡片的过程,更何况面临大量的造字工作。而当关于该学科所有的相关资料和典籍集合成库的时候,使用者不但可以自由的浏览、检索、下载和编辑,同时数据库本身的统计功能更可

7、以使以往繁复的查询工作在毫秒间完成,大大减少研究者的工作量,例如可以瞬时得到关于《康熙字典》中对于《五音集韵》的引用次数是948次。除此之外更为可贵的是,建立在数据库层级的研究往往会延伸出更多地角度和发掘出更多的研究领域。后来者之所以能超越前人,除了对前人成果的继承之外,更需要有独特而客观的视角和发现。这一点对于五千年没有发生断层的中国传统文化的研究具有极其重要的意义。三、龙语瀚堂典籍数据库的特点㈠、具有在通用浏览器上自由编辑和浏览的功能建立在Unicode超大字符集之上的《龙语瀚堂典籍数据库》处理系统采用四字节编码技

8、术使计算机可处理的文字种类数达到7万之多,即彻底解决这些四字节汉字在计算机平台上的录入、显示、编辑、检索、查询和管理。在所有已经装有Unicode超大字符集的计算机内,这些文字可以自如的在MS-office上进行复制、粘贴和通过互联网进行广泛发布,从而结束了古籍研究手工抄写、图片替代、生硬造字的时代,也为研究者、古文字爱好者查阅、

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。