古文字的字形整理 及其编码的原则.ppt

古文字的字形整理 及其编码的原则.ppt

ID:56467210

大小:458.00 KB

页数:16页

时间:2020-06-19

古文字的字形整理 及其编码的原则.ppt_第1页
古文字的字形整理 及其编码的原则.ppt_第2页
古文字的字形整理 及其编码的原则.ppt_第3页
古文字的字形整理 及其编码的原则.ppt_第4页
古文字的字形整理 及其编码的原则.ppt_第5页
资源描述:

《古文字的字形整理 及其编码的原则.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、古文字的字形整理 及其编码的原则王宁北京师范大学民俗典籍文字研究中心古文字进入计算机的必要性80年代以来中国内地大量出土的文字,一部分已经进入今文字阶段,另一部分属于古文字。这一部分古4文字由于是考古发掘的成果,历史时代确定,无需辨伪,充实了从宋代就开始搜集的金石文字,掀起了世界性的中国古文字热。新出土的古文字,不仅使汉字史的研究发生了很大的变化,也不仅对人类学、历史学、文化学、古地理学、历史语言学……起了新的推动作用,而且由于这部分文字所具有的十分典型的表意文字特点,以及所含有的文化内涵,被不断

2、引进文化教育领域,迅速走向普及,成为世界各国了解中国文化的一个重要窗口,因此,已经在印刷品和影视传媒中频频出现。我们统计了2000年国内的8种重要的报纸和在国际上销量排前10位的普及刊物,其中的文章已经采用或需要采用古文字原形的地方有561处,涉及334个字形。古文字进入计算机已经势在必行,科学整理字形,解决编码问题,是古文字信息处理的前提。古文字字形整理与编码 对信息处理的重要作用由于造字技术的发展,已经有不少单位创建了某种字体的古文字原形字库。拥有古文字字库后,遇到的最大难题是如何将需要的字形

3、及时找到,以便提供给其他专业领域和普及层面在创建文本时任意调用。现有的GB13000.1字符集不可能与已经出土的古文字一一对应,即将出台的超大字符集仍然不够与各种形制和各时代的古文字对应。古文字的调出只有依靠自己的编码,要想作好编码,字形的整理必须先行。新出土的古文字加上原有的古文字,有些已经编成字表形式或加上解释编成诂林形式,但是,它们的字形整理还不能符合信息处理的需要。更达不到国际化的要求。古文字不能作为某种字体与现代汉字对应古文字字库的两种类型古文字字库可以有两种类型:(1)指称型古文字字库

4、。这种字库的功用,是在创建某些文本时,出于讲述或引用的需要,在行文中提到某个或某几个古文字时,能够把这些个古文字插到文本里去。(2)全原形古文字字库。这种字库的最高要求是要在计算机里再现一切现有的古文字实用文本中的字样。后一种要以前一种为基础。创建一种指称型历史字体的字库,要求字形准和全,一般采用从古文字实用文本中选择字形,即使重新写字模,也要以选择好的字形为依据。字形选择必须整理文本用字。古文字字形整理和编码的单位字系:同时代、同形制全部的字符群字组:同一字系中记词职能相同(音义相同)的多个字形

5、的群体字种:记词职能相同、结构(构意)相同的多个字形的群体。同一字组中不同的字种互为异构字字样:同一字种中仅仅写法不同的个体。同一字种中不同的字样互为异写字指称型古文字字库搜集字种,全原形古文字字库搜集字样。古文字编码应当以字种为单位为编码进行的古文字字形整理古文字字形整理的主要任务是认同与优选:分别已识字与未识字对已识字的职能认同(类聚字组),在同一字组的字种在排序时应当邻近,并优选领字字种,置于前列,作为本组字的信息代称对字种的形体认同(类聚字样),优选主形,作为本字种的信息代称,同一字样应视

6、为一个字,坚持同码指称型古文字字库只保留主形字样,全原形古文字字库字组中的其他字样与主形认同。“酉”的甲骨文异形字样一般应选择上面列举字形的6或7作主形“齿”的甲骨文异形字样一般应选择上面列举字形的8作主形“隹”的甲骨文异形字样一般应选择上面列举字形的8作主形字种的划分以甲骨文为例,在字组中选择的字种数:一1元3天4史2上2帝6旁3下2示3福6祭3祀4古文字编码的有利条件古文字字库的作用有两个层面:第一,给专业人员研究和贮存文字使用;第二,供普及领域指称。后者用量不大,可以单独处理。主要考虑专业人

7、员使用,编码在易学性上可以放宽。他不需要通篇连续采用来创建长篇文本,在快速性上可以放宽;因而在码长(码元可以多一些)的设计上可以不必过于拘泥。古文字信息量大、形体的参照系多,为其设计形码的区别因素多于现代汉字。古文字编码可使用的区别因素已识字与未识字首先分开。后者无法设置音码,应考虑基础部件的作用。基础构件中成字构件可以采用读音(一般与《说文》小篆认同来确定);非字构件只能利用线条类型。例如:小篆可分:横、竖、左斜、右斜、弧、曲、折、封八类。小篆结构图式共146种,再次归纳为基本图式12种,可以套

8、用。重码率:甲骨文经过处理可降低到1.9,但每码带动字样数平均7.4个,最多39个。古文字字形部件的拆分与归纳已识字的拆分和归纳均采用依理操作未识字的拆分和归纳均采用依形操作甲骨文已识字基础部件拆分归纳为基础构件后,能覆盖未识字构件的89·43%古文字编码的难点甲骨文包括未识字只有三千多个,字量更大的字系重码率及带字的字数都会增加,需要再做一定的技术处理。编码是依字系分层面编制的,各层面各体制的字系最好进行历时认同,不要各行其是,但是,这一点做起来难题很多,目前只能采用分别编码。古

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。