基于词语消歧的分层次汉字简繁转换系统

基于词语消歧的分层次汉字简繁转换系统

ID:5265363

大小:595.34 KB

页数:12页

时间:2017-12-07

基于词语消歧的分层次汉字简繁转换系统_第1页
基于词语消歧的分层次汉字简繁转换系统_第2页
基于词语消歧的分层次汉字简繁转换系统_第3页
基于词语消歧的分层次汉字简繁转换系统_第4页
基于词语消歧的分层次汉字简繁转换系统_第5页
资源描述:

《基于词语消歧的分层次汉字简繁转换系统》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于词语消歧的分层次汉字简繁转换系统*刘汇丹吴健(中国科学院软件研究所基础软件国家工程研究中心,北京100190)1、引言近些年来,两岸四地在科技、文化、教育、新闻、出版等领域的交流与合作日益广泛和深入,造成海峡两岸信息交换的剧增。但是文字制度上几十年的差异,造成了两岸在常用语、专业术语、外国人地名翻译等各方面都存在着差异,另外繁体字和简体字数量都比较大,限于普通人的文字知识水平,难免造成交流上的困难。所以迫切需要一套汉字简繁转换系统。本文对汉字简繁转换中涉及的众多问题进行讨论,提出基于词语消歧的分层次汉字简繁转换方案,并据此实现了一个简繁转换系统。2、汉字简繁转换的复

2、杂性简单的来看,汉字简繁转换问题主要在于汉字简化时将多个繁体字做了归并,从而造成一个简体字对应多个繁体字的情形(同时也存在一个繁体字对应多个简体字的情况)。多目标字的存在造成了简繁转换的歧义。从转换的角度来看,如果存在转换歧义,自然而然要用更大的语言单位的转换来消除这种歧义:单字转换的歧义要用词语来消除,词语转换的歧义要用短语来消除。完整的转换过程涉及到从底层的编码到上层的字、词(词汇)、语等多方面的问题,下面对这些问题做统一的讨论。2.1编码字符集[1]GB2312-80只收录了简体中文6763个常用汉字和次常用汉字,TCA-CNS11643-1992收录汉字1305

3、3个,两个字符集不仅都没有包含所有的简体字和繁体字,前者未收录所有的简体字,后者也没有收录所有的繁体字。导致的问题就是在做简繁转换的时候必定要做编码转换,并且有可能存在GB编码的简体源字却不存在相应的BIG5编码的繁体目标字。虽然它们的衍生字符集增收了不少的汉字,使得此问题在一定程度上有很大的改观,但是限于两岸四地用户的使用习惯,强迫繁体用户使用GB编码或者简体用户使用BIG5编码都是不合适的。国际标准编码字符集Unicode/ISO-IEC10646(以下简称Unicode)为世界上所有的文字进行统一的编[2]码,给每一个字符唯一的一个编码表示。Unicode4.0按

4、照CJK认同规则共收录汉字70205个,其中在基本多文种平面(BMP)内收录汉字27484个,包含了现有规范中所有的简体字以及日常所用的繁体字,非BMP平面内的汉字一般用于大型工具书、古籍整理等类似的应用场合。所以,基本上BMP平面就可*作者简介:刘汇丹(1982-),男,硕士,助理工程师,主要研究方向是系统软件与中文信息处理;吴健(1962-),男,研究员,主要研究方向是系统软件与中文信息处理。以满足简繁转换的需求。在简繁转换中采用Unicode字符集将有如下优点:¾Unicode将简体字和繁体字都收录了,可以在同一个字符集内完成简繁转换;¾在UnicodeBMP平面

5、内解决简繁转换问题,可以采用等长编码,方便系统实现。¾Unicode对所有文字统一编码,在转换包含其它文种的文档时可以避免信息丢失;¾Unicode是国际标准,两岸四地用户对其都有较高的认同感,避免了简体字用BIG5编码或者繁体字用GB编码的不习惯。因此,在简繁转换中采用Unicode是比较好的选择。2.2单字转换单字转换层面的主要的问题,一是简繁字范围的确定,二是多目标字转换如何消歧。2.2.1简繁汉字范围的确定2.2.1.1字形差异表1关联字示例概念示例字概念示例字正异字嘆vs歎正讹字盗vs盜繁简字恳vs懇新旧字骨vs中日字價vs形近字辨vs辧古今字燃vs然通假字蚓

6、vs螾汉字的关联字包括正异字、简繁字、中日字、古今字、正讹字、新旧字、形近字、通假字等概念。表1给出了一些示例。这几个概念往往难以划出严格的界限,某二字之间可能兼有繁简体与古今字之关系,新旧字也可能是正异字关系等等。由于关联字之间字形相似,导致了简繁转换单字对照关系不容易确定。例如如下的两组字:1.“蜈”和“蜈”;2.“宫”和“宮”。两组字字形都很相似,但是却是两种截然不同的关系。第1组中,两个字是同一个编码,只是前者采用了“宋体”显示,后者采用了“PMingLiU”显示,从而显示出不同的字形,它们其实是同一个字。第2组中,两个字根本就是两个编码,是两个字。在简繁转换中

7、,第1组的情况是不需要考虑选字的问题的,而第2组的情况,就需要决定选择哪一个字了。然而由于字形相似,仅仅观察字形是很难区分是属于上述两组中哪一种情况的。虽然有《简化字总表》、《第一批异体字整理表》等比较权威的资料,但是此两表收录的字并不全面,所以在系统实现时仍然没有一个十分明确的标准可循。因此,简繁转换系统应当包括哪些字,这还需要相关的语言学专家来做明确的限定。2.2.1.2生僻字98.3399.6510091.16908076.4170605037.7640累加频率(%)3026.172010.851001050100500100020

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。