面向中日韩文智能信息检索的基于词典的异形词排歧

面向中日韩文智能信息检索的基于词典的异形词排歧

ID:13656840

大小:132.50 KB

页数:12页

时间:2018-07-23

面向中日韩文智能信息检索的基于词典的异形词排歧_第1页
面向中日韩文智能信息检索的基于词典的异形词排歧_第2页
面向中日韩文智能信息检索的基于词典的异形词排歧_第3页
面向中日韩文智能信息检索的基于词典的异形词排歧_第4页
面向中日韩文智能信息检索的基于词典的异形词排歧_第5页
资源描述:

《面向中日韩文智能信息检索的基于词典的异形词排歧》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、面向中日韩文智能信息检索的基于词典的异形词排歧Lexicon-basedOrthographicDisambiguationinCJKIntelligentInformationRetrievalJackHalpern(春遍雀來)TheCJKDictionaryInstitute(日中韓辭典研究所)〒352-0001 埼玉県新座市東北2-34-14 小峰ビル34-14,2-chome,Tohoku,Niiza-shi,Saitama352-0001,Japanjack@cjk.org摘要中日韩文拼写的复杂性对于计算语言学工具的开发者,尤其是在智能信息检索方面,是一个

2、特殊的挑战。由于这些语言没有标准的正字法,特别是由于日语拼写的高度不规则性,使这些困难变得更加突出。本文着重于中日韩文拼写变异的类型,对这一语言学问题做一个简要的分析并论述词汇数据库在排岐的过程中起重要作用的原因。1引言多方面的因素造成了中日韩文信息检索的困难。要达到真正的智能检索,必须克服众多的挑战。主要包括以下几个方面的问题:1.拼写缺乏标准。在处理数量极其庞大的异体字(尤其是日文)和字符形式时,需要具备能够支持正字法检索之类的高级信息检索技术(Halpern2000)。2.中文简体与中文繁体之间的准确转换,这是一个看似简单,但实际上却极其困难的计算任务(Hal

3、pernandKerman1999)。3.日文与韩文形态音位的复杂性对精确的形态分析工具的发展提出了巨大的挑战。形态分析工具能够实现以下几种操作:规范化、划分词干(去掉变化词尾)及形态素的异文合并(将多个形态变体减少为唯一的形式)4.难于进行准确地分词,尤其是书写上没有词间距的中文和日文。包括为了词典检索及制作索引的目的,将文本流划分成有意义的语言单位来确定词的界限。这方面取得的较大进展Emerson(2000)和Yuetal(2000)都曾有过报导。5.多重检索技术,如基于词位的检索(如'takeoff'+'jacket'来自'takeoffhisjacket')

4、,依据造句法构成的短语的鉴别(例如:研究する来自研究した),同义字的扩充以及跨语言信息检索(CLIR)(Gotoetal.2001)。121.多方面的技术要求例如多字符集之间的代码转换及编码,支持统一的字符编码标准,以及输入法的编辑器。大部分这方面的问题已经得到了满意地解决,正如Lunde(1999)所报告的那样。2.专有名词是智能检索工具面对的重大难点。因为它们的数量特别多,如果没有词典,很难对其进行检查,并且其拼写很不稳定。3.术语及其变体的自动识别,是一个复杂的题目,不在本文论述范围之内。Jacquemin(2001)对欧洲语言进行了这方面的详细描写,我们目前

5、正在对中文和日文进行这方面的研究。上述的每个问题都非常重要,都值得独立成篇专门论述。本文的重点是异形词排岐,这涉及到中日韩文异体字的处理、标准化及转换。文中总结了中日韩文书写变异的类型,简要分析了这些语言学问题,并论述了为什么词汇数据库应在排岐过程中起重要作用。2中文的书写变异2.1一种语言,两种写法战后中国进行了语言文字改革,其结果是数以千计的汉字被大大地简化了(总表1986)。以简化形式书写的中文称作简体中文(SC)。台湾.香港以及大多数海外华人仍沿用传统的复杂形式,称作繁体中文(TC)。中文书写体系的复杂性是众所周知的。造成这一结果的因素有:大量的汉字在共同使

6、用,这些汉字具有复杂的形式,繁体与简体中文之间存在众多差别,繁体中文存在大量的异体字等。而这些大量的异体字和简体与繁体之间转换的困难对中文信息检索应用软件特别重要。2.2汉字简繁转换从简体中文到繁体中文(或繁体中文到简体中文)的自动转换过程,被称作C2C(汉字简繁)转换,是充满复杂性及缺陷的。Halpern和Kerman(1999)对这一语言学问题进行了详细的阐述,Lunde(1999)则描述了有关编码及字符集的技术问题,这一转换可以按照下面简要描述的三个递增的级别来实现。2.2.1码对转换最容易,但又最不稳定的C2C转换方式是通过对应表,进行代码至代码的转换。如下

7、表所示。这种转换叫做码对转换。由于存在大量的一个代码可以转换成多个代码的不明确的情况(简繁,繁简转换中都存在这一问题),转换的失败率很高。12表1.码对转换简体繁体1繁体2繁体3繁体4备注门們一对一汤湯一对一发發髮一对多暗暗闇一对多干幹乾干榦一对多2.2.2字对转换c2c转换的第二个级别叫做字对转换,因为被转换的是拼字单位,而不是字符集中的代码。更确切地说,被转化的是有意义的语言单位,特别是多字词。如果说码对转换具有模糊性,字对转换则能够取得较好的效果,那是因为拼字对应表使得转换能够在词的层面上进行。表2.拼字对应英文简体繁体1繁体2不正确备注telephone

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。