欢迎来到天天文库
浏览记录
ID:44430550
大小:60.50 KB
页数:9页
时间:2019-10-22
《汉英机器翻译的难点分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、汉英机器翻译的难点分析1刘群中国科学院计算技术研究所北京100080liuqun@mtgroup・ict・ac.cn俞士汶北京大学计算语言研究所北京100871yusw@pku.cdu・cn摘要汉英机器翻译研究滞后于英汉机器翻译的原因在于汉英机器翻译具有一些特殊的闲难。本文根据作者开发汉英机器翻译系统的实际经验,对汉英机器翻译所特有的-些难点,从汉语的语法分析和汉语到英语的转换两个方血进行了较为深入的分析,并对其中的一些难点探讨了可能的解决办法。关键词自然语言处理中文信息处理机器翻译算法Discussionon
2、theDifficultiesofChinese-EnglishMachineTranslationLiuQunInstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100080liuqun@mtgroup.ict.ac.cnYuShiwenInstituteofConiputationalLinguistics,PekingUniversity,Beijing100080yusw@pku.edii.cnAbstractTherearcsp
3、ecialdifficultiesinChinese-EnglishMachineTranslation・ThispaperdiscussesthedifficultiesinChineseparsingandChinese-Englishtransformandgivessomeproposals・KeyVVordsNaturalLanguageProcessing,ChineseInformationProcessing,MachineTranslation1引言近十儿年來,机器翻译研究衣各方面都取得了很人
4、的发展。多种新型的语法体系的产生,统计方法的运用,使机器翻译研究出现了一个新的高潮。在软件市场上,由于计算机便件性能的迅速提高和价格的不断下降,使机器翻译软件达到了初步实用的水平。在我国,外汉机器翻译系统,特别是英汉机器翻译系统的研制已经取得了较大的成功,达到了初步实用的阶段。然而,汉外机器翻译,特别是汉英机器翻译的研究却进展缓慢,离实用化还有相当的跖离。[1]屮给出的数据可以说明这一点。从日前的软件市场上也可以看出,比较成熟、达到初步实用化水平的英汉机器翻译系统己有多个,竞争相当激烈,而类似的汉英机器翻译系统
5、却很少,而且儿乎还没有一个能达到初步实用的水平。研究人员普遍认为,汉外机器翻译的难度要远远大于外汉机器翻译。我们从九三年起开始研制一个汉英机器翻译系统⑵,对这一点有着比较深切的体会。在汉英机器翻译中,除了一般机器翻译(如英汉机器翻译)普遍存在的一•些困难(如一词多义、结构歧义、语义歧义等等)Z外,还存在一些特殊的困难。这些难点分布于翻译的各个阶段,包括汉语的分析和汉语到外语的转换和生成,不过最主要的还是汉语的分析。关于汉语分析闲难的原因,很多人都从不同的角度做过研究,如[6]中就有深入的分析。该文中作者提出计算
6、机分析汉语的特殊困难主要在于以下儿个方面:1.汉语同一词类担任多种语法成分H无形态变化;2.汉语旬子的构造原则与短语的构造原则基本一致;3.汉语中的虚词:4.汉语的语序;5.汉语的书写习惯。其中前两个特点关系到对汉语语法的全局的认识,而造成这两个特点的根源都在于汉语词类无形态变化。我们认为,造成汉英机器翻译闲难的原因是多方血的。本文以我们的实践经验为基础,从汉语的语法分析和汉语到英语的转换两个方面,对汉英机器翻译所特有的难点进行较为深入的分析,并试图提岀可能的解决办法。2汉语语法分析的难点语法分析一般都分为词法
7、分析和句法分析两个阶段。以下我们分别进行分析。然后再探讨造成这些困难的原因以及可能的解决办法。2.1词法分析的难点2.1.1切分我国计算语言学界対汉语切词问题研究比较透彻,很多切词系统的止确率都可以达到97%甚至更高。然而,对于机器翻译系统来说,这个问题并不是已经完全解决了。这是因为,机器翻译系统一般是以旬子为单位进行处理的,一个句子屮只要有一处出现切词错课,整个句子就不可能得到止确的译文。假设一个切词系统的错误率为2%,在一篇1()00词的文章中,人约出现2()处切词错课。乂假设文章中的句子平均长度为5个词,
8、整篇文章有人约200个句子。那么在这些切词错谋均匀分布(不过分集屮)的情况卜,这20处切词错谋就可能导致大约20个句子的翻译错误,错误率约为10%o换句话说,切词阶段的错误率在翻译的过程中将会被“放大”,放大的倍数约等于句了的平均长度。这对翻译正确率的彫响是非常大的。2.1.2未登录词识别耒登录词不仅汉英机器翻译中存在,其他类型的机器翻译中同样存在。然而对于汉语这种词语之间没有空格分隔
此文档下载收益归作者所有