基于多粒度的英汉人名音译

基于多粒度的英汉人名音译

ID:1145584

大小:488.41 KB

页数:6页

时间:2017-11-08

基于多粒度的英汉人名音译_第1页
基于多粒度的英汉人名音译_第2页
基于多粒度的英汉人名音译_第3页
基于多粒度的英汉人名音译_第4页
基于多粒度的英汉人名音译_第5页
资源描述:

《基于多粒度的英汉人名音译》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于多粒度的英汉人名音译于恒涂兆鹏刘群刘洋智能信息重点实验室计算机科学与技术系中国科学院计算技术研究所清华大学{yuheng,tuzhaopeng,liuqun}@ict.ac.cnliuyang2011@tsinghua.edu.cnGraehl(1997)在日英人名音译中,以英文音素摘要和日文音素为单位,通过发音相似性寻求转换。Al-OnaizanandKnight(1998),Sherif(2007)提音译是解决人名翻译的重要方法。在出以字母为单位,跳过发音过程,直接进行翻英汉人名音译问题中,翻译粒度问题一译。Wei-HaoLinandHsin-HisChe

2、n(2002)使用直是研究的重点之一。本文提出一种基音节相似度模型进行人名音译。邹波,赵军于多粒度的英汉人名音译方法。将多种(2008)将音节切分问题转换为序列标注问题,粒度的英文切分通过词图进行融合,并采用机器学习的方法进行人名音译。以上方法使用层次短语模型进行解码,从而缓解从不同角度处理音译粒度问题,取得了良好的了由于切分错误而导致的音译错误,提效果,但每种方法均存在不足之处。高了系统的鲁棒性。实验结果表明基于多粒度的音译方法融合了基于各种粒度以字母为粒度的方法能够生成较为广泛音译方法的优点,在准确率上提高了的音译规则,但规则错误率较高,无法3.1%,在BL

3、EU取得了2.2个点的显著充分利用发音信息辅助切分。提升。以音节为粒度的方法利用发音信息进行1引言音节切分,生成准确度较高的音译规则,音译作为一种按照文字读音进行近似翻译的但模型鲁棒性较差,对一些特例或歧义方法,在人名翻译中有着广泛的应用(Li性音译无法得到正确切分。HaiZhouandZhangmin2004)。人名音译接受一采用机器学习方法的音译策略能够从语个源语言的人名作为输入,在保证发音基本不料中自主学习音译知识。但对标注语料变的原则下,输出与该人名以目标语言表示的的依赖性较强,对语料外的切分问题处翻译。例如“Julianne”→“朱丽安”。由于音理能

4、力不佳。译从读音角度处理翻译问题,在处理未登录词翻译问题上有着良好的效果,因此在很多跨语因此,本文提出基于多粒度的英汉人名音译言任务如机器翻译,跨语言检索以及跨语言问方法。通过词图融合各种粒度的切分,从而缓答系统中有着广泛的应用。解了因切分错误而导致的音译错误,在充分利用语言学知识的同时又提高了模型的鲁棒性和由于语言习惯的不同,人名音译过程中,应音译规则的多样性。实验结果表明,在英汉人当适当调整源语言的序列结构(即切分),以使名音译中基于多粒度音译方法效果好于单一粒之符合目标语言的语言习惯。因此翻译粒度一度的音译方法,在准确率上提高3.1%,在翻译直是音译研究的重

5、点之一。KnightandBLEU值上提高2.2个百分点。2统计音译模型目标即为找到一条概率最大的路径,路径上的边即为生成的目标翻译。音译问题可以应用[P.Brownetal.1993]提如图3.1.2所示,音译“Julianne”的最佳路出的噪声信道模型进行建模。当观察到噪声信径为红线标出的“0-2-4-7-8”,生成的结果为道的信号为O时,我们可以得到一个可能的输“朱丽安”。入序列集合F(O),其中的每组输入序列f都能得到对应的输出序列e。我们的目标是找到概率最高的ê作为输出。eargmaxmaxPr(,efO

6、)efFO()图3.1.2实例Julian

7、ne的词图及最优翻译路径argmaxmaxPr()Pr(

8、,)efeO(1)efFO()3.2解码argmaxmaxPr()Pr(

9、)Pr(

10、)efeOfefFO()Chiang(2005)提出了基于上下文无关文法在人名音译问题中,O即为输入英文人名,(SCFG)的层次短语翻译模型。在解码过程中,f为可能的音节切分序列,e为人名翻译。模型不断使用翻译规则匹配源端输入串,生成翻译的目标是从O中获取最佳的切分序列f,然后片段,同时在目标端生成基于SCFG的树结构。利用音译规则进行解码,得到正确的音译结果本文采用类似方法,从对齐语料中抽取符合上e。理论上,我们可

11、以简单地通过穷举F(O)集下文无关文法的音译规则进行解码。合中的所有可能序列f来得到最佳翻译,但这在我们的解码算法中包含两种元素:样做会带来巨大的计算开销。实际上,许多可1.[X→α•β,i,j]表示在跨度(i,j)上未匹配完成能的序列都具有相同的子片段,因此通过词图规则,“•”为位点,指示当前需要匹配的符号对这些可能的序列进行表示并在此基础上进行位置。解码会大大提升系统的性能。2.[X,i,j]表示在跨度(i,j)上为非终结符X。解3基于词图的解码码的目标为找到一组覆盖整个词图跨度[S,0,

12、V

13、-1]的规则推导。3.1词图在解码中,我们定义如下两种规则推导:词

14、图G=

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。