资源描述:
《chapter10-2-机器翻译new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、机器翻译刘秉权哈工大智能技术与自然语言处理研究室2006年11月主要内容¢机器翻译简介¢统计对齐¢统计机器翻译机器翻译2机器翻译(MachineTranslation)¢自动将文本或谈话内容从一种语言翻译为另一种语言,为NLP最重要的应用领域之一机器翻译3《红楼梦》片断翻译¢源文:黛玉自在床上感念宝钗……,又听见窗外竹梢焦叶之上,雨声淅沥,清寒透幕,不觉又滴下泪来。¢译文:Asshelaytherealone,Dai-yu’sthoughtsturnedtoBao-chai……,Thenshelis
2、tenedtotheinsistentrustleoftherainonthebamboosandplantainsoutsideherwindow.Thecoldnesspenetratedthecurtainsofherbed.Almostwithoutnoticingitshehadbeguntocry.机器翻译4文学翻译涉及哪些问题?¢中文人名的翻译¢主要人名音译¢其他人意译:Aroma(袭人),Skybright(晴雯)¢中文没有动词时态和语态变化¢透→penetrated¢幕→curta
3、insofherbed¢其他¢竹梢焦叶→bamboosandplantains机器翻译5MT的难度和要求¢高质量的翻译问题难以实现:对源语言和输入文本具有博大精深的理解,能够老练地、富有诗意地、创造性地支配目标语言¢当前的计算模型可以胜任一些较简单的任务¢粗略翻译就足够的任务¢互联网中的“信息采集”¢人工编辑后可用于提高MT输出的任务¢机助翻译¢能够产生高质量译文的受限子语言领域的任务¢天气预报、航空旅行查询、约会安排、设备维护手册机器翻译6MT的不同策略机器翻译7直接翻译法:词-词对齐翻译¢从源语
4、言的表层句子出发,将词或固定词组直接置换成目标语言的对应成分¢问题:对MT过程的认识过于简单¢不同语言之间可能不存在一一对应的映射关系¢词的歧义¢语言中的次序机器翻译8句法转换法¢解决了词序问题,一定程度上确保了翻译结果的句法准确性¢问题:句法的正确性不等于语义的正确性¢德文短句“Ichessegern(Iliketoeat)”直译到英语结果为“Ieatreadily”,英语中没有类似的“动词-副词”结构能表达“Iliketoeat”的概念,所以句法转换不能解决翻译中的所有问题机器翻译9语义转换法¢
5、将原文转化为语义表示形式,在此基础上生成译文¢能解决句法结构不匹配问题¢问题:即使字面意思翻译完全准确,但最后译文对用户来说可能还是不易理解的机器翻译10中间语言法¢中间语言:独立于任何语言的知识表达形式¢优点:进行多语种翻译时,只需对每种语言分别开发一个分析模块和一个生成模块¢缺点:¢中间语言设计难度大:每种语言转化为中间语言都存在歧义¢语言本身的完备性构建也很困难机器翻译11MT的主要方法¢基于统计的方法(本章主要讨论内容)¢统计与规则相结合的方法¢基于实例的方法机器翻译12统计对齐¢文本对齐¢
6、词对齐机器翻译13文本对齐¢统计机器翻译的基础¢相同的文字内容存在不同的语言版本¢平行语料库(parallelcorpus)¢官方文件:某些国家或地区具有多种官方语言(加拿大、瑞士、香港)¢数量大¢准确性高¢文学作品、宗教书籍¢文本对齐:确定原文和译文句子或段落间的对应关系机器翻译14句子和段落对齐¢应用¢建立双语字典¢机器翻译¢多语言语料库的使用¢语义消歧¢多语言信息检索¢对象:语言风格迥异、意译法等造成的不对齐现象(下页例子)机器翻译15对齐文本:中间和右边两列分别是法文和英文句子,箭头标明了他
7、们之间的对应关系,左边斜体字部分是从法文直译得到的英文翻译机器翻译16句子对齐¢定义:从句子内容出发,将源语言中的一组句子和目标语言中的一组句子对应的过程¢每组句子可以为空,也可人为加入对应源语言中不存在的句子,或删除原有的句子¢两组对应的句子为一个句珠(bead)¢对齐方式:1:1(90%)、1:n、n:1、m:n¢每个句子能且只能出现在一个句珠中¢处理交叉依赖(crossdependency)问题机器翻译17基于长度的对齐¢基本原理:假设源语言和目标语言的句子长度存在比例关系¢句子长度:定义为句
8、子中单词或字符的个数¢特点:简单、忽略很多其他可利用信息;效果好、效率高机器翻译18统计对齐的目标¢求概率最大的对齐¢将对齐文本分解为句珠序列,各句珠之间独立分布¢在句珠内的句子已知的情况下,估算某一类句珠的概率值机器翻译19一种基于长度的对齐算法源语言:S=(s,s,L,s),目标语言:T=(t,t,L,t)12I12J对齐方式:A,句珠序列:(B,B,L,B)12Ki,j代表两组句子s,s,L,s和t,t,L,t12i12j最小耗费函数:D=(i,j)句子长度:l