刘群-机器翻译原理与方法讲义(03)基于词的统计机器翻译方法

刘群-机器翻译原理与方法讲义(03)基于词的统计机器翻译方法

ID:5320589

大小:610.78 KB

页数:106页

时间:2017-12-08

刘群-机器翻译原理与方法讲义(03)基于词的统计机器翻译方法_第1页
刘群-机器翻译原理与方法讲义(03)基于词的统计机器翻译方法_第2页
刘群-机器翻译原理与方法讲义(03)基于词的统计机器翻译方法_第3页
刘群-机器翻译原理与方法讲义(03)基于词的统计机器翻译方法_第4页
刘群-机器翻译原理与方法讲义(03)基于词的统计机器翻译方法_第5页
资源描述:

《刘群-机器翻译原理与方法讲义(03)基于词的统计机器翻译方法》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、机器翻译原理与方法第三讲基于词的统计机器翻译方法刘群中国科学院计算技术研究所liuqun@ict.ac.cn中国科学院计算技术研究所2010年秋季课程内容提要•为翻译建立概率模型•IBM的信源信道模型•语言模型––n元语法模型•翻译模型––IBM模型1-5•词语对齐算法•解码算法•Candide系统•Egypt工具包与Giza++•机器翻译自动评价机器翻译原理与方法(03)基于词的统计机器翻译方法2为翻译建立概率模型•假设任意一个英语句子e和一个法语句子f,我们定义f翻译成e的概率为:Pe∣f其归一化条件为:∑Pe∣f=1e•于是将f翻译成e的问题就变成求解问题:e=argm

2、axPe∣fe机器翻译原理与方法(03)基于词的统计机器翻译方法3内容提要•为翻译建立概率模型•IBM的信源信道模型•语言模型––n元语法模型•翻译模型––IBM模型1-5•词语对齐算法•解码算法•Candide系统•Egypt工具包与Giza++•机器翻译自动评价机器翻译原理与方法(03)基于词的统计机器翻译方法4信源信道模型(1)•信源信道模型又称噪声信道模型,是由IBM公司的PeterF.Brown等人于1990年提出来的:PeterF.Brown,JohnCocke,StephenA.DellaPietra,VincentJ.DellaPietra,FredrickJeli

3、nek,JohnD.Lafferty,RobertL.Mercer,PaulS.Roossin,AStatisticalApproachtoMachineTranslation,ComputationalLinguistics,1990机器翻译原理与方法(03)基于词的统计机器翻译方法5信源信道模型(2)P(E)EP(F

4、E)F•假设我们看到的源语言文本F是由一段目标语言文本E经过某种奇怪的编码得到的,那么翻译的目标就是要将F还原成E,这也就是就是一个解码的过程。•注意,在信源信道模型中:–噪声信道的源语言是翻译的目标语言–噪声信道的目标语言是翻译的源语言这与整个机器翻译系统翻译方向的

5、刚好相反机器翻译原理与方法(03)基于词的统计机器翻译方法6统计机器翻译基本方程式E=argmaxPEPF∣EE•P.Brown称上式为统计机器翻译基本方程式–语言模型:P(E)–翻译模型:P(F

6、E)•语言模型反映“E像一个句子”的程度:流利度•翻译模型反映“F像E”的程度:忠实度•联合使用两个模型效果好于单独使用翻译模型,因为后者容易导致一些不好的译文。机器翻译原理与方法(03)基于词的统计机器翻译方法7语言模型与翻译模型•考虑汉语动词“打”的翻译:有几十种对应的英语词译文:打人,打饭,打鱼,打毛衣,打猎,打草稿,……•如果直接采用翻译模型,就需要根据上下文建立复杂的上下文

7、条件概率模型•如果采用信源-信道思想,只要建立简单的翻译模型,可以同样达到目标词语选择的效果:–翻译模型:不考虑上下文,只考虑单词之间的翻译概率–语言模型:根据单词之间的同现选择最好的译文词机器翻译原理与方法(03)基于词的统计机器翻译方法8统计机器翻译的三个问题•三个问题:–语言模型P(E)的建模和参数估计–翻译模型P(F

8、E)的建模和参数估计–解码(搜索)算法机器翻译原理与方法(03)基于词的统计机器翻译方法9内容提要•为翻译建立概率模型•IBM的信源信道模型•语言模型––n元语法模型•翻译模型––IBM模型1-5•词语对齐算法•解码算法•Candide系统•Egypt工具包与Gi

9、za++•机器翻译自动评价机器翻译原理与方法(03)基于词的统计机器翻译方法10语言模型•统计语言模型把一种语言理解成是产生一个句子的随机事件。在统计语言模型看来,对于一种语言,任何一个句子都是可以接受的,只是接受的可能性(概率)不同•语言模型给出任何一个句子的出现概率:PE=e1e2...e3归一化条件:∑PE=1E•统计语言模型实际上就是一个概率分布,它给出了一种语言中所有可能的句子的出现概率机器翻译原理与方法(03)基于词的统计机器翻译方法11语言模型的类型•理论上,单词串的任何一种概率分布,都是一个语言模型。•实际上,N元语法模型是最简单也是最常见的语言模型。•N元语法

10、模型由于没有考虑任何语言内部的结构信息,显然不是理想的语言模型。•其他语言模型:–隐马尔科夫模型(HMM)(加入词性标记信息)–概率上下文无关语法(PCFG)(加入短语结构信息)–概率链语法(ProbabilisticLinkGrammar)(加入链语法的结构信息)•目前为止,其他形式的语言模型效果都不如N元语法模型•统计机器翻译研究中开始有人尝试基于句法的语言模型机器翻译原理与方法(03)基于词的统计机器翻译方法12N元语法模型-概念辨析•N

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。