欢迎来到天天文库
浏览记录
ID:33500673
大小:193.19 KB
页数:9页
时间:2019-02-26
《基于短语相似度的统计机器翻译系统设计》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于短语相似度的统计机器翻译系统设计张睿西安翻译学院摘要:针对传统基于短语的机器翻译屮采用的精确匹配策略导致翻译出的短语存在稀疏性的问题,引入相似度解决翻译后短语的稀疏性问题。对此,文章首先结合机器翻译的原理进行分析,并指出传统短语翻译存在的问题;其次,提出短语相似度统计模型,在对训练的语料库进行训练时,对其中没有出现过的短语,通过计算短语之间的相似度的方式,并改变传统的精确匹配方式,而采用模糊匹配策略,从短语表屮查找相似度较高的实例短语,最后这些实例短语,构造汉英翻译句子;最后,对上述的算法进行
2、了实验验证。结果表明,极大的提高了翻译的质量。关键词:相似度;机器翻译;模糊匹配;稀疏性;Moses工具;作者简介:张睿(1980-),女,黑龙江齐齐哈尔人,硕士研究生,讲师,主要研究方向为英语翻译教学与实践。收稿日期:2017-03-22Designofsta/tisticalMachineTranslationsystembasedonphrasesimilarityZhangRuiAbstract:inordertosolvetheproblemofthesparsityofthetrans
3、latedphrases,theexactmatchingstrategyusedinthetraditionalphrasebasedMachineTranslationisusedtosolvethesparsityofthetranslatedphrases.Inthisregard,firstly,combinedwithMachineTranslation'sprincipleisanalyzed,andpointedouttheexistenceofthetraditionalphra
4、setremslationproblems;secondly,thephrasesimilaritystatisticalmodel,traininginthetrainingcorpus,ofwhichtherehavebeennophrase,bycalculatingsimilaritybetweenphrasesandthewaytochangethetraditionalwayofprecisematching,andtheuseofthefuzzymatchingstrategy,an
5、examplefromthetabletofindthephraseswithhighsimilarity,finallythoseexamplesofphrases,sentencestructureinChineseEnglishtranslation;finally,thealgorithmisverifiedbyexperiments.TheresuItsshowthatthequalityoftranslationisgreatlyimproved.Keyword:similarity;
6、machinetranslation;fu77ymatching;sparsity;mosestool;Received:2017-03-220引言随着现代国际交往的日益加深,翻译系统成为目前人们研究的重点,并日益受到关注,由此应运而生了各种在线翻译翻译系统。而对于在线翻译来讲,随着人们的使用,如何提高翻译的质量,进而提高翻译系统的使用频率,成为开发者思考的重点。目前,针对在线翻译的应用中,谷歌是公认的翻译比较好的一个系统。而之所以其在翻译方面受到认可,其关键还是在于机器翻译算法方面,其准确度要高
7、。而所谓的机器翻译,就是通过计算机编程的方式,将一种语言翻译成为另外的一种语言,从而完成对不同语言的转换。而机器翻译的基本原理,就是利用语料库技术,结合不同的词汇结构、词汇辨析等,进而实现对自然语言的翻译。目前,针对机器翻译的方法很多,但大致可以分为基于规则、基于实例、基于统计等类型。而在模型中,则根据词语的构造不同,可以分为基于词、基于短语和基于句法等方法。其中,基于短语的翻译是将短语看成是最为基木的单元,是所有翻译方法中相对简单的一种方法,但比基于词的翻译质量较高,并口具有模型简单、训练和解码
8、速度快的特点,从而使得基于短语的机器翻译成为了n前思考和应用的重点。但是,在基于短语的机器翻译中,通常采用精确匹配的方式对短语进行构造,从而造成了稀疏性的问题,对此,提岀一种基于短语相似度的及其翻译模型,并通过实际系统进行验证。1短语相似度翻译模型构建在对翻译模型进行构架中,假设源语言句子为兀其具体翻译过程可以划分为以下儿个步骤:(1)结合句法,将源语言按照不同的短语进行划分,从而得至[j.F;二.齐••如;(2)对划分后的每个短语人(“=12厂・K)按照精确匹配的策略,在短语表中
此文档下载收益归作者所有