英汉双语自动对齐混合算法

英汉双语自动对齐混合算法

ID:5277902

大小:403.35 KB

页数:7页

时间:2017-12-07

英汉双语自动对齐混合算法_第1页
英汉双语自动对齐混合算法_第2页
英汉双语自动对齐混合算法_第3页
英汉双语自动对齐混合算法_第4页
英汉双语自动对齐混合算法_第5页
资源描述:

《英汉双语自动对齐混合算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、英汉双语自动对齐混合算法周威万康刘志杰创新未来电脑有限公司北京海淀区万泉庄路15号100089Email:zhouncfc.creative.comwan_Iwg垂fc.creative.oomzhi_jiec_icfc.creative.com摘要:本文根据现有对齐算法,提出了二次对齐思想,并重新修改了句子对齐评分规律,更好的把基于长度和基于词典的算法结合起来,同时优化了一些辅助算法,使计算效率和实用效果都达到了一个很好的水平。关键词:双语对齐、基于长度、基于词典AutomaticAlignmentofEnglishandChineseParale

2、lCorporaZhouWeiWanKangLiuZhijieCREATIVEFUTURECOMPUPERCO工TDBEIJING100089Email:zhou,weina.cfc.creative.comwan}kan-(&cfc.creative.comzhiiie@cfc.creafve.comAbstract:Withreferencetotheexistedalignmentalgorithm,theauthorgivesomeideasofalignmenttwice,andmakealterationstoratingrulesfor

3、sentencealignmentsaswellascombiningsmootHythealgorithmsbasedrespectivelyonlengthandlexiconwhileoptimizingcertainauxiliaryalgorithmsimultaneously.HighereficiencyofcomputingandabetterendingbenefitfromtheabovehenceforthKeywords:bilingualalignment,basedonlengthbasedonlexicon1引言双语语料

4、库是存放两种语意对齐的语料资源和信息的仓库,是机器翻译和多语言处理的重要资源,在语言研究的许多领域产生愈来愈大的影响。目前双语语料库被广泛的应用在机器翻译、跨语言信息检索等领域。创新未来电脑有限公司研究此项目,主要是用来建造英汉双语语料库,用于公司研发的项目汉神辅助翻译系统(HansVisionTM[11]),目前,HansVisionTM已经在我公司本地化产品中使用。国内外很多机构致力于语料库的建设研究,就我们能看到的资料来看,加拿大的议会会议录(CanadianHansards)就是非常著名的英法双语语料库【1][21,许多最初的基于双语语料库的

5、研究都是在该语料库基础上进行的。对于汉外双语语料库建设及其研究,香港科技大学收集和-274-加工了香港立法委员会的会议记录【3],形成汉英双语语料库。此外,北京大学、东北大学、哈尔滨工业大学的研究人元夜建立了一定规模的汉英双语语料库。但目前汉外双语语料库规模都比较小,从而影响了双语语料库的研究。双语对齐按照对齐单位由大到小通常可分为文件级、段落级和句子级以及子句级,实现各个层次的对齐是双语语料库建设的一项重要内容。前一层次是后一层次对齐的前提。目前文件级对齐方面的研究还很少。大多认为文件级对齐很容易获得,在小规模的语料库建设中用处不大,但是在大规模的

6、语料库建设中文件级的对齐工具还是很必要的,可以扩大语料库的规模和提高建库效率,可以充分利用己有中英文资源。句子对齐现有方法基本可以分为三类[9]:基于长度的方法:依据是两种语言译文的长度满足一定比例关系.(加拿大Brown[I】和Gale[2]在英法双语的加拿大议会会议录上取得了较好的对齐效果;清华大学和哈尔滨工业大学的研究人员分别将基于长度的方法应用于MicrosoftNT3.5Server安装指南和法律文献的汉英双语句子对齐,获得了试验结果)基于双语字典的方法:根据双语单词的分布信息和字典翻译模型进行了句子对齐。(钱丽萍[5]直接利用双语词典对大

7、学英语教材做了句子对齐,也取得了令人满意的效果)混合方法:基于长度的对齐方法模型简单,独立于语言知识和其他外部资源,但容易造成错误蔓延。基于双语字典的对齐方法相对可靠精确,但计算相当复杂。将这两种方法结合起来进行句子对齐,互补优势。本文主要讨论混合方法的汉英双语句子级对齐技术,并把句子对齐思想应用到文件对齐中.本文首先提出了新的混合句子对齐算法,采用基于双语词典的句子对齐方法为主,基于长度方法为辅对汉英文件进行句子对齐,并对如何提高对齐精度做了进一步的研究和探讨,同时介绍了一些应用到的基础算法.新的算法不同于我们收集到的已发表的对齐方法,在评价函数设

8、计、双语词典资源整理上也存在不同之处。最后文章讲述了基于句子对齐的评分原则的文件对齐方法,采用局部最优策略,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。