欢迎来到天天文库
浏览记录
ID:46602615
大小:386.46 KB
页数:5页
时间:2019-11-26
《基于Web的中英术语翻译获取方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、2010年4月沈阳航空工业学院学报Apt.2010第27卷第2期JournalofShenyangInstituteofAeronauticalEngineeringV01.27No.2文章编号:1007—1385(2010)02—0055—04基于Web的中英术语翻译获取方法研究董燕举1’2白宇1蔡东风1(1,沈阳航空工业学院知识工程中心。辽宁沈阳110136;2.沈阳航空工业学院计算机学院,辽宁沈阳110136)摘要:从Web双语资源中获取术语翻译具有很大应用价值。从实用化术语翻译角度出发,设计了一个基于Web的中英术语翻译系统。该系统使用Goo
2、sh搜索引擎,通过关键词扩展技术搜索词汇表类型网页,从其搜索结果摘要中抽取术语翻译。实验结果表明系统取得良好性能:TOPI的正确率达到90.9%。TOP3的正确率达到95.4%。关键词:术语翻译获取;web信息抽取;术语翻译;信息检索;web挖掘中图分类号:Tit391文献标识码:A当今科学技术发展日新月异,每个学科都拥有大量专业术语。术语是表达一个专业领域知识的核心词汇。术语翻译是将一种语言术语翻译为另一种语言的等价词汇。科技文献翻译要求专业性和准确性,术语翻译成为其核心问题和难点问题。术语翻译最简单的方式是直接查找各种专业词典。但专业词典的词汇量
3、总是有限,特别是不能及时吸纳补充新术语,造成大量未登录术语词汇。而当前Web是世界上最大的动态知识库和信息库,其中存在大量术语词汇双语资源,如在线双语词典、双语对照词汇表、双语对照网站等。因此可以利用Web上双语资源进行术语翻译,将术语翻译问题转变为在Web中获取对应目标语言翻译的过程。其研究目标是给定一个源语言术语,在Web中获取其对应的目标语言术语。例如对一个中文术语“母线槽”,中英术语翻译过程即是在Web中搜索并获取它的对应英文术语“busduct”。基于Web的术语翻译获取技术研究涉及信息检索、信息抽取、自然语言处理等多个研究领域,在辅助机器
4、翻译、跨语言信息检索、领域双语词典构建等领域中都具有重要应用价值。各种语言学习网站和专业网站存在大量专业双语词汇表网页(本文简称词汇表网页),如图1所示。词汇表网页中的双语词汇一般属于特定专收稿日期:2010一Ol一07基金项目:辽宁省自然科学基金(20062006);辽宁省高校创新团队支持计划项目(2007T140)作者简介:董燕举(1973一),男。硕士,讲师,主要研究方向:信息检索,E—mail:dongyanjul63@163.eom。业领域,包含很多专业新术语和惯用语,因而具有专业性、时效性、高质量等特点,是优质的专业双语词汇资源。本文设计
5、了一个基于Web的中英术语翻译获取系统,该系统使用了基于搜索词扩展的定位搜索技术,利用Google搜索得到包含术语翻译的词汇表类型网页摘要,直接从网页摘要中获取术语翻译。该方法抽取模式设计简单,而且不用下载每个网页,处理效率较快。所获取的术语翻译质量较好。实验表明该系统取得了良好的翻译正确率。另外,尽管本文论述的是中英术语翻译获取问题,实际上该方法同样可应用于其它语种的术语翻译获取。图1机械专业中英词汇表网页示例1相关研究基于Web术语翻译实质上是从Web的双语资源中获取术语对应的翻译项,其研究包含两个关键问题:(1)术语翻译获取来源定位问题,即找沈
6、阿J航空-r:业学院学报第27卷到术语翻译所在的网页;(2)如何识别并抽取该术语相应的翻译。术语翻译获取来源主要是Web中的双语网贞资源,包括各种双语对照网站、外语学习网站、在线双语知识库等。基于Web术语翻译获取方法主要有以下两种:1)基于搜索的方法。该方法一般使用搜索引擎在Web中搜索源术语,然后利用目标翻译的特征信息(如与源术语位置关系、频率、上下文特征、词性等)在搜索结果网页集中抽取一组目标语言的候选翻译项,构成候选翻译项集合。然后根据候选翻译评价模型,从候选翻译项集中选择最佳翻译项。方高林的汉英翻译获取系统⋯利用巾文术语每个汉字的英文作为预
7、测信息,作为源术语的扩展搜索词,以此搜索日标网页,从中抽取候选翻译项。然后使用了词汇分布特征,长度比率,与中文术语的距离,关键符号与边界信息等多种特征,对候选翻译项集进行排序。而在一个基于Web的英中术语翻译系统【2’中,方高林又利用后缀数组构造候选翻译,使用子集冗余和词缀冗余两种方法解决噪音干扰问题,最后基于互信息方法从候选翻译集中选择最伟翻译项。为了更快捷地获取术语翻译,ConradChen¨1在中英术语翻译系统中直接从Google搜索结果页中抽取候选翻译项。整个系统包括候选翻译获取、候选翻译评价和候选翻泽验证兰个处理步骤,能够完成人名、地名等命
8、名实体类型短语的翻译。系统制定了一些规则以识别命名实体类型的候选翻译项,然后基于发音、词义、频率、与中文术语
此文档下载收益归作者所有