一种有效的基于web的双语翻译对获取方法

一种有效的基于web的双语翻译对获取方法

ID:5264715

大小:567.37 KB

页数:9页

时间:2017-12-07

一种有效的基于web的双语翻译对获取方法_第1页
一种有效的基于web的双语翻译对获取方法_第2页
一种有效的基于web的双语翻译对获取方法_第3页
一种有效的基于web的双语翻译对获取方法_第4页
一种有效的基于web的双语翻译对获取方法_第5页
资源描述:

《一种有效的基于web的双语翻译对获取方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、万方数据第22卷第6期中文信息学报V01.22,No.62008年11月JOURNAL0FCHINESEINFORMATIONPROCESSINGNov.,2008文章编号:1003-0077(2008)06一0103一07一种有效的基于Web的双语翻译对获取方法郭稷1,吕雅娟2,刘群2(1.北京大学软件与微电子学院,北京102600;2.中国科学院计算技术研究所智能信息处理重点实验室,北京100190)摘要:命名实体和新词、术语的翻译对机器翻译、跨语言检索、自动问答等系统的性能有着重要的影响,但是这些翻译很难从现有的翻

2、译词典中获得。该文提出了一种从中文网页中自动获取高质量双语翻译对的方法。该方法利用网页中双语翻译对的特点,使用统计判别模型,融合多种识别特征自动挖掘网站中存在的双语翻译对。实验结果表明,采用该模型构建的双语翻译词表,TOPl的正确率达到82.1%,TOP3的正确率达到94.5%。文中还提出了一种利用搜索引擎验证候选翻译的方法,经过验证,TOPl的正确率可以提高到84.3%。关键词:计算机应用;中文信息处理;双语翻译对;统计判别模型;网络挖掘中图分类号:TP391文献标识码:AAnEffectiveMethodtoExtr

3、actTranslationPairsfromWebCorporaGUOJil,LVYa—juan2,LIUQurl2(1.SchoolofSoftwareandMicroelectronies,PekingUniversity,Beijing102600,China;2.KeyLaboratoryofIntelligentInformationProcessing,InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100190,China)Ab

4、stract:Thetranslationsofnamedentities,outofvocabularywordsandtermsplayanimportantroleinmanyap—plicationsystemssuchasmachinetranslation,cross-languageinformationretrievalandquestionanswer.However,thesetranslationsarehardtOaccessfromtraditionalbilingualdictionary.T

5、hispaperproposesamethodtOautomati—callyextracthighqualitytranslationpairsfromChinesewebcorpora.Itanalyzesthefeaturesofbilingualtranslationpairsinwebpages,andthenastatisticaldiscriminativemodelcombinedwithmultiplefeaturesisusedtOextracttranslationpairs.Experimenta

6、lresultsshowthatthequalityoftheextractedbilingualtranslationsisimprovedgreatly:Top1accuracy82.1%,andTop394.5%.ThepaperalsoproposesaverificationmethodtOfurtherimprovetheaccuracyoftheinitialex-tractionswiththehelpofsearchengines.Top1accuracygrowsuptO84.3%aftertheve

7、rification.Keywords:computerapplication;Chineseinformationprocessing;bilingualtranslationpairs;statisticaldiscrimina—tivemodel;webmining1引言随着互联网的普及和发展,互联网已经成为人们获取知识的主要来源。近几年,中文成为世界上网页数量增长速度最快的语种。据百度数据显示,到2005年底,中文网页总数达到约24亿。互联网上的中文资源越来越丰富。同时,由于国际化的需要,越来越多的中文网站成为双

8、语网站。许多网站都加入了双语甚至多语信息。互联网已经成为获取双语或多语翻译资源的巨大来源。双语翻译词典是重要的翻译资源。由于易实现和翻译词典的可读性,基于词典的方法被很多机器翻译应用,如跨语言信息检索中被广泛采用。但是收稿日期:2008—06—05定稿日期:2008—09—03基金项目:国家自然科学基金资助项目(60

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。