欢迎来到天天文库
浏览记录
ID:5264715
大小:567.37 KB
页数:9页
时间:2017-12-07
《一种有效的基于web的双语翻译对获取方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、万方数据第22卷第6期中文信息学报V01.22,No.62008年11月JOURNAL0FCHINESEINFORMATIONPROCESSINGNov.,2008文章编号:1003-0077(2008)06一0103一07一种有效的基于Web的双语翻译对获取方法郭稷1,吕雅娟2,刘群2(1.北京大学软件与微电子学院,北京102600;2.中国科学院计算技术研究所智能信息处理重点实验室,北京100190)摘要:命名实体和新词、术语的翻译对机器翻译、跨语言检索、自动问答等系统的性能有着重要的影响,但是这些翻译很难从现有的翻
2、译词典中获得。该文提出了一种从中文网页中自动获取高质量双语翻译对的方法。该方法利用网页中双语翻译对的特点,使用统计判别模型,融合多种识别特征自动挖掘网站中存在的双语翻译对。实验结果表明,采用该模型构建的双语翻译词表,TOPl的正确率达到82.1%,TOP3的正确率达到94.5%。文中还提出了一种利用搜索引擎验证候选翻译的方法,经过验证,TOPl的正确率可以提高到84.3%。关键词:计算机应用;中文信息处理;双语翻译对;统计判别模型;网络挖掘中图分类号:TP391文献标识码:AAnEffectiveMethodtoExtr
3、actTranslationPairsfromWebCorporaGUOJil,LVYa—juan2,LIUQurl2(1.SchoolofSoftwareandMicroelectronies,PekingUniversity,Beijing102600,China;2.KeyLaboratoryofIntelligentInformationProcessing,InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100190,China)Ab
4、stract:Thetranslationsofnamedentities,outofvocabularywordsandtermsplayanimportantroleinmanyap—plicationsystemssuchasmachinetranslation,cross-languageinformationretrievalandquestionanswer.However,thesetranslationsarehardtOaccessfromtraditionalbilingualdictionary.T
5、hispaperproposesamethodtOautomati—callyextracthighqualitytranslationpairsfromChinesewebcorpora.Itanalyzesthefeaturesofbilingualtranslationpairsinwebpages,andthenastatisticaldiscriminativemodelcombinedwithmultiplefeaturesisusedtOextracttranslationpairs.Experimenta
6、lresultsshowthatthequalityoftheextractedbilingualtranslationsisimprovedgreatly:Top1accuracy82.1%,andTop394.5%.ThepaperalsoproposesaverificationmethodtOfurtherimprovetheaccuracyoftheinitialex-tractionswiththehelpofsearchengines.Top1accuracygrowsuptO84.3%aftertheve
7、rification.Keywords:computerapplication;Chineseinformationprocessing;bilingualtranslationpairs;statisticaldiscrimina—tivemodel;webmining1引言随着互联网的普及和发展,互联网已经成为人们获取知识的主要来源。近几年,中文成为世界上网页数量增长速度最快的语种。据百度数据显示,到2005年底,中文网页总数达到约24亿。互联网上的中文资源越来越丰富。同时,由于国际化的需要,越来越多的中文网站成为双
8、语网站。许多网站都加入了双语甚至多语信息。互联网已经成为获取双语或多语翻译资源的巨大来源。双语翻译词典是重要的翻译资源。由于易实现和翻译词典的可读性,基于词典的方法被很多机器翻译应用,如跨语言信息检索中被广泛采用。但是收稿日期:2008—06—05定稿日期:2008—09—03基金项目:国家自然科学基金资助项目(60
此文档下载收益归作者所有