欢迎来到天天文库
浏览记录
ID:37388878
大小:6.89 MB
页数:135页
时间:2019-05-23
《智能双语搜索方法及搜索引擎的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、武汉理工大学博士学位论文智能双语搜索方法及搜索引擎的研究姓名:刘东飞申请学位级别:博士专业:计算机应用技术指导教师:钟珞20090501武汉理工大学博士学位论文本文在研究过程中,主要的创新工作如下:(1)在互联网海量信息中,专门针对含有中英双语信息的单页文本和双页对照文本进行研究。根据两者不同的特点,对双页双语文本首次提出了双页双语语料挖掘算法DBWCM(DoubleBilingualWepageCorpusMining):对单页双语文本设计了分步处理算法,提出了识别与净化单页双语文本的算法IPSBW(Identificati
2、onandPurificationoftheSingleBilingualWebpage)和双语句对匹配与语料挖掘算法BSMCM(BilingualSentencesMatchingandCorpusMining)。通过执行它们提取网页中大量存在的双语平行翻译语料,形成大规模的语料库,为辅助翻译搜索打下坚实基础。(2)针对当前搜索引擎的用户界面现状,利用概念检索和潜在语义分析的思想,通过建立双语同义词词典对查询关键词进行双语扩展,并为用户输入提供扩展提示,实现良好的用户界面,提高了双语辅助搜索的智能性和查全率。同时为提高查询的
3、准确率,满足用户的个性化需求,研究了显式和隐式两种获取与更新用户个性化信息的方法,提出了双语关键词个性化扩充算法PEBK(PersonalizedExpansionoftheBilingualKeyword)和双语查询结果的个性化排序算法PSBR(PersonalizedSortoftheBilingualResults),以便使查询结果达到因时因人因地的不同,得到用户真正想看到的结果。(3)为了扩大双语搜索的范围,将元搜索技术应用在双语翻译搜索中,通过分析元搜索的结果融合方法,针对使用PageRank算法的问题,提出了结合相
4、关度的改进算法RSBS(ResultsSortoftheBilingualSearch),并对算法的效果进行验证。(4)最后,在形成双语语料库的基础上,基于Java和Lucene工具,设计网络机器人模块、网页识别与净化模块、语料匹配入库模块、索引模块、检索模块、个性化查询模块,用户接口等七个主要模块,实现双语搜索,为用户提供辅助翻译服务。智能双语辅助翻译搜索涉及的研究领域非常广泛,它涵盖了人工智能、语言学、机器翻译、搜索引擎、Web数据挖掘、数据库等多个领域知识。本文所做的工作尽管为利用网络实现辅助翻译提出了一些可行方法,但是
5、,对于构建一个高效且智能化程度高的基于网络的辅助翻译系统还有许多问题有待进一步研究。关键字:辅助翻译,搜索引擎,双语语料库,翻译搜索n武汉理工大学博士学位论文AbstractWiththedevelopmentofeconomicandinternationalcommunication,translationmanetisquicklyexpanding.Translationusingcomputersoftware,calledmachinetranslation(MT)becomespopularandMTbasedt
6、oolsattractusers’interests.Therearevariousmachinetranslationtechnologieswhichcanbemainlyclassifiedintotwocategories:(1)rulebasedapproachesand(2)corpusbasedapproaches.Theformerhasdifficultyinsolvinglanguagedisambiguation,whiletheadvantageofthelateristheutilizationoft
7、ranslationmemory.Incorpusbasedapproaches,userscanutilizeoriginalsandtheircorrespondingtranslationstobuildoneorseveralcorpora.Thenwhenatranslationtaskisarrived,systemwillautomaticallysearchthecorporaforthesameorsimilaroriginalsandfinallyreturntranslationresults.Howev
8、er,thecorporaofmanysortsoftranslationsoftwareusingtranslationmemoryaremanuallybuilt.Thecapacityofthesecorporaislimitedandtheirupdateisslow
此文档下载收益归作者所有