欢迎来到天天文库
浏览记录
ID:34832165
大小:4.98 MB
页数:68页
时间:2019-03-12
《浅议互联网双语资源挖掘关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、苏州大学硕士学位论文互联网双语资源挖掘关键技术研究姓名:颜振祥申请学位级别:硕士专业:计算机应用技术指导教师:姚建民20100401互联网双语资源挖掘关键技术研究中文摘要机器翻译、跨语言信息检索等自然语言处理应用对大规模的双语资源都有大量的需求。虽然各国都投入了大量的人力、物力和财力来加强双语语料库的建设,但现有双语语料库在规模、时效性和领域平衡性等方面还不能满足处理真实文本的需要。本文致力于基于Web的大规模双语平行语料库自动获取算法研究。双语资源挖掘需要克服Internet中网页存在大量重复网页的问题。通过关键词检索相似文章,再从相似文章
2、检测重复文章,此方法有效的解决了效率和准确率平衡问题。通过句子、词之间相互促进的迭代方式选择关键词。网页的有效去重为双语资源挖掘的高效奠定了坚实的基础。大量双语平行句对存在于双语混合网页内。本文通过充分分析网页的结构和网页的内容挖掘双语句对。首先基于搜索引擎摘要获取双语言混合网页,其次通过网页分块选取双语候选资源,基于双语单词互译度、句子之间度量、M-N网页HTML节点对齐候选双语平行句对。最后基于最大熵模型结合长度、双语单词互译度、存在于网页内的距离、词对齐特征有效的鉴别了双语平行句对。网络作者在进行双语平行网页URL命名时往往具有一定的规
3、律性,本文通过分析URL获取双语网站内候选平行网页对。利用编辑距离算法计算和预定义字符串相似度发现双语网站。通过分析网页文本长度、锚文本双语单词互译度、词对齐,采用分类器鉴别平行文本。关键词:双语平行资源,网页挖掘,双语平行句对,网页去重作者:颜振祥指导教师:姚建民ResearchonParallelResourcesMiningFromtheIntemetonParallelResourcesMiningFromtheInternetAbstractLarge—scalebilingualcorpuscanbenefitmanyNatura
4、llanguageprocessingfNLP)applications,suchasmachinetranslationandcrosslanguageinformationretrieval.Althoughmanypreviousstudieshavespentalotofmanpower,materialandfinancialresourcesinobtainingbilingualcorpora,theexistingcorpusacquiredisfarfromenoughtomeettheneedofprocessingrea
5、ltextbecauseofitssmallscale,poortimelinessandimbalanceofdomains.Inthispaper,wefocusonbuildingaplatformtoobtainlarge·scalebilingualparallelcorpusautomatically.Asfarasweknow,therealeconsiderableduplicatedtextsinthewholeIntemet,SOweneedtocombatthisproblemwiththepurposeofextrac
6、tingbilingualresources.Bysearchingsimilararticles、析tllkeywordandacquiringrepetitiveparagraphsfromthesesimilararticles,wecankeepthebalanceoftheprecisionrateandrecallrateeffectively.Inthispaper,keywordsareselectedbyaniterativemethodbetweensentencesandwords.Inaword,eliminating
7、duplicatedwebpageslaidasolidfoundationforimprovingtheefficiencyofbilingualextraction.Thereareplentyofparallelsentencesembeddedinthebilingualmixedwebpages.Inthispaper,weaimtoextractparallelsentencepairsbyanalyzingthestructureandthecontentofagivenpagefully.Atfirst,weacquirebi
8、lingualmixedwebpagesbased011usualtextsearchengines,andthenwithregardofeachbilingua
此文档下载收益归作者所有