浅议互联网双语资源挖掘关键技术研究

浅议互联网双语资源挖掘关键技术研究

ID:34832165

大小:4.98 MB

页数:68页

时间:2019-03-12

浅议互联网双语资源挖掘关键技术研究_第1页
浅议互联网双语资源挖掘关键技术研究_第2页
浅议互联网双语资源挖掘关键技术研究_第3页
浅议互联网双语资源挖掘关键技术研究_第4页
浅议互联网双语资源挖掘关键技术研究_第5页
资源描述:

《浅议互联网双语资源挖掘关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、苏州大学硕士学位论文互联网双语资源挖掘关键技术研究姓名:颜振祥申请学位级别:硕士专业:计算机应用技术指导教师:姚建民20100401互联网双语资源挖掘关键技术研究中文摘要机器翻译、跨语言信息检索等自然语言处理应用对大规模的双语资源都有大量的需求。虽然各国都投入了大量的人力、物力和财力来加强双语语料库的建设,但现有双语语料库在规模、时效性和领域平衡性等方面还不能满足处理真实文本的需要。本文致力于基于Web的大规模双语平行语料库自动获取算法研究。双语资源挖掘需要克服Internet中网页存在大量重复网页的问题。通过关键词检索相似文章,再从相似文章

2、检测重复文章,此方法有效的解决了效率和准确率平衡问题。通过句子、词之间相互促进的迭代方式选择关键词。网页的有效去重为双语资源挖掘的高效奠定了坚实的基础。大量双语平行句对存在于双语混合网页内。本文通过充分分析网页的结构和网页的内容挖掘双语句对。首先基于搜索引擎摘要获取双语言混合网页,其次通过网页分块选取双语候选资源,基于双语单词互译度、句子之间度量、M-N网页HTML节点对齐候选双语平行句对。最后基于最大熵模型结合长度、双语单词互译度、存在于网页内的距离、词对齐特征有效的鉴别了双语平行句对。网络作者在进行双语平行网页URL命名时往往具有一定的规

3、律性,本文通过分析URL获取双语网站内候选平行网页对。利用编辑距离算法计算和预定义字符串相似度发现双语网站。通过分析网页文本长度、锚文本双语单词互译度、词对齐,采用分类器鉴别平行文本。关键词:双语平行资源,网页挖掘,双语平行句对,网页去重作者:颜振祥指导教师:姚建民ResearchonParallelResourcesMiningFromtheIntemetonParallelResourcesMiningFromtheInternetAbstractLarge—scalebilingualcorpuscanbenefitmanyNatura

4、llanguageprocessingfNLP)applications,suchasmachinetranslationandcrosslanguageinformationretrieval.Althoughmanypreviousstudieshavespentalotofmanpower,materialandfinancialresourcesinobtainingbilingualcorpora,theexistingcorpusacquiredisfarfromenoughtomeettheneedofprocessingrea

5、ltextbecauseofitssmallscale,poortimelinessandimbalanceofdomains.Inthispaper,wefocusonbuildingaplatformtoobtainlarge·scalebilingualparallelcorpusautomatically.Asfarasweknow,therealeconsiderableduplicatedtextsinthewholeIntemet,SOweneedtocombatthisproblemwiththepurposeofextrac

6、tingbilingualresources.Bysearchingsimilararticles、析tllkeywordandacquiringrepetitiveparagraphsfromthesesimilararticles,wecankeepthebalanceoftheprecisionrateandrecallrateeffectively.Inthispaper,keywordsareselectedbyaniterativemethodbetweensentencesandwords.Inaword,eliminating

7、duplicatedwebpageslaidasolidfoundationforimprovingtheefficiencyofbilingualextraction.Thereareplentyofparallelsentencesembeddedinthebilingualmixedwebpages.Inthispaper,weaimtoextractparallelsentencepairsbyanalyzingthestructureandthecontentofagivenpagefully.Atfirst,weacquirebi

8、lingualmixedwebpagesbased011usualtextsearchengines,andthenwithregardofeachbilingua

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。