欢迎来到天天文库
浏览记录
ID:37419747
大小:3.99 MB
页数:112页
时间:2019-05-23
《基于WEB多语种词汇翻译信息抽取技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于WEB多语釉词汇翻译信息抽取技术的研究摘要词汇信息在任何自然语言处理系统中都是不可缺少的重要缀成部分。随着INTERNET技术懿发展、多语稀信憨检索移多谥稀信怠抽取技术豹兴怒,研究蓥于WEB的多语秘词汇翻译信息的抽取,具蠢深远的现实意义和广阑的应用前景。本文从双语词汇抽取的理论模型、实现方法和多语种词汇的应糟三个方面,对基子WEB的多语释谲、汇籀取避行了广泛、深入豹研究。营先,本文提出了将INTEKNET{乍为一个魍然语言处理的多语葶中诱料艨的观点。,通过搜索引擎和双语闷页的自动查找程序建立双语网站语料库。从文本的结褐特点、语言特点分析双语网立占,它分为
2、并行黼页和非并行可比较网页。在理论上提崮并实襞了并行黼页熬一种瑟的对齐模羹,它是锌对INTERNET文本结构特点,结合现有对齐方法,适合予多语手孛的对齐模型。其主要特点是既根据文本内容信息,又不依赖于特定语言和特寇领域。德英和中英并行网页的对齐证明了该模型的正确性和可行性。j一一,。其次,磷究了基于INTERNET鼹语阚站擒取双添弱汇静方法。对荠行网页,邋过甄次对齐,自动抽取词、词组积它们的翻译信息。/与其他词汇抽取方法不同的是,它不依靠种子字典,可以适用于任意两种自然语言,抽取的结果经过人工乒0断反馈给系统。词汇手由取的精度由诧逐步提高。增量式的抽取,特剐
3、适合萄舞特定领域双语调汇懿糖取。对菲并行可比较豹双语潮炙,提浅了词汇寓蹩空阅棱型的概念,通过判断词汇差口其翻译矢爨的类似性,找也可戆的双语词汇,这是一种不依赖文本结构、特定语富和领域知识的统计学方法。根据我们的实验,从两上插取到的双语词汇有60%多在商甭字典和电子字典中燕不蹬现蠡鼋,毽为,嘲上蠡搴双语调汇反获了大量豹囊名调,毽搔技术名调、专毒名谲秘娘据上下文的各秘翻译。因此,网上双语词汇的抽取可以作为获取凝名词或电子词艘的补充,具有实用性。,,r,。最后,本文研究了多语种词汇翻译信息鼹多语种信息检索、多语种信意摘取技术懿影峨。f提出了~个基于多落转谒茳、终合
4、多语秘傣怠检索帮臻息抽取的信息存取模型:根据该模型,实现了投资信息检索的实验系统。为解决信息抽取技术局限于领域的问题,在信息抽取过程和领域模型之间提出了连接模型的概念,在般票公告栏模板酌自动摘取窳验系统中褥到了实现,提高了信患箍墩系统懿可扩震性。嚣个实验系统豹实现,鬼多语瓣运汇款痤建提供了广溺静应用前景。本文研究的主要特点是蔺向多语种语言的处理,在模型和实现方法上,不采甭与特定谱言相关酌资源,就自熬语富的形态分析和双谣两页的对齐,掇出了独特憨,与语言无关熬分辑算法,适合于1NTERNET上多语葶孛兹各孝孛应耀系缭。,卜一一,,一嚣釜簋尹缈,憋缈耽新憋充野RE
5、SEARCHONWEB—BASEDMUI丁ILINGUALLEXlCALINFORM芦汀IONEXTRACTl0NABSTRACT1nanynaturallanguageprocessingsystem,1exicalinformationP1aysanimportantroleintheanalysiS,transferandgenerationprocesses.Astherequirementformultilingualinformationretrievalandmultilingualinformationextractionriseswitht
6、hedevelopmentoftheInternet,Internetbasedmultilingual1exicalinformationextractionhasaprofoundtheoretiCandrealistiCSignificanoeandheldsavatietyoffutureappljcations.1nthiSthesiS.weresearchmultilingual1exjconextractjonmodelS,tealizationmethodsandtheirapplicatjons.FirstlYweanalyzetheInt
7、ernetasamultilingual1anguagecorpusaccordingtoitsdocumentstructureand1anguagefeatures.Throu【ghsearchenginesandtheautomatiebi1ingualwebpagesfinder,abi1ingualcorpusiSestablished.Paral1elhomepagesandComparablebi1ingualWebpagesareinvestigated.Weproposeandrealizethealignmentmodelofparall
8、e1homepagesbasedonthestruc
此文档下载收益归作者所有