欢迎来到天天文库
浏览记录
ID:34538854
大小:321.52 KB
页数:4页
时间:2019-03-07
《基于web的跨语言信息检索研究综述》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、万方数据2009年第2期计算机与现代化JISUANJIYUXIANDAIHUA总第162期文章编号:1006-2475(2009)02-0035-04基于Web的跨语言信息检索研究综述赵欣1,邓明星2(1.厦门大学人工智能研究所,福建厦门361005;2.江西师范大学计算机信息工程学院,江西南昌330022)摘要:回顾了近年来基于Web的跨语言信息检索技术的理论研究和发展现状,针对跨语言信息检索中基于语料库的方法,就其中语料库的构建和使用问题进行了阐述。比较分析和总结了两方面的技术:一是利用互联网上丰富的双语资源来建立大规模双语语料库的技术,二是目前运用较多的几种查询
2、翻译模型构建技术。最后,展望了该领域的研究前景和发展方向。关键词:跨语言信息检索;基于Web;平行网页;统计翻译模型中图分类号:TP391文献标识码:AWeb-basedCrossLanguageInformationRetrievalTechniqueZHAOXinl,DENGMing.xin92(1.InstituteofArtificialIntelligence。XiamenUniversity,Xiamen361005,China;2.SchoolofComputerandInformationEngineering,JiangxiNormalUnivemi
3、ty,Nanchang330022,China)Abstract:ThetheoreticalresearchanddevelopmentstatusoftheWeb·basedc嗍一languageifformafionretrievaltechniquein舡centyearsisreviewed.Forthetechniquebasedoncorpus,theapproachesofhowtoconstructtheparallelcorpusfromtheWebpagesandhowtou8eittorealizethemodelingofthequerytr
4、anslation雠summarized.Finally。thestudyprospectisdiscussed.Keywords:cross—languageinformationretrieval(CLIR);Web·based;parallelcorpus;statisticaltranslationmodel0引言跨语言信息检索(CLIR)致力于多语种检索结果的研究,用户只需输入一种语言的查询,就能检索出多种其他语言的文档。早在20世纪70年代,G.Sal-ton等人就对跨语言信息检索进行了探索,发展至今,跨语言信息检索已经拥有了诸如同源匹配、文档翻译、查询翻
5、译、中间语言技术等多种实现方法。目前大多采用查询翻译方法,利用机器翻译、同义词词典和语料库(主要是平行语料库)等,对用户输入的查询请求进行翻译,然后在目标文档集中检索。随着互联网飞速发展,语料库资源规模不断扩大,为以语料库为基础的自然语言处理提供了强有力的支撑,在机器翻译和跨语言信息检索领域,许多学者对其中多语种语料库构建问题进行了深入的研究,并取得了一些研究成果。期间,基于Web的跨语言信息检索逐渐受到人们的广泛关注【1’3】。基于Web的跨语言信息检索利用互联网上存在着的大量双语互译文本来建立大规模双语语料库,实现查询翻译并检索出相关文档。本文对基于Web的跨语言
6、信息检索技术进行了较为全面的综合分析。1平行网页的挖掘平行网页挖掘主要包括平行网页的收集和筛选。利用一些平行网页识别技术,将候选平行网页收集起来,然后进行配对,初步得到一批平行网页对,再通过筛选技术对其进行筛选,最终得到用于构建平行语料库的平行网页。sTRANDL31系统是最早出现的平行网页挖掘系统,之后,相继出现了PTMinerLlj,PTIL6J,WPED【51等。STRAND和PTMiner在英文中文平行文本上的挖掘精确率分别达到了90%和98%,PTI在召回率提高到收稿日期:2008·10-28作者简介:赵欣(1984·),女,江西吉安人,厦门大学人工智能研究
7、所硕士研究生,研究方向:自然语言处理;邓明星(1983·),男,江西抚州人,江西师范大学计算机信息工程学院硕士研究生,研究方向:移动传感网络。万方数据计算机与现代化2009年第2期96%的基础上实现了93%的精确率,WPED系统得到的挖掘效果和PTI类似。由于评价办法不尽相同,无法准确地判断这些系统的优劣,但它们都有力地证明了从Web上获取平行语料的办法是可行的、高效的。并且这些挖掘系统基本上与具体语言无关,使用于不同语言时只需改变诸如文件名、前缀、后缀之类的参数,具有很强的适用性。1.1候选平行网页的收集候选平行网页是指那些有可能是平行网页对中成员
此文档下载收益归作者所有