欢迎来到天天文库
浏览记录
ID:6177664
大小:105.00 KB
页数:11页
时间:2018-01-05
《基于web的双语平行语料库自动获取系统》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、基于Web的双语平行语料库自动获取系统摘要:例如:进行统一中文网页编码,...我们通过观察统计发现在那些具有URL命名相似性的双语网站中,URL的pathname与base...对于对应的英文词ei在英文句子中存在多个的中文词cj...关键词:中文,词,中文词类别:专题技术来源:牛档搜索(Niudown.COM) 本文系牛档搜索(Niudown.COM)根据用户的指令自动搜索的结果,文中内涉及到的资料均来自互联网,用于学习交流经验,作品其著作权归原作者所有。不代表牛档搜索(Niudown.COM)赞成本文的内容或立场,牛
2、档搜索(Niudown.COM)不对其付相应的法律责任!基于Web的双语平行语料库自动获取系统收稿日期:2007-06-30返稿日期:2007-XX-XX基金项目:国家自然科学基金(60603095),国家自然科学基金(60573188)作者简介:叶莎妮,硕士研究生,主要研究方向为自然语言处理技术(yeshani@ict.ac.cn);吕雅娟,工学博士,主要研究方向为计算语言学与机器翻译;刘群,工学博士,主要研究方向为计算语言学与机器翻译叶莎妮吕雅娟刘群中国科学院计算技术研究所智能信息重点实验室{yeshani,lvyaj
3、uan,liuqun,}ict.ac.cn摘要:利用互联网上存在的海量多语言文本资源,通过网页的内容分析和链接分析,实现了一个双语语料挖掘的自动获取系统。首先,介绍了系统框架和主要模块;其次,详细描述了各个模块的实现与创新技术;最后,给出下一步工作的展望。本系统为获取真实的中英平行语料库提供了有效的途经。关键词:双语语料;网页挖掘;平行网页ABilingualCorpusAutomaticAcquisitionSystemBasedonWebAbstract:Implementedabilingualcorpusautom
4、aticacquisitionsystembytakingadvantageofanabundanceofmultilingualcorpusintheWorldWideWeb,andanalyzingtheircontentandlinks.First,introducedsystemframeworkandmainmodules;second,describedeverymoduleandtechnologyinnovationsindetail.Aprospectforthenextstepwasgivenatlas
5、t.ThissystemprovidedaneffectivewayforachievingChinese-Englishparallelcorpus.Keywords:BilingualText;ParallelCorpora;WebMining;1.引言语料库的建设是统计学习方法的重要基础,近年来,语料库资源对于自然语言处理研究的巨大价值已经得到越来越多的认可。特别是双语语料库(BilingualCorpus),已经成为机器翻译、机器辅助翻译以及翻译知识获取研究不可或缺的重要资源。一方面,双语语料库的出现直接推动了机器
6、翻译新技术的发展,像平行语料库为统计机器翻译的模型构建提供了必不可少的训练数据(e.g.,Brownetal.1990;Melamed2000;OchandNey2002),基于统计(Statistic-Based)和基于实例(Example-Based)等基于语料库的翻译方法为机器翻译研究提供了新的思路,有效改善了翻译质量,在机器翻译研究领域掀起了新的高潮。另一方面,双语语料库又是获取翻译知识的重要来源,从中可以挖掘学习各种细粒度的翻译知识,如翻译词典(e.g.,GaleandChurch1991;Melamed1997
7、)和翻译模板,从而改进传统的机器翻译技术。此外,双语语料库也是跨语言信息检索(e.g.,DavisandDunning1995;Jian-YunNie,TREC8;),翻译词典编撰、双语术语自动提取以及多语言对比研究等的重要基础资源。双语平行语料库建设与获取存在着很大的困难,各国都投入了大量的人力、物力和财力,但是双语平行语料库的来源主要集中在政府报告、新闻法律等特定领域,不适合真实文本应用。同时,互联网上的大规模双语文本并且具有很好的时效性和覆盖性,这为双语平行语料库的获取提供了潜在的解决途径。研究基于Web的大规模双语
8、平行语料库获取技术对于解决双语语料库获取难题,推动相关技术发展和实用化具有重要的意义。本文的目标就是建设一个语料库自动获取系统。1.背景介绍加拿大蒙特利尔大学的研究者聂建云开发的系统PTMiner(ParallelTextMiner,1999):通过搜索引擎查找含有特定锚文本的网站构成双语候选网站,再依
此文档下载收益归作者所有