欢迎来到天天文库
浏览记录
ID:34851002
大小:930.82 KB
页数:58页
时间:2019-03-12
《基于维基百科的双语语料挖掘技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于维基百科的双语语料挖掘技术研究第一章引言法律(HongKongLaws)、香港新闻(HongKongNews)、新华社新闻(XinhuaNews)等是国际上广为应用的汉英双语语料库。可以看到,这些语料库主要集中在政府文件和新闻法律等特殊领域,双语语料库的这种领域不平衡性在一定程度上限制了相关研究在面向真实文本时的实际应用水平。虽然国内在双语语料库建设方面起步较晚,但是近年来相关研究得到了许多研究机构的重视,也取得了比较可观的进展。如北京大学计算语言学研究所开发了服务于新闻领域机器翻译的Bable汉英双语语料库。
2、Bable语料库历时约3年时间实现了20万句对齐(SentenceAlignment)汉英双语语料库的采集和标注,是目前报道的具有详细标注规范、规模最大的语料库之一。其它规模较大的双语语料库包括中科院计算所开发的用于机器翻译评测20万句对齐的汉英双语语料库;中科院自动化所开发的14万句对齐的汉英双语语料库;哈尔滨工业大学的10万句对齐的汉英双语语料库等。此外,中科院软件所,清华大学,东北大学,南京师范大学,国家语委等单位也建立了一定规模的汉英双语语料库。北京大学还建立了2万句对齐的汉日双语句对齐语料库。对于其它语言
3、的汉外双语语料库的报道还不多见。目前关于双语语料库的建设和研究主要侧重于语料库的对齐加工标注,多级自动对齐技术以及双语平行或可比较语料库在机器翻译和翻译知识获取等方面的应用技术,而对大规模原始双语语料库的系统性构建这一前提性工作却关注较少。目前报道的双语语料库主要来源于电子版书籍或报刊的双语文本,部分来源于互联网上的双语文本,而在语料库的搜集和处理上大多依赖于人工挑选和判定。这种原始语料库的获取方式大大限制了双语语料库的建设效率,制约了双语语料库在规模、领域、语言对上的快速扩展,更是难以达到时效性的要求。各研究单位
4、的中小规模重复建设也消耗了大量的人力、物力和财力。因此,研究高效的,支持大规模、多领域,可持续发展的双语资源库建设方案对于减轻人工搜集双语语料库的困难,推动相关研究发展具有重要的实际意义。(2)基于Web的双语平行或可比较资源自动获取近几年来,基于Web的翻译信息获取研究开始引起研究者的关注。目前研究大多集中在翻译词典获取方面,如基于Web的命名实体翻译、未登陆词翻译、术语翻译、短语翻译获取等。国内在这方面的相关报道,如上海交通大学的原双庆等研究了3第一章引言基于维基百科的双语语料挖掘技术研究基于Web的多语翻译词
5、典获取方法;富士通研究院方高林研究了基于Web的术语翻译的获取方法;赛迪集团推出的新一代英汉双向翻译系统中也采用了Web词典技术,等等。在基于Web的双语网页获取方面,也有一些研究者进行了初步的探索,其中比较著名的研究是加拿大蒙特利尔大学的研究者聂建云开发的系统[3]PTMiner(ParallelTextMiner)和美国马里兰大学的研究者Resnik开发的系统[1][4]STRAND(StructuralTranslationRecognition,AcquiringNaturalData)。他们所用的挖掘方法
6、都是和具体的语言本身的一些知识和特性无关的,而是基于对Web文档的结构(structure-based)分析来完成挖掘的,也就是说,用他们的方法可以挖掘Web上任意语言对之间对应的平行或可比较语料库。他们的共同特点是利用现有的搜索引擎和双语网站中的语言标志作为启发式信息(如网站中的“EnglishVersion”,“inEnglish”等)来获取候选双语平行或可比较(ParallelorComparable)网站,利用网页URL地址的相似性(如file_e.HTML和file_c.HTML)来获取平行网页,只是在具
7、体的实现上稍有差异,像Resnik在URL匹配时采用了功能强大的正则表达式匹配,而聂建云他们则只列举出了一些简单的文档的前后缀来完成。还有另外一种挖掘方法,在网页的采集阶段是基于结构的,但是在对采集下来的网页进行双语文本对齐时则使用了一部大词汇量的双语词典,用于计算挖掘出来的网页间内容的相似度,从而决定两个Web文档是否互为翻译,这种方法称之为Context-based(基于内容的),用这种方法实现的[5]一个代表性系统是BITS(BilingualInternetTextSearch,MaandLiberman1
8、999)。而BITS系统其实就是基于STRAND系统做出来的,它利用STRAND系统将潜在的候选网页下载下来,然后利用自己的方法进行对齐,这种方法加入了一定的语言相关的知识,对齐的质量也有所提高。国内在基于Web的双语网页和双语语料库方面的研究还相对较少,香港城市大学的研究者探索了从特定双语网站(http://www.justice.gove.hk)上获取香
此文档下载收益归作者所有