欢迎来到天天文库
浏览记录
ID:40912662
大小:51.60 KB
页数:7页
时间:2019-08-10
《双语语料库段落重组对齐方法研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、双语语料库段落重组对齐方法研究李维刚刘挺王震李生哈尔滨工业大学计算机学院信息检索研究室哈尔滨150001E-mail:{lee,tliu,wangzhen,ls}@ir.hit.edu.cn摘要:网络上存在的大量双语资源,给构建大规模双语语料库提供了可能。双语对齐作为语料库加工过程中的关键技术,已经引起研究者的高度重视。针对目前可收集到的双语资源大都没有做到段落对齐,本文结合基于句子长度和基于词典的两种经典对齐算法思想,充分利用双语文本中的句子在整个文本中的位置信息,在(1:1)型句珠里选取锚点,并根据双语文本特征引入一部双语词典进
2、行校验,从而获得分段的锚点,实现通用的段落重组对齐。关键词:双语语料库,段落重组对齐,锚点,匹配ResearchofParagraphRealignmentofBilingualCorpusLiWeigangLiuTingWangzhenLiShengInformationRetrievalLaboratoryHarbinInstituteofTechnology,Harbin150001(lee,tliu,wangzhen,ls@ir.hit.edu.cn)Abstract:Largeamountofbilingualresour
3、ceontheinternetbringtheprobabilityofbuildingalargescaleofbilingualcorpus.Asthekeytechnologyduringthecourseofbuildingthecorpus,bilingualalignmenttechnologyisgrowinghighrecognition.Facingthesituationthatmostofbilingualresourceattainedontheinternetisalignedinparagraph,par
4、agraphrealignmentisnecessary.Combininglength-basedmethodwithlexicon-basedmethod,makingfulluseofthelocationinformationofeachsentenceinwholetext,wechoosetheanchorsamongthe1-for-1beadsaccordingtheresultofdictionarycheckandachievethegoalofgeneralparagraphrealignment.Keywor
5、ds:bilingualcorpus,paragraphrealignment,anchor,match1.引言双语语料库是一种包含有两种语言互译信息的特殊的语料库。它能够提供两种语言之间丰富的匹配信息,在翻译知识的获取、双语词典的建立、基于实例的机器翻译、词义消歧等[1]领域有着重要的应用价值。大规模双语语料库的建设是进行基于语料库研究的基础,它包括语料库的设计、语料的[2]采集、录入和管理等方面。而目前互联网上存在着丰富的双语资源,为短期内建成大规模的双语语料库提供了可能。因此对网上可收集到的双语互译文本进行加工成为一个非常有意
6、义的课题。对齐技术是加工双语文本的核心。所谓对齐就是从互译的不同语言文本中找出互译片断的过程,双语语料库对齐可分为段落、句子、短语、单词等不同级别的加工深度,语料库的加工深度决定了语料库所能提供的知识的粒度。早在90年代初期,国外就有人开始这一方面[3][4][5]的工作,主要有Brown,Gale和Chen等,他们的方法主要归结为两类,基于长度的对齐方法和基于词汇的对齐方法,Brown在对Hansard语料库进行对齐时,引入了锚点(anchor)的概念,认为锚点的作用就是将整个语料库分成一些小的对齐片断;同时把每一对相对应的[6]
7、[7]句子称作句珠(Sentencebead)。针对汉英双语对齐,国内的刘昕,钱丽萍等人也进行了一些改进的对齐算法研究。目前很多学者在进行双语对齐研究时,大多数都是在段落对齐的基础上进行句子对齐的研究。然而目前网络上的大量双语文本基本都没有做到段落对齐,而段落对齐是进行后续的句子对齐、结构对齐等更深级别的对齐加工的基础,因此针对这种真实的文本资源,必须首先进行段落对齐。[1]文献提出了一个将文本依照翻译块(translationblock)重新进行分段的方法,它通过汉英词汇对之间的特征比较,首先对汉语句子进行分词,找到可以用于汉英语
8、料库分段的锚点词汇对,在此基础上,通过锚点词所在句子的匹配获得锚点句子对来进行分段。但是这种方法仅适合于具有较多高频固定词的双语文本的分段对齐,对于只具有较少高频固定词的双语文本,这种方法就会遇到数据稀疏问题导致分段太粗及准确率下降。
此文档下载收益归作者所有