汉英文本级句子对齐技术的研究

汉英文本级句子对齐技术的研究

ID:33808388

大小:4.92 MB

页数:66页

时间:2019-02-28

汉英文本级句子对齐技术的研究_第1页
汉英文本级句子对齐技术的研究_第2页
汉英文本级句子对齐技术的研究_第3页
汉英文本级句子对齐技术的研究_第4页
汉英文本级句子对齐技术的研究_第5页
资源描述:

《汉英文本级句子对齐技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据分类号UDC作者姓名:指导教师:申请学位级别:学科专业名称:论文提交日期:学位授予日期:密级学位论文汉英文本级句子对齐技术的研究孙坤杰胡明涵副教授东北大学信息科学与工程学院硕士学科类别:工学计算机软件与理论2014年6月论文答辩日期:2014年6月2014年7月答辩委员会主席:杨晓春评阅人:张俐、战学刚东北大学2014年6月万方数据AThesisinComputerSoftwareandTheoryTechnologyResearchonChineseEnglishTextLevelSentenceAlign

2、mentBySunKunjieSupervisor:AssociateProfessorHuMinghanNortheasternUniversityJune2014万方数据独创性声明本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:狲、砷走,日期:hI牛年6闷学位论文版权使用授权书本学位论文作者

3、和指导教师完全了解东北大学有关保留、使用学位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部或部分内容编入有关数据库进行检索、交流。作者和导师同意网上交流的时间为作者获得学位后:半年日一年口一年半口两年口学位论文作者签名:瑚撕煮,签字日期:入l午年6目导师签名:娟悄签字日期:调l争手6lf;}万方数据东北大学硕士学位论文摘要汉英文本级句子对齐技术的研究摘要双语语料库是存放两种语意对齐的语料资源和信息的仓库,是机器翻译和多语言处理的重要资

4、源,被广泛的应用于机器翻译、机助人译、翻译知识的抽取、词义排歧、跨语言信息检索等领域。其中,对齐技术是加工双语文本的核心,对齐效果的好坏直接影响了以后工作的进行。双语文本级句对齐包含了段落对齐和句子对齐,二者对齐原理类似。基于汉英双语的实际情况,本文主要从对齐的准确性和速度方面,在兼顾准确率和召回率的前提下,提高文本对齐的速度。首先,根据本文提出的锚点对齐算法,将文本划分为文本块。该方法利用文本中的命名实体如人名、地名、组织机构名和数字类、时间类、日期类等这些特殊信息,利用动态规划算法将文本划分为几个片段。实验证明,

5、该锚点对齐算法在段落对齐和句对齐中准确率可以达到98%。然后,在文本段落对齐实验中,采用基于长度和均等权重的词典对齐结合的对齐方法,获得了良好的对齐效果,准确率达到93.4%。添加锚点对齐后的段落对齐,召回率增加了,对齐速度是以前的2.5倍。在文本句子对齐实验中,分别进行了直接句对齐和先段落对齐后句对齐的实验,实验结果表明含有段落信息的文本句对齐要比直接进行句对齐效果好。直接句子对齐不利用段落信息,其中基于长度和TF.IDF权重的词典对齐方法最好,准确率达到93.6%,添加锚点对齐后,准确率一致的情况下,召回率提高了

6、0.5个百分点,运行速度提高了3.4倍。含段落信息的文本句对齐中,首先利用基于长度和词典结合的方法进行段落对齐,然后利用直接句子对齐的方法,准确率达到了92.8%,在整个对齐过程中,添加锚点对齐后,准确率一致的情况下,召回率提高了O.5个百分点。本文的主要工作分为两部分:一是提出基于锚点对齐方法,将待对齐的文本划分为小的片段,然后在片段内进行段落对齐或句子对齐,实验表明,该方法准确率达到98%。二是结合长度对齐方法和双语词典对齐方法的特点,将二者融合到文本级段落对齐和句子对齐中,总结出了适用于段落对齐和句子对齐的方法

7、。关键词:段落对齐;句对齐;锚点对齐;实体识别;TF—IDF权重.II.万方数据东北大学硕士学位论文AbstractAbstractBilingualcorpusisawarehouseofstoretwosemanticalignedcorpusresourcesandinformation,whichisanimportantresourceformanylanguageprocessingandmachinetranslation.Bilingualcorpusiswidelyusedinmachinetran

8、slation,machineaidedhumantranslation,translationknowledgeextraction,WSD,crosslanguageinformationretrieval.Amongthem,thealignmentisthekeytechnologytoprocessingbilingualtext,t

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。