欢迎来到天天文库
浏览记录
ID:37329852
大小:15.30 MB
页数:111页
时间:2019-05-21
《中英平行短语依存树库的构建与应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、博士学位论文中英平行短语依存树库的构建与应用研究Chinese--EnglishParallelPhraseDependencyTreebank:ConstructionandApplication作者姓名:萱羞蚕学科、专业:让簋扭应用技本学号:!Q垒Q鱼Q!鱼指导教师:黄德褪教援画院±完成日期:2Q!曼么Z么垒大连理工大学DalianUniversityofTechnology大连理工大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用内
2、容和致谢的地方外,本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任。学位论文题目:生英壬盈短适筮在挝庄的掐建生廑闺盟究作者签名:—二塞粗一日期:婴!;年二L月j匕日大连理工大学搏士学位论文摘要平行语料库是自然语言处理(NLP)矛I机器翻译(MT)研究和:]二程应用的重要基础资源,基于平行语料库的各种方法不仅能够改进机器翻译的质量,还可以加强机器辅助翻译中的人机
3、交互。现有平行语料大多只实现了句子一级的对齐,只有部分词对齐或同现词串对齐。尽管网络文本挖掘技术的不断提高,平行语料的规模空前增长,基于实例和统计的机器翻译技术取得长足发展,很多复杂的语言现象和翻译难题还是急需含有语言学深加工的语料的支撑,以提高分析和翻译的准确性。平行对齐树库的构建和应用就是一个重要的方向。平行对齐树库可用于自动词对齐系统的训练和评测,翻译规则抽取,词义消歧,翻译词典抽取及跨语言文化研究等,尤其是能够在加强句法分析、抽取灵活而复杂的语言经验规则和翻译调序规则方面提高机器翻译系统性能。本文比较传统短
4、语结构语法(PSG)矛U依存语法(DG)及现有相应树库资源,提出融合两者优势的短语依存语法(PDG)并设计相应短语依存树库(PDT)标注方案,构建包含中英单语PDT和实现节点对齐的大工中英平行短语依存树库(DUT.CEPDT)。PDG放弃PSG的主谓二分法,采纳DG以谓词为中,心的格语法;放弃DG强行单一中心语二分法,保留PSG的中间层级,保留并列的多中心结构,最大程度实现多语统一的分析方案;标注统一的基于语义的依存方向,在每个节点标注的依存关系类型包含句法功能和语义角色两个特征。翻译对齐的内容是对齐翻译过程,是从
5、词、短语、句子到段落各层级彻底对齐。语料分别经过分词和词性标注之后,导入到可视化语言学树库编辑器,构建从段落到词的短语结构层级关系,同时标注各层结构的依存方向和类型。最后开发专门的PDT节点对齐编辑器,进行节点ID关联连结,实现中英文树库的节点对齐。已加完成2年中国政府工作报告和100份62届联合国大会决议的标注,中文169,360字,英文128,283词。依次进行的短语结构划分与结构类型标注、句法功能依存类型标注和节点对齐三项标注一致性实验表明设计的标注方案有较强的可操作性。DUT.CEPDT不仅用于抽取翻译对和
6、翻译规则,用于基于树库句法分析的机器翻译系统研发,还用于复杂而精细的语言学研究,并研发语言和语言学教学辅助系统。关键词:短语依存语法;中英平行树库;节点对齐;自然语言处理;机器翻译中英平行短语依存树库的构建与应用研究Chinese-EnglishParallelPhraseDependencyTreebank:ConstructionandApplicationAbstractParallelcorporaarevaluableresourcesforNaturalLanguageProcessing烈LP)and
7、MachineTranslation(MT).Mostparallelcorporanowarealignedatthesentencelevel,andonlyafewatwordorphraselevel.Withthehelpofwebdataminingtechnology.thesizeofparallelcorporaiSunprecedentedlyincreasedandstatisticalmachinetranslationhasseensignificantprogress.Buttheinc
8、reasingscaleoftheparalleltextscannotsolvealltheNLPandMTdifficulties.Manycomplexlinguisticphenomenaandtranslationproblemsstillneedthesupportofcorporawithrichlinguisticannotationstoi
此文档下载收益归作者所有