基于平行语料库的跨语言实体关系抽取研究

基于平行语料库的跨语言实体关系抽取研究

ID:35182394

大小:5.71 MB

页数:75页

时间:2019-03-21

基于平行语料库的跨语言实体关系抽取研究_第1页
基于平行语料库的跨语言实体关系抽取研究_第2页
基于平行语料库的跨语言实体关系抽取研究_第3页
基于平行语料库的跨语言实体关系抽取研究_第4页
基于平行语料库的跨语言实体关系抽取研究_第5页
资源描述:

《基于平行语料库的跨语言实体关系抽取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、':学校代码10285 ̄学号:20134227019■系例乂爭BL/SOOCHOWUNIVERSITY靴语料》gg实驅麵究ResearchonParallelCorpus-based:‘…1占y-y—I;T■_Cross-lingualEntityRelationExtraction辑:女!研究生姓名惠浩添議瞩ZZZZZZZmZZZZZZ^^专业名称计龍科学与技术硏究方巧自然脂舰所在院部计臟科学与巧术学院顯曰期5月整H2基于平行语料

2、库的跨语言实体关系抽取研究中文摘要基于平行语料库的跨语言实体关系抽取研究中文摘要平行语料库不仅对跨语言关系抽取研究有着重要的意义,同时也为揭示自然语言处理任务在不同语言上的难度以及研究语言之间的互补性和冗余性提供了一个良好的数据平台。而传统的平行语料库仅在句子级对齐,限制了它在跨语言自然语言处理研究中的作用。鉴于此,本文进行了以下几个方面的研究工作:(1)实例级中英文平行语料库的构建。基于OntoNotes中英文平行语料库,通过自动抽取、映射和人工标注相结合的方法,构建了一个面向信息抽取的实例级对齐的平行语料库。并在此基础上采用SVM方法进行中英文实体关系抽取,最后从句法结

3、构和词汇级别上揭示中英文关系抽取的难度差异。(2)基于双语协同训练的关系分类。基于已构建的平行语料库,采用协同训练的方法进行中英文关系分类。实验表明,双语协同训练的性能总是高于普通自举学习,并且具有较好的鲁棒性。(3)基于双语主动学习的关系分类。采用主动学习的方法进行中英文关系分类研究,使用联合置信度来获取不确定性最高的实例。实验表明,在标注同样数量实例的基础上双语主动学习总能获得较好的性能。本文的研究表明,与大多数的自然语言处理任务不同,在新闻领域上的中文关系抽取的性能优于英文关系抽取,其主要原因是在局部范围内中文比英文表达更简洁,语义更清晰。另外,由于中英文语言之间的冗

4、余性和互补性,无论采用双语协同训练还是双语主动学习都能同时提高中英文关系抽取的性能。关键字:平行语料库,实体关系抽取,双语协同训练,双语主动学习作者:惠浩添指导老师:钱龙华IAbstractParallelCorpus-basedCross-lingualRelationClassificationResearchonParallelCorpus-basedCross-lingualEntityRelationExtractionAbstractParallelcorporanotonlyplayanimportantroleincross-languagerelation

5、extractionresearch,butalsoprovideavaluabledataplatformforrevealingthedifficultyofnaturallanguageprocessingtasksindifferentlanguagesandstudyingthecomplementaryandredundancybetweenlanguages.However,traditionalparallelcorporaareonlyalignedatsentencelevel,limitingtheireffectsonresearchincross-

6、languagenaturallanguageprocessing.Inviewofthis,thisarticleconductsresearchinthefollowingaspects:(1)Constructionofaninstance-levelChinese-Englishparallelcorpus.OnthebasisoftheOntoNotes,weconstructaChineseandEnglishparallelcorpusalignedatinstancelevelforinformationextractionbycombiningautoma

7、ticextraction,automaticmappingandmanualannotation.AndthenrelationextractionresearchusingSVMsisconductedonthecorpusforbothChineseandEnglish.Finally,weshedsomelightonthedifficultyofrelationextractionintwolanguagesfrombothsyntacticstructureandlexicallevel.(2)Bili

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。