欢迎来到天天文库
浏览记录
ID:35102133
大小:5.38 MB
页数:76页
时间:2019-03-17
《面向数据稀疏问题的英文事件抽取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、■:10285.学校代码I学号:201342屢3.SOOCHOWUNIVERSITYJlBfalMi面向数据稀疏问题的英文事件抽取硏究."民esearchonAddressinDataSarsenessinEnli浊g,pgEventExtraction硏究生姓名陈亚东;_-—二-pM^^—片—指导教师姓名朱巧明洪宇,专业名務计算祝科学与技术^研究方向自然语言处理":—,—.■>-= ̄ ̄_■—.一…山■—,"■—■■,"■,,.,,,■,。-…—,IM所在院部
2、计算机科学与技术学院论文提交曰期2016年5月",'."-- ̄ ̄…——WIbb^^^MMIK?;;苏州大学学位论文使用授权声明本人完全了解苏州大学关于收集、保存和使用学位论文的规定,臣P:学位论文著作权归属苏州大学。本学位论文电子文档的内容和纸质论文的内容相…致。苏州大学有权向国家圏书馆、中国社科院文献信息情报中也、中国科学技术信息硏究所(含乃方数踞电子出版社)、中國学术期刊(光盤版)电子杂志社送交本学位论文的复印件和电子文档,允许论文被查阅和借陶,可采用影印、缩印或其他复制手段傑存和汇编学位
3、论文,可臥将学位论文的全部或部分内容编入有关数据库迸行检崇。本学位论文涉密论文口属非在年___月解密后适用本规定。涉密论文□。论文作者签名:背華穿、曰期;玄lL'5.巧.导师鑑名:日期:竭务马y乏yjI苏州大学学位论文独创性声明本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研巧工作所取得的成果。除文中己经法明引用的内容外,本论文不含其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体,均已在文中明确方式标明。本人承担本声
4、明的法律责任。论文作者签名5'王:皆哀資、B期;旅1面向数据稀疏问题的英文事件抽取研究中文摘要面向数据稀疏问题的英文事件抽取研究中文摘要事件是一种描述特定人、物、事在特定时间和地点相互作用的客观事实。事件抽取旨在从非结构化的自由文本中抽取出事件信息,并以结构化的形式表示。结构化的事件信息包含触发词、事件类型、事件成员及其角色。现有的事件抽取方法往往受限于数据稀疏问题而导致性能不高,数据稀疏问题是指由于语料规模较小、类别分布不平衡等问题造成模型训练不充分,难以在测试集中正确抽取出在训练集中未出现或出现较少的事件信息。针对事件抽取存在的数据稀疏问题,本课题提出以下解决方法:
5、利用框架语义知识优化事件抽取本课题引入框架语义知识以辅助解决事件抽取中存在的数据稀疏问题。该方法首先将框架语义知识库FrameNet中的框架类型作为泛化特征,在此基础上进行框架类型和事件类型的映射,然后结合框架类型识别模型和事件类型识别模型进行协作判定,以此优化事件抽取的召回率和F1值。基于主动学习方法的事件抽取方法针对现有的事件抽取语料规模较小且标注质量不高,本课题引入基于串行模型和基于联合模型的主动学习方法,旨在提高语料标注的效率和质量。在基于串行模型主动学习方法的查询函数中,首先倾向于选择触发词分类不确定度较大的样例进行标注,直到触发词分类的不确定度较稳定时,再逐渐加大
6、事件成员分类的不确定度权重。基于联合模型的主动学习方法将事件抽取的两个子任务触发词分类和事件成员分类看作一个整体的序列标注任务,即在查询函数中不再区分触发词分类和事件成员分类两个子任务的不确定度,而只需要考虑一个整体序列标注任务的不确定度。统计与词典相结合的事件抽取方法现有的事件抽取方法往往忽视长文本的短语作为触发词的情况,并且没有考虑伪事件中否定词和不确定词的作用范围,具有较低的召回率。针对上述问题,本文提出一种统计和词典相结合的事件抽取方法,该方法首先将高置信度词典特征分别加入最I中文摘要面向数据稀疏问题的英文事件抽取研究大熵模型和条件随机场模型,然后融合两个模型的结果,以
7、提高触发词分类的召回率和整体性能。此外,针对事件真伪性识别任务,本文进一步考察否定词或不确定词与触发词的物理位置距离和依存路径距离等特征,以提高事件真伪性识别的性能。关键词:信息抽取;事件抽取;框架语义;主动学习;联合模型作者:陈亚东指导教师:朱巧明洪宇IIResearchonAddressingDataSparsenessinEnglishEventExtractionAbstractResearchonAddressingDataSparsenessinEnglishEven
此文档下载收益归作者所有