欢迎来到天天文库
浏览记录
ID:37023111
大小:3.70 MB
页数:52页
时间:2019-05-16
《事件抽取关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、事事事件件件抽抽抽取取取关关关键键键技技技术术术研研研究究究ResearchonEventExtraction学科专业:计算机科学与技术作者姓名:段绍杨指导教师:贺瑞芳副教授天津大学计算机科学与技术学院二零一七年十二月摘摘摘要要要网络数据的爆炸性增长给人们获取个性化信息带来挑战。当前人们迫切需要一种自动化的信息抽取技术辅助人们进行语义的理解。事件抽取作为一种自动化的信息抽取技术,旨在从大量的非结构化文本中提取出人们感兴趣的事件并标注其语义参与者。其能应用于查询意图分析以及自动知识图谱构建等任务。本文针对中英文事件抽取技术中存在的级联错误问题、多标签问题和歧义性问题
2、进行深入探索,具体研究内容如下:(1)提出采用分类训练解决事件元素多标签问题。当前,大多数中文事件抽取系统采用连续的管道模型。其容易产生级联错误,且处于下游的任务无法将信息反馈至上游任务,辅助上游任务的识别。将事件抽取看作序列标注任务,构建了基于条件随机场(CRF)的中文事件抽取联合模型。针对联合模型中事件元素的多标签问题(即:当一个事件提及中包含多个事件时,同一个实体往往会在不同的事件中扮演不同的角色)。(2)考虑处于同一事件大类下的事件子类,其事件元素存在一定的相互关联性。为此,本文提出采用多任务学习方法对各事件子类进行互增强的联合学习,进而一定程度上缓解语料
3、的不平衡问题。(3)构建一种利用文档级信息的循环神经网络事件检测模型。现存英文事件检测模型主要存在两个问题:1)基于特征的模型尽管使用了跨句子的信息,但却需要精心设计大量的手工特征和推理规则。2)基于表示的模型尽管能够自动抽取特征,但仅仅使用局部的句子级信息,模型很难准确识别事件。为此,本文构建一种利用文档级信息的循环神经网络事件检测模型。为了验证如上研究内容中的设想,本文分别在ACE(AutomaticContentEx-traction)2005中文和英文语料上进行实验。最终,通过与前人方法的实验结果对比证明了本文方法的有效性。关键词:信息抽取,事件抽取,条件
4、随机场,多任务学习,循环神经网络IABSTRACTTheexplosivegrowthofnetworkdatabringschallengesforpeopletoobtainper-sonalizedsemanticinformation.Thereisanurgentneedforanautomatedinformationextractiontechnologytohelppeopleunderstandsemantics.Asakindofautomatedinformationextractiontechnology,eventextractionis
5、asub-taskofinformationextrac-tion,whichaimstoextracttheeventsthatpeopleareinterestedinandannotatingtheirsemanticparticipantsfromalargeamountofunstructuredtexts.Itcanbeusedinqueryintentanalysisandautomaticknowledgegraphconstructionandsoon.Thispaperaimstosolvethecascadingerror,multi-lab
6、elandambiguityproblemsinChineseandEnglisheventextraction.Themaincontentsofthispaperareasfollows:(1)Weproposetouseclassificationtrainingstrategytosolvetheproblemofmulti-labelforeventelements.Currently,mostChineseeventextractionsystemsuseacontin-uouspipelinemodel.Itispronetocascadingerro
7、rs,anddownstreamtaskscannotfeedbackinformationtoupstreamtasks,assistingintheidentificationofupstreamtasks.Inthispaper,eventextractionisregardedasasequencelabelingtask,andajointChineseeventextractionmodelbasedonconditionalrandomfield(CRF)isconstructed.Aimingatsolvingthemulti-labelproblem
8、ofeve
此文档下载收益归作者所有