欢迎来到天天文库
浏览记录
ID:36621325
大小:372.98 KB
页数:6页
时间:2019-05-13
《基于深度学习的关系抽取》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于深度学习的关系抽取作者:林衍凯、刘知远(清华大学)【引言】信息抽取旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息。关系抽取是其中的重要子任务之一,主要目的是从文本中识别实体并抽取实体之间的语义关系。例如,句子“BillGatesisthefounderofMicrosoftInc.”中包含一个实体对(BillGates,MicrosoftInc.),这两个实体对之间的关系为Founder。现有主流的关系抽取技术分为有监督的学习方法、半监督的学习方法和无监督的学习方法三种:1、有监督的学习方法将关系抽取任务当做分类问题,根据训练数据设计有效的特征,
2、从而学习各种分类模型,然后使用训练好的分类器预测关系。该方法的问题在于需要大量的人工标注训练语料,而语料标注工作通常非常耗时耗力。2、半监督的学习方法主要采用Bootstrapping进行关系抽取。对于要抽取的关系,该方法首先手工设定若干种子实例,然后迭代地从数据从抽取关系对应的关系模板和更多的实例。3、无监督的学习方法假设拥有相同语义关系的实体对拥有相似的上下文信息。因此可以利用每个实体对对应上下文信息来代表该实体对的语义关系,并对所有实体对的语义关系进行聚类。与其他两种方法相比,有监督的学习方法能够抽取更有效的特征,其准确率和召回率都更高。因此有监督的学习
3、方法受到了越来越多学者的关注,本文也将重点介绍该类方法。深度学习是机器学习研究的热点之一领域,其主要思想是模拟人脑神经网络建立学习模型,从语音、图像或文本等不同数据中学习有用信息。典型的深度学习方法包括卷积神经网络(convolutionalneuralnetworks,CNN)和循环神经网络(recurrentneuralnetworks,RNN),这些模型在文本分类、机器翻译、智能问答等方向都取得了显著的效果。那么,近年来深度学习技术在关系抽取领域的进展如何,关系抽取技术未来的研究趋势是什么?本文将就这些问题加以详细的阐述。【基于有监督学习的关系抽取】有监
4、督的关系抽取系统通常需要大量人工标注的训练数据,从训练数据中自动学习关系对应的抽取模式。有监督关系抽取方法主要包括:基于核函数的方法[ZhaoandGrishman2005;BunescuandMooney2006],基于逻辑回归的方法[Kambhatla2004],基于句法解析增强的方法[Milleretal.2000]和基于条件随机场的方法[Culottaetal.2006]。然而,阻碍这些系统效果继续提升的主要问题在于,人工标注训练数据需要花费大量的时间和精力。针对这个局限性,Mintz等人[Mintzetal.2009]提出了远程监督(DistantS
5、upervision)的思想。作者们将纽约时报新闻文本与大规模知识图谱Freebase(包含7300多个关系和超过9亿的实体)进行实体对齐。远程监督假设,一个同时包含两个实体的句子蕴含了该实体对在Freebase中的关系,并将该句子作为该实体对所对应关系的训练正例。作者在远程监督标注的数据上提取文本特征并训练关系分类模型,有效解决了关系抽取的标注数据规模问题。之后许多研究者从各个角度对远程监督技术提出了改进方案。例如Takamatsu等人[Takamatsuetal.2012]改进了实体对齐的技术,降低了数据噪音,提高了关系抽取的总体效果。Yao等人[Yaoe
6、tal.2010]提出了基于无向图模型的关系抽取方法。Riedel等人[Riedeletal.2010]则增强了远程监督的假设,与[Mintzetal.2009]相比错误率减少了31%。以上远程监督技术都假设一个实体对只对应一种关系。但是,很多实体之间具有多种关系。例如,“SteveJobsfoundedApple”和“SteveJobsistheCEOofApple”。因此,Hoffmann等人[Hoffmannetal.2011]提出采用多实例多标签(Multi-InstanceMulti-label)方法来对关系抽取进行建模,刻画一个实体对可能存在多种关
7、系的情况。类似地,Surdeanu等人[Surdeanuetal.2012]也提出利用多实例多标签和贝叶斯网络来进行关系抽取。【基于深度学习的关系抽取】现有的有监督学习关系抽取方法已经取得了较好的效果,但它们严重依赖词性标注、句法解析等自然语言处理标注提供分类特征。而自然语言处理标注工具往往存在大量错误,这些错误将会在关系抽取系统中不断传播放大,最终影响关系抽取的效果。最近,很多研究人员开始将深度学习的技术应用到关系抽取中。[Socheretal.2012]提出使用递归神经网络来解决关系抽取问题。该方法首先对句子进行句法解析,然后为句法树上的每个节点学习向量表
8、示。通过递归神经网络,可以从句法树最低
此文档下载收益归作者所有