远监督关系抽取中的样本去噪与模型优化

远监督关系抽取中的样本去噪与模型优化

ID:35099133

大小:2.67 MB

页数:45页

时间:2019-03-17

远监督关系抽取中的样本去噪与模型优化_第1页
远监督关系抽取中的样本去噪与模型优化_第2页
远监督关系抽取中的样本去噪与模型优化_第3页
远监督关系抽取中的样本去噪与模型优化_第4页
远监督关系抽取中的样本去噪与模型优化_第5页
资源描述:

《远监督关系抽取中的样本去噪与模型优化》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:TP巧1单位代码:10183:2013532036密级研究生学号:公开馨古林大学硕db学位论文(樂术樂位)远监督关系抽取中的样本去噪与模型优化SampleDenoisingandModelOptimizationinDistantSupervisionforRelationExtraction作者姓名:崔剑峰专业:计算机软件与理论研究方向:语义Web指导教师:欧阳丹形教授培养单位:计算机科学与技术学院2016年5

2、月远监督关系抽取中的样本去噪与模型优化SampleDenoisingandModelOptimizationinDistantSupervisionforRelationExtraction作者姓名;霍剑峰专业名称:计算机软件与理论指导教师:欧晒丹形教授学位类别;工学硕±答辩曰期;2〇16年《月曰未经本论文作者的书面授权,依法收存和保管本论文书面版本V电子版本的任何单位和个人,均不得对本论文的全部或部分内容进行任何形式的复制、修改、发行、出

3、租、改编等有碍作者著作权的商业性使用(但纯学术性使用不在此限)。否则,应承担侵权的法律责任。吉林大学硕±学位论文原创性声明本人郑重声明:所呈交的硕±学位论文,是本人在指导教师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体己经发表或撰写过的作品成果。对本文的研巧。做出重要贡献的个人和集体,均己在文中明确方式标明本人完全意识到本声明的法律结果由本人承担。学位论文作者签名;曰期分月乂曰/知夕摘要摘要远监督关系抽取

4、中的样本去噪与模型优化当前的网络上存在着海量非结构化的数据,如何帮助人们快速的去理解这些数据成为亟待解决的问题。研究者们提出了将非结构化数据向结构化数据转化的概念,而关系抽取是其中必不可少的步骤之一。传统的关系抽取方法按照数据集的来源不同,分为全监督关系抽取、半监督关系抽取和无监督关系抽取。但是在大数据的环境下,这些方法的发展都遇到了瓶颈。研究者们根据目前数据的特征,提出了远监督关系抽取的概念。远监督关系抽取是利用已有的知识库和文本集,通过启发式的匹配来提供训练数据。而这种匹配是基于假设条件:如果文本

5、集中的语句包含了知识库中的实体对,那么这条语句就表达了实体对在知识库中的关系标签。显然该假设条件过于理想化,会产生大量的噪音数据。我们将噪音数据问题总结为多标签、多实例问题。多标签问题:是指实体对在知识库中有多个关系标签,在对齐后,无法判断句子具体是表达了哪个关系标签。多实例问题:是指某些语句并未表达任何知识库中给定的关系标签。针对上述问题,本文从以下两个角度给出解决方案:(1)基于聚类的样本重定向:首先,通过构造无向图确定句子的候选关系标签集合,无向图中的点代表关系标签,边代表它连接的点所表示的某两

6、个关系标签在训练数据中同时出现过。在完成无向图的构造后,我们寻找其中的连通分量,来确定语句的候选标签集合。接着,将属于同一候选标签集合中的语句集合,利用其特征向量,进行K-means聚类,根据特征不同,分到不同的簇中。最后,我们使用启发式匹配中所给的知识库的信息,采用多数投票的策略,逐条确定每个簇所表示的关系标签,进而确定每条语句的关系标签。上述做法,不仅可以解决样本中多标签问题,并且也能够发现知识库中实体对所缺失的、潜在的关系标签。(2)自适应的模型训练过程:本文重新定义了关系抽取模型,针对数据中的

7、多实例问题,在模型参数迭代求解过程中,我们逐步释放重定向给出的关系标签,对于那些可能属于NA的语句,并没有强硬的进行参数更新操作,这种做法,在一定程度上缓解了多实例问题。另外,对参数训练过程进行了优化,加入了随机梯度下降算法和其他近似求解的操作,这些做法都极大提高了算法的运行效率。通过对比实验表明,本文提出的两种方法可以很好的解决多实例、多标签问题,训练得到的模型的抽取精度要优于之前的方法。关键词:非结构化的数据,关系抽取,远监督关系抽取,多实例,多标签IAbstractAbstractSampleD

8、enoisingandModelOptimizationinDistantSupervisionforRelationExtractionNowadays,thereisalargeamountofunstructureddataonthenetwork.Helpingpeopletounderstandthesedatahasbecomeaproblemneedtobesolved.Theresearchersputforwardtheconcepto

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。