欢迎来到天天文库
浏览记录
ID:13204444
大小:132.07 KB
页数:6页
时间:2018-07-21
《关系抽取中远监督错误标注消除》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、关系抽取中远监督错误标注消除*汝承森1,唐晋韬1,谢松县1,李莎莎1,王挺1*收稿日期:2016-11-24基金项目:国家自然科学基金资助项目(61472436,61532001,61303190)作者简介:汝承森(1988-),男,山东聊城人,博士研究生,E-mail:ruchengsen@nudt.edu.cn;王挺(通信作者),男,教授,博士,博士生导师,E-mail:tingwang@nudt.edu.cn1.国防科学技术大学计算机学院,湖南长沙410073)摘要:目前远监督方法被广泛应用于关系抽取任务。然而,远监督方法中存在大量错误标注现象(统计表明在文章数据集中的平均错误率为7
2、4.1%),给远监督方法的学习效果带来了很大的影响。提出了利用语义Jaccard度量关系短语与依存词间语义相似性的错误标注消除方法。消除错误标注后的训练数据用于训练模型,完成关系抽取。实验结果表明,该方法可以有效消除错误标注,提高关系抽取的性能。关键词:关系抽取;远监督;错误标注;语义相似性中图分类号:TP391文献标志码:A 文章编号:ReducingwronglabelsinDistantSupervisionforRelationExtractionRUChengsen1,TANGJintao1,XIESongxian1,LIShasha1,WANGTing1(1.College
3、ofComputerScience,NationalUniversityofDefenseTechnology,Changsha410073,China)Abstract:Distantsupervisionhasbeenwidelyusedforrelationextractionrecently.Indistantsupervision,thereareusuallymanywronglabels(average74.1percentinourexperimentaldataset)whichhaveabadimpactonrelationextraction.Thispaperint
4、roducesamethodtoreducewronglabelsbyusingthesemanticJaccardtomeasuresemanticsimilaritybetweentherelationphrasesandthedependencyterms.Thetrainingdataafterreducingwronglabelshasbeenusedtotraintherelationextractors.Theexperimentalresultsshowthattheproposedmethodcaneffectivelyreducewronglabelsandimprov
5、etherelationextractionperformancecomparedwiththestate-of-artmethods.Keywords:relationextraction;distantsupervision;wronglabels;semanticsimilarity6当今时代,信息呈现爆炸式增长,能够快速准确地从海量信息中获取用户所需要的信息显得尤为重要。信息抽取技术[1-2]的出现为用户解决了这一难题。关系抽取是信息抽取的关键技术之一,是一个从文本中抽取结构化信息的过程[3],对于问答系统、机器阅读以及知识图谱等应用具有重要意义。但是,关系抽取方法通常面临缺少标注
6、数据问题[4]。标注数据需要耗费大量人力物力。为缓解标注语料不足问题,Mintz等[5]利用远监督方法进行关系抽取。如果一个句子包含的实体对与知识库中已有关系实例的实体对相同,远监督方法将该句子标注为对应关系的实例。基于这种方法可以自动标注训练语料,节省了大量人力物力。但是,由于两个实体间的关系可能不止一种,这样就会导致错误标注现象。本文将英文维基百科https://dumps.wikimedia.org.的子集(含有850000篇文章)作为目标语料库,将YAGO2s作为关系源知识库,利用远监督自动标注训练集。通过随机抽样发现,训练集的平均错误率高达74.1%。训练集中引入了太多噪声,会严
7、重的影响关系抽取效果。如果能够消除其中的错误标注,可以极大地提高关系抽取效果。本文提出了一种基于语义相似性的错误标注消除方法,以提高远监督学习的效果。知识库利用关系短语描述各种关系类型,而实体间关系由依存路径上的词语(依存词)描述。因此,可以通过度量关系短语与依存词间的语义相似度判断句子是否为正确标注。语义相似度越高,正确标注的概率越大;语义相似度越低,正确标注的概率越小。关系短语与依存词的语义表示是度量相似度需要解决的
此文档下载收益归作者所有