欢迎来到天天文库
浏览记录
ID:37030085
大小:4.73 MB
页数:66页
时间:2019-05-17
《非限定类型的实体关系抽取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、?咖f耗讀硕士学位论文非限定类型的实体关系抽取研究学科专业计算机软件与理论学位类型工学领士学位研究生姓名王宋祥导师姓名、职称刘方舟副教授论文编号S1802644湖南师范大学学位评定委员会办公室二O—八年六月分类号TP391.1密级公开学校代码10542学号201520100873非限定类型的实体关系抽取研究ResearchonUnrestrictedTyeEntitpyRelationExtraction研究生姓名王宋祥指导教
2、师姓名、职称刘方舟副教授学科专业计箕件与理论研究方向自然语言处理湖南师范大学学位评定委员会办公室二〇—八年六月摘要互联网上存在的信息不仅来自各个领域而且内容丰富、数量巨大,然而这些信息都是非结构化的,如何从巨量的非结构化的互联网信息中提取出实体信息以及实体关系信息是非限定类型关系抽取的主要目的,是信息抽取领域的研究热点,具备非常重要的科研意义和实际运用价值。传统的关系抽取工作不仅建立在小规模已标注语料库上,还过度依赖某个领域人工构建的关系类型体系,不能自动去适应互联网
3、开放。领域下不断增长的关系类型因此,限定领域下以预定义关系类型为前提的关系抽取方法并不适合开放领域。本文的非限定类型的实体关系抽取研究探索一种从互联网开放领域无标注的语料库中抽取出命名实体以及实体关系的半自动化框架,拥有关系类型非限定性、人工标注需求量少的特点。本研究首先使用混合了点互信息、左右信息熵的模型对无标注语料进行命名实体识别,能识别出大量传统命名实体识别工具无法识别一的实体一般性名词和;接着本研究从语料中抽取能表示关系的般性动词(称为特征词),经过特征词的聚类完成关系类型的自主
4、发现,实验表明当关键阈值为0.383,基于词向量余弦相似度的聚类效果可以达到基于同义词林的聚类效果;接着本研究提出基于SimHash的关系种子集抽取算法,可以利用搜索引擎从关联语料中抽取出关系种子集来.4,在九类人物关系类型中实验平均正确度达到907%接着;本研究从关系种子所在的上下文泛化出关系描述模式,使用描述模式在语料库中抽取出关系实例,再将关系实例融入关系种子集中开始迭代关系描述模式挖掘和关系实例抽取的工作,在九类人物关系类型中.98%,,迭代三次的平均正确度达到了95满足实际应用的
5、标准;最后本研究设计并实现了关系实例可视化的系统,将关系实例构成的网络以直观。、清晰、互动性强的力导向图的方式呈现出来本研究整I个过程仅需要较少的人工干预,运行成本较小,且领域移植性较强,具有很高的实用价值。关键词:关系抽取;非限定类型;命名实体识别;关系类型自主发现;关系描述模式挖掘;关系实例抽取IIABSTRACTTheinformationthatexistsontheInternetisnotonlyfromvariousfieldsbutals
6、orichincontentandhugeinuantitybutitisunstructured.q,HowtoextractentityinformationandentityrelationshipinformationfromlareamountofunstructuredInternetinformationistheresearchghotspotinthefieldofinformationextraction.Ithasv
7、eryimportantscientificresearchsignificanceandpracticalapplicationvalue.Thetraditionalrelationshipextractionworkisnotonlybasedonthellsmalscaletaedcorusbutasoreliesontheartificialrelationshiteggp,pypssteminacertainfield.Itca
8、nnotautomaticallyadattothegrowingyprelationshiptypesintheoendomainoftheInternet.Thereforethep,relationalextractionmethodbasedonp
此文档下载收益归作者所有