欢迎来到天天文库
浏览记录
ID:35101942
大小:2.72 MB
页数:66页
时间:2019-03-17
《面向《大词林》的中文实体关系挖掘》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、研究生学位论文面向《大词林》的中文实体关系挖掘CHINESEENTITYRELATIONDISCOVERYFORBIGCILIN刘燊哈尔滨工业大学2016年6月国内图书分类号:TP391.2学校代码:10213国际图书分类号:681.37密级:公开工学硕士学位论文面向《大词林》的中文实体关系挖掘硕士研究生:刘燊导师:秦兵教授申请学位:工学硕士学科:计算机技术所在单位:计算机科学与技术学院答辩日期:2016年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.2U.D.C:681.37DissertationfortheMasterDeg
2、reeinEngineeringCHINESEENTITYRELATIONDISCOVERYFORBIGCILINCandidate:LiuShenSupervisor:Prof.QinBingAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:June,2016Degree-Conferring-Institution:HarbinInstit
3、uteofTechnology摘要摘要随着计算机与互联网的快速发展,通过互联网所产生的数据规模急剧增加,如何能够从海量数据中精准快捷获取有价值的信息已经成为了国内外研究的热点之一。信息抽取正是在这种背景下产生的。信息抽取的主要目的为从自然语言文本之中抽取事实类信息,如指定的实体、关系、时间等,即将自然语言文本中蕴含的无结构信息转换成半结构化或结构化的信息。实体关系抽取为信息抽取中的一个子任务,其中传统实体关系抽取任务需要预先定义关系类别体系,然后在定义好的关系类别体系中根据实体及其上下文信息判断实体的语义关系类别。实际上,难以定义全面的实体关系类别体系,因此出
4、现了开放式实体关系抽取技术,通常情况下使用实体关系指示词表示实体关系。本文面向《大词林》中丰富的上下位关系,使用基于字信息的词向量学习模型学习词向量表示,并以此学习上位关系向量表示,在实体上位关系识别实验结果上效果较好,并且很大程度上缓解了未登录词的问题。首先基于字信息的词向量模型可以学习出几乎任意词语的词向量,然后根据语料中的上下位词对学习上位关系向量并聚类,再学习每个簇的上位关系映射矩阵,最后利用学习所得的上位关系映射矩阵来判别上位关系是否成立。在未登录词多的数据集中,上位关系判别实验结果依然有着近80%的准确率。本文针对开放域实体关系抽取,使用LSTM学
5、习开放域文本句子中的实体间句法依存路径信息。在开放域实体关系抽取之前,分析了各种RNNs的特点,并融合多方优势,使用Bi-LSTM-CRF在开放域实体边界识别上获得了78.92%的F1值。然后使用基于最短依存路径的SDP-LSTM进行实体关系抽取,分别使用2套参数学习实体1和实体2的最短依存路径,并使用了策略可以处理各种形式的实体关系依存路径候选,最后在开放域实体关系抽取上取得了不错的结果,可以将抽取的优质结果导入《大词林》中。面向《大词林》中丰富的实体库及上下位关系,本文使用从百科信息框中获取的大量实体关系三元组在《大词林》中获取可能存在实体关系的上下位词对
6、,并提出上位词泛化程度的概念,筛选出低上位词泛化的上下位词对,两两组合其中的实体,借助搜索引擎结果获取实体对的关系候选并进行判别。实验结果表明,本文提出的实体关系候选判别特征有效。关键词:关系抽取;大词林;深度学习;开放域;关系指示词;上下位关系IAbstractAbstractWiththerapiddevelopmentoftheInternet,thesizeofthedatageneratedbytheInternetincreasessharply.Howtoextractvaluableinformationfromthemassdataaccur
7、atelyandquicklyhasbecomeoneofthemajorissuesofresearches.InformationExtractionisgeneratedinthisbackground.Themainpurposeofinformationextractionistoextractthefactinformationofspecifiedentities,relations,timeandotherfactualinformationfromthenaturallanguagetext,infact,istoconvertthetext
8、informationtostruct
此文档下载收益归作者所有