欢迎来到天天文库
浏览记录
ID:35181134
大小:3.94 MB
页数:56页
时间:2019-03-21
《基于dbpedia spotlight的高效命名实体识别方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基基基于于于DBpediaSpotlight的的的高高高效效效命命命名名名实实实体体体识识识别别别方方方法法法研研研究究究AStudyonEcientNamedEntityRecognitionApproachbasedonDBpediaSpotlight学科专业:计算机科学与技术作者姓名:付宇新指导教师:冯志勇教授天津大学计算机科学与技术学院二零一五年十二月摘要近些年,随着关联数据的发展,大量不同领域的知识库以RDF的形式发布出来,规模愈来愈大,内容愈来愈丰富。命名实体识别作为信息提取领域的子任务,能够构建知识库与自然语言文本之间的桥梁,利用知识库中的语义为关键字提取,机器翻译,主
2、题检测与跟踪等任务提供支撑。因此,如何有效地提高命名实体识别的性能成为许多研究工作的焦点。本文基于开源命名实体识别系统DBpediaSpotlight提出了一套命名实体识别优化方案。该方案包括三个部分,首先针对系统使用的一元语言模型设计并实现编辑扩展的框架,增强了系统的灵活性,同时基于该框架提出了使用训练集和候选集对模型进行扩展的方法,通过人工生成候选集验证了方法的有效性;其次,通过考虑上下文单词与实体的相关性,提出了点互信息率的概念,并使用其作为阈值对系统的上下文模型进行特征选择,舍弃掉上下文中与实体相关度较低的单词,在大幅度降低模型空间的同时提高了系统标注的准确率和召回率;最后,考
3、虑到文本内部通常会有一个中心主题,本文使用维基百科文章之间的链接为实体和文本构建主题向量,通过计算候选集中实体与文本主题之间的相似度,对系统的标注结果进行二次消歧,进一步地提高了系统标注的准确率。另外,中文作为世界上使用人口最多的语言,设计和实现一个中文命名实体识别系统是非常必要的。本文以DBpediaSpotlight为基础,分析并克服中文语言为命名实体识别任务带来的挑战,使用中文维基百科数据构建一元语言模型,设计并实现了中文命名实体识别系统,为用户提供REST服务访问和Web界面访问,填补了中文命名实体识别工作的空白。综上,本文基于DBpediaSpotlight提出了一套命名实体
4、识别优化方案。实验结果与分析表明,该方案能够有效地提高系统的灵活性,降低系统占用的空间,改善系统的标注效果。同时本文克服了中文语言带来的挑战,设计并实现了中文命名实体识别系统,对中文命名实体识别任务的研究具有一定进步意义。关关关键键键词词词:::命名实体识别,关联数据,DBpedia,点互信息量IABSTRACTWiththeexplosivegrowthofLinkedData,abundantknowledgebasefromvariousfieldshavebeenpublishedontheWebintheformofRDF.Asasub-taskofInformationExt
5、raction,namedentityrecognitioncanbuildabridgebetweentheknowledgebaseandnaturelanguage,supportmanytaskslikekeywordextraction,machinetranslation,topicdetectionandtracking.Therefore,howtoimprovetheperformanceofnamedentityrecog-nitionbecomesthefocusofmostresearchwork.Thisthesisproposesanoptimization
6、frameworkofnamedentityrecognitionbasedonDBpediaSpotlight.Firstly,wedesignaframeworkforeditingmodeltoimprovetheflexibilityofsystem,putforwardsmethodstousetrainingandcandidatedataexpandingthemodel,andverifyitviaartificialdata;Secondly,weputforwardtherateofPointwiseMutualInformation,byusingittodothef
7、eatureselectiononcontextmodel,thespacereducesinalargescalebuttheprecisionandrecallarebothimproved;Finally,wemakeuseofthehyperlinkbetweenWikipediaarticlestoconstructatopicvector,thencalculatethesimilaritybetweentextandentitie
此文档下载收益归作者所有