基于语义依存网络的知识抽取系统的研究与实现

基于语义依存网络的知识抽取系统的研究与实现

ID:42270474

大小:2.44 MB

页数:69页

时间:2019-09-10

基于语义依存网络的知识抽取系统的研究与实现_第1页
基于语义依存网络的知识抽取系统的研究与实现_第2页
基于语义依存网络的知识抽取系统的研究与实现_第3页
基于语义依存网络的知识抽取系统的研究与实现_第4页
基于语义依存网络的知识抽取系统的研究与实现_第5页
资源描述:

《基于语义依存网络的知识抽取系统的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文|1^基于语义依存网络的知识抽取系统的研究与实现:十作者姓名蓉l指导教师姓名、职称陈平教授g申请学位类别工学硕士西安电子科技大学学位论文独创性(或创新性)声明秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研宄工作及取得的研宄成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料一。与我同工作的同事对本研究所做的任何贡献均己在

2、论文中作了明确的说明并表示了谢意。:一。学位论文若有不实之处,本人承担切法律责任本人签名:Kl日期:IXQ西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定:,即研究生在校攻读学位期间论文工作的知识产权属于西安电子科技大学。学校有权保留送交论文,、,的复印件允许查阅借阅论文;学校可以公布论文的全部或部分内容允许釆用影印、缩印或其它复制手段保存论文。同时本人保证,结合学位论文研究成果完成的论、发明专利等成果。文,署名单位为西安电子科技大学保密的学位论

3、文在年解密后适用本授权书。_:成导师签名:本人签名_.ja沙D日期:M年叫日期:厶M学校代码10701学号1503121560分类号TP311密级公开西安电子科技大学硕士学位论文基于语义依存网络的知识抽取系统的研究与实现作者姓名:吕蓉一级学科:计算机科学与技术二级学科:计算机软件与理论学位类别:工学硕士指导教师姓名、职称:陈平教授学院:计算机学院提交日期:2018年6月StudyandImplementationoftheSemanticDependencyNetworkbasedKnowledgeExtraction

4、SystemTextAthesissubmittedtoXIDIANUNIVERSITYinpartialfulfillmentoftherequirementsforthedegreeofMasterinComputerSoftwareandTheoryByLvRongSupervisor:ChenPingTitle:ProfessorJune2018摘要摘要随着科技的进步,互联网已逐渐演变为一个巨大的分布式资源库,要想从中精准快速地获取目标信息是非常困难的,近年来为提高网络资源查询的效率,研究者们构建了一些结构化知识库,例如Wikipedi

5、a、YAGO、Freebase等。但由于互联网资源的爆发式增长特性,从半结构化的百科类页面抽取的知识已难以满足人们在深层知识查询方面的需求,因此开放域知识抽取技术成为了知识工程相关的众多领域中一项重点关注的研究课题,该技术目前还面临着结果准确率较低、查询命中率不高等问题,因此设计一个高效、完备的知识抽取方法是非常必要的。本文提出一个多层图式结构的语义依存网络,通过对互联网非结构化文本的统一建模,利用分布式并行计算框架从中快速准确地抽取知识构建知识库。语义依存网络能够捕获原始文本完整而全面的语义信息,它首先基于特定数据结构“多阶语义树”对原始文本

6、进行多阶语义解析,标注文本各个成分的词法和句法信息,其次通过名词短语分块技术实现各成分内部的语义单元抽取,最终基于原文语序和句法结构进行实体关联,通过建立文本语义单元之间的相似性关系和类属关系进行层次划分,得到语义依存网络。因此该网络不仅能够表达文本的顺序关系和句法结构,而且能够展现文本的概念抽象层次。此外,语义依存网络能够基于外部先验知识进行横向和纵向语义扩展,本文使用WordNet和Wikipedia作为标准外部知识源支撑语义扩展的过程,经过基于语义流畅度检测的扩展验证,向网络中添加原始文本蕴含的潜在信息,因此语义依存网络具备较强的知识推理

7、能力。本文基于语义依存网络设计了一个分布式知识抽取与知识融合的处理框架。通过对语义依存网络中语义子图的划分和遍历,能够便捷地抽取到网络中以结构化形式蕴含的显性和隐性知识。通过设计基于词汇相似度检测的共指消解算法和基于语境相似度检测的实体消歧算法,完成知识三元组内部实体的实体链接和等价性判断,从而进行知识冗余和知识不一致性的处理,完成知识融合。最终通过马尔科夫聚类算法按照关系类型对知识三元组聚类,并使用中心知识对簇内三元组进行置信度计算,经过筛选生成一个大规模高质量的知识库。最后本文根据上述技术方案设计并实现了一个分布式知识抽取系统,完成了基于语

8、义依存网络的快速知识组织、推理、抽取与融合。经过在NYT、Wiki和Reverb数据集上的系统性能测试以及与其他先进知识抽取系统的比较,证明本文方法能

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。