基于知识图谱的搜索引擎技术研究与应用

基于知识图谱的搜索引擎技术研究与应用

ID:35068292

大小:5.54 MB

页数:76页

时间:2019-03-17

基于知识图谱的搜索引擎技术研究与应用_第1页
基于知识图谱的搜索引擎技术研究与应用_第2页
基于知识图谱的搜索引擎技术研究与应用_第3页
基于知识图谱的搜索引擎技术研究与应用_第4页
基于知识图谱的搜索引擎技术研究与应用_第5页
资源描述:

《基于知识图谱的搜索引擎技术研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、告i种成A葦.UNIVERSITYOFELECTRONCSCIENCEANDT巨CHNOLOGYOFCHINAI.為..驾专业学位硕±学位论文MASTERTHESISFORPROFESSIONALDEGREE化’、一"、I—j'"么mr麵善..R參知I/I/sse—,■,.‘忙I论支题目基于知巧图谱的搜索引擎技术妍究与应用专业学位类别工程硕±学号201322060616作者姓名邵领指导教师屈鸿教授,Ti分类号密级注UDC_^学位论文口基于

2、知识图谱的搜索引擎技术妍究与应用(题名和副题名)邵领(作者姓名)指导教师屈鸿教授电子科技大学成都(姓名、职称、单位名称)申请学位级别¥页±:专业学位类别IC程硕db工程领域名计算机技术__r义〇提交论文日期又口//;.5..、?芝论文答辩日期八占学位授予单位和日期电子科技jc学年^月■答辩委员会主馬评阅人■注1;注明《国际十进分类法UDC》的类号。独剑性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据ri:所知,除了文中特别加标注和致谢的地方夕h,论文中不包含其他人

3、已经发表或撰写过,的研究成果也不包为含电。获得子科技大或其它证用过的料与学教育机构的学位或书而使材一王作的已在论文我同同态对本研究所做的任何贡献均中作了确的明。说明并表示意谢处:邱日:日者签名期年^月巧作论用使授权文论学文者完全解电子技大学有关保留、使用学位论文本位作了科的规定,有权保留并向国家有关部口或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可[^将学位论文的全部或部分容编入有关数据库进行检索,可印、印内采用影缩或扫描等复制手段保存、r编学位论文。(密的学论文密应遵此规)保位在解后守定签:签:V作者名导名

4、师震气^;?日期^日年月ResearchandApplicationofKnowledgeGraphBasedSearchEngineAMasterThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChinaMajor:MasterofEngineeringAuthor:LingShaoSupervisor:Prof.HongQuSchool:SchoolofComputerScience&Engineering摘要摘要互联网的迅速普及以及数字信息的爆炸式增长带来了宝贵的信息数据财富,尽管这些数据已经被分门别

5、类,但是从成千上万的类别及其子类中检索有效信息对于搜索引擎也是较大的挑战。传统的搜索引擎通过对互联网中的数据进行全文索引,通过关键词匹配索引的方式进行信息检索并返回给用户相关的链接。这种检索方法不能准确理解用户的需求,同时返回的是相关链接而不是用户需要的信息,用户需要从链接的文档中查找相关的信息。为了改善上述传统搜索引擎的弊端,基于知识的搜索引擎引起了研究者和产业界的广泛关注。其主要思想是通过在互联网中进行数据获取,完成数据到知识的转变形成知识网络并提供信息检索功能。本文研究特定领域内的该类型搜索引擎的搭建相关理论及实现方法,希望通过该搜索引擎能够提供特定领域内的实体查询,即通过深度理解

6、用户需求,从实体库中检索出相关实体返回给用户。围绕搭建领域内基于知识图谱的搜索引擎,研究基础搜索引擎框架,网络爬虫,数据索引,知识抽取,图谱模型等关键技术,主要工作包括:(1)提出一种基于本体库的知识抽取方法。通过领域内的本体库,判断从互联网中抓取的数据是否是领域内相关的实体,并从数据中抽取出实体相关的知识碎片,最后融合知识碎片形成领域内的知识。实验证明,这种方法的知识抽取相比传统的基于规则的抽取方法抽取范围更为确定,抽取的知识也较为准确。(2)提出一种基于Lucene的增量索引方法。通过分析Lucene框架以及Lucene的倒排索引和段合并机制,研究Lucene索引实体数据时性能较差的

7、缺点,提出了通过多级索引文件代替索引库的索引方法,实验证明这种方法能够在一定程度上降低实时更新索引库时的耗时且对于检索请求响应更为敏捷。(3)实现了一个“机器学习”领域内的搜索引擎,用来提供相关实体的检索,其中实体主要包括文献,专家,期刊以及领域内相关概念。该搜索引擎以图谱的形式组织领域内的实体以及实体之间的语义网络,不仅提供了信息检索功能,通时提供了更加智能的结果排序以及相关推荐等功能。关键词:搜索引擎知识图谱知识抽取实体索引本体

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。