基于本体的语义搜索研究综述

基于本体的语义搜索研究综述

ID:11689836

大小:31.50 KB

页数:11页

时间:2018-07-13

基于本体的语义搜索研究综述_第1页
基于本体的语义搜索研究综述_第2页
基于本体的语义搜索研究综述_第3页
基于本体的语义搜索研究综述_第4页
基于本体的语义搜索研究综述_第5页
资源描述:

《基于本体的语义搜索研究综述》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于本体的语义搜索研究综述  1基于本体的语义搜索研究综述  1基于本体的语义搜索研究综述  1基于本体的语义搜索研究综述  1基于本体的语义搜索研究综述  1基于本体的语义搜索研究综述  1引言  语义网的目标是扩展现有的Web标准和技术,实现自动化地处理Web语义[1]。传统的搜索引擎使用关键词检索用户需要的信息,实际上在网页搜索过程中,可以使用多种方式来表达查询,将关键词映射要相关主题的语义层。在搜索过程中使用本体能够加强用户与计算机之间的语义沟通,使查询结果更接近用户的需求。  目前已经公布的基于本体的搜索引擎有很多。它们的应用领域和具体实现都有所不同,但是它们的

2、目标都是提高搜索的查全率和查准率。基于本体的语义搜索能更加智能地在Web查询过程中使用各种方法或结构。研究人员常用领域本体表达特定领域知识的概念和关系。本文将介绍这些搜索引擎利用领域本体处理查询请求所采用的不同方法。  1)相关术语  传统的搜索依据的是关键词是否在文档中出现。基于本体的语义搜索定义为利用领域本体的背景知识库进行信息检索的过程。  领域本体是具有层次结构的术语集,这些术语是描述此领域知识库的框架[2]。用实体、实例和属性来表示词语之间的关系或槽。基于本体的语义搜索的目的是最大化查准率和查全率。  分类标准  本节介绍几种不同的基于本体的搜索的分类标准。分类

3、标准是在搜索过程中的重要步骤,包括:本体技术,语义标注,索引,排序,信息检索模型和性能改进。  1)本体技术  本体是实现语义Web的基础,相关技术包括推理机,标注工具,基于本体的爬虫和挖掘工具。在几种不同的本体描述语言里,RDF和OWL得了广泛的认可。Java语言提供了JenaAPI和AJAX技术,可以用来存储和处理RDF数据。  2)语义标注  概括地说,语义标注是在文本中分配实体,用以链接到它们的语义描述[15]。语义标注分为手动语义标注、半自动语义标注和自动语义标注三种类型。下面是语义标注的先决条件:  本体,定义实体类;语义标注中可能涉及到这些类。  实体标识,

4、允许区分并链接到它们的语义描述。  一个实体描述的知识库。  3)索引  索引是为了更快的检索信息而进行的信息存储。一个搜索引擎必须保留在抓取过程中获得的所有内容,并以索引的形式存储联盟,以便下次更容易地查找。索引的目的是为了加快匹配过程。索引的分类:  转发索引:存储每个文档的单词列表。  倒排索引:为每个单词存储所有文档的列表。  图索引:给定一个查询图,查找索引并检索答案集,验证哪些图包含查询图,返回查询结果。  4)排名  排名取决于查询结果的排序过程。搜索引擎会请求匹配和并为查询结果进行排名。匹配是选择元素的子集进行评分。排名是由相关概念的相似度决定的。排名是在

5、句法/语义映射完成后,依据网页的评分进行计算得来的。最后将已经排序好的网页结果进行索引之后返回给网页的使用者。排名模型的类型如下:  句法排序模型:是依据查询关键词与搜索引擎数据库相匹配而进行的搜索,从TF-IDF到谷歌PageRank,这些著名的信息检索排名技术丰富了这种搜索的排名方法。  语义排序模型:搜索是基于结果的相关性,缩小了语法和语义之间的差距,根据相关性得到的结果集,可以更好的满足用户的需求。  5)信息检索模型  IR模型的作用是提供一个形式化的信息发现过程。下面是3种IR模型:  布尔模型–一方面是基于关键词的查询,另一方面用关键词的组合表示一个文档,用

6、关键词的逻辑描述表示一个查询  矢量模型–表示用户查询和文档中的所有关键词形成的空间矢量。  概率模型–采用基于概率理论的数学模型。  6)性能改进  基于本体的语义搜索方法的性能可以用一定的标准来衡量,如查准率,查全率,F值和平均查准率。查准率和查全率的值介于0和1之间,最大值为1。应用本体的背景知识库进行查询,可以使查准率和查全率得到提升。  不同的搜索方法  经过大量文献的阅读,本文总结了14种不同的基于本体的搜索方法。依据上述分类标准进行详细分析,讨论它们实现语义查询的不同解决方案。  1)概念图匹配方法  基于本体的搜索早期的方法是使用概念图匹配的方法进行语义搜

7、索[3],这种方法定义了概念、关系和概念图之间的语义相似度。这种语义匹配算法能够计算资源CG和查询CG之间的相似度。  2)XSEarch  它是一种基于XML的语义搜索引擎,能够使用简单的查询语言,适合于初级用户,并且为XML文档的语义搜索引擎发展奠定了基础。它只返回语义标识,而不需要返回整个文档[4]。它使用目前较为常用的TF-IDF技术进行信息检索,计算查询词与文档之间的相似度。它使用倒排索引,并根据语义相关性进行排序。  3)本体驱动的语义搜索  基于本体的语义搜索,使用现有的平台进行资源检索和语义标注,使用本体描述领

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。