欢迎来到天天文库
浏览记录
ID:16099782
大小:129.50 KB
页数:7页
时间:2018-08-07
《基于本体的信息检索》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、基于本体的信息检索吴素坤(东华大学图书馆上海图书馆)摘要:近年来,本体论(ontology)成为信息领域一个新的研究热点,国内外大量文献进行了本体在信息检索上的应用研究。本文通过国内外基于本体的信息检索的相关文献分析,试图描绘本体论可能或已经带给信息检索模式的改变。1.引言随着信息时代的到来以及互联网的迅速普及和应用,每天都会产生出大量的、具有反复利用价值的信息。面对信息海洋,如何最快地查全查准所需要的信息成为我们共同关心的问题。目前的信息检索,不论是网络检索还是在特定数据库内检索,其搜索机制往往是基于关键词或主题内容的检索。传统
2、信息检索模型可示意如下图:图1传统的信息检索模型[1]从图1上可以看出,传统的信息检索是基于关键字的检索技术,需要用户将要寻找的事件以关键词的形式较准确地描述出来,并最终以检索表达式的形式提交给查询系统。由于字义本身与其概念的延伸不在同一级上,造成利用传统信息检索所寻找的信息可能仅仅是字面本身的信息,但往往人们想要的是这个信息的概念及相关的成分,而不仅仅是字面所表达的信息。换言之,传统信息检索只是关注词的模式匹配,而没有能够关注与处理词的语义概念本身及其相关关系。理想的智能信息检索系统的目标是:提供友好的用户检索交互界面;基于自然
3、语言或实例的查询;依据用户浏览和检索的习惯信息,熟悉用户的兴趣爱好,建立一定的用户描述,主动向用户提供相关的信息;针对用户查询请求自动向用户提供相关文档页面,不需用户重复发现知识;综合利用个性化检索和集中浏览的优势;检索速度快,能够快速地返回查询结果;高检索率(多)和高检索精度(准)。因此已有的信息检索系统与理想的智能信息检索系统相比,存在着很多不足。这就需要在现有信息检索系统的理论和技术的基础上,设计并实现符合特定领域需要的智能信息检索系统和该系统的体系架构,从而实现分布式异构信息的预处理和远程信息的自动获取。有学者提出,基于本
4、体的信息检索模式是一种最有前途的检索方法。1.知识本体的定义及其在信息检索中的应用2.1知识本体的定义近十年来,本体的研究日趋成熟。在各种文献中,尽管与本体相关的概念和术语的用法并不完全一致,但是事实的使用约定已经出现。以下仅列出本体的几种比较有代表性的定义[2]。(1) 本体是对于“概念化”(conceptualization)的某一部分的明确的总结或表达。 (2) 本体在不同的场合分别指“概念化”或“本体理论”(ontologicaltheory)。 (3) 本体是用于描述或表达某一领域知识的一组概念或术语。
5、它可以用来组织知识库较高层次的知识抽象,也可以用来描述特定领域的知识。 (4) 本体属于人工智能领域中的内容理论(content theories),它研究特定领域知识的对象分类、对象属性和对象间的关系,它为领域知识的描述提供术语。 从以上定义我们可以知道,本体通过对于概念、术语及其相互关系的规范化描述,勾画出某一领域的基本知识体系和描述语言。2.2知识本体在信息检索中的应用基于本体的信息检索可以实现用户与本体所体现的概念和关系在检索过程中的相互作用。目前,基于本体的信息检索还处于原型和方法论的研究阶段。还有很多与基于本体的
6、信息检索相关的技术问题有待解决。本体在信息检索中的利用有多种途径,一种可能的途径是作为用户输入检索词界面[3],然后利用本体,作为检索策略的扩充。但是,结果是这种方法仍旧依赖自然语言的加工,并未给用户以更大的检索灵活性。另一种本体应用途径是在用户界面中揭示本体的技术结构,比如OntoBroker检索界面[4],但是,这种应用途径对信息检索人员提出了很高的要求,防碍了非专家用户的使用。下图描述了典型的基于本体的信息检索模型。图2基于本体的信息检索模型[5]图2描绘了共享本体是如何改变在信息检索过程中检索表达式以及文献的展现。另外,检
7、索表达式的制定过程中可以获得一个或者多个本体的支持,这些本体都是在开始检索之前用户根据所需信息所属的领域选择的。另外文献的展现应包括其一些逻辑概念的描述,使文献本身成为本体结构中的集成的一个部分,那么具体的文献通过本体概念的描述管理使其在完整的本体结构找到自己的位置,这样,信息检索过程中的匹配过程就可以归结为一种探察(exploration)过程,这种过程可以根据检索提问的形式和逻辑解释不同,有多种不同的实现方式。1.国内外基于本体的信息检索研究近来,国内外关于基于本体的信息检索方面的研究日益增多,以下作简要介绍。Ontobrok
8、er[4]是用来处理HTML、XML和RDF格式的信息源和信息源语义描述的系统,提供信息检索、查询和维护支持服务。核心是用形式化本体描述背景知识,并明确化Web文档的语义,以便综合利用本体论的表达能力和推理机制。OntoSeek[5]是基于内容从在
此文档下载收益归作者所有