资源描述:
《基于本体的文本信息检索研究_杨建林 (2).pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、信息系统ITA●杨建林(南京大学信息管理系江苏210093)基于本体的文本信息检索研究摘要:本文对如何构建基于本体的文本信息检索系统进行了探讨,并认为,利用反映概念之间关系的领域本体指导主题标引,利用反映实体之间关系的领域本体指导实体关系标引,并以本体的形式表示文档替代物和查询表达式,可以进一步提高文本信息检索系统的性能。关键词:本体;信息检索;文本检索;标引Abstract:Thepaperdiscusseshowtoconstructanontology-basedtextinformationretrievalsystem,a
2、ndthinksthatifthesubjectindexingisbasedonthedomainontologiesdescribingtherelationsbetweenconcepts,theentityrelationindexingisbasedonthedomainontologiesdescribingtherelationsbetweenentities,andthedocumentsur-rogatesandqueryexpressionsaredescribedintheformatofontology,th
3、eperformanceofthetextinformationretriev-alsystemwillbeimproved.Keywords:ontology;informationretrieval;textretrieval;indexing检索对象都是Web资源,很少涉及无结构的文本。但是,1引言现有的信息检索系统,除搜索引擎外,大部分系统的信息基于关键词匹配的传统文本信息检索技术对语义匹配源都是无结构的文本。因此,研究基于本体的文本信息检的支持能力较差,其性能取决于用户对方法的理解,具有索依然具有重要的现实意义。很大的局限
4、性。尽管基于关键词匹配的检索技术已经经过2本体概念了多次改进,但是由于没有添加语义处理方面的功能,致使检索性能没有得到根本的改善,那些没有被文字直接表本体是一个源于哲学的概念,原意指关于存在及其本述出来但隐含在文本内容中的一些重要的信息也无法被检质和规律的学说,后来被计算机科学领域引入,特指对共索。享概念模型所作的明确化、形式化、规范化说明,它强调近几年,本体理论的发展和逐步成熟为信息检索技术领域中的本质概念,也强调这些本质概念之间的关联。某的发展带来了新的动力,同时也为提高检索系统的查准率个领域的本体能够将该领域中的各种概念及概念
5、之间的关和查全率提供了更好的保证。作为一种有效表现概念层次系显性地、形式化地表达出来,从而将概念中包含的语义结构和语义的理论和方法,本体已经被广泛应用于计算机表达出来。科学和信息管理领域,并且被成功应用于构建新的智能检在计算机科学领域,术语“本体”是英文“Ontolo-索系统。gy”的中文译法。Ontology在人工智能或信息系统中的中基于本体的智能检索系统是基于知识的、语义上的匹文翻译,国内有不同的名称,如“概念集”、“应用知识配,在查全率和查准率上有更好的保证。具体表现为:利体系”,“概念分类体系”,“实体论”,“本体论”、“本
6、体用本体,在用户提问检索式构造过程中增加语义指导,消模型”,“本体”、“本体簇”等。由于Ontology在英语中除自然语言理解中的歧义,明确概念含义,使得构造出的的新的含义也是引申来的,是一个新概念,所以出现了翻[2]提问检索式能够更加准确地反映用户的真实信息需求;使译成不同名称的现象。得用户能够更加准确、方便地实现扩展检索和缩小检索;在具体的应用环境中如何规范化地描述本体到目前加强检索系统的推理功能,在完成对信息源搜索的基础为止,还没有统一的标准。目前有两种本体表示方法应用上,根据相关概念以及相关背景知识进行推理,挖掘出文相对广
7、泛,第一种是传统的四元素表示方法,第二种是较[1]本中的隐含信息,从而实现基于概念的智能检索。因新的六元组表示法。前者源于Gruber博士的观点,后者此,基于本体的信息检索成为一个新的发展方向。则是2002年由新加坡南洋理工大学的MyoMyoNaing博士现有的大部分关于基于本体的信息检索研究,讨论的提出。前者在世界范围内得到了比较高的认同,但是形式—598—第29卷2006年第5期ITA信息系统过于灵活,不易掌握。后者因为定义规范,可操作性强,利用得到的本体对查询表达式进行优化,以提高信息检索[3]受到了国内广大研究者的欢迎。的效
8、果。该系统中使用的TextToOnto是一个采用自然语言四元素表示方法的基本思想是:一个本体主要由概念处理技术和文本挖掘技术的工具软件,它支持本体的半自(Concepts)、关系(Relations)、实例(Instances)和公理