欢迎来到天天文库
浏览记录
ID:33582218
大小:946.10 KB
页数:5页
时间:2019-02-27
《基于本体的语义检索研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、246计算机技术与应用进展·2009*基于本体的语义检索研究丁政建张路兰州理工大学计算机与通信学院,兰州730050摘要:传统的基于关键字的搜索引擎由于忽视了关键词本身所含有的语义信息而得到较低的查全率和查准率。文中结合本体的具体特点,提出了基于本体的智能信息检索系统的功能结构,详细描述了智能信息检索系统各模块的功能和检索流程。并对智能检索模型中所涉及到的若干关键技术进行了分析研究。为智能信息系统的顺利实施奠定了良好的基础。关键词:本体语义检索语义网1引言随着网络的发展,基于网络的资源爆炸式出现,使得“信息检索”变成了一个更加重要
2、的问题。提高检索的质量、推出令人满意的检索技术已成为全世界范围的研究重点和热点。许多研究者曾在当前基于字符串匹配的关键词检索技术上作了无数的努力,但由于万维网本身的局限性,使这种技术在提高查全率和查准率上很难再有更大的作为。那什么才是解决办法呢?这个困扰了人们很久的问题在TimBerners-Lee提出下[1]一代因特网—SemanticWeb(语义网)时有了转机。语义网的目标是为因特网上的信息提供具有计算机可以理解的语义,它的发展和成熟使得高效、高质的语义检索成为可能。2语义信息检索的研究现状目前主要从自然语言处理、基于概念的方
3、法以及基于本体的思路等三个方面来实现语义在信息检索中的集成和应用。[2]自然语言处理(NLP)技术试图通过将某个查询的语义信息与文档的语义信息进行匹配来提高查询的性能。NLP技术已经被应用于大规模TextRetrievalConference(TREC)语料库,并获得了一定程度的成功。NLP技术和信息检索技术之间的关系十分紧密。例如,通常使用的停用词表可以用来去掉语义含量较低的词语,此外还可以使用短语作为标引项。NLP技术通过对自然语言的分析来达到改善检索效果的目的,然而要使信息检索技术达到其最佳潜能,还必须对文本和查询进行更深层
4、次的语义分析,虽然特定领域的NLP技术取得了一定的成功,但其能否带来信息检索尤其是中文处理方面显著的性能提高仍然有待证实。HsinchunChen首先提出基于概念的文本自动分类与语义检索,采用机器学习的方法实现了大量文本自动分类、标注与检索。概念是关于具有共同属性的一组对象、事件或符号的知识,是客观事物在头脑中的反映,要通过字、词、词组等概念描述元素表达出来。同一个概念可以由多个描述元素来表达,这些描述[3-5]元素在此概念的约束下构成了同义关系。随后概念空间描述了概念及其关系的联系,基于概念的检索被应用到数字图书馆领域。另一种比
5、较经典的语义检索方法是隐含语义索引(LatentSemanticIndexing)方法。它利用矩阵理论中的“奇异值分解”,将词频矩阵转化为奇异矩阵。这种方法把不含查询字串但相关的文档提*作者简介:丁政建(1952-),男,江苏盐城人,兰州理工大学计算机与通信学院副教授,硕士生导师,研究方向:语义信息检索,多媒体技术.张路(1985-),男,山东泰安人,兰州理工大学计算机与通信学院07级硕士研究生,研究方向:语义信息检索.基于本体的语义检索研究247取出来,经过转换后,相关的词汇会经由文件所包含的内容而产生关联,和“概念检索”有相似
6、之处。[6]基于语义网的方法是在Web页面标注的基础上开发的,这些页面使用RDF和Web本体语言OWL的标签来描述具体的语义本体。[7]最早在1994年Voorhees就曾提出基于本体的查询扩展,Maki在2003年提出了基于本体结构的方法,基本的思想是利用本体中的路径来进行用户查询的扩展,2004年,Navigli提出了基于本体注释的查询扩展[8][9]方法,AT&T建立了一个应用本体技术的信息检索系统FindUR系统。在现有的基于本体的信息检索研究中,都是在本体的概念层次基础上进行的,这些较常规的文档处理方法有助于提取文档的语
7、义内容。3基于本体的智能检索系统传统的信息检索方法或搜索引擎,无论是关键字符的匹配,还是结合布尔逻辑运算提供更为复杂的查询表达方式,都是以关键词匹配为基础的。这种方法有两种缺陷:1:检索结果只是在字面上符合用户的要求,实际内容往往偏离用户的需要;2:用户输入的查询稍有偏差,检索系统就无法确定用户的真正需要,因而无法提供正确的结果。为了解决以上两种缺陷本文构建出一个简单的基于本体的语义检索模型。将传统的对网上信息按关键字查询转化为按语义查询,为今后研究语义检索算法及基于语义的搜索引擎实现建立了技术基础。使得基于语义的搜索引擎相对于传
8、统的搜索引擎,有更高的准确性,对未来如何更好、更准确地获取网络信息也具有非常重大的意义。如图1所示本系统共包括以下四个子系统:本体管理子系统、Internet信息获取子系统、资源处理子系统、查询子系统。3.1各子系统的功能(1)本体管理子系统:该子
此文档下载收益归作者所有