欢迎来到天天文库
浏览记录
ID:34592646
大小:4.61 MB
页数:72页
时间:2019-03-08
《基于本体deep+web语义搜索引擎》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、广西师范大学硕士研究生学位论文基于本体的DeepWeb语义搜索引擎研究生:谭春亮导师:蒋运承教授年级:2005专业:计算机软件与理论研究方向:语义Web摘要随着WWW的迅速发展和普及,WWW成为一个巨大的信息资源库,对这个信息资源库的搜索出现了“信息过载”和“信息迷航”的问题。由于WWW的自治性、开放性、异构性、动态性和指数增长等特点,目录式搜索引擎、全文搜索引擎都暴露出了根本的缺点。基于关键字查询,只检索静态页面,只能进行“导航式”的检索,导致了索引容量指数增长、查全率和查准率不断降低等问题。提高搜索引擎的查全率和查准率,满
2、足用户“知识粒度”检索的要求,同时能够进行语义层面的搜索,成为用户对新一代搜索引擎提出的要求。为了从根本上解决这些问题,新一代的搜索引擎要求必须对WWW进行新的知识表示。万维网的创始人TimBerners-lee为此提出了新一代万维网的架构—SemanticWeb,其上的信息具有良好的定义,使得人与机器、机器间能够更好的实现信息的共享与协作。SemanticWeb能够从根本上解决传统搜索引擎所暴露出来的问题。由于WWW的自治性特点,SemanticWeb的接受需要一个相当长的时间,并且由于SemanticWeb的研究大都停留在
3、理论研究阶段,所以新一代搜索引擎难以实现。本文在新一代搜索引擎和WWW之间找到了一个结合点,将SemanticWeb的架构应用到DeepWeb的搜索,提出了基于本体的DeepWeb语义搜索引擎。基于本体的DeepWeb语义搜索引擎可以解决传统搜索引擎只能搜索静态页面,无法进行语义搜索,无法为用户提供“知识粒度”检索的缺点。本文的创新点如下:1、本文基于SemanticWeb架构对DeepWeb进行语义搜索,解决了传统搜索引擎只能搜索静态页面,无法对DeepWeb进行搜索,只能基于关键字搜索,无法进行语义搜索,只对静态页面的内容
4、进行索引,而不能进行元数据索引的缺点,提高了搜索引擎的查全率和查准率,避免了搜索引擎索引容量的瓶颈问题。2、本文通过对DeepWeb查询接口进行元数据提取,将查询接口看作后台数据库的元模式,利用元数据描述语言RDF对查询接口进行RDF描述,然后结合领域本体对查询接口的RDF元数据进行RDF检索,从而实现查询接口的语义搜索,提高了查询接口检索的准确率,由于查询接口具有高度的领域相关性,所以提高了搜索引擎的查准率。3、本文提出了基于领域本体的DeepWeb语义搜索引擎的框架,由DeepWeb爬虫、DeepWeb分类器、DeepWe
5、b表单提取、自然语言查询接口、语义推理、表单检索器、Web检索器、统一接口查询和结果集成模块组成。在本文中重点分析了DeepWeb的发现、分类和查询接口RDF的语义检索,整个RDF检索系统以Jena平台为开发平台,以汽车领域本体和查询接口RDF模型为例进行了验证。4、基于知网的词汇语义关系判断算法以知网做为本体,采用基于结构的模式匹配算I广西师范大学硕士研究生学位论文法进行词汇逻辑关系的判断;DeepWeb特征选择算法采用词汇频度作为类内、类间可分性判据以Tabu搜索策略进行特征选择;DeepWeb查询接口RDF提取算法根据查
6、询接口Html代码的特征进行查询接口Html代码和查询接口RDF模型的映射;DeepWeb查询接口RDF查询算法以用户输入的关键词序列为检索条件,进行关键词序列的分类操作,概念推理算子操作,得到概念关键词对序列和实例关键词对序列,根据概念关键词对序列采用RDQL语言对RDF进行检索,然后根据检索结果和实例关键词对序列以Http协议格式对Web进行数据检索。本文对上述算法进行了实例验证。本文从理论上对基于SemanticWeb架构的DeepWeb搜索引擎进行了研究,提出了搜索引擎的大致框架和各关键部分的算法思想,完善了基于Sem
7、anticWeb架构的DeepWeb搜索引擎的检索流程,具有理论可行性,同时结合领域对检索流程和各关键部分的算法进行了实例验证,整个系统可以在Jena平台上开发实现。关键词:语义Web;语义搜索;DeepWeb;本体;分类II广西师范大学硕士研究生学位论文Ontology-basedSemanticSearchEngineforDeepWebAuthor:TanChunliangSupervisor:ProfessorJiangYunchengGrade:2005Major:ComputerSoftwareandTheoryR
8、esearchArea:SemanticWebAbstractWWWhasbeenatremendousinformationdepositoryalongwithitsrapidevolutionandpopularization.SearchonWWWbecomemore
此文档下载收益归作者所有