欢迎来到天天文库
浏览记录
ID:33399384
大小:7.91 MB
页数:117页
时间:2019-02-25
《xml信息检索关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、南开大学博士学位论文XML信息检索关键技术研究姓名:温延龙申请学位级别:博士专业:计算机科学与技术指导教师:袁晓洁2012-05摘要摘要随着XML技术的广泛应用,XML已成为Web上表示和交换数据的标准格式,各个领域不断涌现出大量的XML数据。如何有效检索大量的XML数据,是当前数据库与信息检索等领域中一个亟待解决的热点研究问题。传统信息检索技术在处理非结构化数据的检索上,取得了大量卓有成效的研究成果。XML数据具有半结构化特性,既有结构又有内容,给信息检索领域的研究带来了新的挑战。将数据库技术与信息检索技术巧妙结合,用于解决XML检索问题,已在研究人员中达成共识,为XML检索提供了新思路。
2、本文在深入分析XML检索研究现状的基础上,以XML检索方式为主线,结合数据库技术与信息检索技术,对XML检索的若干关键技术进行了深入研究,包括XML关键字检索、模糊结构上下文的XML内容与结构检索、基于关系数据库的XML全文检索等内容。具体的创新和贡献如下:·提出了一种基于候选片段语义的XML关键字检索方法。该方法首先根据XML文档树中节点所包含的属性类型数量以及节点的后裔节点数量选择候选节点,以候选节点为中心创建候选片段,将候选片段作为回答XML关键字检索最基本的语义单元;然后,针对候选片段建立倒排索引,在回答关键字查询时,根据XML数据集自身特点和用户的选择返回包含全部关键字的候选片段集
3、合或存在祖先后裔关系的候选片段集合。实验结果表明以候选片段作为XML关键字检索的基本语义单元,能够为用户返回粒度适中、信息比较完整、拥有实际意义的检索结果,并且检索效率也比较理想。·提出了一种模糊结构上下文的XML检索方法。该方法将查询与文档中的结构化约束条件定义为结构上下文,以结构化词项集合表示XML查询和XML文档。在上下文相似度计算方面,综合考虑了上下文之间的最大匹配部分以及各元素的层次权重、元素间的层次相似性等因素,提出了查询上下文与文档上下文相似度计算方法。为有效实现XML内容与结构检索,扩展了向量空间模型,设计了模糊结构上下文的XML内摘要度容与结构检索算法。实验结果表明,该方法
4、在检索效率、检索结果上均有较好性能。·提出了一种基于关系数据库的XML全文检索方法ReXFT。ReXFT采用基于模型映射的XML数据存储方案NXRel,能够在关系模型之上自然的体现出XML数据逻辑模型。提出了基于全文检索元素节点的XML全文索引方案,允许用户自定义全文索引路径。ReXFT以W3C推荐的XML全文检索标准作为XML全文检索提交形式,检索语法符合国际标准。综合考虑XML数据层次特性以及检索词之间的逻辑关系、距离、出现频率等因素,提出了一种基于文本覆盖密度的检索结果计分方法。实验结果表明,ReXFT可以有效处理XML全文检索。关键词:关键字检索内容与结构检索结构上下文全文检索覆盖密
5、IIAbstractWimtherapidspreadofXMLtechnology,XMLhasbecomethestandardformatfordatarepresentationanddataexchangeontheW曲.ThereareahugenumberofXMLdocumentsinmanydomains.ItbecomesahotresearchtopicthathowtoretrieveXMLdataefficientlyandeffectivelyamongdatabaseandinformationretrievalresearchcommunities.There
6、arerichsolutionsinunstructureddataretrievalwithtraditionalinformationretrievaltechniques.ButXMLdataissemi—structuredwithbothcontentandstructure,andbringsnewchallengestoinformationretrievalresearch.ItbecomesanovelresearchideathatXMLdataisretrievalwithdatabaseandinformationretrieval.Thispaperanalyzes
7、researchstatusofXMLinformationretrieval.considerssolutionswithdatabaseandinformationretrieval.andaddressessomecrucialproblemswhicharerelatedwithXMLdataretrieval,includeXMLkeywordsearch,XMLcontentandstructur
此文档下载收益归作者所有