欢迎来到天天文库
浏览记录
ID:32237374
大小:1.57 MB
页数:51页
时间:2019-02-02
《xml上的xpath全文查询技术》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要随着Intemet和Web应用的迅速发展,越来越多的Web数据都开始使用XML作为数据表示和交换的语言,这使得XML在电子信息发布、数字图书馆、Web信息搜索和集成等领域有着广阔的应用前景。大规模XML文档的出现,如数字图书馆,IEEEINEX数据集,SIGMOD和DBLP数据集等等,使XML数据的管理和查询成为一个研究热点。如何在这些海量的XML数据上进行查询和检索,实现一个高效的XML文档的搜索引擎就显得越来越迫切。支持普通用户仅仅通过输入关键词就可以在XML文档上进行查询,处理XML文档内容和结构联合查询的任务,具有重要的理论和现实意义,也是当前XML研究方面的热点。本文结
2、合XML数据本身的结构,将XML数据的结构和内容联合,研究了XML文档的标注方法;汲取信息检索的一些技术和已有的一些全文查询方法,研究了XML数据上全文查询的相关技术。然后对于XML文档上的全文距离(distancepredicate)查询方面进行了深入的研究和探讨,提出了有效的解决方案、关键算法和技术,并通过一系列的实验证明了这些方法的有效性。本文的贡献和创新之处总结如下:‘探讨了W3C制定的XMLFull.Text的语法和语义。。探索了对XML文档的内容和结构联合进行标注的方法,有效的支持了XMLFull.Text全文检索形式的查询。。我们提出了基于窗口的算法实现对全文查询中距离
3、谓词的处理,大大减少了查询处理的时间。该方法对在大量的XML数据集上进行距离查询提供了具有实际意义的有效处理方法。。为了说明我们算法的有效性,我们给出了一系列实验结果来证明基于窗口的算法的有效性和健壮性。关键词:XML,XML文档标注,XML内容索引,XML全文距离查询AbstractWiththerapiddevelopmentofIntemet/Web,moreandmoreWebdatausetheXMLtoexchangeanddescribethedataasastandardlanguage;meanwhile,XMLisanticipatedtobethrivingon
4、suchareasaselectronicinformationrelease,digitallibrary,Webinformationretrievalandintegration,andsoon.Nowadays,withthedevelopmentofInternet,itgeneratesmoreandmoreXMLrepositories,suchasXMLdigitallibrary,IEEEINEXcollection,SIGMODandDBLPdocumentcollections.Sohowtodothequeryorretrievalontheselargeda
5、tasets,andimplementasystemtocompletesuchworksefficiently,whichbecomesmoreandmoreurgent.Atthesametime,especiallyforthekindofrequirementwhichonlyneedsthelasertoinputthequerykeywords,thenhecanquerytheselargeXMLdatasets,theresearchforthiskindofstructure—basedandcontent—based(full-text)query/retriev
6、alontheseXMLrepositories,whichhasabigtheoreticalandactualmeaning,italsoisthecurrenthottopic.Withthesebackgrounds,inthisdissertation,basedoncombiningboththeXMLstructureandcontent,westudymanyoftheXMLlabelingmethods.Wealsostudyalotofinformationretrievaltechnologyandalotofexistingfull-textquerymeth
7、ods,thenwedothein—depthresearchontheXPathfull—textquerywithdistancepredicates,theefficientsolutionandcorrespondingalgorithmsarealsoproposed.Atlast,wegiveagroupofexperimentstoshowtheefficencyandrobustnessofouralgorithms.Themaincont
此文档下载收益归作者所有