欢迎来到天天文库
浏览记录
ID:33228302
大小:2.02 MB
页数:55页
时间:2019-02-22
《全文数据库若干关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、Y771175後要大学硕士学位论文学校代码:10746学号:022021194全文数据库若干关键技术研究院系:专业:姓名:指导教师:完成日期:计算机与信息技术系计算机软件与理论颜文伟胡运发教授2005年5月19日摘要随着信息时代的数据,特别是非结构化数据的爆增,人类从中获取信息的需求也越来越大,如何从全文中获得信息,是一个传统的关系型数据库系统(RDBMS)解决起来比较低效的问题。全文检索技术应运而生,它的优势在于专门为了解决全文数据而设计的高效的存储结构和高速的查询速度以及多种的查询接口。在发展中,全文检索系统的目标是能像传
2、统的数据库一样提供方便有效的功能,因此,全文数据库是该技术的方向和最终目标。本文是作者在这个方向上的探索性研究的成果。本文内容基于一个有效的全文检索系统的开发工作。大致包含以下主要内容:1)全文检索系统的过程和框架流程是本文第二章介绍的内容。2)本文在第三章介绍了全文检索系统的核心技术——索引模型的研究现状后,重点选择了新颖的互关联后继树模型作为系统的核心来介绍。3)本文第四章在给出本系统的结构图后,对互关联后继树模型进行了从二元到三元的改进和实现,对于多文档的索引结构进行了存储优化。在介绍了系统的主要接口实现方法后,本章给出
3、了本系统和基于其它全文检索技术的系统在时间和空间上效能的分析和实验数据的对比。最后本章针对后继树模型对查询时的缓存技术进行了研究和实现,并提供了实验数据。4)第五章重点介绍作者实现的检索系统的多种查询功能。包括简单的字符串匹配,有序,无序的临近度查询和前缀查询等。然后研究并在系统中实现了对结果文档的排序,此种排序是基于综合了出现次数和每个匹配的I』缶近度的文档匹配函数。本章的最后用简化的查准率曲线对前述的排序方法进行了评价。5)本文的最后,用一章的篇幅介绍基于上述系统的核心API在一个与关系数据库结合进行查询的项目中的应用情况
4、。关键词:全文检索全文索引互关联后继树中图法分类号:TP311AbstractAstheInformationEra’Stakingfastpaceforward,HumanbeingnOWisfacingtheexplosivedatacoveringeveryaspectofroutinelife.Mostofthemarenotwell-structured.SothetraditionalRelationalDBtheoryisnotsuitablefordealing、)i,i也them.Thuscomestheco
5、nceptofPall-TextRetrieval,whichisoriginallyantermofInformationRetrievalarea.NowadaysastheFull-TextretrievaltechnologyisevolvingtowardsDatabasearea,moreandmoreftmctionalitiesarebeingaddedintotheimplementationofaFull-Textinformationretrievalsystem.Sothisworkisallabout
6、buildingaFull-TextDBsystemfollowingthistrend.Thespectrumofthisthesisisasfollows:1)IsummarizedtheIRscenariofirstandfocusedthisthesisonthePull-textpartwhileconsideringboththetwocommonusertasks.IalsoIntroducedsomerelatedIRmodelshortly.2)AmongthewidelyusedInvertedListMo
7、del,PATtree(alsoknownasSUffixtree),PATarray,andotherwell-knownIndexingModels,IpickthesnappyIRST(Inter-RclevantSuccessiveTrees)modelasthecoreofmyFull-Textretrievalsystem.Butmanyenhancementshavebeenencapsdatedintotheimplementationofthesystem,whichincludepromotingthe2d
8、imensional(1evel)IRSTmodelintOasorted3leveltrees,storingdocuments’IDswithinasynchronizingarrayof3levelsalso,optimizingthequeryprocessbyloa
此文档下载收益归作者所有