欢迎来到天天文库
浏览记录
ID:34791553
大小:5.99 MB
页数:53页
时间:2019-03-10
《试论互关联后继树索引模型的改进研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、复旦大学硕士学位论文互关联后继树索引模型的改进研究姓名:杨茹申请学位级别:硕士专业:计算机软件与理论指导教师:陶晓鹏20090516互关联后继树索引模型的改进研究摘要随着计算机技术的迅速发展,信息越来越呈现出海量化和多样化的特征。传统的信息检索技术只擅长处理结构化数据,为处理大规模文本等非结构化数据,一种新的信息检索技术——全文检索技术就此产生了。经过几十年的发展,全文检索已经从最初的字符串匹配程序演变成为能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的工具,在数字图书馆和搜索引擎等领域有着广泛的应用
2、。全文检索的性能取决于所使用的全文索引模型,它可以提供对非结构化海量数据的有效管理和快速查询。本文主要介绍了一种新型的全文索引模型——互关联后继树(文中简称为IRST)的研究进展,并对其最新发展分支双排序互关联后继树(文中简称为D瓜ST)进行了深入研究与改进。双排序互关联后继树模型具有自描述性、有序性和压缩性,本文主要围绕这三个方面,做了以下工作:1.改进索引结构,提出并证明了后继生成定理,高效地完成了双排序互关联后继树的原文生成算法;2.在基于后继区间的逆向区间二分搜索算法基础上进行查询的优化,引入了二分验证查询
3、算法;3.提出并证明了解区间收缩定理,对后继编号以及双字节的上下界进行了线性化处理,提出了线性优化查询算法;4.对几种主流全文索引在一些方面进行了比较,得出双排序互关联后继树模型的综合性能比现有的其它主流模型性能都要好的结论;5.介绍了互关联后继树文本检索系统,并通过具体的实验数据表明,改进后的双排序互关联后继树模型性能得到了显著的提高;6.提出了对双排序互关联后继树模型的索引创建算法以及后继编码压缩算法进一步改进的思想。关键词:全文检索;全文索引;互关联后继树中图法分类号:TP311复旦大学硕士学位论文互关联后继
4、树索引模型的改进研究AbstractWiththerapiddevelopmentofcomputertechnology,informationhasbecomemoreandnloremassiveanddiverse.Tmditioualinformationretrievaltechnologyisonlygoodatmanagingstructureddata.Therefore,anewinformationretrievaltechnology,full—textretrievaltechnology
5、isbroughtintomanagenon-structuredmassivedatasuchasmassivetext.Inthepasseddecades,full-textretrievaltechnologyhasevolved丘DmastringmatchingprogramtoatoolthatCanmanagekindsofnon—structureddata,such雒massivetext,voice,images,moviesandSOon.Itiswidelyusedinmanyfields
6、suchasdigitallibraryandsearchengine.n圮decisivefactorinfull=textretrievalisthefull-textindexmodelitused,whichcanprovideefficientmanagementandquickretrievalofnon-structuredmassivedata.Researchesandachievementsonanewfull-textindexmodel,Inter-RelevantSuccessiveTre
7、esModel(IRSTforshort),areintroducedinthisarticle.SomeimprovementsmadeonDual-sortedInter-RelevantSuccessiveTreesModel(DIRSTforshort),anewbranchof取ST,arealsodiscussed.DIRSTisanewfull-textindexmodelthatcandescribeitself,andisdual-orderedaswellascompressive.Totake
8、advantageofthethreecharactersofDIRST,followingworkshavebeendone:1.Togeneratetheoriginaltext晰mtheindexmoreefficiently,thedatastructureofDIRSThasbeenimproved,andanewtheoremofsuccessi
此文档下载收益归作者所有