试论互关联后继树索引模型的改进研究

试论互关联后继树索引模型的改进研究

ID:34791553

大小:5.99 MB

页数:53页

时间:2019-03-10

试论互关联后继树索引模型的改进研究_第1页
试论互关联后继树索引模型的改进研究_第2页
试论互关联后继树索引模型的改进研究_第3页
试论互关联后继树索引模型的改进研究_第4页
试论互关联后继树索引模型的改进研究_第5页
资源描述:

《试论互关联后继树索引模型的改进研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、复旦大学硕士学位论文互关联后继树索引模型的改进研究姓名:杨茹申请学位级别:硕士专业:计算机软件与理论指导教师:陶晓鹏20090516互关联后继树索引模型的改进研究摘要随着计算机技术的迅速发展,信息越来越呈现出海量化和多样化的特征。传统的信息检索技术只擅长处理结构化数据,为处理大规模文本等非结构化数据,一种新的信息检索技术——全文检索技术就此产生了。经过几十年的发展,全文检索已经从最初的字符串匹配程序演变成为能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的工具,在数字图书馆和搜索引擎等领域有着广泛的应用

2、。全文检索的性能取决于所使用的全文索引模型,它可以提供对非结构化海量数据的有效管理和快速查询。本文主要介绍了一种新型的全文索引模型——互关联后继树(文中简称为IRST)的研究进展,并对其最新发展分支双排序互关联后继树(文中简称为D瓜ST)进行了深入研究与改进。双排序互关联后继树模型具有自描述性、有序性和压缩性,本文主要围绕这三个方面,做了以下工作:1.改进索引结构,提出并证明了后继生成定理,高效地完成了双排序互关联后继树的原文生成算法;2.在基于后继区间的逆向区间二分搜索算法基础上进行查询的优化,引入了二分验证查询

3、算法;3.提出并证明了解区间收缩定理,对后继编号以及双字节的上下界进行了线性化处理,提出了线性优化查询算法;4.对几种主流全文索引在一些方面进行了比较,得出双排序互关联后继树模型的综合性能比现有的其它主流模型性能都要好的结论;5.介绍了互关联后继树文本检索系统,并通过具体的实验数据表明,改进后的双排序互关联后继树模型性能得到了显著的提高;6.提出了对双排序互关联后继树模型的索引创建算法以及后继编码压缩算法进一步改进的思想。关键词:全文检索;全文索引;互关联后继树中图法分类号:TP311复旦大学硕士学位论文互关联后继

4、树索引模型的改进研究AbstractWiththerapiddevelopmentofcomputertechnology,informationhasbecomemoreandnloremassiveanddiverse.Tmditioualinformationretrievaltechnologyisonlygoodatmanagingstructureddata.Therefore,anewinformationretrievaltechnology,full—textretrievaltechnology

5、isbroughtintomanagenon-structuredmassivedatasuchasmassivetext.Inthepasseddecades,full-textretrievaltechnologyhasevolved丘DmastringmatchingprogramtoatoolthatCanmanagekindsofnon—structureddata,such雒massivetext,voice,images,moviesandSOon.Itiswidelyusedinmanyfields

6、suchasdigitallibraryandsearchengine.n圮decisivefactorinfull=textretrievalisthefull-textindexmodelitused,whichcanprovideefficientmanagementandquickretrievalofnon-structuredmassivedata.Researchesandachievementsonanewfull-textindexmodel,Inter-RelevantSuccessiveTre

7、esModel(IRSTforshort),areintroducedinthisarticle.SomeimprovementsmadeonDual-sortedInter-RelevantSuccessiveTreesModel(DIRSTforshort),anewbranchof取ST,arealsodiscussed.DIRSTisanewfull-textindexmodelthatcandescribeitself,andisdual-orderedaswellascompressive.Totake

8、advantageofthethreecharactersofDIRST,followingworkshavebeendone:1.Togeneratetheoriginaltext晰mtheindexmoreefficiently,thedatastructureofDIRSThasbeenimproved,andanewtheoremofsuccessi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。