欢迎来到天天文库
浏览记录
ID:33801566
大小:1.28 MB
页数:64页
时间:2019-02-28
《分布式web文档全文索引关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、工学硕士学位论文分布式WEB文档全文索引关键技术研究张玲玲哈尔滨工业大学2006年6月-国内图书分类号:TP391.3国际图书分类号:681.39工学硕士学位论文分布式WEB文档全文索引关键技术研究硕士研究生:张玲玲导师:黄哲学教授副导师:叶允明副教授申请学位:工学硕士学科、专业:计算机科学与技术所在单位:深圳研究生院答辩日期:2006年6月授予学位单位:哈尔滨工业大学-ClassifiedIndex:TP391.3U.D.C:681.39DissertationfortheMasterDegreeofEngineeringResearch
2、onKeyTechnologyofDistributedFull-TextIndexforWebInformationCandidate:Supervisor:AssociateSupervisor:AcademicDegreeAppliedfor:Specialty:Affiliation:DateofDefence:Degree-Conferring-Institution:ZhangLinglingProf.HuangZhexueAssociateProf.YeYunmingMasterofEngineeringComputerScienc
3、eandTechnologyShenzhenGraduateSchoolJune,2006HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要随着计算机应用领域的不断扩大,数据的规模越来越大,查询也越来越复杂,分布式索引以其高性能的特点而逐渐成为解决这类复杂问题的有效手段。由于Web数据具有海量的特征,对索引创建、索引更新、分布式索引数据分配都提出了更高的要求,关于这些方面的研究也成了热点,但是目前这些问题都没有得到较好的解决。课题正是围绕降低倒排索引创建的时空消耗、加快索引更新速度、加速检索三个方面展开。(1
4、)本文提出了一种新的基于文档预处理的倒排索引创建算法。它有比传统的索引创建算法无论在时间效率还是空间效率上高得多的性能。该算法首先计算出索引文件所需要的存储空间大小,在索引创建的时候避开了外存的排序。有效提高了系统资源利用率,减少了索引创建时间。(2)由于Web数据更新速度较快,为了保持索引与文档的一致性,必须加快索引更新速度。本文采用了基于分块的增量式倒排索引更新策略,索引更新时不需要移动已有的索引文件,对检索过程影响也较小。基于分块的索引更新策略支持文档的插入、删除操作,又具有较高的更新和查询效率。(3)已有的全局索引分配策略,具有检索速度慢、
5、可扩展性不强的缺点。为了能够提高系统的检索速度、增强系统可扩展性,设计了局部索引的数据分配策略。这种策略,在大规模信息检索系统中,能提供快速有效的分布式信息检索。(4)实现了分布式全文索引系统在竞争情报系统中的应用。该系统是一个集信息收集、信息存储、信息索引、信息查询为一体的信息处理系统,能够为用户提供快速、准确、及时的情报信息。关键词全文索引;文档预处理;索引创建;增量更新;分布式索引-I-哈尔滨工业大学工学硕士学位论文AbstractAlongwiththecontinuouslyextendingofcomputerapplicationf
6、ield,thenumberofdatabecomemoreandmorelarge,andthesearchoperationbecomemoreandmorecomplicated.Thedistributedindexgraduallybecomethevalidmeansofresolvingthiscomplicatedproblembecauseofitshighperformance.Duetoaterabyteofwebdocument,weputforwardmorerequiresonindexingbuilding,index
7、ingupdatingandassigningdataofdistributedindex.Theresearchaboutthemhasbeenhottopics,buttheyarealsothedifficultones.Inthispaper,wefocusonreducingspaceandtimeofbuildinginvertedindex,speedingupindexingupdating,andacceleratingthequeryproceedingtask.Firstly,weproposeanewalgorithmbas
8、edondocumentpredispositionforbuildinginvertedindex.Ithashighe
此文档下载收益归作者所有