全文检索中索引算法优化地研究论文

全文检索中索引算法优化地研究论文

ID:32364258

大小:2.25 MB

页数:59页

时间:2019-02-03

全文检索中索引算法优化地研究论文_第1页
全文检索中索引算法优化地研究论文_第2页
全文检索中索引算法优化地研究论文_第3页
全文检索中索引算法优化地研究论文_第4页
全文检索中索引算法优化地研究论文_第5页
资源描述:

《全文检索中索引算法优化地研究论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、ResearchonOptimizationofIndexingAlgorithminFull-textRetrievalAThesisSubmittedtoChongqingUniversityinPartialFulfillmentoftheRequirementfortheMaster’sDegreeofEngineeringByHeJupuSupervisedbyProf.WangQianSpecialty:ComputerSoftwareandTheoryCollegeofComputerSc

2、ienceofChongqingUniversity,Chongqing,ChinaApril,2014重庆大学硕士学位论文中文摘要摘要21世纪以来,伴随着信息化产业的迅速发展,越来越多的企业内部信息以数字化方式来存储,如何从海量的信息中准确检索到所需信息,成为一个值得研究的问题。目前,绝大多数信息检索系统采用全文检索模型,其中索引技术是全文检索模型的核心组成部分,它的结构设计、存储方法以及动态更新算法直接影响着全文检索系统的性能。所以,对全文检索系统中的索引算法进行优化具有十分重要的意义。本文首先分析

3、了全文检索模型的系统结构、工作流程,以及关键技术:文档存储、分词技术、检索模型、索引组织;研究了传统的倒排索引的工作原理与方法,包括倒排索引的索引创建、索引存储、索引更新、索引删除、索引查询。基于上述研究分析,设计了一种分词处理技术,该技术通过引入冗余度和权重,提高分词处理的准确性和效率;分析了一种基于B-树的倒排索引结构,该结构由主索引、段索引、删除索引和词典库四大部分组成;设计了一种索引合并更新方法,加快了索引更新速度;设计了一种新型索引项,该索引项由词信息和位置信息组成,将位置信息存储在独立的堆栈

4、中,从而减少了索引存储空间;设计了追加填充更新方法,解决了B-树页面溢出的问题,同时达到了索引的时间效率和空间效率的平衡点;设计了增量编码进一步压缩了索引存储空间。最后对提出的优化算法进行了编程实现,通过与基于传统倒排索引设计的lucene进行测试对比,证明了优化的有效性、可行性。关键词:全文检索,倒排索引,优化I重庆大学硕士学位论文英文摘要ABSTRACTSincethe21stcentury,withthedevelopmentofinformationtechnology,variousdatai

5、nenterprisesarestoreddigitally.Howtoquicklyretrievetherequiredinformationfromthemassofinformationisaproblemworthyofstudy.Currently,thevastmajorityofinformationretrievalsystemsarebasedonfull-textretrievalmodel.Invertedindexisacoreoftechnologyinfull-textre

6、trievaltechnology.Itsstructuraldesign,storagemethods,anddynamicupdatingalgorithmdirectlyaffecttheperformanceoffull-textretrievalsystem.Sooptimizedforfull-textretrievalsystemhasgreatsignificance.Firstly,thispaperanalysisthearchitecture,themajorcomponentan

7、dkeytechnologiesinfull-textsearch:documentstorage,contentsegmentationtechniques,retrievalmodels,andindexorganization.Thenitstudiesprinciplesandmethodsaboutindexcreation,itincludesindexstorage,indexupdate,indexdelete,andindexquery.Basedonthat,thispaperdes

8、ignsacontentsegmentationtechniquewhichcanimproveaccuracyandefficiencythroughintroducingredundancyandweight.ItanalysisaB-treeinvertedindexwhichhasfouraspects:mainindex,segmentindex,deleteindexanddictionarylibrary.Itdesignsa

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。