资源描述:
《基于Lucene的大文档集合索引机制 ——文档索引的分析、设计和实现-毕业论文.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于Lucene的大文档集合索引机制——文档索引的分析、设计和实现基于Lucene的大文档集合索引机制——文档索引的分析、设计和实现摘要随着企业电子化步伐的不断加快,电子商务特别是一些门户网站的信息内容也正在以惊人的速度增加着,面对如此大量的信息人们迫切需要有效的信息发现工具进行导航。于是,搜索引擎的需求呼之欲出,搜索引擎的建设和研究对于今天的信息社会来说具有很强的现实意义。本文将研究的重点集中于搜索引擎索引模块的设计和实现,本文首先研究了索引模块的相关理论,如索引的组织方法,索引的基本原理等,然后以开源代码Lucene为例,重点
2、分析了Lucene索引模块的结构和关键代码,最后利用LuceneAPI函数实现了索引模块的基本功能,并利用luke工具对生成的索引进行了分析和测试。关键词搜索引擎lucene索引45基于Lucene的大文档集合索引机制——文档索引的分析、设计和实现TheindexersystembasedonLucene——theanalysis,designandrealizationofindexerABSTRACTWiththerapiddevelopmentofinternet,theon-lineinformation,especial
3、lytheinformationofe-commerceatsomeportals,increasesdramatically.Facingthehugeamountofinformation,peoplereallyneedaneffectivetooltosearchwhattheywant.Therefore,buildingasearchenginebecomesabasicrequirementtoabigportal.Inthispaper,first,Wedotheresearchaboutthetheoryofth
4、eindexinfull-textresearch,forexample,thestructureofindex,theprincipleofindex,andsoon.Secondly,WeanalyzethesourcecodeofLuceneinApachefull-textsearchsystem,andmasterthesystemstructure,thebasedatatype,lastly,wedesignthebatchindexandincrementalindexfunctionfortheindexerby
5、usingtheAPIfunctionofLucene,analyzeandtestindexerbythetoolofluke.KEYWORDSsearchengine,Lucene,indexer45基于Lucene的大文档集合索引机制——文档索引的分析、设计和实现目录引言11搜索引擎简介21.1什么是搜索引擎22.2搜索引擎产生的背景和发展历史22搜索引擎中有关索引模块的相关理论42.1概述42.2索引模块在搜索引擎中的重要性42.3 全文索引中索引的组织方法42.4索引模块功能实现的基本原理53基于全文检索包Lucene建
6、立索引的研究93.1Lucene基本情况介绍93.2Lucene检索原理93.3Lucene的系统结构93.4Lucene索引文件结构104系统的设计和实现124.1系统总体结构124.2索引构建逻辑的数据流144.3索引过程的分析与实践154.3.1建立索引的过程154.3.2文档索引的分析174.3.3索引的添加——IndexWriter类194.3.4从索引中删除文档——IndexReader类214.3.5文档索引的优化225索引模块实现功能和分析235.1部分重点代码的说明235.2程序运行过程及结果分析245.2.1L
7、ucene索引工具箱——LUKE245.2.2主程序运行界面245.2.3批量索引255.2.4增量索引315.2.5根据关键字删除索引345.3建立大文档索引的测试分析385.3.1测试数据来源385.3.2测试过程395.3.3测试结果分析40结论41致谢语42参考文献4345基于Lucene的大文档集合索引机制——文档索引的分析、设计和实现引言随着信息化的高速发展,其信息量正以指数规律迅猛增长,互联网已经成为人类最重要的海量信息源,“信息迷航”和“信息过载”已经成为日益严重的问题。此时,搜索引擎以其独特的搜索功能在信息的收集
8、和检索方面发挥了重要的作用。本文在详细阐述了搜索引擎概念及发展历程的基础上,对搜索引擎索引模块的组织方法和索引功能实现的基本原理进行了重点的研究,本文还对基于Java的全文索引引擎包Lucene索引部分进行了探究,分析了Lucene建立索引的全过程