lucene中文手册 全文搜索引擎

lucene中文手册 全文搜索引擎

ID:11175608

大小:411.50 KB

页数:39页

时间:2018-07-10

lucene中文手册 全文搜索引擎_第1页
lucene中文手册 全文搜索引擎_第2页
lucene中文手册 全文搜索引擎_第3页
lucene中文手册 全文搜索引擎_第4页
lucene中文手册 全文搜索引擎_第5页
资源描述:

《lucene中文手册 全文搜索引擎》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、开放源代码的全文检索引擎Lucene第一节全文检索系统与Lucene简介···3一、      什么是全文检索与全文检索系统?···3二、      什么是Lucene?···4三、      Lucene的应用、特点及优势···4四、      本文的重点问题与cLucene项目···5第二节Lucene系统结构分析···5一、      系统结构组织···5二、      数据流分析···6三、      基于Lucene的应用开发···8第三节Lucene索引文件格式分析···9一、      Lucene源码实现分析的说明···9二、      Luc

2、ene索引文件格式···10三、      一些公用的基础类···12四、      存储抽象···13五、      关于cLucene项目···15第四节Lucene索引构建逻辑模块分析···15一、      绪论···15二、      对象体系与UML图···161.    项(Term)···162.    域(Field)···173.    文档(document)···184.    段(segment)···195.    IndexReader类与IndexWirter类···23三、      数据流逻辑···24四、      关于c

3、Lucene项目···25         第一节全文检索系统与Lucene简介 一、什么是全文检索与全文检索系统? 全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。 全文检索的方法主要分为按字检索和按词检索两种。按字检索是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。对于各种不同的语言而言,字有不同的含义,比如英文中字与词实际上是合一的,而中文中字与词

4、有很大分别。按词检索指对文章中的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。英文等西方文字由于按照空白切分词,因此实现上与按字处理类似,添加同义处理也很容易。中文等东方文字则需要切分字词,以达到按词索引的目的,关于这方面的问题,是当前全文检索技术尤其是中文全文检索技术中的难点,在此不做详述。 全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。一般来说,全文检索需要具备建立索引和提供查询的基本功能,此外现代的全文检索系统还需要具有方便的用户接口、面向WWW开发接口、二次应用开发接口等等。功能上,全文检索系统核心具有建立索引

5、、处理查询返回结果集、增加索引、优化索引结构等等功能,外围则由各种不同应用具有的功能组成。结构上,全文检索系统核心具有索引引擎、查询引擎、文本分析引擎、对外接口等等,加上各种外围应用系统等等共同构成了全文检索系统。图1.1展示了上述全文检索系统的结构与功能。 在上图中,我们看到:全文检索系统中最为关键的部分是全文检索引擎,各种应用程序都需要建立在这个引擎之上。一个全文检索应用的优异程度,根本上由全文检索引擎来决定。因此提升全文检索引擎的效率即是我们提升全文检索应用的根本。另一个方面,一个优异的全文检索引擎,在做到效率优化的同时,还需要具有开放的体系结构,以方便

6、程序员对整个系统进行优化改造,或者是添加原有系统没有的功能。比如在当今多语言处理的环境下,有时需要给全文检索系统添加处理某种语言或者文本格式的功能,比如在英文系统中添加中文处理功能,在纯文本系统中添加XML或者HTML格式的文本处理功能,系统的开放性和扩充性就十分的重要。 二、什么是Lucene? Lucene是apache软件基金会jakarta项目组的一个子项目,是一个开放源代码[5]的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目

7、的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。 Lucene的原作者是DougCutting,他是一位资深全文索引/检索专家,曾经是V-Twin搜索引擎的主要开发者,后在Excite担任高级系统架构设计师,目前从事于一些Internet底层架构的研究。早先发布在作者自己的http://www.lucene.com/,后来发布在SourceForge,2001年年底成为apache软件基金会jakarta的一个子项目:http://jakarta.apache.org/lucene/

8、。 三、Lucene的应用、特点及优势

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。