基于Lucene的大文档集合索引机制 ——文档索引的分析、设计和实现-开题报告.doc

基于Lucene的大文档集合索引机制 ——文档索引的分析、设计和实现-开题报告.doc

ID:10841321

大小:56.50 KB

页数:6页

时间:2018-07-08

基于Lucene的大文档集合索引机制 ——文档索引的分析、设计和实现-开题报告.doc_第1页
基于Lucene的大文档集合索引机制 ——文档索引的分析、设计和实现-开题报告.doc_第2页
基于Lucene的大文档集合索引机制 ——文档索引的分析、设计和实现-开题报告.doc_第3页
基于Lucene的大文档集合索引机制 ——文档索引的分析、设计和实现-开题报告.doc_第4页
基于Lucene的大文档集合索引机制 ——文档索引的分析、设计和实现-开题报告.doc_第5页
资源描述:

《基于Lucene的大文档集合索引机制 ——文档索引的分析、设计和实现-开题报告.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、厦门大学软件学院《毕业设计(论文)》开题报告学生姓名班级一班学号指导教师姓名职称所在单位厦门大学软件学院毕业设计(论文)题目基于Lucene的大文档集合索引机制——文档索引的分析、设计和实现毕业设计(论文)的目标:一、整体软件目标1、利用Lucene的API接口实现对特定文档的搜索2、搜索结果按照一定的方式进行排序,以便于用户检索二、文档索引的分析、设计和实现1、文档索引的分析。利用Lucene的分析器(Analyzer)对各种各样的输入进行分析,实现分词和过滤不同文本,有选择的将文本进入索引,以提高索引效率,提高搜索引擎的性能。2、文档

2、索引的设计和实现。利用Lucene中的Document类、indexWriter类实现对不同类型文档的索引,完成对Lucene的索引文件格式的研究。3、该部分实现的文档索引为后半部分的查询提供前置条件。实现方法:一、基本环境开发工具:eclipse开发语言:Java,jdk1.5.0开发平台:Windows开发使用的插件:Lucene二、学习使用Lucene分析器1、分词器(Tokenizer)和过滤器(TokenFilter)一个分析器所有的工作就是将分词器和过滤器进行合理的组合,使之产生对文本分词和过滤的效果。因此分析器使用分词器和过

3、滤器构成了一个管道,文本“流过”这个管道后,就成为了可以进入索引的最小单元。2、使用Lucene中的标准分析器StandardAnalyzer。StandardAnalyzer是Lucene开发包中内置的一种Analyzer的实现,可以将其理解成“标准分析器”,这个分析器是最容易使用也是使用最频繁的一种Analyzer的实现,它使用了Lucene内部自带的几种分词器和过滤器。一、学习使用Lucene建立索引1、索引建立的过程lucene没有定义一个确定的输入文档格式,但越来越多的人想到使用一个标准的中间格式作为Lucene的数据导入接口,

4、然后其他数据,比如PDF只需要通过解析器转换成标准的中间格式就可以进行数据索引了。这个中间格式主要以XML为主,类似实现已经不下4,5个:数据源:WORDPDFHTMLDBother

5、

6、

7、/XML中间格式

8、LuceneINDEX2、索引的添加——IndexWriter类IndexWriter类似Lucene中最重要的类之一,它的功能就是将文档加入索引,同时控制索引过程中的各种参数。3、索引的存放位置——磁盘中存放FSDirectory与RAMDirectory使用FSDirectory时,Lucene会自动在内存中建立缓存,然后到一定时

9、候就将索引写入磁盘。这一步操作对用户来说其实是透明的,因为用户看不见内存中的操作,而只能看见写好索引的文件系统中的内容。从功能角度来讲,FSDirectory在磁盘上所能做的所有事情,RAMDirectory在内存中都可以完成,并且会具有更快的速度。但唯一的问题就在于它在虚拟机退出后,内存中的索引将不复存在。4、从索引中删除文档——IndexReader类索引的维护中很重要的一部分就是删除不要的文档,对索引的文档删除时通过IndexReader类来完成的。IndexReader类从名称上来看并不具有删除索引的能力,但是实际上,它确实是唯一

10、能够从索引中进行文档删除的工具。5、Lucene的索引优化——optimize()方法IndexWriter的optimize()方法就是来对索引进行优化的,它会将磁盘上的多个segment进行合并,组成一个全新的segment。需要注意的是optimize()方法并不会增加建索时的速度,反过来,它会降低建索的速度。通常在对大批量索引建立完成后再进行调用。1、中文分词工具ICTCLAS中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。中

11、国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。ICTCLAS 和计算所其他14项免费发布的成果被中外媒体广泛地

12、报道,国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。由于 ICTCLAS 是由 C 语言写成的,现在主流的开发工具用起来不太方便,于是有一些热心的程序员把 ICTCLAS 

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。