基于Lucene全文索引系统设计与实现

基于Lucene全文索引系统设计与实现

ID:36554706

大小:2.54 MB

页数:63页

时间:2019-05-12

基于Lucene全文索引系统设计与实现_第1页
基于Lucene全文索引系统设计与实现_第2页
基于Lucene全文索引系统设计与实现_第3页
基于Lucene全文索引系统设计与实现_第4页
基于Lucene全文索引系统设计与实现_第5页
资源描述:

《基于Lucene全文索引系统设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Lucene的全文索引系统的设计与实现作者:指导教师:杜先撰骆斌教授贝佳副教授南京大学研究生毕业论文I申请工程硕士学位)南京大学软件学院2011年5月J舢删舢删舢舢删删删删Y2371412■●●●-II-■●●■●IneDesignandImDIemen协tIOnOffull_teXtindexingsystemBasedOnLuceneDu,xianzhuanSubmittedinpartialfulfillmentoftherequirementsforthedegreeofMasterofEngineering^‘‘-SupervlsedbVP

2、rofessorLuo,binAssociateProfessorBei,jiaSoftwareInstituteNANJINGUNIVERSITYNanjing,ChinaMay,2011摘要在当今信息大爆炸的时代,快速从海量的信息中找到所求成为信息应用的核心任务。特别是企业级的数据散落在多种结构,不同的数据源之上,如何对数据进行结构化并提供统一的查询接口对于企业级的信息搜索是重大的挑战。企业内容搜索是一个较新的领域,它涉及到信息平台整合,数据管理,海量数据管理,信息检索等多种技术。目前的企业内容搜索技术,多是先将数据集中化,而后将搜索引擎技术融入到企

3、业内容搜索中,通过构造全文索引来达到快速全面检索数据的目的。本文设计并完成了基于Lucene框架的全文索引系统。在Lucene只能处理文本文档的基础上,增加了对于O仟ice系列文档,PDF文档,HTML文档的支持。全文索引系统通过对非结构化的本文进行分词,索引等处理构建反向索引。最终通过排名算法,将结果按照相关性的高低呈现给用户,从而达到快速精准的检索目的。最终系统向外提供统一的查询接口,提供简单的关键字搜索和带语法的高级搜索功能,增加了多字段搜索功能。提供给用户搜索界面这~对用户友好的检索方式,增加了对于拼音搜索的支持,用户通过输入拼音返回汉字来辅助搜

4、索。返回的信息中包括关键字的高亮显示的功能,让用户能够从摘要中看到查询结果中是否为其所需。采用了基于词频统计的方法提取新词,提取后的新词将会被加入到系统的分词词典中,系统采用基于规则的中文分词方法,一个海量的词典可以提高分词的准确度。通过对于新词的识别,并将新词加入分词词典,提高了中文分词的准确度。加入拼音搜索功能提升用户体验。丰富的查询语法,使得检索功能更加强大。加入内容摘要使得用户能够更好的判断检索结果是否所需。关键词:Lucene,全文索引系统,新词识别AbstractIntheeraofinformationexplosion,rapidfetc

5、hingtheneedfromhugeamountofinformationbecomesthecoretaskofinformationapplications.Especially,enterprise‘leveldataisinavarietyofstructure,scatteredoverdifferentdatasourcesofdata,howtoprovideaunifiedstructuredandqueryinginterfaceforenterprise-levelinformationsearchissignificantchal

6、lengeAtpresent,theenterprisecontentsearchtechnologyistoblendthesearchenginetechnologyintoenterprisecontentsearch.Thesystembuildindextoachievethepurposeofrapidcomprehensiveretrievingdata.Thispaperdesignandcompletethefull—textretrievesystembasedonLucene.AsLucenehandlestextdocumento

7、nly,supportsmoredocumentformatssuchasOfficeseriesdocuments,PDFdocumentsHTMLdocument.OffersuserssearchinterfacetosearchinsteadofcommandlineinterfaceSystemindicesallwordsinthetext,providingaquickandcomprehensiveapproachofsearching.Fulltextsearchsystemtokenizesandindicestheunstructu

8、redtexttoconstructinvertedindex.Accordin

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。