基于lucene的多数据源全文检索系统的设计与实现

基于lucene的多数据源全文检索系统的设计与实现

ID:33502975

大小:1.34 MB

页数:82页

时间:2019-02-26

基于lucene的多数据源全文检索系统的设计与实现_第1页
基于lucene的多数据源全文检索系统的设计与实现_第2页
基于lucene的多数据源全文检索系统的设计与实现_第3页
基于lucene的多数据源全文检索系统的设计与实现_第4页
基于lucene的多数据源全文检索系统的设计与实现_第5页
资源描述:

《基于lucene的多数据源全文检索系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于LUCENE的多数据源全文检索系统的设计与实现重庆大学硕士学位论文学生姓名:刘期勇指导教师:祝伟华副教授专业:计算机软件与理论(软件工程领域)学科门类:工学重庆大学软件学院二OO八年十一月DesignandImplementationoftheMulti-typeDataFull-textRetrievalSystemBaseonLuceneAThesisSubmittedtoChongqingUniversityinPartialFulfillmentoftheRequirementfortheDegreeofMasterofEngineeringByLiuQiyong

2、SupervisedbyAssociateProf.ZhuWeihuaMajor:ComputerSoftwareandTheory(SoftwareEngineeringField)SchoolofSoftwareEngineeringChongqingUniversity,Chongqing,China.November,2008中文摘要摘要全文检索是指计算机索引程序通过扫描文章中的每个词进行检索。该检索是对文档中的每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行检索,并将结果反馈给用户的检索方式。随着信息时代的到来,

3、各种信息资源急剧增长,人们越来越多地关注如何快速有效地从海量的信息资源中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。同时,作为某单位信息情报的基础,各种应用文档、电子文档、数字文书、信息数据库以及其它的各类数字化信息载体正不断的增加,如何安全、快速地从上百万,上千万甚至更多的情报信息中检索出准确、有效、有价值的情报信息,已经成为当前该单位信息化建设中的重要任务。然而,作为信息处理技术中最基本的信息检索技术却在该单位没有得到全面的应用,信息检索技术的研究和应用也还停留在一个比较落后的阶段,如何使先进的全文信息检索技术应用到这些单位的信息化建设中,已经越来越得

4、到了各级的重视。本文分析了当前信息检索领域的研究及应用现状,研究了全文检索系统的特点、主要算法、全文检索的相关理论和全文检索的发展趋势及技术热点。对流行的开源全文检索工具包Lucene.Net的体系架构和主要功能模块进行了剖析,对Lucene主要索引算法:增量算法、归并算法和查找算法原理进行了解析。同时,结合某单位信息化建设的实际,在基于Lucene.Net工具包的基础上,分析并设计了适合该单位信息化建设的多数据源全文检索系统。针对该单位信息情报资源对于信息安全的特殊要求,提出了基于用户安全权限的全文检索方式,有效控制用户访问检索系统的安全权限。通过对多数据源(如doc、pd

5、f、html、数据库..)及插件技术的研究,提出基于接口及插件技术的开发模式,很好的解决了对未知文体格式文档及新型数据库索引的扩展问题。通过对本系统进行的检索性能测试和应用实验,归纳出了本系统的特点,验证了全文检索系统的各项指标,达到了该单位信息检索系统的应用标准。关键词:多数据源,全文检索系统,Lucene.NetI重庆大学硕士学位论文II英文摘要ABSTRACTThefull-textretrievalrefersthatthecomputerindexingprogramretrievalthearticlebyscanningeverywordinwholeartic

6、le.Itistheretrievaltypeofmakingtheindexingforeverywordinarticel,pointoutthelocationandthenumberofthetermofappearinginarticle,whenuserquery,thesearchprogramcanretrievaltheindexingbasisofpre-established,andfedbacktheresultstotheuser.Withtheadventoftheinformationage,avarietyofinformationresour

7、cesgrowapidly,itisincreasinglyconcernedabouthowquicklyandefficientlysearchfromthemassofinformationresourcesforapotentialandvaluableinformationwhichcanmakeiteffectiveinthemanagementanddecision-makinginarmy.Atthesametime,asthebasisofsomeunitintelligenceinf

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。