基于Lucene的基础排序算法的研究及其改进算法的应用

基于Lucene的基础排序算法的研究及其改进算法的应用

ID:36618646

大小:1.26 MB

页数:79页

时间:2019-05-13

基于Lucene的基础排序算法的研究及其改进算法的应用_第1页
基于Lucene的基础排序算法的研究及其改进算法的应用_第2页
基于Lucene的基础排序算法的研究及其改进算法的应用_第3页
基于Lucene的基础排序算法的研究及其改进算法的应用_第4页
基于Lucene的基础排序算法的研究及其改进算法的应用_第5页
资源描述:

《基于Lucene的基础排序算法的研究及其改进算法的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、论文题目基于Lucene的基础排序算法的研究及其改进算法的应用专业学位类别工程硕士学号201192270149作者姓名丁楚指导教师白金平高级工程师分类号密级注1UDC学位论文基于Lucene的基础排序算法的研究及其改进算法的应用(题名和副题名)丁楚(作者姓名)指导教师白金平高工电子科技大学成都陈磊刚高工三基音响有限公司东莞(姓名、职称、单位名称)申请学位级别硕士专业学位类别工程硕士工程领域名称软件工程提交论文日期2015.10论文答辩日期2015.12.3学位授予单位和日期电子科技大学2015年12月答辩委员会主席评阅人注1:注明《国际十进分类法UDC》的类号。RESEARCHANDAP

2、PLICATIONOFSORTINGALGORITHMBASEDONLUCENEAMasterThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChinaMasterofEngineeringMajor:Author:DingChuAdvisor:BaiJinPingInstituteofElectronicandInformationSchool:EngineeringinDongguan独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外

3、,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。作者签名:日期:年月日论文使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)作者签名:导师签名:日期:年月日摘要摘要进入21世纪以来,互

4、联网得到了迅速发展,互联网的信息资源越来越丰富,信息量越来越大,呈指数级增长。而人们对互联网的依赖越来越紧密,在互联网上查询信息资源也越来越频繁。互联网的信息资源如此巨大,想要快速、准确地在海量的信息资源库中查询到所需的资源,就必须使用良好的搜索引擎工具。搜索引擎为网络用户提供了信息检索服务,属于互联网应用软件,该系统按照一定的检索策略为用户提供信息检索服务,并将检索结果排序为用户提供互联网信息查询服务。目前,随着搜索引擎技术的发展,越来越多的机构和人员将搜索引擎作为研究热点,为此,Apache基金会推出了一个开源的全文搜索引擎工具包Lucene。本论文采取两种研究方案,先在Lucene

5、全文搜索的功能角度去研究数据排序算法,通过研究现有的排序算法:倒排算法查询速度快、存储空间小,可以提供排序查询功能但是不能快速的支持短语查询,不能很好适应中文等词边界未确定语言。后缀树和后缀数组索引模型支持短语查询与自索引功能并且对词边界未确定语言有很好适应性但是不支持排序查询;再分析各自的优缺点进行对比,进而得出其适用于Lucene全文检索领域的算法。再通过对常用算法的应用研究,提出一种改进的数据排序算法:SA-PL索引模型,该模型利用后缀数组可以支持短语查询、自索引和词边界未确定语言适应性且与后缀树相比存储空间小的特点,将后缀数组与倒排表相结合。根据SA-PL索引模型概念,设计了SA

6、-PL-0索引模型。在SA-PL-0的基础上提出一种通过移除较短倒排表对索引空间进一步压缩的索引模型SA-PL-1。该模型可提高查询速度、减少存储空间,进而实现Lucene环境下数据排序的高效性。最后选择合适的平台和环境对改进算法进行实验检验,实验表明,SA-PL-0和SA-PL-1索引模型可以提供排序查询、短语查询和自索引功能并且对词边界未确定语言有很好适应性,其索引存储空间和索引查询时间综合性能显著优于以往的索引模型。关键词:Lucene,倒排索引,后缀数组,SA-PL索引模型IABSTRACTABSTRACTSincethetwenty-firstCentury,theIntern

7、ethasbeendevelopingrapidly,theinformationresourcesoftheInternetaremoreandmoreabundant,andtheinformationquantityshowsanexponentialgrowth.PeoplebecomemoreandmoreclosetotheInternetandtheinformationqueryaregettingincreasin

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。