欢迎来到天天文库
浏览记录
ID:33516592
大小:3.01 MB
页数:77页
时间:2019-02-26
《(计算机科学与技术专业论文)基于lucene的全文检索系统的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、学位论文版权使用授权书IllllflllllfflfIllllllllflflll/fllllflIlflllllY1780802本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索,提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:荔泵香导师签名签字日期:矽归年莎月店日签字日期:,』,.I▲学校代码:10004密级:公开北京交通大学硕士学位论文基于Lucen
2、e的全文检索系统的研究与应用TheResearchandApplicationofFull—TextSearchSystemBasedonLucene作者姓名:苏景春导师姓名:王移芝学位类别:工学学号:08120546职称:教授学位级别:硕士学科专业:计算机科学与技术研究方向:网络与数据库北京交通大学2010年6月了致谢两年的研究生生活即将结束。在此,首先要感谢我的导师王移芝教授,感谢她在我攻读硕士学位期间对我的关怀与帮助。王老师严谨的治学态度、敬业忘我的奉献精神,这些无不给我留下深刻的印象,并将使我在今后的发展中受益匪浅。从导师的身下,我们学到不仅是专业知识,更重要是
3、做人的道理。在论文结稿之际,衷心的向我的导师致以最诚挚的谢意。研究生期间,王移芝教授悉心指导我完成了实验室的科研工作,并在学习和生活上都给予了我很大的关心与帮助,在此向王移芝老师表示衷心的谢意。本论文的工作是在我的导师王移芝教授的悉心指导下完成的。在论文的撰写期间,王老师对我论文提出了许多宝贵意见,在此表示由衷的感谢。在实验室工作及撰写论文期间,徐勇、杨子江、杜梅、田广隽等同学对我论文中的研究工作给予了热情帮助,在此向他们表达我的感激之情。另外也感谢基础教学基地的各位老师和同学对我的帮助,在相互切磋和交流中,我们获得了许多的专业知识,与此同时,其它各方面都有了很大的进步
4、。摘要随着互联网技术的普及以及信息化程度的提高,网络上的信息资源急剧增加,且信息形式多种多样。信息检索就是从海量的信息资源中获得用户所需要信息的技术。因此,如何从海量的非结构化数据资源中获取用户最需要的信息,成为了现代信息检索领域面临的又一重大挑战。全文检索作为现代信息检索技术的一个重要分支,它不仅是处理非结构化数据的重要工具,也是搜索引擎的主流技术之一。为了提高检索的准确率和检索效率,对信息检索的相关技术,如:索引模型、分词技术、结果排序算法等,进行研究是十分必要的。本文以全文索引模型为研究对象,并对全文检索中的中文分词及页面排序等算法进行了改进。最后,利用开源的全文
5、检索引擎架构Lucene建立了一个全文检索系统,来验证改进后的全文检索系统的性能。本文的主要工作如下:(1)互关联后继树索引模型的研究本文讨论并比较了现有的几种流行的全文索引模型,并重点介绍了互关联后继树(简称reST)索引模型,它具有创建速度快、查询效率高以及可通过索引生成原文等特点。本文对该模型做了进一步的研究,提出了后继有序的互关联索引模型,利用其有序子树求交的方法,快速地检索出结果。(2)中文分词技术的研究与改进本文采用互关联后继树作为分词过程中词表的数据结构,来提高分词的速度;在分词的准确度方面,本文对分词过程中出现的歧义词进行分析,并采用“三段式首词间距法”
6、来处理歧义词,以提高分词的准确度。实验结果表明,这是一种分词速度较快同时准确度又高的分词方法。(3)页面排序算法的研究与改进本文在分析目前主流的页面排序算法的基础上,对当前使用广泛的PageRank算法进行了改进。实验结果表明,改进后的结果排序算法是具有较高精度的排序算法。(4)设计并实现了一个基于Lucene的新闻检索系统利用上述改进的方法,设计并实现了一个基于Lucene的新闻检索系统。实验结果表明,改进后的全文检索系统能更好的支持中文检索以及更准确地提供给用户最需要的信息。关键词:Lucene;全文索引模型;互关联后继树;中文分词;页面排序分类号:TP311●AB
7、STRACTWiththepopularityofIntemettechnologyandimprovementofinformationization,informationresourcesonthenetworkincreaserapidly,withavarietyofforms.Informationretrievalisatechnologythatsearchestheinformationusersneedfrommassiveinformationresources.Therefore,howtoobtainthemos
此文档下载收益归作者所有