基于lucene与heritrix的搜索引擎构建毕业设计论文

基于lucene与heritrix的搜索引擎构建毕业设计论文

ID:5220713

大小:706.73 KB

页数:29页

时间:2017-12-06

基于lucene与heritrix的搜索引擎构建毕业设计论文_第1页
基于lucene与heritrix的搜索引擎构建毕业设计论文_第2页
基于lucene与heritrix的搜索引擎构建毕业设计论文_第3页
基于lucene与heritrix的搜索引擎构建毕业设计论文_第4页
基于lucene与heritrix的搜索引擎构建毕业设计论文_第5页
资源描述:

《基于lucene与heritrix的搜索引擎构建毕业设计论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Lucene与Heritrix的搜索引擎构建基于Lucene与Heritrix的搜索引擎构建摘要在互联网蓬勃发展的今天,互联网上的信息更是浩如烟海。人们在享受互联网带来的便利的同时,却面临着一个如何在如此海量的内容中准确、快捷地找到自己所需要的信息的问题,由此互联网搜索引擎应运而生。本文在对搜索引擎的原理、组成、数据结构和工作流程等方面深入研究的基础上,对搜索引擎的三个核心部分即网络蜘蛛、网页索引和搜索的分析及实现过程进行阐述。网络蜘蛛部分采用了基于递归和归档机制的Heritrix网络爬虫;网页索引部分利用开源的Lucene引擎架构设计并实现了一个可复用的、可扩展的索引

2、建立与管理子系统;搜索部分在Ajax技术支持上,设计并实现了一个灵活、简洁的用户接口。本系统具有抓取网页、建立和管理索引、建立日志以及搜索信息等功能,具备一定的应用前景。关键词:搜索引擎;中文分词;索引--基于Lucene与Heritrix的搜索引擎构建TheConstructionofSearchEngineBasedonLuceneandHeritrixAbstractThecontentsontheWebareincreasingexponentiallyastherapiddevelopmentoftheInternet.Aproblemhowtoobtainthe

3、usefulinformationfromvastcontentsquicklyandaccuratelyisfacinguswhilepeopleareenjoyingtheconvenienceoftheInternet.ThesolverofthisproblemisWebSearchEngine.Theanalysisandimplementationprocessofthreebasiccomponentsofsearchengine(Crawler,IndexerandSearcher)isdescribedinthispaperonthebasisoffurt

4、herstudyontheprinciples,composition,datastructureandworkflowofsearchengine.ThecrawlercomponentisimplementedwithHeritrixcrawlerbasedonthemechanismofrecursionandarchiving;Areusable,extensibleindexestablishmentandmanagementsubsystemaredesignedandimplementedbyopen-sourcepackagenamed“Lucene”int

5、heindexercomponent;TheSearchercomponentbasedontheAjaxtechnologyisdesignedandrealizedasaflexible,conciseuserinterface.Thesystemhassomefunctions,suchascrawlingwebpage,establishmentandmanagementindex,establishmentlogandsearchinformation,ithasacertainapplicationprospect.KeyWords:SearchEngine;C

6、hineseWordSegmentation;Index-II-基于Lucene与Heritrix的搜索引擎构建目录摘要IAbstractII1绪论11.1项目背景11.2国内外发展现状12系统的开发平台及相关技术32.1系统开发平台32.2系统开发技术32.2.1Heritrix网络爬虫简介32.2.2Lucene技术简介42.2.3Ajax技术简介43系统分析与设计63.1系统需求分析63.1.1系统架构分析63.1.2系统用例模型63.1.3系统领域模型103.2系统概要设计113.3系统详细设计123.3.1索引建立子系统133.3.2用户接口子系统174系统的实现

7、184.1系统包框架的构建184.1.1索引建立子系统184.1.2用户接口子系统194.2系统主要功能实现194.2.1索引建立子系统194.2.2用户接口子系统22结论24参考文献25致谢26-II-基于Lucene与Heritrix的搜索引擎构建1绪论1.1项目背景1994年左右,万维网(worldwideweb)出现了。它的开放性和其上信息广泛的可访问性极大的激励了人们创作的积极性。在短短的十几年间,人类至少在万维网上发布了40亿条的网页,并且现在每天都有数以万计的数量增长。由于网络上的资源与生俱来的数字化

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。