基于Nutch + Lucene搜索引擎的搭建 -爬虫系统的设计与主题相关的若干探索-毕业论文.doc

基于Nutch + Lucene搜索引擎的搭建 -爬虫系统的设计与主题相关的若干探索-毕业论文.doc

ID:10963722

大小:1.07 MB

页数:62页

时间:2018-07-09

基于Nutch + Lucene搜索引擎的搭建 -爬虫系统的设计与主题相关的若干探索-毕业论文.doc_第1页
基于Nutch + Lucene搜索引擎的搭建 -爬虫系统的设计与主题相关的若干探索-毕业论文.doc_第2页
基于Nutch + Lucene搜索引擎的搭建 -爬虫系统的设计与主题相关的若干探索-毕业论文.doc_第3页
基于Nutch + Lucene搜索引擎的搭建 -爬虫系统的设计与主题相关的若干探索-毕业论文.doc_第4页
基于Nutch + Lucene搜索引擎的搭建 -爬虫系统的设计与主题相关的若干探索-毕业论文.doc_第5页
资源描述:

《基于Nutch + Lucene搜索引擎的搭建 -爬虫系统的设计与主题相关的若干探索-毕业论文.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、本科毕业论文(科研训练、毕业设计)题目:基于Nutch+Lucene搜索引擎的搭建-爬虫系统的设计与主题相关的若干探索姓名:学院:软件学院系:软件工程专业:软件工程年级:学号:指导教师:职称:年月摘要摘要搜索引擎是为满足人们对网络信息的搜索需求而发展起来的技术。近年来,随着网络信息量的与日俱增,人们已经越来越离不开搜索引擎了。搜索引擎以一定的策略利用网络爬虫爬取网络上的各种资源,建立索引,并对信息进行分析,提取,组织和处理,从而起到信息导航的作用。本文阐述了搜索引擎的基本运作流程,并通过Nutch深入了

2、解,分析了网络爬虫部分的工作流程,最后构建出了一个基于Nutch+Lucene的搜索引擎。通过网络爬虫在爬取阶段与主题关键字的比较判别实现了主题判别。关键词:Nutch;Lucene;主题搜索III摘要ConstructionofSearchEnginebasedonNutchplusLucene-SeveralexplorationsofthetopicalnetworkspiderandtheReptilesystemdesignAbstractSearchEngineisaburgeoningte

3、chnologywhichhelpusintheinformationeratomeetoursearchingdemandsofinformationthroughTBsofdataontheInternet.BasedonusingthecorefunctionsoftheNetworkSpiderstrategeticaly,SearchEnginescouldactlikeaninformationnavigatortobuildindexes,analysisthedata,abstracta

4、ndorganizeinformation,soastohuntwhatweneedfromtherichresourcesoftheInternet.Thisthesisintroducesthebasictheoriesofthesearchengine,analyzetheworkingproceduresofthecrawlingpartthoroughlybytheexampleofNutch,andconstructaSearchenginebasedonNutch+Lucene,which

5、implimentsthetopicdiscriminationbycomparingthetopickeywordswiththecontentsfromwebpages.KeyWords:NutchLucenetopicalcrawlIII目录目录第一章绪论11.1课题研究背景11.2搜索引擎的原理41.3本文主要工作61.4论文组织6第二章Nutch及其相关技术72.1Nutch72.2Lucene132.3Hadoop132.4MapReduce14第三章系统概要设计163.1系统总体架构163

6、.2系统爬虫模块183.3主题判别193.4系统界面模块19第四章系统的设计与实现254.1基础设施平台254.2系统爬虫部分的实现254.3系统界面部分的实现314.4爬虫爬取结果分析34第五章总结与展望395.1工作总结395.2工作展望39致谢语40参考文献41附录A42A.1Nutch在cygwin下的配置与使用42III目录ContentCHAPTER1INTRODUCTION11.1ResearchBackground11.2ThePrinciplesofSearchEngine41.3Ma

7、inTaskofThisThesis61.4ThesisOrganization6CHAPTER2NUTCHANDRELATEDTECHNOLOGIES72.1Nutch72.2Lucene132.3Hadoop142.4MapReduce15CHAPTER3SYSTEMOUTLINEDESIGN163.1SystemOverallFramework163.2System’sCrawlModule183.3TopicalDiscriminant193.4System’sInterfaceModule20

8、CHAPTER4DESIGNANDIMPLEMENTATIONOFSYSTEM254.1BasicImplementationPlatform254.2ImplementationofTheCrawlPart254.3ImplementationofTheSystem’sInterface314.4AnalyzeTheCrawledResults34CHAPTER5CONCLUSIONSANDFUTUREWORK395.1Conclusio

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。