欢迎来到天天文库
浏览记录
ID:10963722
大小:1.07 MB
页数:62页
时间:2018-07-09
《基于Nutch + Lucene搜索引擎的搭建 -爬虫系统的设计与主题相关的若干探索-毕业论文.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、本科毕业论文(科研训练、毕业设计)题目:基于Nutch+Lucene搜索引擎的搭建-爬虫系统的设计与主题相关的若干探索姓名:学院:软件学院系:软件工程专业:软件工程年级:学号:指导教师:职称:年月摘要摘要搜索引擎是为满足人们对网络信息的搜索需求而发展起来的技术。近年来,随着网络信息量的与日俱增,人们已经越来越离不开搜索引擎了。搜索引擎以一定的策略利用网络爬虫爬取网络上的各种资源,建立索引,并对信息进行分析,提取,组织和处理,从而起到信息导航的作用。本文阐述了搜索引擎的基本运作流程,并通过Nutch深入了
2、解,分析了网络爬虫部分的工作流程,最后构建出了一个基于Nutch+Lucene的搜索引擎。通过网络爬虫在爬取阶段与主题关键字的比较判别实现了主题判别。关键词:Nutch;Lucene;主题搜索III摘要ConstructionofSearchEnginebasedonNutchplusLucene-SeveralexplorationsofthetopicalnetworkspiderandtheReptilesystemdesignAbstractSearchEngineisaburgeoningte
3、chnologywhichhelpusintheinformationeratomeetoursearchingdemandsofinformationthroughTBsofdataontheInternet.BasedonusingthecorefunctionsoftheNetworkSpiderstrategeticaly,SearchEnginescouldactlikeaninformationnavigatortobuildindexes,analysisthedata,abstracta
4、ndorganizeinformation,soastohuntwhatweneedfromtherichresourcesoftheInternet.Thisthesisintroducesthebasictheoriesofthesearchengine,analyzetheworkingproceduresofthecrawlingpartthoroughlybytheexampleofNutch,andconstructaSearchenginebasedonNutch+Lucene,which
5、implimentsthetopicdiscriminationbycomparingthetopickeywordswiththecontentsfromwebpages.KeyWords:NutchLucenetopicalcrawlIII目录目录第一章绪论11.1课题研究背景11.2搜索引擎的原理41.3本文主要工作61.4论文组织6第二章Nutch及其相关技术72.1Nutch72.2Lucene132.3Hadoop132.4MapReduce14第三章系统概要设计163.1系统总体架构163
6、.2系统爬虫模块183.3主题判别193.4系统界面模块19第四章系统的设计与实现254.1基础设施平台254.2系统爬虫部分的实现254.3系统界面部分的实现314.4爬虫爬取结果分析34第五章总结与展望395.1工作总结395.2工作展望39致谢语40参考文献41附录A42A.1Nutch在cygwin下的配置与使用42III目录ContentCHAPTER1INTRODUCTION11.1ResearchBackground11.2ThePrinciplesofSearchEngine41.3Ma
7、inTaskofThisThesis61.4ThesisOrganization6CHAPTER2NUTCHANDRELATEDTECHNOLOGIES72.1Nutch72.2Lucene132.3Hadoop142.4MapReduce15CHAPTER3SYSTEMOUTLINEDESIGN163.1SystemOverallFramework163.2System’sCrawlModule183.3TopicalDiscriminant193.4System’sInterfaceModule20
8、CHAPTER4DESIGNANDIMPLEMENTATIONOFSYSTEM254.1BasicImplementationPlatform254.2ImplementationofTheCrawlPart254.3ImplementationofTheSystem’sInterface314.4AnalyzeTheCrawledResults34CHAPTER5CONCLUSIONSANDFUTUREWORK395.1Conclusio
此文档下载收益归作者所有