欢迎来到天天文库
浏览记录
ID:15417712
大小:1.25 MB
页数:58页
时间:2018-08-03
《分布式网络爬虫的设计与实现——爬虫节点程序的设计与实现---毕业论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、本科毕业论文分布式网络爬虫的设计与实现——爬虫节点程序的设计与实现TheDesignandImplementationofDistributedWebCrawler——TheDesignandImplementationofCrawlerNode姓名:学号:学 院:软件学院系:软件工程专业:软件工程年级:指导教师: 年月摘 要搜索引擎是从互联网上快速而有效地获取信息资源的捷径。网络爬虫是搜索引擎的重要组成部分,它在搜索引擎中负责网络信息采集,是搜索引擎数据库中原始信息唯一的来源。本文围绕着网络搜索这一前沿技术,深入研究
2、了网络爬虫的工作原理和相关技术,并在这些研究工作的基础之上设计实现了一个高性能分布式网络爬虫系统。本文研究了搜索引擎的发展历程,从中了解了网络爬虫的应用意义和实际价值,而后又对网络爬虫的历史和发展现状进行了学习和研究,总结前人的经验,为自身的研究奠定好坚实的基础。在对网络爬虫研究背景有了较深的了解之后,开始着手研究和分析分布式网络爬虫节点现有的实现技术,包括爬行的策略、网页的测评算法、HTML网页文档的分析、多线程的使用、不同网页编码转换、爬虫的优雅爬行等等。并将这些关键技术应用于分布式网络爬虫节点当中。完成了对理论知识
3、的理解和掌握,接下来就是应用到实际的工作当中。主要对分布式网络爬虫节点进行基础的逻辑分析;对爬虫节点进行了功能模块的划分,使得各个模块的功能都有了详细的分配;然后对爬虫节点的工作流程进行详尽的设计;最后综合设计思想,完成对爬虫节点具体类结构的设计工作。最终实现了一个分布式网络爬虫的程序原型,通过在互联网上进行实验,检验了网络爬虫节点的运行效果,由此验证了分布式网络爬虫的可行性和有效性。关键词:并行;网络爬虫节点;信息采集;AbstractAsearchengineisashortcuttoaccesstoinformat
4、ionresources.Asanimportantcomponentofasearchengine,webcrawlerisresponsibleforwebinformationcollection,whichistheonlysourceoforiginalinformationinsearchenginedatabase.Thispaperrevolvesaroundthecutting-edgewebsearchtechnology,reptile-depthstudyofthetheoryandrelated
5、technologiesofwebcrawler.Ahighperformancedistributedwebcrawlerisdesignedandimplementedbasedonthisknowledge.Thispaperresearchthedevelopmentofsearchengines,understandingtheapplicationmeaningandrealvalueofthewebcrawlerfromtheresearch.Andthenlearningandresearchthehis
6、toryanddevelopmentofthewebcrawler.Summinguptheexperienceoftheirpredecessors,layasolidfoundationfortheresearch.Withdeeperunderstandingoftheresearchbackgroundofthewebcrawler,Ithenstarttoresearchandanalyzethetechnologyofthedistirbutedwebcrawlernode,includingcrawlstr
7、ategy,webpageevaluation,HTMLwebdocumentanalysis,usingmultithreading,changewebpagecoding,politecrawletc.Andusethekeytechnologyintheimplementationofthedistirbutedwebcrawlernode.Whenunderstandandmasteryoftheoreticalknowledge,thenextisappliedtotheactualwork.Analyzeth
8、ebaselogicofthedistributedwebcrawlernode;partitionthefunctionofeachmoduleofthecarwlernode,makethedistributionofthefunctionsforeachmoduleindetails;detaileddesig
此文档下载收益归作者所有