分布式网络爬虫的设计与实现——爬虫节点程序的设计与实现---毕业论文

分布式网络爬虫的设计与实现——爬虫节点程序的设计与实现---毕业论文

ID:15417712

大小:1.25 MB

页数:58页

时间:2018-08-03

分布式网络爬虫的设计与实现——爬虫节点程序的设计与实现---毕业论文_第1页
分布式网络爬虫的设计与实现——爬虫节点程序的设计与实现---毕业论文_第2页
分布式网络爬虫的设计与实现——爬虫节点程序的设计与实现---毕业论文_第3页
分布式网络爬虫的设计与实现——爬虫节点程序的设计与实现---毕业论文_第4页
分布式网络爬虫的设计与实现——爬虫节点程序的设计与实现---毕业论文_第5页
资源描述:

《分布式网络爬虫的设计与实现——爬虫节点程序的设计与实现---毕业论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、本科毕业论文分布式网络爬虫的设计与实现——爬虫节点程序的设计与实现TheDesignandImplementationofDistributedWebCrawler——TheDesignandImplementationofCrawlerNode姓名:学号:学  院:软件学院系:软件工程专业:软件工程年级:指导教师: 年月摘 要搜索引擎是从互联网上快速而有效地获取信息资源的捷径。网络爬虫是搜索引擎的重要组成部分,它在搜索引擎中负责网络信息采集,是搜索引擎数据库中原始信息唯一的来源。本文围绕着网络搜索这一前沿技术,深入研究

2、了网络爬虫的工作原理和相关技术,并在这些研究工作的基础之上设计实现了一个高性能分布式网络爬虫系统。本文研究了搜索引擎的发展历程,从中了解了网络爬虫的应用意义和实际价值,而后又对网络爬虫的历史和发展现状进行了学习和研究,总结前人的经验,为自身的研究奠定好坚实的基础。在对网络爬虫研究背景有了较深的了解之后,开始着手研究和分析分布式网络爬虫节点现有的实现技术,包括爬行的策略、网页的测评算法、HTML网页文档的分析、多线程的使用、不同网页编码转换、爬虫的优雅爬行等等。并将这些关键技术应用于分布式网络爬虫节点当中。完成了对理论知识

3、的理解和掌握,接下来就是应用到实际的工作当中。主要对分布式网络爬虫节点进行基础的逻辑分析;对爬虫节点进行了功能模块的划分,使得各个模块的功能都有了详细的分配;然后对爬虫节点的工作流程进行详尽的设计;最后综合设计思想,完成对爬虫节点具体类结构的设计工作。最终实现了一个分布式网络爬虫的程序原型,通过在互联网上进行实验,检验了网络爬虫节点的运行效果,由此验证了分布式网络爬虫的可行性和有效性。关键词:并行;网络爬虫节点;信息采集;AbstractAsearchengineisashortcuttoaccesstoinformat

4、ionresources.Asanimportantcomponentofasearchengine,webcrawlerisresponsibleforwebinformationcollection,whichistheonlysourceoforiginalinformationinsearchenginedatabase.Thispaperrevolvesaroundthecutting-edgewebsearchtechnology,reptile-depthstudyofthetheoryandrelated

5、technologiesofwebcrawler.Ahighperformancedistributedwebcrawlerisdesignedandimplementedbasedonthisknowledge.Thispaperresearchthedevelopmentofsearchengines,understandingtheapplicationmeaningandrealvalueofthewebcrawlerfromtheresearch.Andthenlearningandresearchthehis

6、toryanddevelopmentofthewebcrawler.Summinguptheexperienceoftheirpredecessors,layasolidfoundationfortheresearch.Withdeeperunderstandingoftheresearchbackgroundofthewebcrawler,Ithenstarttoresearchandanalyzethetechnologyofthedistirbutedwebcrawlernode,includingcrawlstr

7、ategy,webpageevaluation,HTMLwebdocumentanalysis,usingmultithreading,changewebpagecoding,politecrawletc.Andusethekeytechnologyintheimplementationofthedistirbutedwebcrawlernode.Whenunderstandandmasteryoftheoreticalknowledge,thenextisappliedtotheactualwork.Analyzeth

8、ebaselogicofthedistributedwebcrawlernode;partitionthefunctionofeachmoduleofthecarwlernode,makethedistributionofthefunctionsforeachmoduleindetails;detaileddesig

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。