分布式网络爬虫的设计与实现——爬虫节点程序的设计与实现---毕业论文.doc

分布式网络爬虫的设计与实现——爬虫节点程序的设计与实现---毕业论文.doc

ID:10964851

大小:1.25 MB

页数:58页

时间:2018-07-09

分布式网络爬虫的设计与实现——爬虫节点程序的设计与实现---毕业论文.doc_第1页
分布式网络爬虫的设计与实现——爬虫节点程序的设计与实现---毕业论文.doc_第2页
分布式网络爬虫的设计与实现——爬虫节点程序的设计与实现---毕业论文.doc_第3页
分布式网络爬虫的设计与实现——爬虫节点程序的设计与实现---毕业论文.doc_第4页
分布式网络爬虫的设计与实现——爬虫节点程序的设计与实现---毕业论文.doc_第5页
资源描述:

《分布式网络爬虫的设计与实现——爬虫节点程序的设计与实现---毕业论文.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、本科毕业论文分布式网络爬虫的设计与实现——爬虫节点程序的设计与实现TheDesignandImplementationofDistributedWebCrawler——TheDesignandImplementationofCrawlerNode姓名:学号:学  院:软件学院系:软件工程专业:软件工程年级:指导教师: 年月摘 要搜索引擎是从互联网上快速而有效地获取信息资源的捷径。网络爬虫是搜索引擎的重要组成部分,它在搜索引擎中负责网络信息采集,是搜索引擎数据库中原始信息唯一的来源。本文围绕着网络搜索这一前沿技术,深入研究了网络爬虫的工作原理和相关技术,并在这些研究工作的基础之上设计实现了一个

2、高性能分布式网络爬虫系统。本文研究了搜索引擎的发展历程,从中了解了网络爬虫的应用意义和实际价值,而后又对网络爬虫的历史和发展现状进行了学习和研究,总结前人的经验,为自身的研究奠定好坚实的基础。在对网络爬虫研究背景有了较深的了解之后,开始着手研究和分析分布式网络爬虫节点现有的实现技术,包括爬行的策略、网页的测评算法、HTML网页文档的分析、多线程的使用、不同网页编码转换、爬虫的优雅爬行等等。并将这些关键技术应用于分布式网络爬虫节点当中。完成了对理论知识的理解和掌握,接下来就是应用到实际的工作当中。主要对分布式网络爬虫节点进行基础的逻辑分析;对爬虫节点进行了功能模块的划分,使得各个模块的功能都有

3、了详细的分配;然后对爬虫节点的工作流程进行详尽的设计;最后综合设计思想,完成对爬虫节点具体类结构的设计工作。最终实现了一个分布式网络爬虫的程序原型,通过在互联网上进行实验,检验了网络爬虫节点的运行效果,由此验证了分布式网络爬虫的可行性和有效性。关键词:并行;网络爬虫节点;信息采集;AbstractAsearchengineisashortcuttoaccesstoinformationresources.Asanimportantcomponentofasearchengine,webcrawlerisresponsibleforwebinformationcollection,whichi

4、stheonlysourceoforiginalinformationinsearchenginedatabase.Thispaperrevolvesaroundthecutting-edgewebsearchtechnology,reptile-depthstudyofthetheoryandrelatedtechnologiesofwebcrawler.Ahighperformancedistributedwebcrawlerisdesignedandimplementedbasedonthisknowledge.Thispaperresearchthedevelopmentofsear

5、chengines,understandingtheapplicationmeaningandrealvalueofthewebcrawlerfromtheresearch.Andthenlearningandresearchthehistoryanddevelopmentofthewebcrawler.Summinguptheexperienceoftheirpredecessors,layasolidfoundationfortheresearch.Withdeeperunderstandingoftheresearchbackgroundofthewebcrawler,Ithensta

6、rttoresearchandanalyzethetechnologyofthedistirbutedwebcrawlernode,includingcrawlstrategy,webpageevaluation,HTMLwebdocumentanalysis,usingmultithreading,changewebpagecoding,politecrawletc.Andusethekeytechnologyintheimplementationofthedistirbutedwebcrawlernode.Whenunderstandandmasteryoftheoreticalknow

7、ledge,thenextisappliedtotheactualwork.Analyzethebaselogicofthedistributedwebcrawlernode;partitionthefunctionofeachmoduleofthecarwlernode,makethedistributionofthefunctionsforeachmoduleindetails;detaileddesig

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。