欢迎来到天天文库
浏览记录
ID:10964851
大小:1.25 MB
页数:58页
时间:2018-07-09
《分布式网络爬虫的设计与实现——爬虫节点程序的设计与实现---毕业论文.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、本科毕业论文分布式网络爬虫的设计与实现——爬虫节点程序的设计与实现TheDesignandImplementationofDistributedWebCrawler——TheDesignandImplementationofCrawlerNode姓名:学号:学 院:软件学院系:软件工程专业:软件工程年级:指导教师: 年月摘 要搜索引擎是从互联网上快速而有效地获取信息资源的捷径。网络爬虫是搜索引擎的重要组成部分,它在搜索引擎中负责网络信息采集,是搜索引擎数据库中原始信息唯一的来源。本文围绕着网络搜索这一前沿技术,深入研究了网络爬虫的工作原理和相关技术,并在这些研究工作的基础之上设计实现了一个
2、高性能分布式网络爬虫系统。本文研究了搜索引擎的发展历程,从中了解了网络爬虫的应用意义和实际价值,而后又对网络爬虫的历史和发展现状进行了学习和研究,总结前人的经验,为自身的研究奠定好坚实的基础。在对网络爬虫研究背景有了较深的了解之后,开始着手研究和分析分布式网络爬虫节点现有的实现技术,包括爬行的策略、网页的测评算法、HTML网页文档的分析、多线程的使用、不同网页编码转换、爬虫的优雅爬行等等。并将这些关键技术应用于分布式网络爬虫节点当中。完成了对理论知识的理解和掌握,接下来就是应用到实际的工作当中。主要对分布式网络爬虫节点进行基础的逻辑分析;对爬虫节点进行了功能模块的划分,使得各个模块的功能都有
3、了详细的分配;然后对爬虫节点的工作流程进行详尽的设计;最后综合设计思想,完成对爬虫节点具体类结构的设计工作。最终实现了一个分布式网络爬虫的程序原型,通过在互联网上进行实验,检验了网络爬虫节点的运行效果,由此验证了分布式网络爬虫的可行性和有效性。关键词:并行;网络爬虫节点;信息采集;AbstractAsearchengineisashortcuttoaccesstoinformationresources.Asanimportantcomponentofasearchengine,webcrawlerisresponsibleforwebinformationcollection,whichi
4、stheonlysourceoforiginalinformationinsearchenginedatabase.Thispaperrevolvesaroundthecutting-edgewebsearchtechnology,reptile-depthstudyofthetheoryandrelatedtechnologiesofwebcrawler.Ahighperformancedistributedwebcrawlerisdesignedandimplementedbasedonthisknowledge.Thispaperresearchthedevelopmentofsear
5、chengines,understandingtheapplicationmeaningandrealvalueofthewebcrawlerfromtheresearch.Andthenlearningandresearchthehistoryanddevelopmentofthewebcrawler.Summinguptheexperienceoftheirpredecessors,layasolidfoundationfortheresearch.Withdeeperunderstandingoftheresearchbackgroundofthewebcrawler,Ithensta
6、rttoresearchandanalyzethetechnologyofthedistirbutedwebcrawlernode,includingcrawlstrategy,webpageevaluation,HTMLwebdocumentanalysis,usingmultithreading,changewebpagecoding,politecrawletc.Andusethekeytechnologyintheimplementationofthedistirbutedwebcrawlernode.Whenunderstandandmasteryoftheoreticalknow
7、ledge,thenextisappliedtotheactualwork.Analyzethebaselogicofthedistributedwebcrawlernode;partitionthefunctionofeachmoduleofthecarwlernode,makethedistributionofthefunctionsforeachmoduleindetails;detaileddesig
此文档下载收益归作者所有