2007_分布式网络爬虫的设计与实现_邹鑫new

2007_分布式网络爬虫的设计与实现_邹鑫new

ID:34399776

大小:499.33 KB

页数:56页

时间:2019-03-05

2007_分布式网络爬虫的设计与实现_邹鑫new_第1页
2007_分布式网络爬虫的设计与实现_邹鑫new_第2页
2007_分布式网络爬虫的设计与实现_邹鑫new_第3页
2007_分布式网络爬虫的设计与实现_邹鑫new_第4页
2007_分布式网络爬虫的设计与实现_邹鑫new_第5页
资源描述:

《2007_分布式网络爬虫的设计与实现_邹鑫new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、北京航空航天大学本科毕业设计(论文)任务书Ⅰ、毕业设计(论文)题目:分布式网络爬虫的设计与实现Ⅱ、毕业设计(论文)使用的原始资料(数据)及设计技术要求:原始资料:《国家科技基础条件平台门户应用系统技术方案》、《国家科技基础条件平台资源评估监测技术规范》、《平台评估监测系统需求与规定总结》设计技术要求:根据项目需求,在充分理解分布式系统和网络爬虫运行机制的基础上,自主设计并实现国家科技基础条件平台门户应用系统搜索引擎的分布式网络爬虫。要求系统具有较高的效率和较好的并发性,有较好的健壮性。Ⅲ、毕业设计(论文)工作内容:查阅并调研国内外相关技术的

2、研究和发展现状;调研相关的典型商业产品和优秀开源项目,学习相关的理论知识和技能技术;阅读并学习相关的开源项目;设计分布式网络爬虫的体系结构;实现任务动态分配算法;设计并实现分布式系统通信协议;实现节点间的任务分配;为分布式爬虫设计控制端。Ⅳ、主要参考资料:1、叶允明等《分布式WebCrawler的研究:结构,算法和策略》电子学报.2003.2、张岭等.《一种高性能分布式WebCrawler的设计与实现》上海交通大学学报.2003.3、Vladislavshkapenyuk.DesignandImplementationofaHigh-Per

3、formanceDistributedWebCrawler.IEEE.20024、EdwardFredkis.TrieMemory.CommunicationsofACM.19605、叶允明等.Igloo分布式爬虫系统的性能优化.上海交大学报.20036、DustinBoswell.DistributedHigh-performanceWebCrawlers:ASurveyoftheStateoftheArt.2003.7、BoonThauLoo,OwenCooperandSaileshKrishnamurthy.DistributedWe

4、bCrawlingoverDHTs.2004.8、JunghooCho,HectorGarcia-Molina.Parallelcrawlers.InProceedingsoftheeleventhinternationalconferenceonWorldWideWeb,Honolulu,Hawaii,USA,ACMPress,2002.计算机学院(系)计算机科学与技术专业类330606班学生邹鑫毕业设计(论文)时间:2007年3月12日至2007年6月26日答辩时间:年月日成绩:指导教师:兼职教师或答疑教师(并指出所负责部分):系(教研

5、室)主任(签字):北京航空航天大学毕业设计(论文)第I页本人声明我声明,本论文及其研究工作是由本人在导师指导下独立完成的,在完成论文时所利用的一切资料均已在参考文献中列出。作者:邹鑫签字:时间:2007年6月北京航空航天大学毕业设计(论文)第II页分布式网络爬虫的设计与实现学生:邹鑫指导教师:张辉摘要随着网络技术的发展,Web上的信息海量增加,人们对信息的需求也不断加大,使得专门负责Web信息采集的网络爬虫技术面临着巨大的挑战。单机的网络爬虫在很多情况下已经难当重任,分布式网络爬虫以其单机网络爬虫无法比拟的信息采集速度和规模,满足了人们日益

6、增长的对Web信息面向用户的需求。分布式系统研究中最重要的是设计构架和关键技术的解决。在吸取了他人技术和经验的基础上,本文设计并描述了一个分布式网络爬虫的结构,其中包括硬件的构架和软件的模块划分。硬件部分由一台PC机做控制节点,N台PC机作爬行节点,在局域网中连接。软件部分又分为控制节点软件设计和爬行节点软件设计。然后本文描述了分布式系统的关键技术的解决方法。系统采用了二级哈希映射算法使分布式系统能高效的进行任务分割,使用消息通信使节点协同工作,用非阻塞套接字在节点间传递URL。最终实现了一个具备健壮性、可扩展性、可配置性的分布式网络爬虫系

7、统,并就该分布式网络爬虫系统进行了仔细的剖析。关键词:搜索引擎,网络爬虫,分布式系统北京航空航天大学毕业设计(论文)第III页DesignandImplementationofaDistributedWebCrawlerAuthor:ZouXinTutor:ZhangHuiAbstractWiththedevelopmentofInternet,informationontheWebisrapidlyexpanding,andthedemandforinformationisincreasing.Webcrawlerwhotakeschar

8、geofgatheringWebinformationisfacinganenormouschallenge.Stand-alonewebcrawlerwithlimitedga

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。