资源描述:
《网络爬虫的设计与实现 文献综述》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、---------------------------------------------------------------范文最新推荐------------------------------------------------------网络爬虫的设计与实现+文献综述13/14---------------------------------------------------------------范文最新推荐---------------------------------------
2、---------------摘要:随着互联网的高速发展,在互联网搜索服务中,搜索引擎扮演着越来越重要的角色。网络爬虫是搜索引擎系统中不可或缺的组成部分,是一种自动搜集互联网信息的程序,它负责从互联网中搜集网页,并将这些页面用于建立索引从而为搜索引擎提供支持。通过网络爬虫不仅能够为搜索引擎采集网络信息,而且可以作为定向信息采集器,定向采集某些网站显示的特定信息,如招聘信息,租房信息等。本文通过JAVA实现了一个基于广度优先算法的爬虫程序。本论文从网络爬虫的应用出发,探讨了网络爬虫在搜索引擎中的作用
3、和地位,提出了网络爬虫的功能和设计要求。在对网络爬虫系统结构和工作原理所作分析的基础上,研究了页面爬取、解析等策略和算法,并使用Java实现了一个网络爬虫的程序,并对其运行结果做了分析。通过这一爬虫程序,可以搜集某一站点或多个站点的URL。连接外网后,可以爬取中国大部分大型主流门户的网站,如:百度,新浪,网易等。7384关键词:搜索引擎;JAVA;广度优先.TheDesignandImplementationofDistributedWebCrawlerAbstract:Withtherapidd
4、evelopmentofInternet,searchenginesasthemainentranceoftheInternetplaysamoreandmoreimportantrole.Webcrawlerisaveryimportantpartofthesearchengines,aprogramwhichcanautocollectinformationformInternet,whichisresponsibletocollectwebpagesfromInternet.Thesepag
5、esareusedtobuildindexandprovidesupportforsearchengines.Spidercancollectdataforsearchengines,alsocanbeadirectionalinformationcollector,collectsspecificallyinformationsfromsomewebsites,suchasHRinformations,houserentinformations.Inthispaper,useJAVAimplem
6、entsabreadth-firstalgorithmSpider.The13/14---------------------------------------------------------------范文最新推荐------------------------------------------------------paper,discussingfromtheapplicationofthesearchengine,searchestheimportanceandfunctionof
7、WebCrawlerinthesearchengine,andputsforwarditsdemandoffunctionanddesign.OnthebaseofanalyzingWebCrawler’ssystemstrtuctureandworkingelements,thispaperalsoresearchesthemethodandstrategyofmultithreadingscheduler,WebpagecrawlingandHTMLparsing.Andthen,
8、aprogramofwebpagecrawlingbasedonJavaisappliedandanalyzed.ThroughthecrawlercancollectasiteormultiplesiteURL.Linksoutsidethenetwork,youcancrawlmostofChina’smajorlarge-scaleportalsites,suchas:Baidu,Sina,Netease.3.2.3功能需求133.313/14----------