欢迎来到天天文库
浏览记录
ID:11234229
大小:27.79 KB
页数:5页
时间:2018-07-10
《网络数据爬虫调查结果》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、对网页爬虫的调查结果调查人:王杨斌对于爬虫工具以及代码的调查,主要调查的内容是关于PHP和Java的工具代码。1.Java类爬虫1.1.JAVA爬虫WebCollector爬虫简介:WebCollector[[]http://www.oschina.net/p/webcollector]是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。爬虫内核:WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次开发
2、。内核具有很强劲。1.2.Web-HarvestWeb-Harvest[[]http://www.oschina.net/p/web-harvest]是一个用Java语言编写的是网络爬虫工具,应用比较广泛。其可以收集指定的页面并从这些页面中提取有用的数据。Web-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。Web-Harvest主要是运用了像XSLT,XQuery,正则表达式等这些技术来实现对text/xml的操作。1.3.Java网页
3、爬虫JSpiderJSpider[[]http://www.oschina.net/p/jspider]是一个用Java实现的WebSpider。JSpider的行为是由配置文件具体配置的,比如采用什么插件,结果存储方式等等都在conf[ConfigName]目录下设置。JSpider默认的配置种类很少,用途也不大。但是JSpider非常容易扩展,可以利用它开发强大的网页抓取与数据分析工具。要做到这些,需要对JSpider的原理有深入的了解,然后根据自己的需求开发插件,撰写配置文件。1.4.we
4、b爬虫HeritrixHeritrix[[]http://www.oschina.net/p/heritrix]是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和METArobots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。Heritrix是一个爬虫框架,其组织结构包含了整个组件和抓取流程。1.5.webmagiclogo垂直爬虫webmagicWebmagic[[]http://ww
5、w.oschina.net/p/webmagic]的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。1.6.Java多线程Web爬虫Crawler4jCrawler4j[[]http://www.oschina.net/p/crawler4j]是一个开源的Java类库提供一个
6、用于抓取Web页面的简单接口。可以利用它来构建一个多线程的Web爬虫。1.7.Java网络蜘蛛/网络爬虫SpidermanSpiderman[[]http://www.oschina.net/p/spiderman]是一个基于微内核+插件式架构的网络蜘蛛,它的目标是通过简单的方法就能将复杂的目标网页信息抓取并解析为自己所需要的业务数据。2.C/C++类爬虫2.1.网站爬虫GrubNextGenerationGrubNextGeneration[[]http://www.oschina.net/p/g
7、rub+next+generation]是一个分布式的网页爬虫系统,包含客户端和服务器可以用来维护网页的索引。其开发语言:C/C++PerlC#。2.2.网页爬虫MethanolMethanol[[]http://www.oschina.net/p/methanol]是一个模块化的可定制的网页爬虫软件,主要的优点是速度快。2.3.网络爬虫/网络蜘蛛larbinLarbin[[]http://www.oschina.net/p/larbin]是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人Sébasti
8、enAilleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。Larbin只是一个爬虫,也就是说larbin只抓取网页,至于如何parse的事情则由用户自己完成。另外,如何存储到数据库以及建立索引的事情larbin也不提供。一个简单的larbin的爬虫可以每天获取500万的网页。利用larbin,我们可以轻易的获取/确定单个网站的所有链接,甚至可以镜像一个网站;也可以用它建立url列表群,例如针对所有的网页进行u
此文档下载收益归作者所有