无比强大的网络爬虫heritrix

无比强大的网络爬虫heritrix

ID:15068158

大小:1.13 MB

页数:43页

时间:2018-08-01

无比强大的网络爬虫heritrix_第1页
无比强大的网络爬虫heritrix_第2页
无比强大的网络爬虫heritrix_第3页
无比强大的网络爬虫heritrix_第4页
无比强大的网络爬虫heritrix_第5页
资源描述:

《无比强大的网络爬虫heritrix》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第10章无比强大的网络爬虫HeritrixLucene很强大,这点在前面的章节中,已经作了详细介绍。但是,无论多么强大的搜索引擎工具,在其后台,都需要一样东西来支援它,那就是网络爬虫Spider。网络爬虫,又被称为蜘蛛Spider,或是网络机器人、BOT等,这些都无关紧要,最重要的是要认识到,由于爬虫的存在,才使得搜索引擎有了丰富的资源。Heritrix是一个纯由Java开发的、开源的Web网络爬虫,用户可以使用它从网络上抓取想要的资源。它来自于www.archive.org。Heritrix最出色之处在于它的可扩展性,开

2、发者可以扩展它的各个组件,来实现自己的抓取逻辑。本章就来详细介绍一下Heritrix和它的各个组件。10.1Heritrix的使用入门要想学会使用Heritrix,当然首先得能把它运行起来。然而,运行Heritrix并非一件容易的事,需要进行很多配置。在Heritrix的文档中对它的运行有详细的介绍,不过尽管如此,笔者仍然花了大量时间,才将其配置好并运行成功。10.1.1下载和运行HeritrixHeritrix的下载页面为:http://crawler.archive.org/downloads.html。从上面可以链接

3、到SourceForge的下载页面。当前Heritrix的最新版本为1.10。(1)在下载完Heritrix的完整开发包后,解压到本地的一个目录下,如图10-1所示。图10-1Heritrix的目录结构其中,Heritrix所用到的工具类库都存于lib下,heritrix-1.10.1.jar是Heritrix的Jar包。另外,在Heritrix目录下有一个conf目录,其中包含了一个很重要的文件:heritrix.properties。(2)在heritrix.properties中配置了大量与Heritrix运行息息相

4、关的参数,这些参数主要是配置了Heritrix运行时的一些默认工具类、WebUI的启动参数,以及Heritrix的日志格式等。当第一次运行Heritrix时,只需要修改该文件,为其加入WebUI的登录名和密码,如图10-2所示。图10-2修改Heritrix的WebUI的登录名和密码其中,用户名和密码是以一个冒号进行分隔,使用者可以指定任何的字符串做为用户名密码,图中所示只不过延续了Heritrix以前版本中默认的用户名和密码而已。(3)在设置完登录名和密码后,就可以开始运行Heritrix了。Heritrix有多种方式启

5、动,例如,可以使用CrawlController,以后台方式加载一个抓取任务,即为编程式启动。不过最常见的还是以WebUI的方式启动它。(4)Heritrix的主类为org.archive.crawler.Heritrix,运行它,就可以启动Heritrix。当然,在运行它的时候,需要为其加上lib目录下的所有jar包。以下是笔者在命令行中启动Heritrix时所使用的批处理文件,此处列出,仅供读者参考(笔者的Heritrix目录是位于E盘的根目下,即E:heritrix)。代码10.1java-Xmx512m-Dher

6、itrix.home=e:\heritrix-cp"E:\heritrix\lib\commons-codec-1.3.jar;E:\heritrix\lib\commons-collections-3.1.jar;E:\heritrix\lib\dnsjava-1.6.2.jar;E:\heritrix\lib\poi-scratchpad-2.0-RC1-20031102.jar;E:\heritrix\lib\commons-logging-1.0.4.jar;E:\heritrix

7、\lib\commons-httpclient-3.0.1.jar;E:\heritrix\lib\commons-cli-1.0.jar;E:\heritrix\lib\mg4j-1.0.1.jar;E:\heritrix\lib\javaswf-CVS-SNAPSHOT-1.jar;E:\heritrix\lib\bsh-2.0b4.jar;E:\heritrix\lib\servlet-tomcat-4.1.30.jar;E:\heritrix\lib\junit-3.8.1.

8、jar;E:\heritrix\lib\jasper-compiler-tomcat-4.1.30.jar;E:\heritrix\lib\commons-lang-2.1.jar;E:\heritrix\lib\itext-1.2.0.jar;E:\heritrix\lib\p

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。