heritrix整体概述(转)

heritrix整体概述(转)

ID:13159808

大小:493.50 KB

页数:40页

时间:2018-07-21

heritrix整体概述(转)_第1页
heritrix整体概述(转)_第2页
heritrix整体概述(转)_第3页
heritrix整体概述(转)_第4页
heritrix整体概述(转)_第5页
资源描述:

《heritrix整体概述(转)》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、Heritrix源码分析(一)包介绍之前说过要分享下我的爬虫经验,但一直找不到突破口,现在才感觉写点东西真的很难,所以大家真的要感谢那些无私的前辈们,在网上留下的一篇篇可以指点迷津的文章。想了很久,还是先从Heritrix的包开始说起,然后再说类,最后讲下如何加工Heritrix,也就是将其打造成自己想要的爬虫,这里补充下,我用的版本是1.14.3.   同时欢迎加入我建的Heritrix爬虫群一起讨论学习:10447185   序号包名                                  说明1 

2、 org.apache.commons.httpclient    封装了apache的httpclient用于Fetch网页内容2org.apache.commons.httpclient.cookie封装了apache的httpclient用于Fetch网页内容,这里主要处理Cookie3org.apache.commons.pool.impl封装了apache的httpclient用于Fetch网页内容,还待研究4org.archive.crawlerHeritrix程序运行的入口包,如Heritrix运行

3、可以直接抓取5org.archive.crawler.adminHeritrix的管理包,比如CrawlJob表示一个抓取任务job,CrawlJobHandler管理JOB,以及日志统计等6org.archive.crawler.admin.ui服务于UI管理界面,如Job参数的设置7org.archive.crawler.datamodelHeritrix的数据模型包,如在Heritrix中代表一个URL的CandidateURI8org.archive.crawler.datamodel.credentia

4、l管理Heritrix数据模型中的凭证,如抓取某些网站需要用户名和密码9org.archive.crawler.deciderulesHeritrix的规则包,如决定哪些URL可以抓取可以调度10org.archive.crawler.deciderules.recrawl还待研究,应该是决定哪些URL需要重新抓取11org.archive.crawler.event事件管理,如Heritrix的暂停、重启、停止等12org.archive.crawler.extractorHeritrix的造血器,通过它抽取新

5、的URL再次进行抓取13org.archive.crawler.fetcherHeritrix的获取包,如获取HTTP、DNS、FTP数据14org.archive.crawler.filterHeritrix的过滤器,如配合Rule过滤一些不要的URL15org.archive.crawler.frameworkHeritrix的框架包,存放一些核心类,一般是父类,如Heritrix控制类CrawlController;调度器类Frontier16org.archive.crawler.framework.ex

6、ceptionsHeritrix框架异常包,通常这里的异常抛出会导致Heritrix的停止17org.archive.crawler.frontierHeritrix的调度器,决定抓取哪个URL18org.archive.crawler.ioHeritrix的IO格式包,感觉取名不合理,这里只是定义一些格式,如统计数据的格式,错误日志的格式19org.archive.crawler.postprocessor辅助处理器包,感觉取名也不合理,这里只是对处理URL前后进行一些处理,如URL重定向20org.archi

7、ve.crawler.prefetchHeritrix的预处理器包,如确定一个URL是否已经解析了DNS21org.archive.crawler.processor还没接触到,待研究22org.archive.crawler.processor.recrawl还没接触到,待研究23org.archive.crawler.scopeHeritrix抓取范围管理,如种子24org.archive.crawler.selftest管理Heritrix的Web工程self.war25org.archive.crawle

8、r.settings管理Heritrix配置文件order.xml中的各项配置26org.archive.crawler.settings.refinements管理Heritrix自己对数据格式的标准,如时间格式27org.archive.crawler.url还没怎么接触到,待研究28org.archive.crawler.url.canonicalizeHeritr

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。