nutch爬虫系统分析

ID：8769633

大小：516.50 KB

页数：59页

时间：2018-04-07

资源描述：

《nutch爬虫系统分析》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、nutch爬虫系统分析Nutch分析1Nutch简介21.1nutch体系结构22抓取部分32.1爬虫的数据结构及含义32.2抓取目录分析42.3抓取过程概述42.4抓取过程分析52.4.1inject方法62.4.2generate方法122.4.3fetch方法142.4.4parse方法162.4.5update方法162.4.6invert方法192.4.7index方法232.4.8dedup方法262.4.9merge方法303配置文件分析313.1nutch-default.xml

2、分析313.1.1313.1.2323.1.3353.1.4373.1.5413.1.6423.1.7433.1.8453.1.10453.1.11483.1.12483.1.13493.1.14493.1.15513.1.16523.1.17523.1.18533.1.19533.1.20543.1.21553.1.22<

5、!--microformats-reltagpluginproperties-->553.1.23553.1.2456nutch爬虫系统分析3.1.25563.2regex-urlfilter.txt解析583.3regex-normalize.xml解析583.4总结594

6、参考资源591Nutch简介1.1nutch体系结构nutch爬虫系统分析1抓取部分1.1爬虫的数据结构及含义爬虫系统是由Nutch的爬虫工具驱动的。并且把构建和维护一些数据结构类型同一系列工具关联起来：包括webdatabase、一系列的segment和index。接下来我们将详细描述他们。三者的物理文件分别存储在爬行结果目录下的crawldb文件夹内，segments文件夹和index文件夹内。那么三者分别存储的信息是什么呢？Webdatabase，也叫WebDB，其中存储的是爬虫所抓取网页

7、之间的链接结构信息，它只在爬虫Crawler工作中使用而和Searcher的工作没有任何关系。WebDB内存储了两种实体的信息：page和link。Page实体通过描述网络上一个网页的特征信息来表征一个实际的网页，因为网页有很多个需要描述，WebDB中通过网页的URL和网页内容的MD5两种索引方法对这些网页实体进行了索引。Page实体描述的网页特征主要包括网页内的link数目，抓取此网页的时间等相关抓取信息，对此网页的重要度评分等。同样的，Link实体描述的是两个page实体之间的链接关系。We

8、bDB构成了一个所抓取网页的链接结构图，这个图中Page实体是图的结点，而Link实体则代表图的边。一次爬行会产生很多个segment，每个segment内存储的是爬虫Crawler在单独一次抓取循环中抓到的网页以及这些网页的索引。Crawler爬行时会根据WebDB中的link关系按照一定的爬行策略生成每次抓取循环所需的fetchlist，然后Fetcher通过nutch爬虫系统分析fetchlist中的URLs抓取这些网页并索引，然后将其存入segment。Segment是有时限的，当这些网

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 59



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

nutch爬虫系统分析

nutch爬虫系统分析

相关文章

相关标签