网络爬虫学习 microsoft office word 文档

网络爬虫学习 microsoft office word 文档

ID:11138027

大小:53.96 KB

页数:8页

时间:2018-07-10

网络爬虫学习 microsoft office word 文档_第1页
网络爬虫学习 microsoft office word 文档_第2页
网络爬虫学习 microsoft office word 文档_第3页
网络爬虫学习 microsoft office word 文档_第4页
网络爬虫学习 microsoft office word 文档_第5页
资源描述:

《网络爬虫学习 microsoft office word 文档》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、网络爬虫是什么网络爬虫的定义:网络蜘蛛(spider),网络机器人(robot),这是一个程序,其会自动的通过网络抓取互联网上的网页,网络爬虫是一个自动提取网页的程序,它为搜索引擎从Web上下载网页,是搜索引擎的重要组成部分。通用网络爬虫从一个或若干初始网页的URL(可以称这些URL为种子。)开始,获得初始网页上的URL列表;在抓取网页的过程中,不断从当前页面上抽取新的URL放入待爬行队列,直到满足系统的停止条件。主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链接,保留主题相关的链接并将其放入待抓取的URL队列中;然后根据一定的搜索策略

2、从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。所有被网络爬虫抓取的网页将会被系统存储,进行一定的分析、过滤,并建立索引,对于主题网络爬虫来说,这一过程所得到的分析结果还可能对后续的抓取过程进行反馈和指导。聚焦爬虫主题爬虫[1]并不追求高的覆盖率,而是选择性地取主题相关页面,具有资源占用低、索引数据库更新方便、缓存页面精确的优点。但是其实现存在以下难点:如何对主题建模,如何判定页面与主题的相关性以及如何在一个爬虫系统中容纳不同的主题抓取等。主题网络爬虫根据一定的网页分析算法过滤与主题无关的链接,遵循一定的调度

3、策略从队列中选择下一步要抓取的URL,同时系统存储的网页经过分析后的结果会反馈回来指导后续的抓取过程。聚焦网络爬虫根据既定的抓取目标,有选择地访问Web网页及相关链接,根据指定的规则抓取所需信息,其一般结构如图1所示.与通用网络爬虫不同的是,用户需要提供主题描述用于指定抓取目标,而且为了保证所获取的页面与主题相关,一方面需要根据主题描述对页面进行相关度评价并过滤掉无关页面;另一方面,还要根据主题描述对解析出的链接进行过滤,只有那些被评价为有用的链接才会被加入待处理URL队列.主题描述、页面过滤和链接过滤是聚焦网络爬虫的研究重点.聚焦网络爬虫系统

4、结构目前主题描述主要采用关键词描述、基于概念或本体的语义描述等方法[5,6].这些方法都需要人为提供反映某一主题的关键词、概念、本体或字典.此外,还有很多主题描述方法是基于机器学习[7]的,通常需要提供一些样本页面用于学习和训练主题网络爬虫涉及到的几个问题:如何描述和定义感兴趣的主题爬行策略:如何判断网页是否与主题相关一个爬虫要做的事主要有以下这些1.从一个网页入口,分析链接,一层一层的遍历,或者从一组网页入口,或者从一个rss源列表开始爬rss;2.获取每个页面的源码保存在磁盘或者数据库里;3.遍历抓下来的网页进行处理,比如提取正文,消重等;

5、4.根据用途把处理后的文本进行索引、分类、聚类等操作。网页爬虫的行为通常是四种策略组合的结果。  ♦选择策略,决定所要下载的页面;  ♦重新访问策略,决定什么时候检查页面的更新变化;  ♦平衡礼貌策略,指出怎样避免站点超载;  ♦并行策略,指出怎么协同达到分布式抓取的效果;这些过程中,大约有如下问题:如何获取网页源或者RSS源?如何进行爬行:即采用什么样的爬行策略爬行策略:广度优先:宽度优先:基于文字内容的评价搜索策略:基于内容评价的搜索策略[3,4],主要是根据主题(如关键词、主题相关文档)与链接文本的相似度来评价链接价值的高低,并以此决定其

6、搜索策略:链接文本是指链接周围的说明文字和链接URL上的文字信息基于链接结构评价的搜索策略:通过对Web页面之间相互引用关系的分析来确定链接的重要性,进而决定链接访问顺序的方法.通常认为有较多入链或出链的页面具有较高的价值.PageRank和Hits是其中具有代表性的算法.一个页面的重要程度与他自身的质量有关,与按照链接数、访问数得出的受欢迎程度有关,甚至与他本身的网址(后来出现的把搜索放在一个顶级域名或者一个固定页面上的垂直搜索)有关。如果源页面很多,如何用多线程去有效的调度处理,而不会互相等待或者重复处理?如果现在有500万个页面要去爬,肯

7、定要用多线程或者分布式多进程去处理了如何不采集重复的网页?抓下来的页面更快的保存?保存到分布式文件系统还是保存在数据库里?重新访问策略:如何有效的根据网页的更新频率来调整爬虫的采集时间间隔?网络具有动态性很强的特性。抓取网络上的一小部分内容可能会花费真的很长的时间,通常用周或者月来衡量。当爬虫完成它的抓取的任务以后,很多操作是可能会发生的,这些操作包括新建,更新和删除。 新鲜度:这是一个衡量抓取内容是不是准确的二元值。在时间t内,仓库中页面p的新鲜度是这样定义的:  过时性:这是一个衡量本地已抓取的内容过时程度的指标。在时间t时,仓库中页面p的

8、时效性的定义如下: 爬虫的目标是尽可能高的提高页面的新鲜度,同时降低页面的过时性。 统一策略:使用相同的频率,重新访问收藏中的所有的链接,而不考虑他们

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。