python爬虫设计入门教学提纲.ppt

python爬虫设计入门教学提纲.ppt

ID:60851864

大小:931.00 KB

页数:24页

时间:2020-12-23

python爬虫设计入门教学提纲.ppt_第1页
python爬虫设计入门教学提纲.ppt_第2页
python爬虫设计入门教学提纲.ppt_第3页
python爬虫设计入门教学提纲.ppt_第4页
python爬虫设计入门教学提纲.ppt_第5页
资源描述:

《python爬虫设计入门教学提纲.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、python爬虫设计入门网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。什么是爬虫批量型爬虫批量型爬虫有明确的抓取范围和目标,当爬虫达到这个设定的目标后,即停止抓取过程。增量型爬虫增量型爬虫会持续不断的抓取,对于抓取的网页,要定期更新。通用的商业搜索引擎爬虫基本都属于此类。垂直型爬虫垂直型爬虫关注特定主题内容或者属于特定行业的网页,其他主题或者其他行业的内容不再考虑范围。爬虫的分类通用爬虫框架

2、基本工作流程网络爬虫的基本工作流程如下:1.首先选取一部分精心挑选的种子URL;2.将这些URL放入待抓取URL队列;3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。4.分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。从爬虫的角度对互联网进行划分从爬虫的角度对互联网进行划分对应的,可以将互联网的所有页面分为五个部分:1.已下载未过期网页2.已下载已过期网页:抓取到的网页实际上是互联网内容的一个镜像与备份,互

3、联网是动态变化的,一部分互联网上的内容已经发生了变化,这时,这部分抓取到的网页就已经过期了。3.待下载网页:也就是待抓取URL队列中的那些页面4.可知网页:还没有抓取下来,也没有在待抓取URL队列中,但是可以通过对已抓取页面或者待抓取URL对应页面进行分析获取到的URL,认为是可知网页。5.还有一部分网页,爬虫是无法直接抓取下载的。称为不可知网页。抓取策略在爬虫系统中,待抓取URL队列是很重要的一部分。待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题,因为这涉及到先抓取那个页面,后抓取哪个页面。而决定这些URL排列顺序的方法,叫做抓取策略。下面重点介绍几种常见的抓取策

4、略:1.深度优先遍历策略2.宽度优先遍历策略3.反向链接数策略4.PartialPageRank策略抓取策略depth-first:遍历的路径:A-F-G E-H-IBCDbreadth-first:遍历的路径:A-B-C-D-E-FGHI网页更新策略互联网是实时变化的,具有很强的动态性。网页更新策略主要是决定何时更新之前已经下载过的页面。常见的更新策略又以下三种:1.历史参考策略顾名思义,根据页面以往的历史更新数据,预测该页面未来何时会发生变化。一般来说,是通过泊松过程进行建模进行预测。网页更新策略2.用户体验策略     尽管搜索引擎针对于某个查询条件能够返回数量巨大的结果,但是

5、用户往往只关注前几页结果。因此,抓取系统可以优先更新那些显示在查询结果前几页中的网页,而后再更新那些后面的网页。这种更新策略也是需要用到历史信息的。用户体验策略保留网页的多个历史版本,并且根据过去每次内容变化对搜索质量的影响,得出一个平均值,用这个值作为决定何时重新抓取的依据网页更新策略3.聚类抽样策略前面提到的两种更新策略都有一个前提:需要网页的历史信息。这样就存在两个问题:第一,系统要是为每个系统保存多个版本的历史信息,无疑增加了很多的系统负担;第二,要是新的网页完全没有历史信息,就无法确定更新策略。这种策略认为,网页具有很多属性,类似属性的网页,可以认为其更新频率也是类似的。要

6、计算某一个类别网页的更新频率,只需要对这一类网页抽样,以他们的更新周期作为整个类别的更新周期。分布式抓取系统结构一般来说,抓取系统需要面对的是整个互联网上数以亿计的网页。单个抓取程序不可能完成这样的任务。往往需要多个抓取程序一起来处理。一般来说抓取系统往往是一个分布式的三层结构。如图所示:分布式抓取系统结构最下一层是分布在不同地理位置的数据中心,在每个数据中心里有若干台抓取服务器,而每台抓取服务器上可能部署了若干套爬虫程序。这就构成了一个基本的分布式抓取系统。对于一个数据中心内的不同抓去服务器,协同工作的方式有几种:1.主从式(Master-Slave)2.对等式(PeertoPee

7、r)主从式抓取系统结构主从式抓取系统结构对于主从式而言,有一台专门的Master服务器来维护待抓取URL队列,它负责每次将URL分发到不同的Slave服务器,而Slave服务器则负责实际的网页下载工作。Master服务器除了维护待抓取URL队列以及分发URL之外,还要负责调解各个Slave服务器的负载情况。以免某些Slave服务器过于清闲或者劳累。这种模式下,Master往往容易成为系统瓶颈。对等式抓取系统结构对等式抓取系统结构在这种模式下,所有的抓取服务

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。