欢迎来到天天文库
浏览记录
ID:44131703
大小:44.50 KB
页数:4页
时间:2019-10-18
《网络爬虫技术》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、网络爬虫技术起源:要说网络蜘蛛的起源,我们还得从搜索引擎说起,什么是搜索引擎呢?搜索引擎的起源是什么,这和网络蜘蛛的起源密切相关。用户进行查询的系统。因特网上的信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为你绘制一幅一目了然的信息地图,供你随时查阅。搜索引擎从1990年原型初显,如今成为人们生活中必不可少的一部分,它经历了太多技术和观念的变革。1994年的1月份,第一个既可搜索又可浏览的分类目录ETNetGalaxy±线了。在它之后才出现了雅虎,直至我们现在熟知的Google、百度。但是他们都不是第一个吃搜索引擎这个螃蟹的人
2、。从搜索FTP上的文件开始,搜索引擎的原型就出现了,那时还未有万维网,当时人们先用手工后用蜘蛛程序搜索网页,但随着互联网的不断壮大,怎样能够搜集到的网页数量更多、时间更短成为了当时的难点和重点,成为人们研究的重点。网络爬虫:1•概念:网络爬虫也叫网络蜘蛛,它是一个按照一定的规则自动提取网页程序,其会自动的通过网络抓取互联网上的网页,这种技术一般可能用來检查你的站点上所有的链接是否是都是有效的。当然,更为高级的技术是把网页中的相关数据保存下来,可以成为搜索引擎。搜索引擎使用网络爬虫寻找网络内容,网络上的HTML文档使用超链接连接了起来,就像织成了一张网,网络爬虫也叫网络蜘蛛,顺着这张网爬行,每
3、到一个网页就用抓取程序将这个网页抓下来,将内容抽取岀来,同时抽取超链接,作为进一步爬行的线索。网络爬虫总是要从某个起点开始爬,这个起点叫做种子,你可以告诉它,也可以到一些网址列表网站上获取。2.分类:通用爬虫是从一个或多个初始网页的URL开始,获取初始网页的URL,抓収网页的同时,从当前网页提取相关的URL放入队列中,直到满足程序的停止条件。聚集爬虫即根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接(爬行的范围是受控的)放到待抓取的队列屮,通过一定的搜索策略从队列屮选择下一步要抓取的URL,重复以上步骤,直到满足程序的停止条件。现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基
4、于目标数据模式和基于领域概念3种。主要算法策略比较:名称网页分析算法网页搜索策略分类1.基于网络拓扑结构1」网页粒度分析算法1.2网站粒度分析算法1.3网页块粒度分析算法2.基于网页内容2」针对以文本和超链接为主的网页2.2针对从结构化的数据源动态生成的网页。2.3针对数据介于第一类和第二类之间3.基于用户访问行为1.深度优先策略2.广度优先策略3.最佳优先策略一些算法的介绍:网页分析算法1.基于网络拓扑的分析算法基于网页之I'可的链接,通过已知的网页或数据,来对与其有直接或间接链接关系的对象(可以是网页或网站等)作出评价的算法。又分为网页粒度、网站粒度和网页块粒度这三种。1.1网页(Web
5、page)粒度的分析算法PageRank和HITS算法是最常见的链接分析算法,两者都是通过对网页间链接度的递归和规范化计算,得到每个网页的重要度评价。PageRank算法虽然考虑了用户访问行为的随机性和Sink网页的存在,但忽略了绝大多数用户访问吋带有目的性,即网页和链接与查询主题的相关性。针对这个问题,HITS算法提出了两个关键的概念:权威型网页(authority)和中心型网页(hub)。基于链接的抓取的问题是相关页血主题团之I'可的隧道现象,即很多在抓取路径上偏离主题的网页也指向目标网页,局部评价策略中断了在当前路径上的抓取行为。文献[21]提出了—种基于反向链接(BackLink)的
6、分层式上下文模型(ContextModel),用于描述指向目标网页一定物理跳数半径内的网页拓扑图的中心LayerO为目标网页,将网页依据指向目标网页的物理跳数进行层次划分,从外层网页指向内层网页的链接称为反向链接。1.2网站粒度的分析算法网站粒度的资源发现和管理策略也比网页粒度的更简单有效。网站粒度的爬虫抓取的关键之处在于站点的划分和站点等级(SiteRank)的计算oSiteRank的计算方法与PageRank类似,但是需要对网站之I'可的链接作一定程度抽象,并在一定的模型下计算链接的权重。网站划分情况分为按域名划分和按IP地址划分两种。文献[18]讨论了在分布式情况下,通过对同一个域名下
7、不同主机、服务器的IP地址进行站点划分,构造站点图,利用类似PageRank的方法评价SiteRanko同时,根据不同文件在各个站点上的分布情况,构造文档图,结合SiteRank分布式计算得到DocRanko文献[18]证明,利用分布式的SiteRank计算,不仅大人降低了单机站点的算法代价,而且克服了单独站点对整个网络覆盖率有限的缺点。附带的一个优点是,常见PageRank造假难以对SiteRank进行欺骗
此文档下载收益归作者所有