欢迎来到天天文库
浏览记录
ID:11789733
大小:28.00 KB
页数:7页
时间:2018-07-14
《面向主题的网络爬虫系统功能模块设计探析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、面向主题的网络爬虫系统功能模块设计探析面向主题的网络爬虫系统功能模块设计探析面向主题的网络爬虫系统功能模块设计探析面向主题的网络爬虫系统功能模块设计探析 主题的相关性是非常核心的模块,它决定了抓取到网页是否与主题相关,抓取到网页质量好坏等,可以说主题的相关性算法决定了面向主题网络爬虫的好坏,下面简单介绍一下各个模块的设计。 1页面爬取模块设计 当前的主题网络爬虫主要有基于内容的Fish-Search,Shark-Search策略,以及基于链接分析的PageRank方法,HITS算法等。 在这些算法的核心思想中,它们总是倾向于抓取有
2、较高相关度页面下的链接页面,然后直接丢掉相关度较低的页面,這样导致的一个问题就是爬虫会在一个局部的范围内跳转,无法覆盖多的页面。抓取的深度的不够,无法覆盖更多的信息,而且其没有考虑链接的权重的不同,导致爬虫的效率比较低下。 隧道问题 通过我们对以上的爬虫搜索策略算法的分析指出,对于与主题相关的网页主要的爬取页面的来源,而对于与主题无关的网页,一般会选择丢弃。从总体来说,这种策略能够迅速的抓取到与主题相关的页面,但是其存在的一个风险就是,可能会间接丢弃大量与主题相关的页面。 隧道现象会导致召回不够理想,无法满足信息的覆盖程度,对应垂直搜
3、索引擎来说,可能会导致信息没法全面收集的问题,无法完全满足用户的需求。因此,如何在保证页面相关度的情况下,高效的抓取到更多与主题相关的页面是当前的研究重点。 站点权重问题 基于链接分析的搜索策略中,根据考虑了各个链接的,该算法给所有的网页的页面设计了一个权值,作为该页面的重要性的衡量。一般情况下都需要抓取足够量的网页以后,该权值才能客观的反应该页面权重。 传统的爬虫策略中并没有考虑站点或者子域名的级别特性,这样有可能导致的问题,爬虫程序没法聚焦抓取相关主题的网页。 2页面搜索模块设计 算法思想改进 通过分析现在爬虫策略算法
4、的思想,以及存在覆盖率不足的问题,结合内容以及链接分析提出一种高效的算法,通过改善当前爬虫策略中存在的覆盖度不够的问题,高效的抓取更多的与主题相关的页面。下面讲述我们改进后爬虫搜索策略,在的算法主要解决两个问题:1)隧道问题,2)如何抓取到更多与主题相关的页面。 隧道问题 我们以search-fish的算法思想作为基础,通过引进设定深度阈值D,给予主题低相关度或者没相关的页面的链接一定的深度访问机会,来解决隧道问题。 我们给初始的节点设置一个初始的深度阈值D,同时设定一个相关度阈值T,如果页面i相关度relate大于T,则该页面的链接
5、将会的深度阈值会提升,也就是说,后续从该页面的链接出去的链接有更大的空间允许其链接到不相关的页面; 相反如果如果页面i相关度relate低于T,则该页面的链接将会的深度阈值会降低,从该页面的解析出去的链接有能够链接到不相干的页面深度则会降低,尽管如此,但是仍然有机会能够穿越隧道,找到隐藏在后面的网页信息。 抓取引进站点的质量评价指标 权重表本质上就是衡量该站点与主题相关程度,如果该站点与主题越相关,下一次遇到该站点相关页面,那么我们的算法会给该页面有更优先的爬取权重。同时我们借鉴了链接的分析方法,我们仍认为一个站点的质量同时也决定了该
6、站点下的网页的质量,通过给了网站一定的置信值,确保不同站点有不同的衡量置信区间,因此可以保证在数据冷启动的时候,爬取策略就有了一定的区分度。 在爬虫搜索算法策略中,包括:①初始化设计URL列表种子;②设计站点列表权重;③设计改进搜索策略算法。 初始化URL列表种子 URL种子搜集的目的在于给定主题的情况下,尽可能的爬取到高质量的URL种子。URL种子是整个爬取过程的起始点,因此这些种子的质量跟数量决定了接下来的整个爬虫性能表现。在文献认为,一个相关主题页面所包含的链接比一般的链接更加呈现相关性。因此种子初始化对整个爬虫效果有着极为重要
7、的意义。 一般来说,初始化的种子集合就是主题爬虫启动时候使用抓取的页面。 初始种子集是面向领域主题爬虫爬取主题页面开始遍历链接的集合,好的初始化种子集合可以大大的提升总体爬虫的准确率以及效率,因此一般情况下,都会选取比较知名的大型网站,这样可以保证信息足够丰富,更容易抓取到优质的资源。 目前常用的方法有采用人工方法,收集网络上某个主题的链接,比如从门户网站的各个网站,另外包括一些垂直的网站。 在则使用了半自动化的方式产生初始化列表种子,使用的方法如下: 1)使用与主题相关keyword发送到百度或者谷歌搜索引擎中,然后抓取to
8、pK的页面,对这些页面的链接进行解析,提取该页面的站点,值得注意的是,在对这些站点保留到子域名。比如新浪网站下面有很多栏目,比如体育,新
此文档下载收益归作者所有