开源网络爬虫在垂直搜索引擎应用

开源网络爬虫在垂直搜索引擎应用

ID:9577368

大小:58.50 KB

页数:5页

时间:2018-05-03

开源网络爬虫在垂直搜索引擎应用_第1页
开源网络爬虫在垂直搜索引擎应用_第2页
开源网络爬虫在垂直搜索引擎应用_第3页
开源网络爬虫在垂直搜索引擎应用_第4页
开源网络爬虫在垂直搜索引擎应用_第5页
资源描述:

《开源网络爬虫在垂直搜索引擎应用》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、开源网络爬虫在垂直搜索引擎应用开源网络爬虫在垂直搜索引擎应用引言  在信息化时代,针对通用搜索引擎信息量大、查询准度和深度兼差等缺点,垂直搜索引擎已进入了用户认可和使用周期。垂直搜索是针对某一个行业的专业搜索引擎,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户[1]。相比通用搜索引擎则显得更加专注、具体和深入。目前,垂直搜索引擎多用于行业信息获取和特色语料库建设等方面,且已卓见现实深远成效。  网络爬虫是一个自动提取和自动下载网页的程序,可为搜索引擎从互联网上下载网页,并根据既定的抓取目标,

2、有选择地访问互联网上的网页与相关的链接,获取所需要的信息。按照功能用途,网络爬虫分为通用爬虫和聚焦爬虫,这是搜索引擎一个核心组成部分。  1聚焦爬虫的工作原理及关键技术分析  1.1聚焦爬虫的工作原理  聚焦爬虫是专门为查询某一主题而设计的网页采集工具,并不追求大范围覆盖,而是将目标预定为抓取与某一特定主题内容相关的网页本文由.L.收集整理,如此即为面向主题的用户查询准备数据资源。垂直搜索引擎可利用其实现对网页主题信息的挖掘以及发现,聚焦爬虫的工作原理是:  (1)爬虫从一个或若干起始网页URL链接开始工作;  (2)通过特定的主题相关性算法判

3、断并过滤掉与主题无关的链接;  (3)将有用链接加入待抓取的URL队列;  (4)根据一定的搜索策略从待抓取URL队列中选择下一步要抓取的网页URL;  重复以上步骤,直至满足退出条件时停止[2]。  1.2聚焦爬虫的几个关键技术  根据聚焦爬虫的工作原理,在设计聚焦爬虫时,需要考虑问题可做如下论述。  1.2.1待抓取网站目标的定义与描述的问题  开发聚焦爬虫时,应考虑对于抓取目标的定义与描述,究竟是带有目标网页特征的网页级信息,还是针对目标网页上的结构化数据。前者因其具有结构化的数据信息特征,在爬虫抓取信息后,还需从结构化的网页中抽取相关信

4、息;而对于后者,爬虫则直接解析Web页面,提取并加工相关的结构化数据信息,该类爬虫便于定制自适应于特定网页模板的结果网站。  1.2.2爬虫的URL搜索策略问题  开发聚焦爬虫时,常见的URL搜索策略主要包括深度优先搜索策略、广度优先搜索策略、最佳优先搜索策略等[3]。在此给出对应策略的规则分析如下。  (1)深度优先搜索策略  该搜索策略采用了后进先出的队列方式,从起始URL出发,不停搜索网页的下一级页面直至最后无URL链接的网页页面结束;爬虫再回到起始URL地址,继续探寻URL的其它URL链接,直到不再有URL可搜索为止,当所有页面都结束时

5、,URL列表即按照倒叙的方式将搜索的URL队列送入爬虫待抓取队列。  (2)广度优先搜索策略  该搜索策略采用了先进先出的队列方式,从起始URL出发,在搜索了初始web的所有URL链接后,再继续搜索下一层URL链接,直至所有URL搜索完毕。URL列表将按照其进入队列的顺序送入爬虫待抓取队列。  (3)最佳优先搜索策略  该搜索策略采用了一种局部优先搜索算法,从起始URL出发,按照一定的分析算法,对页面候选的URL进行预测,预测目标网页的相似度或主题相关性,当相关性达到一定的阈值后,URL列表则按照相关数值高低顺序送入爬虫待抓取队列。  1.2.

6、3爬虫对网页页面的分析和主题相关性判断算法  聚焦爬虫在对网页Web的URL进行扩展时,还需要对网页内容进行分析和信息的提取,用以确定该获取URL页面是否与采集的主题相关。目前常用的网页的分析算法包括:基于网络拓扑、基于网页内容和基于领域概念的分析算法[4]。下面给出这三类算法的原理实现。(1)基于网络拓扑关系的分析算法  基于网络拓扑关系的分析算法就是可以通过已知的网页页面或数据,对与其有直接或间接链接关系的对象作出评价的实现过程。该算法又分为网页粒度、网站粒度和网页块粒度三种。著名的PageRank和HITS算法就是基于网络拓扑关系的典型代

7、表。  (2)基于网页内容的分析算法  基于网页内容的分析算法指的是利用网页内容(文本、数据等资源)特征进行的网页评价。该方法已从最初的文本检索方法,向网页数据抽取、数据挖掘和自然语言等多领域方向发展。  (3)基于领域概念的分析算法  基于领域概念的分析算法则是将领域本体分解为由不同的概念、实体及其之间的关系,包括与之对应的词汇项组成。网页中的关键词在通过与领域本体对应的词典分别转换之后,将进行计数和加权,由此得出与所选领域的相关度。  2几种开源网络爬虫性能比较  目前,互联网上推出有许多的开源网络爬虫,易于开发和扩展的主要包括Nutch、

8、Larbin、Heritrix等,下面即针对这三类爬虫进行实用性内容介绍[5]:  (1)Heritrix是Java开发的开源Web爬虫系统,是Int

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。