网络爬虫在信息检索中的研究与应用

网络爬虫在信息检索中的研究与应用

ID:28164954

大小:18.25 KB

页数:5页

时间:2018-12-08

网络爬虫在信息检索中的研究与应用_第1页
网络爬虫在信息检索中的研究与应用_第2页
网络爬虫在信息检索中的研究与应用_第3页
网络爬虫在信息检索中的研究与应用_第4页
网络爬虫在信息检索中的研究与应用_第5页
资源描述:

《网络爬虫在信息检索中的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。网络爬虫在信息检索中的研究与应用  摘要:本文从网络爬虫的基本概念、网络爬虫的主要作用、网络爬虫的各种类型和网络爬虫的发展方向着手进行研究。各种爬虫的研究对于我们现如今的意义也相当重大,通过网络爬虫爬取的特定信息通过专业分析,可以影响着我们的生活,如经济、健康、工作效率等方面,本文主要运用Python编写网络爬虫,实现网络爬虫的功能。了解网络爬虫如何爬取信息,如何存储所爬取的信息,从而认识其在信息检索中的关键作用。 

2、 关键词:网络爬虫;信息检索;Python  中图分类号:文献标识码:A文章编号:1007--0095-03  1绪论  当今社会,数据显得越来越重要,以往人们也意识到数据的重要性,但是以前的情况面对浩如烟海的数据,人们往往望洋兴叹。因为以以前的数据处理能力,很难对大量的数据信息进行处理分析。随着计算机技术的发展,数据的处理能力得到了极大的提高,尤其是近几年开启的云时代,让人们迎来了大数据时代,人们在处理数据的能力得到提高的时候,生产数据的能力也得到了极大的提升,因此获得数据,处理数据是人们提高对数据的利用的关键。为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课

3、堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。  网络爬虫可以很容易的获取互联网上的信息,是我们获取大量网络上信息的高效工具,现如今有各种各样的网络爬虫在以不同的方式获取网络上的数据,抓取网络上有用的数据,方便人们对数据进行分析和利用。本课题对于网络爬虫进行研究,了解其在信息检索中的应用,并设计简单的网络爬虫,实现其功能。  2网络爬虫的基本概念  网络爬

4、虫,又称为网络蜘蛛或Web信息采集器,是一个自动下载网页的计算机程序或自动化脚本,是搜索引擎的重要组成部分。网络爬虫通常从一个称为种子集的URL集合开始运行,它首先将这些URL全部放入到一个有序的待爬行队列里,按照一定的顺序从中取出URL并下载所指向的页面,分析页面内容,提取新的URL并存入待爬行URL�列中,如此重复上面的过程,直到URL队列为空或满足某个爬行终止条件,从而遍历Web。该过程称为网络爬行[1]。  对于网络爬虫,基本的工作流程首先要有一个初始的URL,这个URL可以是一开始自己确定好,也可以是由用户输入获得,然后通过URL获取到网页的信息,接着抓取网页内的相关URL,对于满

5、足条件的信息进行抓取,直到所有的条件满足才结束爬取的过程。当然,这只是对于网络爬虫大概的一个爬取过程,对于不同的网络爬虫来说,爬取的过程是不同的,但是他们都需要有一个URL,然后还有过滤的条件,以及存储所抓取到的信息的过程。  3网络爬虫的类型为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使

6、用和维护。  网络爬虫根据不同的应用,爬虫系统在许多方面也存在着不同的差异,按照系统结构和实现技术,我们可以将网络爬虫分为以下几类:通用型网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。当然,实际上的网络爬虫不会是单一的技术实现,通常是由多种网络爬虫技术结合而成[2]。  通用网络爬虫  通用网络爬虫通常用于搜索引擎,它能从一些种子URL爬取大量网站,甚至是整个Web,仅仅受限于时间或者其他方面的限制,它的逻辑相比于其他提取规则的复杂的网络爬虫较为简单,但是其作用不可小觑。它主要用于门户站点搜索引擎和为大型的Web服务提供商采集数据。由于商业原因,这方面性能优秀爬虫的技术细节很少披露,

7、但是此类的网络爬虫爬行的范围和数量巨大,并且其爬行的速度快,存储空间比较大。它们通常采用并行的方式,对爬行页面的顺序要求比较低,但是由于要刷新的页面很多,很长时间页面才能刷新一次。虽然其有一定缺陷,但是通用爬虫适用于搜索引擎,有比较强的应用价值,其结构如图1所示。  通用网络爬虫通常会采取一些爬行策略来提高爬行效率,如:深度优先策略、广度优先策略、最佳优先策略等。为了充分发挥“教学点数字教育资源全覆盖”项目设

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。