《网络爬虫论文》word版

《网络爬虫论文》word版

ID:25587446

大小:92.06 KB

页数:4页

时间:2018-11-21

《网络爬虫论文》word版_第1页
《网络爬虫论文》word版_第2页
《网络爬虫论文》word版_第3页
《网络爬虫论文》word版_第4页
资源描述:

《《网络爬虫论文》word版》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、网络爬虫摘要随着互联网的日益壮大,搜索引擎技术飞速发展。搜索引擎已成为人们在浩瀚的网络世界中获取信息必不可少的工具,利用何种策略有效访问网络资源成为专业搜索引擎中网络爬虫研究的主要问题。文章介绍了搜索引擎的分类及其工作原理.阐述了网络爬虫技术的搜索策略,对新一代搜索引擎的发展趋势进行了展望。关键词网络爬虫;策略;搜索引擎概念:网络爬虫也叫网络蜘蛛,它是一个按照一定的规则自动提取网页程序,其会自动的通过网络抓取互联网上的网页,这种技术一般可能用来检查你的站点上所有的链接是否是都是有效的。当然,更为高级的技术是把网页中的相关数据保存下来,可以成为搜索引擎。搜索引擎使用网络爬虫寻找网络内容,

2、网络上的HTML文档使用超链接连接了起来,就像织成了一张网,网络爬虫也叫网络蜘蛛,顺着这张网爬行,每到一个网页就用抓取程序将这个网页抓下来,将内容抽取出来,同时抽取超链接,作为进一步爬行的线索。网络爬虫总是要从某个起点开始爬,这个起点叫做种子,你可以告诉它,也可以到一些网址列表网站上获取。网络爬虫的构成及分类网络爬虫又被称为做网络蜘蛛、网络机器人,主要用于网络资源的收集工作。在进行网络舆情分析时,首要获取舆情信息内容,这就需要用到网络爬虫(蜘蛛程序)这个工具,它是一个能自动提取网页内容的程序,通过搜索引擎从互联网上爬取网页地址并抓取相应的网页内容,是搜索引擎(SearchEngine)

3、的重要组成部分。一个典型的网络爬虫主要组成部分如下:1.URL链接库,主要用于存放爬取网页链接。2.文档内容模块,主要用于存取从Web中下载的网页内容。3.文档解析模块,用于解析下载文档中的网页内容,如解析PDF,Word,HTML等。4.存储文档的元数据以及内容的库。5.规范化URL模块,用于把URL转成标准的格式。6.URL过滤器,主要用于过滤掉不需要的URL。上述模块的设计与实现,主要是确定爬取的内容以及爬去的范围。最简单的例子是从一个已知的站点抓取一些网页,这个爬虫用少量代码就可以完成。然而在实际互联网应用中,可能会碰到爬去大量内容需求,就需要设计一个较为复杂的爬虫,这个爬虫就

4、是N个应用的组成,并且难点是基于分布式的。网络爬虫的工作原理传统网路爬虫的工作原理是,首先选择初始URL,并获得初始网页的域名或IP地址,然后在抓取网页时,不断从当前页面上获取新的URL放入候选队列,直到满足停止条件。聚焦爬虫(主题驱动爬虫)不同于传统爬虫,其工作流程比较复杂,首先需要过滤掉跟主题不相关的链接,只保留有用的链接并将其放入候选URL队列。然后,根据搜索策略从候选队列中选择下一个要抓取的网页链接,并重复上述过程,直到满足终止条件为止。与此同时,将所有爬取的网页内容保存起来,并进行过滤、分析、建立索引等以便进行性检索和查询。总体来讲,网络爬虫主要有如下两个阶段:第一阶段,UR

5、L库初始化然后开始爬取。第二阶段,爬虫读取没有访问过的URL,来确定它的工作范围。其中,对于所要抓取的URL链接,进行以下步骤:1.获取URL链接。2.解析内容,获取URL及相关数据。3.存储有价值的数据。4.对新抓取的URL进行规范化。5.过滤掉不相关的URL。6.将要抓取的URL更新到URL库中。7.重复步骤2,直到终止条件为止。网络爬虫的搜索策略目前,比较常见的网络爬虫搜索策略有以下三种:1、广度优先搜索策略。其主要思想是,由根节点开始,首先遍历当前层次的搜索,然后才进行下一层的搜索,依次类推逐层的搜索。这种策略多用在主题爬虫上,因为越是与初始URL距离近的网页,其具有的主题相关

6、性越大。2、深度优先搜索策略。这种策略的主要思想是,从根节点出发找出叶子节点,以此类推。在一个网页中,选择一个超链接,被链接的网页将执行深度优先搜索,形成单独的一条搜索链,当没有其他超链接时,搜索结束。3、最佳优先搜索策略。该策略通过计算URL描述文本与目标网页的相似度,或者与主题的相关性,根据所设定的阈值选出有效URL进行抓取。爬行算法数据采集的效率及覆盖率受爬行算法的影响,现在比较流行和经典的爬行算法都是在Best-Frist算法的基础上改进和演化而来,各种算法的不同之处是:对待爬的URLs采用不同的启发式规则来进行打分并排序,同时在爬行之前或在爬行过程中对算法的参数进行优化。1、

7、Best-First算法Best-First算法通过维持一个排序的URLs优先级队列,通过计算主题与所抓取网页P的cosinesimilarity(余弦相似度)来确定Urlsfrontier中的Urls的优先级。相似度计算公式如下:(2-1)式中,q为主题,p为抓取的网页。Best-Frist爬行算法如下:i.初始化,设定查询主题(topic),初始种子结点集合(starting_urls),爬取的最大网页数量(MAX_PAGES)以及fron

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。