主题网络爬虫关键技术研究

主题网络爬虫关键技术研究

ID:37581449

大小:894.01 KB

页数:37页

时间:2019-05-25

  主题网络爬虫关键技术研究_第1页
  主题网络爬虫关键技术研究_第2页
  主题网络爬虫关键技术研究_第3页
  主题网络爬虫关键技术研究_第4页
  主题网络爬虫关键技术研究_第5页
资源描述:

《 主题网络爬虫关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要随着互联网的迅速发展,Web的信息量越来越大。为了在网络中,快、准、全地找到相关信息变得越来越困难。因此,搜索引擎应运而生。以往的搜索引擎很大程度上帮助人们在互联网上查找信息更加方便,然而,慢慢地也暴露了很多弊端,不能提供专业化的信息搜索,查准率偏低、内容陈旧等。于是面向主题搜索的第四代搜索引擎应运而生。主题搜索引擎,专门面向特定的对象、能够满足特定领域及特定人群的要求。本文的研究对象是主题搜索引擎中的主题爬虫。首先概述了主题网络爬虫的研究现状;然后分析了主题网络爬虫的体系结构,将其分为:数据存储、下载模块、网页主题识别和链接分析,并阐述各部分的功能。主要研究内容如下:(1)主题

2、内容的抽取是网页主题识别的重要步骤,本文结合网页内容分布特征以及主题内容的相关特征,设计了一种网页主题内容抽取方法。(2)提出了一种基于实体链接的主题识别算法,去识别网页的主题。将基于知识库的实体链接方法运用于特征抽取,实验表明该方法提高了主题网页识别的准确率。(3)提出了一种基于Best-First算法的主题搜索策略。主题搜索策略是指导主题网络爬虫抓取网页的关键,本文采用基于Best-First算法的主题搜索策略。关键词:主题网络爬虫,实体链接,Best-First算法,主题搜索策略V硕士学位论文第一章绪论1.1背景与意义随着Internet的飞速发展,互联网信息呈指数增长。根据中

3、国互联网络信息中心(CNNIC)于2017年8月4日在京发布第40次《中国互联网络发展状况统计报告》[1]数据显示:“截至2017年6月,中国网民规模达到7.51亿,占全球网民总数的五分之一。互联网普及率为54.3%;截至2017年6月,我国IPv4地址数量达到3.38亿个、IPv6地址数量达到21283块/32地址,二者总量均居世界第二;中国网站数量为506万个,半年增长4.8%。”如此大量的网站中包含着不计其数的网页,网页是信息的载体,人们一般通过百度、谷歌等通用搜索引擎去从互联网上获取想要的信息。然而,利用通用搜索引擎搜索出的信息,往往比较宽泛。为了解决这种问题,满足特定用户的

4、需求,垂直搜索引擎应运而生。垂直搜索引擎针对的是一个特定的行业,是通用搜索引擎的细分,其将某一领域的网页信息进行整合,处理后再以某种形式返回给用户。垂直搜索针引擎对某一领域,为特定用户或特定需求提供相关的信息和服务,相对于通用搜索引擎,其查询更加准确。垂直搜索引擎相较于通用搜索引擎来说,专注于某一领域或专业,所以显得更加专注、具体及深入。主题网络爬虫,又称聚焦爬虫是垂直搜索引擎的重要组成部分,所以对主题网络爬虫的研究具有重要的意义。主题网络爬虫是一个自动从互联网上抓取网页的程序,它根据预设的主题去访问互联网上与主题相关的链接,获取网页信息。通用网络爬虫从若干种子链接开始,先抓取种子链

5、接的网页,然后从这些网页中抽取新的链接放入待抓取队列中,直到满足系统设定的抓取结束条件或者待抓取队列为空。相比之下,主题网络爬虫的抓取流程较为复杂,抓取的过程中需要根据主题相似度算法预测链接与主题的相关度来决定是否将链接放入待抓取队列中。另外,爬虫抓取到的网页会被系统存储,然后,进行分析、过滤,最后建立索引。对于主题网络爬虫来说,这一过程的分析结果还能对后续的抓取给出反馈。1.2主题网络爬虫的国内外研究现状1999年,S.Chakrabani[2]在WorldWideWeb大会上第一次提出了聚焦爬虫(Focusedcrawler)这一概念,并设计并实现了FocusProiect系统[

6、3]。33硕士学位论文主题爬虫技术一经提出很快获得了国内外专家学者的广泛关注。国内外学者对其进行了深入的研究,不仅创新并设计了很多高效的主题识别算法及主题搜索策略,并且设计并实现了一些实用的主题爬虫系统。接下来,从理论与实现的系统两个方面介绍主题网络爬虫的国内外研究现状。1.2.1主题识别算法及主题搜索策略P.DeBra[4]等人提出利用鱼群算法(Fish-Search算法)来指导爬虫爬行,该算法假设主题相关页面逻辑上想接近来搜索主题相关的网页。Shark-Search爬虫[5],该算法是对Fish-Search算法的改进,相对于Fish-Search算法利用二值模型来计算主题相关性

7、,其根据链接锚文本和网页主题相关内容计算出的相关性值为[0-1]内的值。该算法能提高主题爬虫的召回率。Best-First爬虫[6],由CHOJ等人在1998年提出,其主要思想是构建一个待抓取队列,按照评价策略对队列中的链接进行评价,挑选最好的链接进行抓取。LarryPage和SergeyBrin[7]在20世纪90年代后期发明了PageRank算法,其在Google搜索引擎中使用,用于衡量特定网页相对于搜索引擎索引中的其他网页的重要程度。Kleinber

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。