欢迎来到天天文库
浏览记录
ID:47889122
大小:140.83 KB
页数:9页
时间:2019-10-18
《论web爬虫技术工作原理的专题研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、目录(Content)一、绪论-11.1弓丨言-11.2背景-11.3定义-2二、聚焦爬虫工作原理及关键技术-22.1聚焦爬虫相关概念-22.2聚焦爬虫的研究内容-22.3网络爬虫工作原理-32.3.1抓取目标-32.3.2抓取目标描述・3三、网页搜索策略-43.1广度优先搜索策略-43.2最佳优先搜索策略-4四、网页分析算法-44」基于网络拓扑的分析算法-44.1.1网页(Webpage)粒度的分析算法-44.1.2网站粒度的分析算法-54.1.3网页块粒度的分析算法-54.2基于网页内容的网页分析算法-54.2.1基于文
2、本的网页分析算法-54.2.2HiddenWeb的网页分析方法-54.2.3数据密集型网页的分析方法-64.3用户协作网页分析算法-64.4基于领域概念定制的网页评价算法-6五、聚焦爬虫系统体系结构-75.1基于分类器的聚焦爬虫-75.2基于数据抽取器的聚焦爬虫-75.3基于用户学习的聚焦爬虫。-7六、总结-7结论-8参考文献-8一、绪论1.1引言随着网络的迅速发展,万维网成为大量信息的载体,如何冇效地捉取并利用这些信息成为一个巨大的挑战。搜索引擎(SearchEngine).例如传统的通用搜索引擎AltaVista,Yah
3、oo和Google等,作为一个辅助人们检索信息的工具成为用户访问力维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:(1)不同领域、不同背景的用户往往具有不同的检索日的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。(2)通用搜索引擎的H标是尽可能人的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。(3)力维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频/视频多媒体等不同数据人量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好
4、地发现和获取。(4)通用搜索引擎大多提供基丁•关键字的检索,难以支持根据语义信息提出的查询。以上4个局限性已经将目前逋川的搜索引擎的“信息涉及领域太广”,“返回冗余信息多”,“结果不够准确”等一系列的问题都反映出來;结果将是导致在某些特定领域的查询上则不够深入和专业化。为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,冇选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫(generalpurposewebcrawler)不同,聚焦爬虫并不追求大的
5、覆盖,而将H标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。1.2背景近年來,随着互联网的快速发展,网络信息呈指数级的増长,这种信息虽的飞速增长对通用网络爬虫和搜索引擎呈现了空前的挑战,越來越多的人希望能够快速且冇效地找到白己所需要的信息。聚焦爬虫是一种而向主题的信息搜集系统,可以根据用户需耍从互联网上自动搜集到主题相关信息,在宝题搜索引擎、站点结构分析等方面取得越来越广泛的应用。传统的聚焦爬虫抓取的目标是与某一特定主题内容相关的网页,而在有些应用屮,如网络H录,更多的是给用户提供主题相关网站。随着
6、互联网信息的日益増多,日前靠人工來维护的网络日录越來越显得低效和不可行。为了实现具冇H动维护功能的网络目录,将抓取目标锁定为主题网诂的网诂聚焦爬虫应运而生。网站聚焦爬虫是在现有聚焦爬虫的棊础上加入网站选取和分类机制,从用户提供的种子网站开始,以Best-first原则获取最佳候选网站并开始新-•轮的爬行分类。1.3定义网络爬虫源自Spider(或Crawler、robots,wanderer)等的意译。网络爬虫的定义有广义和狭义Z分[1],狭义的定义为:利用标准的http协议,根据超级链接和Web文档检索的方法遍历万维网信息
7、空间的软件程序。广义的定义为:所冇能利用http协议检索Web文档的软件都称之.为网络爬虫。网络爬虫是一个功能很强人的自动提取网页的程序,它为搜索引擎从万维网下载网页,是搜索引擎的巫要组成部分。它通过请求站点上的HTML文档访问某一站点。它遍历Web空间,不断从一个站点移动到另一个站点,自动建立索引,并加入到网页数据库中。网络爬虫进入某个超级文本时。利用HTML语言的标记结构來搜索信息及获取指向其他超级文木的URLt也址.可以完全不依赖用户干预实现网络上的自动“爬行”和搜索。二、聚焦爬虫工作原理及关键技术2.1聚焦爬虫相关概
8、念聚焦爬虫,又称主题爬虫(或专业爬虫),是“面向特定主题”的一种网络爬虫程序。它与我们通常所说的爬虫(通用爬虫)的区别Z处就在于,聚焦爬虫在实施网贝抓取时要进行主题筛选。它尽量保证只抓取与主题相关的网页信息。2.2聚焦爬虫的研究内容聚焦爬虫的研究核心,集中在以下两点:(一)主题相关度计算:
此文档下载收益归作者所有