基于广度优先搜索的网络蜘蛛设计

基于广度优先搜索的网络蜘蛛设计

ID:26828727

大小:51.00 KB

页数:5页

时间:2018-11-29

基于广度优先搜索的网络蜘蛛设计_第1页
基于广度优先搜索的网络蜘蛛设计_第2页
基于广度优先搜索的网络蜘蛛设计_第3页
基于广度优先搜索的网络蜘蛛设计_第4页
基于广度优先搜索的网络蜘蛛设计_第5页
资源描述:

《基于广度优先搜索的网络蜘蛛设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于广度优先搜索的网络蜘蛛设计【摘要】网络蜘蛛搜索策略的研究是近年来专业搜索引擎研究的焦点之一,如何使搜索引擎快速准确地从庞大的网页数据中获取所需资源的需求是目前所面临的重要问题。本文重点阐述了搜索引擎的WebSpider(网络蜘蛛)的搜索策略和搜索优化措施,提出了一种简单的基于广度优先算法的网络蜘蛛设计方案,并分析了设计过程中的优化措施。【关键词】搜索引擎;网络蜘蛛;搜索策略0引言近年来,随着Inter技术的广泛应用,传统的通用搜索引擎,如Google、Fast、AltaVista和GoTo等正面临

2、巨大的挑战。挑战之一是Web信息资源呈指数级增长,搜索引擎无法索引所有页面。据统计,目前Web上静态页面的数量超过40亿个,而且这一数量还在以平均每天730万个页面的速度递增。在过去的几年中,尽管各种通用搜索引擎在索引技术、索引数量上有所提高,但远远无法跟上Web本身的增长速度,即使是目前全球最大的搜索引擎Google,其索引的页面数量仅占Web总量的40%;挑战之二是Web信息资源的动态变化,搜索引擎无法保证对信息的及时更新。近年来的研究表明,Web上的页面平均50天就有约50%的页面发生变化,而目

3、前通用搜索引擎更新的时间至少需要数星期之久;挑战之三是传统的搜索引擎提供的信息检索服务,不能满足人们日益增长的对个性化服务的需要。因此如何设计网络蜘蛛(WebSpider)来更有效率的爬取互联网上的内容成为搜索引擎的一个首要问题。在设计网络蜘蛛时,不仅需要充分考虑到爬取的效率和站点设置的灵活性还要确保系统的稳定性。一个优秀的搜索引擎,需要不断的优化网络蜘蛛的算法,提升其性能。本文在分析网络蜘蛛的工作原理的基础上,提出了一种基于广度优先搜索算法的网络蜘蛛的实现,并对提高网络蜘蛛搜索效率的相关看法。由于不

4、可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。[2]例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1层,G、H属于第2层,I属于第3层。如果网络蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。当然,网站的所有者可以

5、通过协议让网络蜘蛛不去抓取(下小节会介绍),但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。2网络蜘蛛的设计根据抓取过程,蜘蛛主要分为三个功能模块,一个是网页读取模块主要是用来读取远程L的各种标志(tag)有一个很全面的了解。需要反复测试,考虑各种情形的发生。超链分析时从网页里提取出来

6、的是相对于当前页的相对URL,因而需要根据当前页的绝对URL将提取的这个URL转换成绝对URL。在此过程中需要根据ParentURL(就是当前页的URL)作出各种判断。3改进方法商业化的蜘蛛需要抓取上亿的网页,因而抓取速度是一个关键,另外蜘蛛需要自动运行,尽是减少人工的参与,因而系统的性能也是一个很重要的关键,系统能够在发生异常的时候自动进行处理,防止程序的退出和死机。[3]有一些细节需要注意:系统应该使用多线程,使用多个蜘蛛同时抓取,在可能的情况下,最好是做成分布式的蜘蛛程序,蜘蛛应该分布地网络上多

7、台服务器上协同抓取网页,这样速度会更快,更符合我们的实际应用。对于同一网站的网页应该采用同一个HttpConnection这样有效地节省创建一个连接的时间,另外对于抓取的URL采用域名缓冲机制(可在网关一级上实现),这样抓取时减少由域名到IP地址的转换时间以及重复的域名转换。若能做到这一步将会大大减少抓取时间,因为访问一URL时每次都要进行域名到主机IP地址的转换。最好是能够将读取网页、超链分析及网页内容分析三部分分开来做,让它们并行协同工作,这样效率会更高。因为在这三个过程中网页读取比起其他两个功能

8、来说是一个长任务,最耗时间。当抓取完一网页后,在抓取下一网页的时候让去执行超链分析和内容分析。这样在下一网页抓取完成之前超链分析和内容分析任务就能完成,抓取任务不会延迟,这样节省了一些时间。4结束语随着人们对“个性化”信息服务需要的日益增长,专业搜索引擎的发展将成为搜索引擎发展的主要趋势之一。[4]网络蜘蛛搜索策略问题的研究,对专业搜索引擎的应用与发展具有重要意义。本文对现有的网络蜘蛛搜索策略进行了简单的介绍和分析,提出了一种基于广度优先搜索网络蜘蛛设计

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。