基于广度优先搜索的网络蜘蛛设计(1)

基于广度优先搜索的网络蜘蛛设计(1)

ID:30641724

大小:16.95 KB

页数:3页

时间:2019-01-02

基于广度优先搜索的网络蜘蛛设计(1)_第1页
基于广度优先搜索的网络蜘蛛设计(1)_第2页
基于广度优先搜索的网络蜘蛛设计(1)_第3页
资源描述:

《基于广度优先搜索的网络蜘蛛设计(1)》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果基于广度优先搜索的网络蜘蛛设计(1)网络蜘蛛的设计根据抓取过程,蜘蛛主要分为三个功能模块,一个是网页读取模块主要是用来读取远程Web服务器上的网页内容,另一个是超链分析模块,这个模块主要是分析网页中的超链接,将网页上的所有超链接提取出来,放入到待抓取URL列表中,再一个模块就是内容分析模块,这个模块主要是对网页内容进行分析,将网页中所有超标志去掉只留下网页文字内容。蜘蛛的主要工作流程如图所示。首先

2、蜘蛛读取抓取站点的URL列表,取出一个站点URL,将其放入未访问的URL列表中,如果UVURL不为空刚从中取出一个URL判断是否已经访问过,若没有访问过则读取此网页,并进行超链分析及内容分析,并将些页存入文档数据库,并将些URL放入已访问URL列表,直到UVRL为空为止,此时再抓取其他站点,依次循环直到所有的站点URL列表都抓取完为止。为了提高网络蜘蛛的抓取效率,需要引入以下技术。、多线程技术:由于抓取的站点URL相当多,采用单线程蜘蛛抓取时速度不够,也不能满足实际的需要。因而需要多线程技术来创建多个蜘蛛线程来同时抓取,以提高速

3、度。、网页抓取:网页抓取是基于HTTP协议之上的,网页上的资源有多种,有网页,有Word文档也课题份量和难易程度要恰当,博士生能在二年内作出结果,硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果有其他类型的文件,这样抓取时需要判断URL所指向资源的类型。、超链分析:超链分析是一个比较重要的环节,需要对HTML的各种标志有一个很全面的了解。需要反复测试,考虑各种情形的发生。超链分析时从网

4、页里提取出来的是相对于当前页的相对URL,因而需要根据当前页的绝对URL将提取的这个URL转换成绝对URL。在此过程中需要根据ParentURL作出各种判断。改进方法商业化的蜘蛛需要抓取上亿的网页,因而抓取速度是一个关键,另外蜘蛛需要自动运行,尽是减少人工的参与,因而系统的性能也是一个很重要的关键,系统能够在发生异常的时候自动进行处理,防止程序的退出和死机。[3]有一些细节需要注意:系统应该使用多线程,使用多个蜘蛛同时抓取,在可能的情况下,最好是做成分布式的蜘蛛程序,蜘蛛应该分布地网络上多台服务器上协同抓取网页,这样速度会更快,

5、更符合我们的实际应用。对于同一网站的网页应该采用同一个HttpConnection这样有效地节省创建一个连接的时间,另外对于抓取的URL采用域名缓冲机制,这样抓取时减少由域名到IP地址的转换时间以及重复的域名转换。若课题份量和难易程度要恰当,博士生能在二年内作出结果,硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果能做到这一步将会大大减少抓取时间,因为访问一URL时每次都要进行域名到主

6、机IP地址的转换。最好是能够将读取网页、超链分析及网页内容分析三部分分开来做,让它们并行协同工作,这样效率会更高。因为在这三个过程中网页读取比起其他两个功能来说是一个长任务,最耗时间。当抓取完一网页后,在抓取下一网页的时候让去执行超链分析和内容分析。这样在下一网页抓取完成之前超链分析和内容分析任务就能完成,抓取任务不会延迟,这样节省了一些时间。结束语随着人们对“个性化”信息服务需要的日益增长,专业搜索引擎的发展将成为搜索引擎发展的主要趋势之一。[4]网络蜘蛛搜索策略问题的研究,对专业搜索引擎的应用与发展具有重要意义。本文对现有的

7、网络蜘蛛搜索策略进行了简单的介绍和分析,提出了一种基于广度优先搜索网络蜘蛛设计方案。提出了提高网络蜘蛛效率的几种方法。目前的网络蜘蛛通常采用“固定的”搜索策略,缺乏适应性,如何提高网络蜘蛛的自适应性有待进一步研究。总之,网络蜘蛛搜索策略问题的研究还处于发展阶段,无论是模型、搜索算法,还是实验方法都还有许多有待解决的问题。课题份量和难易程度要恰当,博士生能在二年内作出结果,硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。