欢迎来到天天文库
浏览记录
ID:53293336
大小:64.00 KB
页数:2页
时间:2020-04-03
《原创:浅谈网络蜘蛛原理与实现.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、摘要:在当今计算机网络和互联网高度发展时期,各种各样的搜索引擎不断崛起。以雅虎、百度等著名的搜索引擎都提出各种搜索技术,方便广大网民在互联网上搜索自(2需要的信息和资料。对于搜索引擎來说网络蜘蛛则是一个重耍的组成部分,那么我们很有必耍来研究一下网络蜘蛛的原理与实现。中国论文网关键词:网络蜘蛛;搜索引擎;Spider;网页;算法中图分类号:TP393.092文献标识码:A文章编号:1007-9599(2011)23-0000-01TheTheoryandImplcmentationofNetworkSpiderWangKun(HunanTechnologyTradeVocati
2、onalCollege,Hengyang421001,China)Abstract:IntodayscomputernetworkandInternethighdevelopmentperiod,varioussearchenginescontinuetorise.FromYahoo,Baiduandotherwell-knownsearchenginesproposedvarioussearchtechnology,convenientandbroadnetizenInternetsearchontheirinformationneedsandinformation.Tos
3、earchenginespiderswebisanimportantpart,soitisnecessaryforustostudytheprincipleandrealizationofnetworkspider・Keywords:Internet.Spider;Searchengine;Spider,webpage;AlgorithmH—1—*・•、DUri在计算机网络诞生之初,各种网站和信息量述是相对比较少,所以信息检索不是一个很难处理的问题。但是在互联网高度发展的今天,-•般的互联网用户想通过自Li的方法在互联网上杳找到满意的信息如同大海捞针一-样。因此,搜索引擎便油
4、然而生了,当然网络蜘蛛程序却是搜索引擎中最为重要的环节,如何实现网络蜘蛛,就要了解英工作的原理,深入的探讨网络的实现算法。二、网络蜘蛛的原理(一)网站结构。对于当前互联网的各种网站其基本结构都比较类似,基本都遵循一个树形结构,从网站的首贝到最后的内容页面都存在一条途径。那么我们可以简单把网站中的每一个网页看作这颗树中一个节点,那么对于如何分析这些网页得出网页之间的联系,这対网络蜘蛛來说是一个重要的问题。(二)网络蜘蛛工作原理。网络蜘蛛是通过网页链接地址來寻找网页的,这必须要遵循网站结构来进行抓取,从一•个网站某一•个页而开始,通常'來说这个页而也叫网站的入口。读収网页后,找到
5、网页中的其他的超链接地址,然后再根据这些超链接地址进入下一个网页,因此不断的循环下去后把報个网站抓収完毕。通过这种循环可以构造出更大的环境,那就是整个互联网,也就是说通过网络蜘蛛,就可以将整个互联网上的所有网站都抓収完毕。对于以上所描述的网络蜘蛛的原理不难看出,从目前互联网所公如网站的数目来看,是一个非常庞大的数目,而口每个网页信息都有一定的容量,假设一个网页平均的大小为50K计算,这里还要包括图片等媒体,对于上百亿的网页容量可以达到上百万GB的。如何存储?如何有充足的时间去抓取都是一•些复杂的问题。面对这些问题,对于网络蜘蛛來说就必须在抓取网页吋候要有一-个的策略,一般來说
6、有两种策略:广度优先策略和深度优先策略。广度优先策略:这种策略就是耍求在网络蜘蛛在抓収一个网页后,继续对该网页中的链接网页进行抓取。这种方式可以让网络蜘蛛以并行的方式进行抓収,以提高抓収的速度,减少抓収时间。深度优先策略:这就是要求网络蜘蛛在抓取一个网页链接后,进一步对下一个链接的网页进行抓収,不断的跟踪下去,克到网站最大深度为止,然后再处理英他链接的网页。这样的策略最大的优点就是实现算法比较简单,可以采用递归的方法进行设计。三、网络蜘蛛与网站网络蜘蛛如何对网站进行抓収,这需要很好的控制,因为网络蜘蛛在抓収网贝的时候,不同于一般的访问,否则会对服务器造成严重的负担。那么就耍求
7、网站对网络蜘蛛的进入有—•定的设置,比如:在网站根目录下投放一个robots,txt文件,专门用來同网络蜘蛛进行交互的文件。它主要的功能就是将网站管理员的意图传递给网络蜘蛛,告诉网络蜘蛛哪些页面可以访问,哪些网页不可以访问。而且这个文件的语法也是比较简单的,也可以将这文件看成一个网络约定协议WQ,并没有其他的强迫手段,也能有效的屏蔽了不属于识别该文件的网络蜘蛛。还有其他方法可以有效的引导网络蜘蛛对网站进行有效的抓取,比如:利用sitemap.xml文件,即网站地图。该文件可以看作网络蜘蛛的向导,能帮助网
此文档下载收益归作者所有