浅析搜索引擎对页面的收录原理以及收录方式

浅析搜索引擎对页面的收录原理以及收录方式

ID:24864403

大小:52.50 KB

页数:5页

时间:2018-11-16

浅析搜索引擎对页面的收录原理以及收录方式_第1页
浅析搜索引擎对页面的收录原理以及收录方式_第2页
浅析搜索引擎对页面的收录原理以及收录方式_第3页
浅析搜索引擎对页面的收录原理以及收录方式_第4页
浅析搜索引擎对页面的收录原理以及收录方式_第5页
资源描述:

《浅析搜索引擎对页面的收录原理以及收录方式》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、浅析搜索引擎对页面的收录原理以及收录方式>>edu.5151doc.教育资源库搜索引擎收录页面实际上就是在互联网上进行数据采集,这是搜索引擎最基础的工作,而搜索引擎的内容都来自后台的庞大的URL列表,通过这些URL,不断的收录,储存及维护,而学习搜索引擎收录的流程,收录原理及收录方式,有效的提高搜索引擎对网站的收录的数量!1.页面收录流程,在互联网中,URL是每个页面的入口地址,蜘蛛程序通过这些URL列表抓取到页面的,蜘蛛不断的从这些页面中获取URL资源及存储页面,并加入URL列表,如此不断的循环,搜索引擎就可以从互联网中获

2、取到足够的页面。URL是页面的入口,则域名则是网站的入口,搜索引擎就是通过域名进入网站,挖掘URL资源,换而言之搜索引擎在互联网中抓取页面的首要任务就是要有庞大的域名列表,在不断的通过域名,进入网站抓取网站中的页面,而对于咱们而言,想搜索引擎收录,首要条件就是加入搜索引擎的域名列表,常见加入搜索引擎的域名列表的有以下两种方式利用搜索引擎提供的网站登录入口,向搜索引擎提交网站域名,例如百度的:search/url_submit.html,可在此提交自己的网站域名,不过用此方法搜索引擎只会定期进行抓取并更新,这种做法比较被动,从

3、域名提交网站被收录花费的时间也比较长通过与有质量的外链,使搜索引擎在抓取别人的网站页面时发现我们的网站,从而实现对网站的收录,这种方法主动权在我们手上,(只要我们有足够多的外链)且收录速度比第一种方法快,根据外部链接的数量、质量相关性,一般2-7天就会被搜索引擎收录2.页面收录原理通过学习页面收录流程可以掌握加快网站被收录的方法,接着来学习页面收录原理,从而提高搜索引擎收录的数量!如果把一个网站页面组成的页面看做是一个有向图,从指定的页面出发,沿着页面中的链接,按照某种特定的策略对网站中的页面进行遍历。不停地从URL列表中移

4、出已经访问的URL,并存储原始页面,同时提取原始页面中的URL的信息:再将URL分为域名及内部URL两大类,同时判断URL是否被访问过,将未访问过的URL加入URL列表中。递归地扫描URL列表,直至耗尽所有URL资源为止。经过这些工作,搜索引擎就可以建立庞大的域名列表、页面URL列表并储存足够多的原始页面。3.页面收录方式,知道了页面收录流程和页面收录原理然而在搜索引擎中要获取相对重要页面,就涉及到了搜索引擎的页面收录方式,页面收录方式是指搜索引擎抓取页面时所使用的策略,目的是为了能在互联网中筛选出相对重要的信息,页面收录的

5、方式的制定取决于搜索引擎对网络结构的理解。如果使用相同的抓取策略,搜索引擎在同样的时间内可以在某一网站中抓取到更多的页面资源,则会在该网站停留更长的时间,收录的页面数自然也就多了。因此,加深对搜索引擎页面收录方式的认识,有利于为网站建立友好的结构,提高被收录的数量。搜索引擎搜收录页面的方式主要要有广度优先、深度优先及用户提交(用户提交暂时不讲)三种,认识这三种页面收录方式及各自的优缺点!广度优先如果把整个网站看做一棵树,首页就是根,每个页面就是叶子。广度优先是一种横向的页面抓取方式,先从树的较浅层开始抓取页面,直接抓完同层次

6、的所有页面后才进入下一层。因此,在对网站进行优化时,我们应该把网站相对重要的信息展示在层次比较浅的页面上(例如:在首页推荐一些热门的内容)。反过来,通过广度优先的抓取方式,搜索引擎就可以首先抓取到网站中相对重要的页面。首先,蜘蛛从网站的首页出发,抓取首页上所有连接指向的页面,形成页面集合A,并分析出A中所有页面中的链接:在跟踪这些链接抓取下一层的页面,形成页面集合B:就这样递归地从浅层页面中解析出链接,再从深层页面,直至满足某个设定的条件才停止抓取进程深度优先与广度优先的抓取方式相反,深度优先首先跟踪浅层页面中的某一连接后逐

7、步抓取深层页面,直至抓完最深层的页面才返回浅层页面再跟踪其另一链接,继续向深层页面抓取,这是一种纵向的页面抓取方式。使用深度优先的抓取方式,搜索引擎可以抓取到网站中较为隐蔽、冷门的页面,这样就能满足更多用户的需求。首先,搜索引擎会抓取网站的首页,并提取首页中的链接:再沿着其中的一个连接抓取到页面A-1,同时获取A-1中的链接并抓取页面B-1,获取B-1中的来链接并抓取页面C-1,如此不断的重复,满足到某个条件后,再从A-2抓取页面及链接!下期将带大家认识:搜索引擎对页面的收录(二),请关注中国站长站,关注大敏的blog内容提

8、要:4.搜索引擎如何避免重复性收录①搜索引擎转载页面的判断②搜索引擎镜像页面判断5.页面维护方式①定期抓取②增量抓取③分类定位抓取6.页面储存原创文章,转载请注明:转载自大敏-专注成为Focus感谢大敏的投稿[这篇文章来自..,]

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。