屏蔽百度蜘蛛的几种方法

ID：1990866

大小：25.50 KB

页数：2页

时间：2017-11-14

资源描述：

《屏蔽百度蜘蛛的几种方法》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、一般情况下，网站建立并运营之后总是希望被搜索引擎收录的数量越多越好。但这只是通常情况下，大部分人所希望的。有些时候，我们还是会希望搜索引擎蜘蛛不要访问网站的某些文件夹，当然也有不希望搜索引擎收录的页面。比如说，网站刚刚建立并没有真正投入运营，还没有实质性的内容时；还有过多的收录页面导致网站权重的分散，而恰恰你想要聚拢权重到某些个最重要的页面时；再比如建立一个镜像网站，并主要通过其他的推广手段（这里指除了SEO以外的推广方法）对网站进行运营时。而搜索引擎收录网站页面是需要通过蜘蛛访问网站，并对页面内容进行抓取。所以通常情况下，想要阻止搜索

2、引擎的收录就需要限制、屏蔽蜘蛛的访问与抓取。下面笔者介绍几种常用的屏蔽蜘蛛抓取的方法。1.robots.txt规则文件。大家都知道robots.txt是指引搜索引擎蜘蛛对该网站访问与否的规则，平时运用的也比较多。一般的建议是不论网站是否有需要屏蔽收录的内容，都要在根目录下建立robots.txt文件。robots.txt文件规则的写法很简单，比如需要屏蔽某一个搜索引擎的蜘蛛访问所有目录，就这样写：User-agent:GooglebotDisallow:/再比如禁止所有蜘蛛访问、抓取某一个目录则：User-agent:*Disallow

3、:/admin/2.robotsMeta标签。如果说robots.txt是一个放在网站中的规则文件，那robotsMeta就是放在某个网页中的标签。两者的实际功能是大致相同的，但robots.txt是大部分搜索引擎都支持的方式，而后者却是大部分搜索引擎都不支持的。另外相比较下，robotsMeta用来对某几个页面单独设置时使用。robotsMeta标签必须存放在“…”代码之内：…其中“index”指的是

4、索引，“follow”指的是跟踪链接并传递相应的权重。当然相应的还有“noindex”和“nofollow”，功能则正好相反。3.服务器配置文件。这种方法是最不常见的屏蔽蜘蛛的方法，主要用于屏蔽那些“不恪守”robots.txt规则的蜘蛛。方法就是一段时间的分析网站日志，发现需要屏蔽的蜘蛛以及它的ip。然后通过服务器的配置文件将其屏蔽，从而实现屏蔽某一个蜘蛛抓取网站。当然这种方法运用起来并不灵活，比如不能屏蔽蜘蛛单独对某一个文件夹（或网页）的抓取。因服务器及其系统的不同，具体还请参见相关设置方法。除以上提到的三种屏蔽蜘蛛抓取的方法以外，

5、应该是有其他的方法可以达到屏蔽蜘蛛抓取的目的，欢迎各位高手在闲暇之时予以补充。但就以上三种方法而言，第一种robots.txt规则文件的运用更为广泛。更多资料请查阅http://www.loftlab.net

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 / 2



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

屏蔽百度蜘蛛的几种方法

屏蔽百度蜘蛛的几种方法

相关文章

相关标签