robots.txt蜘蛛采-htaccess彻底屏蔽蜘蛛爬虫的方法(百度)

| | Comments (1)



其实最好的办法你还是尝试下robots.txt文件的设置,在网站的robots.txt文件中加上如下内容:
以百度蜘蛛为例

User-agent: Baiduspider
Disallow: /

  这种方法如果不能完全屏蔽百度的爬虫,也就是蜘蛛要是不遵守robots协议,我们才要想完全屏蔽百度的爬虫,需要在.htaccess中加入一些语句才可以,下面介绍两种方法。

  方法1:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F]

  方法2:

SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot


Order Allow,Deny
Allow from all
Deny from env=bad_bot

前面一篇文章,如何降低百度蜘蛛抓取频率,我也提供过使用crawl-delay语句来降低蜘蛛的抓取频度。

有的人问,怎么设置了crawl-delay,蜘蛛还是死爬网站,要说明的是,robots.txt只是一种建议,大型搜索引擎一般会参照你的建议.

但是,很多小型的网络爬虫可能根本不会理会。crawl-delay也是一种参照,从我开发网络爬虫的经验来看,每次爬行一个网站,不可能只建立一个TCP链接,更不可能只发一个HTTP请求,调度一次消耗是很大的,肯定调度一次要连发多个请求。这些大型搜索引擎每分钟都爬行你的网站应该是好事,因为他们觉得你的网站很有价值,做网络爬虫的时候都会做一个比较复杂的统计算法,估计出下一次什么时间爬行一个网站,很多网站它觉得没有价值,就很少爬行。

基于以上原因,crawl-delay可以设置长一点,但是,你是不可能限制每次只爬一个网页的,否则搜索引擎调度的消耗太大了,都不会这样做的。


当然一般情况如果蜘蛛爬行速度频率正常,服务器资源耗用不多,也不影响用户的正常使用,建议还是不要屏蔽的,屏蔽百度蜘蛛要三思,呵呵。

请不要磨灭我的分享热情,转载请保留文章出处:http://spoint.babyshoot.cn/

1 Comments

不是吧 百度 不遵守robots.txt
第一次听说

Leave a comment

Archives

Ads by google

Pages

Powered by Movable Type 4.24-en

About this Entry

This page contains a single entry by 单点日志 published on May 14, 2010 11:48 AM.

搜索引擎蜘蛛太勤快,如何降低百度蜘蛛抓取频率 was the previous entry in this blog.

网络推广网站优化必备-50个高质量博客 is the next entry in this blog.

Find recent content on the main index or look in the archives to find all content.