robots.txt蜘蛛采-htaccess彻底屏蔽蜘蛛爬虫的方法(百度)

网站应用 - 五月 14, 2010 - 来源:单点日志 - 1 Comment -

其实最好的办法你还是尝试下robots.txt文件的设置,在网站的robots.txt文件中加上如下内容:
以百度蜘蛛为例

User-agent: Baiduspider
Disallow: /

  这种方法如果不能完全屏蔽百度的爬虫,也就是蜘蛛要是不遵守robots协议,我们才要想完全屏蔽百度的爬虫,需要在.htaccess中加入一些语句才可以,下面介绍两种方法。

  方法1:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* – [F]

  方法2:

SetEnvIfNoCase User-Agent “^Baiduspider” bad_bot

Order Allow,Deny
Allow from all
Deny from env=bad_bot

前面一篇文章,如何降低百度蜘蛛抓取频率,我也提供过使用crawl-delay语句来降低蜘蛛的抓取频度。

有的人问,怎么设置了crawl-delay,蜘蛛还是死爬网站,要说明的是,robots.txt只是一种建议,大型搜索引擎一般会参照你的建议.

但是,很多小型的网络爬虫可能根本不会理会。crawl-delay也是一种参照,从我开发网络爬虫的经验来看,每次爬行一个网站,不可能只建立一个TCP链接,更不可能只发一个HTTP请求,调度一次消耗是很大的,肯定调度一次要连发多个请求。这些大型搜索引擎每分钟都爬行你的网站应该是好事,因为他们觉得你的网站很有价值,做网络爬虫的时候都会做一个比较复杂的统计算法,估计出下一次什么时间爬行一个网站,很多网站它觉得没有价值,就很少爬行。

基于以上原因,crawl-delay可以设置长一点,但是,你是不可能限制每次只爬一个网页的,否则搜索引擎调度的消耗太大了,都不会这样做的。

当然一般情况如果蜘蛛爬行速度频率正常,服务器资源耗用不多,也不影响用户的正常使用,建议还是不要屏蔽的,屏蔽百度蜘蛛要三思,呵呵。

请不要磨灭我的分享热情,转载请保留文章出处:http://spoint.babyshoot.cn/



无觅相关文章插件,快速提升流量

《robots.txt蜘蛛采-htaccess彻底屏蔽蜘蛛爬虫的方法(百度)》由单点日志原创提供!
转载请注明:http://spoint.babyshoot.cn/archives/2010/05/robotstxt-htaccess-pingbi-spider.html

1 Comment│赶紧发话! »

发表评论

您必须登录后才能发表评论。
8