搜索引擎蜘蛛太勤快,如何降低百度蜘蛛抓取频率

网站应用 - 五月 12, 2010 - 来源:单点日志 - 4 Comments -

robots.txt的支持,百度、谷歌、搜捭、搜狗、雅虎、MSN等的蜘蛛支持度比较好,对robots的Crawl-delay 语法也能很好的支持,而有道蜘蛛基本上不理会robots.txt 的Crawl-delay 语法。
以上这些都是来源网络的资料,基本上我想解决的是百度蜘蛛对网站的抓取量能降低点,那么我们就是用Crawl-delay 语法试试看吧,写法是Crawl-delay:30,意思是两次抓取间隔是30S。
一、百度蜘蛛
  这期间我做的一个新网站,大概半年了,经过一段时间的发展,成长稳定,特别得到了百度的喜欢 ,同时也交换了一些比较好的链接,这就导致了百度疯狂抓取我的网站内容,流量耗用太快,已经翻倍过服务器资源,但是最近情况越发凶猛,因为网站改版,新旧链接交替,又设置了新旧 链接都可以访问到内容,把百度搞疯了。没办法,只有把蜘蛛降低点效率了,百度官方没有说支持Crawl-delay语句,不过还是希望支持吧,网上查了不少资料都建议设置,我想应该是可以的。(Crawl-delay:30)同样问题的,也可以这样设置,降低百度的抓取频度,yahoo官方是明确声明支持的。请看,http://ysearchblog.cn/2006/07/yahoo_slurp.html
Crawl-delay:xx参数定义:
 在robots.txt 里,YST有一个特定的扩展名,可以通过它对我们的抓取程序设定一个较低的抓取请求频率。您可以加入Crawl-delay:xx指示,其中,”XX”是指在crawler程序两次进入站点时,以秒为单位的最低延时。如果crawler频率对您的服务器是一个负担,您可以将这个延时设定为任何您认为恰当的数字,例如1或10。


例如,您想设定一个2秒的延时,语句如下:
User-agent: Slurp
Crawl-delay: 2
  二、谷歌蜘蛛
  谷歌蜘蛛对新网站发现的速度很快,但收录相对平稳,每天的抓取的页面数也比较稳定,PR越高,外链越多的网站更新越快。反之,GOOGLE PR低的网站更新较慢。
  三、搜捭、搜狗、有道蜘蛛
  更新比较快,但不太稳定,每天的访问波动也比较大,比百度更难捉摸,我有个站被搜搜和搜狗都K得只剩首页了。
  四、雅虎、MSN
  雅虎的更新快,但收录少,MSN的更新极慢。
请不要磨灭我的分享热情,转载请保留文章出处:http://spoint.babyshoot.cn/



无觅相关文章插件,快速提升流量

《搜索引擎蜘蛛太勤快,如何降低百度蜘蛛抓取频率》由单点日志原创提供!
转载请注明:http://spoint.babyshoot.cn/archives/2010/05/baidu-robots-crawl-delay.html

4 Comments│赶紧发话! »

发表评论

您必须登录后才能发表评论。
8