搜索引擎蜘蛛太勤快,如何降低百度蜘蛛抓取频率

| | Comments (4)



robots.txt的支持,百度、谷歌、搜捭、搜狗、雅虎、MSN等的蜘蛛支持度比较好,对robots的Crawl-delay 语法也能很好的支持,而有道蜘蛛基本上不理会robots.txt 的Crawl-delay 语法。

以上这些都是来源网络的资料,基本上我想解决的是百度蜘蛛对网站的抓取量能降低点,那么我们就是用Crawl-delay 语法试试看吧,写法是Crawl-delay:30,意思是两次抓取间隔是30S。


一、百度蜘蛛

  这期间我做的一个新网站,大概半年了,经过一段时间的发展,成长稳定,特别得到了百度的喜欢 ,同时也交换了一些比较好的链接,这就导致了百度疯狂抓取我的网站内容,流量耗用太快,已经翻倍过服务器资源,但是最近情况越发凶猛,因为网站改版,新旧链接交替,又设置了新旧 链接都可以访问到内容,把百度搞疯了。没办法,只有把蜘蛛降低点效率了,百度官方没有说支持Crawl-delay语句,不过还是希望支持吧,网上查了不少资料都建议设置,我想应该是可以的。(Crawl-delay:30)同样问题的,也可以这样设置,降低百度的抓取频度,yahoo官方是明确声明支持的。请看,http://ysearchblog.cn/2006/07/yahoo_slurp.html

Crawl-delay:xx参数定义:

 在robots.txt 里,YST有一个特定的扩展名,可以通过它对我们的抓取程序设定一个较低的抓取请求频率。您可以加入Crawl-delay:xx指示,其中,"XX"是指在crawler程序两次进入站点时,以秒为单位的最低延时。如果crawler频率对您的服务器是一个负担,您可以将这个延时设定为任何您认为恰当的数字,例如1或10。

例如,您想设定一个2秒的延时,语句如下:

User-agent: Slurp
Crawl-delay: 2

  二、谷歌蜘蛛

  谷歌蜘蛛对新网站发现的速度很快,但收录相对平稳,每天的抓取的页面数也比较稳定,PR越高,外链越多的网站更新越快。反之,GOOGLE PR低的网站更新较慢。

  三、搜捭、搜狗、有道蜘蛛

  更新比较快,但不太稳定,每天的访问波动也比较大,比百度更难捉摸,我有个站被搜搜和搜狗都K得只剩首页了。

  四、雅虎、MSN

  雅虎的更新快,但收录少,MSN的更新极慢。

请不要磨灭我的分享热情,转载请保留文章出处:http://spoint.babyshoot.cn/

4 Comments

为什么要降低呢 爬的越快 说明网站权重越高啊

我无语..

啥人都有.

人家都巴不得蜘蛛爬

楼上二位肯定没试过被蜘蛛爬到服务器跑不动的滋味。。。。
刚看到谷歌会忽略 Crawl-delay

楼上那两位真是不知道这其中的滋味!百度疯狂的抓你的网页,后果就是你的网站连你自己都打不开了!服务器cpu嗖嗖的网上蹭,服务器管理员直接封你的站!我是尝到这个滋味了。真想干这百度

Leave a comment

Archives

Ads by google

Pages

Powered by Movable Type 4.24-en

About this Entry

This page contains a single entry by 单点日志 published on May 12, 2010 12:47 PM.

5.12 was the previous entry in this blog.

robots.txt蜘蛛采-htaccess彻底屏蔽蜘蛛爬虫的方法(百度) is the next entry in this blog.

Find recent content on the main index or look in the archives to find all content.