正确解读新浪博客Robots.txt

时间：2010-08-29 来源：渝SEO

前段时间的某一天，突然有人说新浪博客robots.txt禁止了所有的搜索引擎。

不少人打开http://blog.sina.com.cn/robots.txt来查看！
发现上面的确有一句

引用:

#限制的搜索引擎的User-Agent代码，*表示所有###########
User-agent: *

#临时限制对所有目录的禁止抓取
Disallow: / 单从这句上来查看，的确是屏蔽了所有的搜索引擎了！

但在随后的几天里，新浪博客的百度当时收录量并没有减少。也没有减少的迹象。

虽然有有少网友反映自己的新浪博客一直不被收录，新发的博文不收录了!等
其实这种现象一直有出现的，平时也不是每发一篇日志都一定会被收录了。只是当时并没有在意过。
在加上当时几天百度间隙性的调整，出现过几次一天之内不收录新页面的现象。所以，就造成了新浪博客蜘蛛封杀门事件！

其实，论坛里还是有不少人注意到了上面一句。

引用:

User-agent: Baiduspider

#限制不能搜索的目录，Disallow: 为空时开放所有目录####
Disallow: /admin/
Disallow: /include/
Disallow: /html/
Disallow: /queue/
Disallow: /config/ 只是一般人都认为，前面虽然禁止了百度蜘蛛访问这几个部分的URL，但后面是禁止所有。所以，前面这几句可以忽略了！

其实不然！

robots.txt官网写作上有这么一个例子

引用:

User-agent: Google
Disallow:

User-agent: *
Disallow: / 这条的官方解释是，“To allow a single robot”
允许单个的robot

从这里可以看出User-agent: *这句的“*”统配符其实并不包括前面单独定意过的内容。

在来看新浪robots.txt

引用:

#开放百度的搜索引擎的User-Agent代码
User-agent: Baiduspider

#限制不能搜索的目录，Disallow: 为空时开放所有目录####
Disallow: /admin/
Disallow: /include/
Disallow: /html/
Disallow: /queue/
Disallow: /config/

#开放bing.com的搜索引擎的User-Agent代码
User-agent: msnbot

#限制不能搜索的目录，Disallow: 为空时开放所有目录####
Disallow: /admin/
Disallow: /include/
Disallow: /html/
Disallow: /queue/
Disallow: /config/

User-agent: bing

#限制不能搜索的目录，Disallow: 为空时开放所有目录####
Disallow: /admin/
Disallow: /include/
Disallow: /html/
Disallow: /queue/
Disallow: /config/

#限制的搜索引擎的User-Agent代码，*表示所有###########
User-agent: *

#临时限制对所有目录的禁止抓取
Disallow: / 不难看出，sina博客是允许Baiduspider,msnbot,bing访问的
从结果中来看

Google一周的收录情况：
http://www.google.com.hk/search? ... m.cn&as_rights=

Google一周之内并没有收录blog.sina.com.cn域名下的内容，我们看到的只是photo.blog.sina.com.cn下的内容。

其它搜索引擎情况也差不多。

Sina博客屏蔽部分搜索引擎，我想是出于服务器资源方面的考滤！而且，也说了只是临时的。而我们主要做的百度搜索引擎的话，并没有太大的影响。只是做Google的朋友就悲剧了。本帖最近评分记录