正确解读新浪博客Robots.txt
时间:2010-08-29 来源:渝SEO
前段时间的某一天,突然有人说新浪博客robots.txt禁止了所有的搜索引擎。
不少人打开http://blog.sina.com.cn/robots.txt来查看!
发现上面的确有一句
User-agent: *
#临时限制对所有目录的禁止抓取
Disallow: / 单从这句上来查看,的确是屏蔽了所有的搜索引擎了!
但在随后的几天里,新浪博客的百度当时收录量并没有减少。也没有减少的迹象。
虽然有有少网友反映自己的新浪博客一直不被收录,新发的博文不收录了!等
其实这种现象一直有出现的,平时也不是每发一篇日志都一定会被收录了。只是当时并没有在意过。
在加上当时几天百度间隙性的调整,出现过几次一天之内不收录新页面的现象。所以,就造成了新浪博客蜘蛛封杀门事件!
其实,论坛里还是有不少人注意到了上面一句。
#限制不能搜索的目录,Disallow: 为空时开放所有目录####
Disallow: /admin/
Disallow: /include/
Disallow: /html/
Disallow: /queue/
Disallow: /config/ 只是一般人都认为,前面虽然禁止了百度蜘蛛访问这几个部分的URL,但后面是禁止所有。所以,前面这几句可以忽略了!
其实不然!
robots.txt官网写作上有这么一个例子
Disallow:
User-agent: *
Disallow: / 这条的官方解释是,“To allow a single robot”
允许单个的robot
从这里可以看出User-agent: *这句的“*”统配符其实并不包括前面单独定意过的内容。
在来看新浪robots.txt
User-agent: Baiduspider
#限制不能搜索的目录,Disallow: 为空时开放所有目录####
Disallow: /admin/
Disallow: /include/
Disallow: /html/
Disallow: /queue/
Disallow: /config/
#开放bing.com的搜索引擎的User-Agent代码
User-agent: msnbot
#限制不能搜索的目录,Disallow: 为空时开放所有目录####
Disallow: /admin/
Disallow: /include/
Disallow: /html/
Disallow: /queue/
Disallow: /config/
User-agent: bing
#限制不能搜索的目录,Disallow: 为空时开放所有目录####
Disallow: /admin/
Disallow: /include/
Disallow: /html/
Disallow: /queue/
Disallow: /config/
#限制的搜索引擎的User-Agent代码,*表示所有###########
User-agent: *
#临时限制对所有目录的禁止抓取
Disallow: / 不难看出,sina博客是允许Baiduspider,msnbot,bing访问的
从结果中来看
Google一周的收录情况:
http://www.google.com.hk/search? ... m.cn&as_rights=
Google一周之内并没有收录blog.sina.com.cn域名下的内容,我们看到的只是photo.blog.sina.com.cn下的内容。
其它搜索引擎情况也差不多。
Sina博客屏蔽部分搜索引擎,我想是出于服务器资源方面的考滤!而且,也说了只是临时的。而我们主要做的百度搜索引擎的话,并没有太大的影响。只是做Google的朋友就悲剧了。 本帖最近评分记录
不少人打开http://blog.sina.com.cn/robots.txt来查看!
发现上面的确有一句
引用:
#限制的搜索引擎的User-Agent代码,*表示所有###########User-agent: *
#临时限制对所有目录的禁止抓取
Disallow: / 单从这句上来查看,的确是屏蔽了所有的搜索引擎了!
但在随后的几天里,新浪博客的百度当时收录量并没有减少。也没有减少的迹象。
虽然有有少网友反映自己的新浪博客一直不被收录,新发的博文不收录了!等
其实这种现象一直有出现的,平时也不是每发一篇日志都一定会被收录了。只是当时并没有在意过。
在加上当时几天百度间隙性的调整,出现过几次一天之内不收录新页面的现象。所以,就造成了新浪博客蜘蛛封杀门事件!
其实,论坛里还是有不少人注意到了上面一句。
引用:
User-agent: Baiduspider#限制不能搜索的目录,Disallow: 为空时开放所有目录####
Disallow: /admin/
Disallow: /include/
Disallow: /html/
Disallow: /queue/
Disallow: /config/ 只是一般人都认为,前面虽然禁止了百度蜘蛛访问这几个部分的URL,但后面是禁止所有。所以,前面这几句可以忽略了!
其实不然!
robots.txt官网写作上有这么一个例子
引用:
User-agent: GoogleDisallow:
User-agent: *
Disallow: / 这条的官方解释是,“To allow a single robot”
允许单个的robot
从这里可以看出User-agent: *这句的“*”统配符其实并不包括前面单独定意过的内容。
在来看新浪robots.txt
引用:
#开放百度的搜索引擎的User-Agent代码User-agent: Baiduspider
#限制不能搜索的目录,Disallow: 为空时开放所有目录####
Disallow: /admin/
Disallow: /include/
Disallow: /html/
Disallow: /queue/
Disallow: /config/
#开放bing.com的搜索引擎的User-Agent代码
User-agent: msnbot
#限制不能搜索的目录,Disallow: 为空时开放所有目录####
Disallow: /admin/
Disallow: /include/
Disallow: /html/
Disallow: /queue/
Disallow: /config/
User-agent: bing
#限制不能搜索的目录,Disallow: 为空时开放所有目录####
Disallow: /admin/
Disallow: /include/
Disallow: /html/
Disallow: /queue/
Disallow: /config/
#限制的搜索引擎的User-Agent代码,*表示所有###########
User-agent: *
#临时限制对所有目录的禁止抓取
Disallow: / 不难看出,sina博客是允许Baiduspider,msnbot,bing访问的
从结果中来看
Google一周的收录情况:
http://www.google.com.hk/search? ... m.cn&as_rights=
Google一周之内并没有收录blog.sina.com.cn域名下的内容,我们看到的只是photo.blog.sina.com.cn下的内容。
其它搜索引擎情况也差不多。
Sina博客屏蔽部分搜索引擎,我想是出于服务器资源方面的考滤!而且,也说了只是临时的。而我们主要做的百度搜索引擎的话,并没有太大的影响。只是做Google的朋友就悲剧了。 本帖最近评分记录
相关阅读 更多 +