文章详情

  • 游戏榜单
  • 软件榜单
关闭导航
热搜榜
热门下载
热门标签
php爱好者> php文档>阻止搜索引擎的网络爬虫

阻止搜索引擎的网络爬虫

时间:2008-09-19  来源:szszszsz

    现在的搜索引擎的所谓网络爬虫,好像又叫蜘蛛太厉害了,有些搜索引擎的算法较差,爬服务器的严重耗资源,还有可能造成内存溢出。可以设置robots.txt来禁止爬虫来爬服务器。网上查了下资料,默认网站根目录下没有放置robots.txt文件,为允许所有网络爬虫搜索所有文件。汗!!
 
   在根目录放一个文件robots.txt,但好像不会立刻生效。
   如要禁止sogou的爬虫,可以在robots.txt这样设置
     User-agent:Sogou web spider
     Disallow: /

 有个笨方法,查看日志,观察浏览器特征,如sogou的特征为“Sogou web spider”,可以在apache里面设置
    setenvif User-Agent "Sogou web spider*" den
    Order deny,allow
    deny from env=den
再看apache日志信息,都是报403

最实用的方法 查看apache日志,看来源IP,确认后,封,最管用

以上操作都是治标不治本,只不过现在搜索引擎太多了,有时会影响到服务器的正常运行,所以有必要的话,可以对他们做一些限制操作了
相关阅读 更多 +
排行榜 更多 +
辰域智控app

辰域智控app

系统工具 下载
网医联盟app

网医联盟app

运动健身 下载
汇丰汇选App

汇丰汇选App

金融理财 下载