spider(二) 爬虫的工作流程

时间：2010-10-19 来源：小蠢鱼

　　爬虫主要是为搜索引擎提供大量的数据基础，抓去的对象是互联网上的浩瀚资源，但是再好的爬虫也无法爬取所有的网络资源，所以爬虫如何高效的爬取有用的重要资源是当前亟待解决的问题，我们下面来看一下一个爬虫他主要的一个工作流程，后期的介绍我们也会按照这个工作流程去介绍爬虫的构成，以及一些性能方面的调优。

　　爬虫开始的时候需要给爬虫输送一个url列表，这个列表当中的url地址便是爬虫的起始位置，爬虫从这些url出发，开始了爬行，一直不断的发现新的url，然后再根据策略爬行发现的新的url，如此永远的反复下去，一般的爬虫都是自己简历dns缓冲，简历dns缓冲的目的是加快url解析撑IP地址的速度，google为了获取上亿的网页，设计了分布式的爬虫系统，一个url服务器讲url列表提供给网络爬行器，每个网络爬虫运行若干个连接，这样可以同时做到并行的爬取数据。