文章详情

  • 游戏榜单
  • 软件榜单
关闭导航
热搜榜
热门下载
热门标签
php爱好者> php文档>spider(二) 爬虫的工作流程

spider(二) 爬虫的工作流程

时间:2010-10-19  来源:小蠢鱼

  爬虫主要是为搜索引擎提供大量的数据基础,抓去的对象是互联网上的浩瀚资源,但是再好的爬虫也无法爬取所有的网络资源,所以爬虫如何高效的爬取有用的重要资源是当前亟待解决的问题,我们下面来看一下一个爬虫他主要的一个工作流程,后期的介绍我们也会按照这个工作流程去介绍爬虫的构成,以及一些性能方面的调优。

  爬虫开始的时候需要给爬虫输送一个url列表,这个列表当中的url地址便是爬虫的起始位置,爬虫从这些url出发,开始了爬行,一直不断的发现新的url,然后再根据策略爬行发现的新的url,如此永远的反复下去,一般的爬虫都是自己简历dns缓冲,简历dns缓冲的目的是加快url解析撑IP地址的速度,google为了获取上亿的网页,设计了分布式的爬虫系统,一个url服务器讲url列表提供给网络爬行器,每个网络爬虫运行若干个连接,这样可以同时做到并行的爬取数据。

  由此可见爬虫系统是涉及到任务,多线程,策略的庞大的系统,在后续的研究中我们讲会做进一步的阐述。

相关阅读 更多 +
排行榜 更多 +
零界之痕手游安卓下载

零界之痕手游安卓下载

角色扮演 下载
漫游都市手机版下载

漫游都市手机版下载

赛车竞速 下载
涡轮螺旋桨飞行模拟器无限金币版下载

涡轮螺旋桨飞行模拟器无限金币版下载

模拟经营 下载