文章详情

  • 游戏榜单
  • 软件榜单
关闭导航
热搜榜
热门下载
热门标签
php爱好者> php文档>开搜课堂第四讲爬虫。(或蜘蛛,机器人)

开搜课堂第四讲爬虫。(或蜘蛛,机器人)

时间:2008-09-28  来源:开搜

第二章搜索引擎原理
介绍完seo我们知道我们是研究搜索引擎的,那么搜索引擎到底是什么样我们还不知道。一个连他研究的对象是什么的人都不了解试想以后何以成功?那么我们本章就来来研究一下搜索引擎的原理是什么。首先我们要知道搜索引擎分为三大系统:1信息收集系统2预处理系统3查询服务系统。接下来将以这三大系统做详细的阐述。

第四讲爬虫。(或蜘蛛,机器人)
不要把它想象得太复杂,它就是一只虫子,它从各个站点提取网页内容,然后将内容传回搜索应轻数据中心以便以后分析。互联网上有无数只这样的虫子网线就是枝干,网站就是枝叶他们爬来爬去寻找着他们想要的美味—网页内容。爬虫担当了web站点内容收集的任务,对于站长来说是非常重要的。它就是你与搜索引擎之间的一个使者。爬虫经常光顾您的网站,你把您想让搜索引擎获得的东西放在网站上等待爬虫来拿。一般来说正常网站爬虫的爬行在1-2周左右一次,但是每次爬完之后不会立刻就显示在搜索引擎之上,它会经过进一步的加工和处理等待一段时间才会有所体现。
那么爬虫是怎么爬的呢?首先爬虫爬行的时间,由于白天大家都在访问网站给服务器会带来一定的压力,因此一般爬虫都安排到晚上出动,2-3点钟左右爬虫开始出来爬行。爬虫的爬行路径是怎样的呢?简单来说就是以依靠链接从一个站爬到另外一个站。
爬虫从网站上爬走了什么?爬虫带走的信息列表至少包含三个内容:1标题2网址链接3摘要。因此这三个内容是站长关注的要点。重中之重。那么关于如何写标题,如何做链接以及摘要的写法我们将会在后续课程中更加详细的了解。那么除了爬虫爬的的时间我们知道了还有没有一些别的需要特别注意的呢?爬虫爬网的喜好。就如人一样,我知道大概什么地方会有丰盛的晚餐我就先朝着那去。爬虫也是,一些大型的网站对于爬虫有着很强的吸引力,因此爬虫对于他们来说总是乐此不疲的爬来爬去。而对于小站就相对光临的少些了。所以如果你想得到爬虫的重视你就得多在大站上发一些通向自己站的链接来“引诱”爬虫上钩。当爬虫知道你这有食物可以吃了,它就会经常性的光顾,当你总是给他吃那几个页面的时候它就会烦,以后光临的时间间隔会越来越长,因此经常给虫子们换换口味是必须的。这就是网站的更新。下面再讲一下爬虫爬网的方式。爬虫爬行时有一定的规律的。一个网页有数百的链接的话虫子很难面面俱到那么他是怎么爬的呢?就像人们出门卡车一样爬东西也得有个规矩吧?走路一条线只有上下两个方向(上行和下行),网页是一个面有四个方向。那虫虫们应该怎么走呢?道理很简单从左到右从上到下。但是很多人往往都忽视了这么一个关键性的东西。左上角的位置是最重要的,这一点大家都知道,但是右下角的位置是最不重要的这一点大家往往没有很好的利用起来。另外在这里有一个非常关键的知识点需要大家额外了解。死链接和错误链接。死链接与错误链接
什么是死链接?什么是错误链接?
笔者最近在一个比较热的seo论坛上看到作者对这二者的关系是这么说的。“从用户的角度来看,死链接和错误链接的表现是一样的,所以一般我们并不需要区别死链接和错误链接。”
呵呵这完全是不负责任的言论。
在下学识浅薄在此作一番我的解释:
什么叫死链接:所谓死就是套住的意思,没有出路的链接就叫死链接。
正所谓死胡同就是出不去。包括两个概念1没有链接或链接错误。2循环死链接也就是说你的链接让蜘蛛来回的爬几个页面而不能达到全局。
什么叫错误链接呢?显然是死链接的第一种说法。那么我们为什么还要强调这个死链接呢?这对seo是否鹅肠重要的。
也许你做的站有很多链接本来你会想想虫子爬完你所有的链接其实真正的不是这个样子也许虫子就在你有限的几个页面里转起了圈圈而无法达到你想要抓取的页面。
大家都知道虫子爬的顺序是从上倒下从左到右,如果他刚刚爬到上面的最左端至第二页而你第二页又连向第一页如此反复蜘蛛就会在两个页面之间爬来爬去浪费时间而别的页面却不曾光顾因此网站链接如何布局非常重要,又比如你的友情链接是非常不想让蜘蛛爬的因为蜘蛛会随着友情链接爬走,那么我们应该把友情链接放到网页的什么位置呢?右下角!
因此我们做网站的时候错误链接是很容易避免的但是死链接有时还是需要动脑子想想,如何做能够让虫子爬满整个网站。此部分讨论的内容将在网站结构的章节中具体体现。
在这一讲中我们讲了爬虫的四个特点其中延伸出来的东西会在家下来的章节从中逐渐揭开神秘的面纱。
相关阅读 更多 +
排行榜 更多 +
浴血混战官方下载

浴血混战官方下载

飞行射击 下载
检票员模拟器免广告下载

检票员模拟器免广告下载

模拟经营 下载
最终前哨最终版手机版下载

最终前哨最终版手机版下载

休闲益智 下载