SEO智慧笔记(二)

时间：2010-09-07 来源：码魔谷

SEO智慧笔记(二)

7.搜索引擎收录网站的原理

7.1 探寻蜘蛛和探寻机器人

搜索引擎要知道网上的新生事物，就得派探测器不断去搜集。探测器也叫Crawer（爬行器）、spider（蜘蛛）、robot（机器人）。Google把它叫做Googlebot，baidu就叫Baiduspider，MSN叫MSNbot。探测器不分昼夜地进入访问各个网站，取回网站内容、标签、图片等，然后依照搜索引擎的算法给他们制定成索引。

因为新网站的出现数量、老网站的更新都是爆炸式的，因此一个搜索引擎需要同时派出许多个探测器。spider要么从站主直接呈递的网站URL去访问，要么由一个网络用户所装的搜索引擎工具栏（比如baidu工具栏）得知用户去的网站，要么是从一个网站中指向另一个网站的链接过去。

另外，spider能截取的网页大小是有限制的，比如Google能够吸收100kb的文件，大于100kb则会只截取网页的前面部分，因此我们设计网页时不能设计得很长、很大，要将大的网页拆分成若干小的网页。

7.2 Google的Freshbot和Deepbot

Google使用2种探测器来抓取网站上的内容：Freshbot和Deepbot。

刷新探测器Freshbot持续不断的发现新的内容，例如新的网站、论坛、博客等。Google发现了一个新的网页后，之后频繁地再访，来看看是否还有什么新的更新。如果有，则这个新的网站加入到刷新探测器的名单中进行访问。

深度探测器Deepbot每月出击一次，受访内容在Google的主要索引之中。

搜索引擎主要包括下列几个元素：

1>>抓取状态：spider在互联网上不知疲倦的搜集网页。

2>>网页仓库：搜集来的网页储存的地方，等待索引处理。

3>>索引整理：将网页分门别类，进行压缩，等候进行索引编类，而未压缩的原始网页资料被删除。

4>>索引状态：压缩后的网页编目在不同的索引下。

5>>问询状态：将用户问询用的白话转变成搜索引擎能读懂的计算机语言，来咨询各个索引求得相关答案。

6>>排名状态：搜索引擎将相关答案根据一定的标准以单子的形式排列给用户。

8 搜索引擎如何提供搜索结果

8.1 搜索引擎的信息索引工作

用户搜索关键词，搜索引擎返回的是一个加工后的有序网页。

举例来说，搜索引擎设立一个索引叫“搜索引擎优化”，它就会在它的仓库里寻找有关“搜索引擎优化”的网页，把它们收录到“搜索引擎优化”这个标签下面，等有用户搜索“搜索引擎优化”的时候，它就在这一堆网页中寻找答案。

索引主要有3种：

1>>内容索引：包括网页的标题、关键词、描述语句、链接源头文字等。

2>>结构索引：如网页链接。

3>>特别索引：图片、pdf文件等。

8.2 搜索引擎的信息反馈工作

当用户在搜索框敲入关键词按下搜索键的时候，搜索引擎便紧张的开始工作，争取在最短的时间提供搜寻结果。Google一般将整个执行时间控制在半秒以内。搜索引擎执行计算后，出来符合用户问询条件的网页太多。这时Google进一步将结构交付给排名程序，请排名程序将相关信息按照最相关到最不相关进行排列。排名程序于是从预备计算过的索引中排列进行比较，给网页的内容打分，将综合的结果提供给用户。

9 搜索引擎排名原理

9.1 Google的佩奇等级（PageRank）

PageRank俗称PR值，一般导入链接越多，PR值越大。

PR（A）=0.15+0.85*（PR(1)/C(1) +PR(2)/C(2)+PR(3)/C(3)+...+PR(n)/C(n))

PR（A）为网页A的PR值，n为导入链接的总数，PR(i)为链接网页A的网页1的PR值，C(1)为网页1的导出链接数。

PR值涉及到搜索排名，但网站有更重要的排名因素起作用，比如内文质量、网页标签、链接质量和对象选择等。

9.2 怎样看待PageRank是零

可能是没有导入链接或者被Google惩罚。