SEO智慧笔记(二)
时间:2010-09-07 来源:码魔谷
SEO智慧笔记(二)
7.搜索引擎收录网站的原理
7.1 探寻蜘蛛和探寻机器人
搜索引擎要知道网上的新生事物,就得派探测器不断去搜集。探测器也叫Crawer(爬行器)、spider(蜘蛛)、robot(机器人)。Google把它叫做Googlebot,baidu就叫Baiduspider,MSN叫MSNbot。探测器不分昼夜地进入访问各个网站,取回网站内容、标签、图片等,然后依照搜索引擎的算法给他们制定成索引。
因为新网站的出现数量、老网站的更新都是爆炸式的,因此一个搜索引擎需要同时派出许多个探测器。spider要么从站主直接呈递的网站URL去访问,要么由一个网络用户所装的搜索引擎工具栏(比如baidu工具栏)得知用户去的网站,要么是从一个网站中指向另一个网站的链接过去。
另外,spider能截取的网页大小是有限制的,比如Google能够吸收100kb的文件,大于100kb则会只截取网页的前面部分,因此我们设计网页时不能设计得很长、很大,要将大的网页拆分成若干小的网页。
7.2 Google的Freshbot和Deepbot
Google使用2种探测器来抓取网站上的内容:Freshbot和Deepbot。
刷新探测器Freshbot持续不断的发现新的内容,例如新的网站、论坛、博客等。Google发现了一个新的网页后,之后频繁地再访,来看看是否还有什么新的更新。如果有,则这个新的网站加入到刷新探测器的名单中进行访问。
深度探测器Deepbot每月出击一次,受访内容在Google的主要索引之中。
搜索引擎主要包括下列几个元素:
1>>抓取状态:spider在互联网上不知疲倦的搜集网页。
2>>网页仓库:搜集来的网页储存的地方,等待索引处理。
3>>索引整理:将网页分门别类,进行压缩,等候进行索引编类,而未压缩的原始网页资料被删除。
4>>索引状态:压缩后的网页编目在不同的索引下。
5>>问询状态:将用户问询用的白话转变成搜索引擎能读懂的计算机语言,来咨询各个索引求得相关答案。
6>>排名状态:搜索引擎将相关答案根据一定的标准以单子的形式排列给用户。
8 搜索引擎如何提供搜索结果
8.1 搜索引擎的信息索引工作
用户搜索关键词,搜索引擎返回的是一个加工后的有序网页。
举例来说,搜索引擎设立一个索引叫“搜索引擎优化”,它就会在它的仓库里寻找有关“搜索引擎优化”的网页,把它们收录到“搜索引擎优化”这个标签下面,等有用户搜索“搜索引擎优化”的时候,它就在这一堆网页中寻找答案。
索引主要有3种:
1>>内容索引:包括网页的标题、关键词、描述语句、链接源头文字等。
2>>结构索引:如网页链接。
3>>特别索引:图片、pdf文件等。
8.2 搜索引擎的信息反馈工作
当用户在搜索框敲入关键词按下搜索键的时候,搜索引擎便紧张的开始工作,争取在最短的时间提供搜寻结果。Google一般将整个执行时间控制在半秒以内。搜索引擎执行计算后,出来符合用户问询条件的网页太多。这时Google进一步将结构交付给排名程序,请排名程序将相关信息按照最相关到最不相关进行排列。排名程序于是从预备计算过的索引中排列进行比较,给网页的内容打分,将综合的结果提供给用户。
9 搜索引擎排名原理
9.1 Google的佩奇等级(PageRank)
PageRank俗称PR值,一般导入链接越多,PR值越大。
PR(A)=0.15+0.85*(PR(1)/C(1) +PR(2)/C(2)+PR(3)/C(3)+...+PR(n)/C(n))
PR(A)为网页A的PR值,n为导入链接的总数,PR(i)为链接网页A的网页1的PR值,C(1)为网页1的导出链接数。
PR值涉及到搜索排名,但网站有更重要的排名因素起作用,比如内文质量、网页标签、链接质量和对象选择等。
9.2 怎样看待PageRank是零
可能是没有导入链接或者被Google惩罚。