文章详情

  • 游戏榜单
  • 软件榜单
关闭导航
热搜榜
热门下载
热门标签
php爱好者> php文档>来看看搜索引擎如何分析网页内容

来看看搜索引擎如何分析网页内容

时间:2010-12-05  来源:何清勇

当我们清楚的了解了搜索引擎抓取网页的过程,当它获取了这么多信息以后,下一步就开始对这些信息进行处理,这也就是今天要分享的主题。下面我们来看搜索引擎是如何分析网页信息的。

网页信息类型的转换

目前网页类型很多,搜索引擎面对这些不同类型的网页,会将它转换成统一的类型进行分析。具体类型就也不晓得了,反正需要要统一,便于它处理。

确定重要文字词语

普通用户看页面,看到的都是文字、图片等一些直观信息,但是搜索引擎看的是网页源代码,而且会根据这些源代码来确定网页的重要信息。

当我们看一个页面的时候,会发现一些粗体、斜体、加色等样式的文字,还有一些比较大的字体,有些文字还被像标题一样被隔开,这些设置不光是让用户在浏览信息的时候要特别注意,还有一点就是它们可能是网页的重点。

在搜索引擎看来,源代码头部或者靠近头部的信息往往是比其他位置的文字重要,大家可以很形象的将一个网页和一张报纸的页面比较着看,还记得以前的一篇关于“H标签”的文章里面就有相关比较。确定重要文字或词语,这是搜索引擎建立网页索引过程的一个步骤。

分析META标签

标题标签:

  • 这里是网页标题标签(与图片的Title标签区分开);
  • 整个网页内容的概括;
  • 在搜索引擎结果中加粗显示;
  • 被作为网页搜藏的标题。

标题标签可以看着是网页的代表文字,重要性不可忽视。

Description标签:这是网页的描述标签,可以说是网页的简介,也会被显示在搜索结果里面,但是相对于标题标签,重要性就不是很大了。

个人觉得,如果是首页,这个标签我们应该认真的去对待,因为我们需要做目标关键词,如果是其他页面,因为首页以外的页面往往是用来做长尾关键词,这个标签似乎显得不太重要,我们只需要将重要文字靠前就行,比如网页源代码中没有Description标签,但是我们可以在网页中写一小段描述文字放在文章标题下面,这样无论对用户还是搜索引擎,都没有坏处。

搜索引擎还会分析网页编码问题,UTF-8还是GBK,还是其他编码的语言,这将决定你网页在那些搜索范围的优势,为用户提供更准确的搜索结果,这也是搜索引擎经常提到的用户体验。

搜索引擎的技术缺陷

不知道这是不是技术缺陷,目前搜索引擎对图片、JS、FLASH等文件还是不能很好的识别其具体含义,但是他们会不段的改进,比如对图片的理解,会尝试去分析文件名、图片周围的文字或Alt标签,谷歌在这方面表现比较好些。

建立索引库

分析了网页信息以后,接下来接是建立搜索索引库了,搜索引擎索引库中有一个含有每个词的记录,跟着含有这个词的所有网页的列表,所以,当用户在搜索引擎查找“SEO”的时候,他就会查找索引库,先找到关于“SEO”的记录,再找这个记录对应的网页列表。

当搜索引擎在创建搜索索引库的时候,它会检查蜘蛛程序发现的每一个网页中的重要文字或词语是否在索引库中已经存在记录,如果有记录,那么,就在记录后面加上URL,如果没有,就会创建一个包含那条URL的记录。索引库中储存大量URL数据,这些数据会占据很多空间,所以,搜索引擎会将每一条URL转化成独特的数字,也储存在索引中。关于搜索索引库的样子,见下图:

网页上的链接信息


链接载体


储存数据(建立索引库)


除了为网页内容建立索引库,搜索引擎还会额外建立关于每个页面的META标签信息,用来显示搜索结果,因此,它会储存关于这个页面的标题、网址、描述信息(Description标签或包含搜索关键词的内容),当这条记录需要显示到搜索结果时,直接从索引中提取即可,现在谷歌可以非常直观的看见(在搜索结果中点击标题后的放大镜,被显示出来的图片中,比较下被描边的内容与搜索结果中的描述)。

希望大家好好看这篇文章,这将对自己网站内容构建和内部链接的建立是非常有益的。
相关阅读 更多 +
排行榜 更多 +
合合合军团

合合合军团

策略塔防 下载
街头滑板

街头滑板

体育竞技 下载
武者生存

武者生存

体育竞技 下载