《搜索引擎--原理、技术与系统》--读书笔记(1)

时间：2009-05-03 来源：garyneville

现代大规模高质量搜索一般采用三段式的工作流程：即：网页搜集、预处理和查询服务。
在具体搜集过程中，如何抓取一篇篇的网页，也可以有不同的考虑。最常见的一种是所谓“爬取”：将Web上的网页集合看成是一个有向图，搜集过程从给定起始URL集合S（或者说“种子”）开始，沿着网页中的链接，按照先深、先宽、或者某种别的策略遍历，不停的从S中移除URL，下载相应的网页，解析出网页中的超链接URL，看是否已经被访问过，将未访问过的那些URL加入集合S。整个过程可以形象地想象为一个蜘蛛（spider）在蜘蛛网（Web）上爬行（crawl）。后面我们会看到，真正的系统其实是多个“蜘蛛”同时在爬。
人们参照科技文献重要性的评估方式，核心想法就是“被引用多的就是重要的”。“引用”这个概念恰好可以通过HTML超链在网页之间体现得非常好，作为Google创立核心技术的PageRank就是这种思路的成功体现。
看对服务子系统的要求和其工作原理，主要有三个方面。1.查询方式指的是系统允许用户提交查询的形式。2.结果排序，我们了解了得到和用户查询相关的文档集合的过程。这个集合的元素需要以一定的形式通过计算机显示屏呈现给用户。就目前的技术情况看，列表是最常见的形式（但人们也在探求新的形式，如Vivisimo 引擎将结果页面以类别的形式呈现）。3.文档摘要，搜索引擎给出的结果是一个有序的条目列表，每一个条目有三个基本的元素：标题，网址和摘要。其中的摘要需要从网页正文中生成。

500)this.width=500;" border=0>

相关阅读更多 +