《搜索引擎--原理、技术与系统》--读书笔记(2)

时间：2009-05-03 来源：garyneville

网页“爬取器”（gatherer），指网页搜集子系统中根据URL完成一篇网页抓取的进程或者线程，通常一个spider会同时启动多个gatherer并行工作。Spider设计是否合理将直接影响它访问Web的效率，影响搜集数据的质量，另外，在设计spider时还必须考虑它对网络和被访问站点的影响，因为spider一般都运行在速度快、带宽高的主机上，如果它快速访问一个速度比较慢的目标站点，就有可能会导致该站点出现拥塞甚至宕机。Spider还应遵守一些协议（例如：robot限制协议[Wong,1997]），尊重被访问站点管理员确定的内容保护策略。
一个好的搜集策略是优先搜集重要的网页，以便能够在最短的时间内把最重要的网页抓取过来。
根据搜集经验，体现网页重要度的特征有：
1) 网页的入度大，表明被其他网页引用的次数多；
2) 某网页的父网页入度大；
3) 网页的镜像度高，说明网页内容比较热门，从而显得重要；
4) 网页的目录深度小，易于用户浏览到。
网页的权重可以形式化表示为：
weight(p)= f(indegree(p),indegree(father_p),mirror(p),directorydepth(p))
其中weight(p)表示网页p的权重，indegree(p)表示网页p的入度函数， indegree(father p)表示网页p的父网页的入度函数，mirror(p)表示网页p的镜像度函数，directorydepth(p)表示网页p的目录深度函数。如果能够综合利用或部分利用上述特征，可以认为是重要的。但是如何确定每一个特征量的影响因子却很困难。
中文自动分词是网页分析的前提。文档由被称作特征项的索引词（词或者字）组成，网页分析是将一个文档表示为特征项的过程。在提取特征项时，中文又面临了与英文处理不同的问题。中文信息和英文信息有一个明显的差别：英语单词之间用空格分隔；而在中文文本中，词与词之间没有天然的分隔符，中文词汇大多是由两个或两个以上的汉字组成的，并且语句是连续书写的。这就要求在对中文文本进行自动分析前，先将整句切割成小的词汇单元，即中文分词（或中文切词）。