文章详情

  • 游戏榜单
  • 软件榜单
关闭导航
热搜榜
热门下载
热门标签
php爱好者> php文档>《搜索引擎--原理、技术与系统》--读书笔记(2)

《搜索引擎--原理、技术与系统》--读书笔记(2)

时间:2009-05-03  来源:garyneville

  1. 网页“爬取器”(gatherer),指网页搜集子系统中根据URL完成一篇网页抓取的进程或者线程,通常一个spider会同时启动多个gatherer并行工作。Spider设计是否合理将直接影响它访问Web的效率,影响搜集数据的质量,另外,在设计spider时还必须考虑它对网络和被访问站点的影响,因为spider一般都运行在速度快、带宽高的主机上,如果它快速访问一个速度比较慢的目标站点,就有可能会导致该站点出现拥塞甚至宕机。Spider还应遵守一些协议(例如:robot限制协议[Wong,1997]),尊重被访问站点管理员确定的内容保护策略。
  2. 一个好的搜集策略是优先搜集重要的网页,以便能够在最短的时间内把最重要的网页抓取过来。
  3. 根据搜集经验,体现网页重要度的特征有:
    1) 网页的入度大,表明被其他网页引用的次数多;
    2) 某网页的父网页入度大;
    3) 网页的镜像度高,说明网页内容比较热门,从而显得重要;
    4) 网页的目录深度小,易于用户浏览到。
  4. 网页的权重可以形式化表示为:
    weight(p)= f(indegree(p),indegree(father_p),mirror(p),directorydepth(p))
    其中weight(p)表示网页p的权重,indegree(p)表示网页p的入度函数, indegree(father p)表示网页p的父网页的入度函数,mirror(p)表示网页p的镜像度函数,directorydepth(p)表示网页p的目录深度函数。如果能够综合利用或部分利用上述特征,可以认为是重要的。但是如何确定每一个特征量的影响因子却很困难。
  5. 中文自动分词是网页分析的前提。文档由被称作特征项的索引词(词或者字)组成,网页分析是将一个文档表示为特征项的过程。在提取特征项时,中文又面临了与英文处理不同的问题。中文信息和英文信息有一个明显的差别:英语单词之间用空格分隔;而在中文文本中,词与词之间没有天然的分隔符,中文词汇大多是由两个或两个以上的汉字组成的,并且语句是连续书写的。这就要求在对中文文本进行自动分析前,先将整句切割成小的词汇单元,即中文分词(或中文切词)。
相关阅读 更多 +
排行榜 更多 +
小小盗贼正版下载

小小盗贼正版下载

休闲益智 下载
骨骼实验室手机版下载安装

骨骼实验室手机版下载安装

飞行射击 下载
pubgtool画质助手官方正版下载

pubgtool画质助手官方正版下载

游戏工具 下载