Nutch搭建简单搜索引擎(一)
时间:2011-03-05 来源:水立方
首先先说几句废话。Nutch是Lucene下的一个子项目,是Lucene的一个具体应用,后来慢慢强大,就开始逐渐脱离Lucene变成一个独立项目。如果说Nutch=Lucene+Crawler也是不成立的,先不说底层代码的实现情况,就构架来看,Nutch是由两个所谓的网页爬虫系统和搜索器系统组成,这两个系统不仅弱耦合,而且可以分别部署在不同硬件平台上。其中的网络爬虫系统不仅抓取互联网信息,而且由他建立倒排索引;搜索器只根据索引完成查询服务。Nutch本身还是需要研究一段时间的。
部署Nutch的步骤:
1. 配置Nutch运行环境(JDK, Linux/Unix)
2. 使用Nutch对要索引的内容进行抓取,建立索引。
3. 将Nutch搭建在伺服器上(e.g Tomcat),提供查询服务。
其中在1中,如果想要部署在Windows环境下,可以使用Cygwin来运行Nutch。
相关阅读 更多 +