文章详情

  • 游戏榜单
  • 软件榜单
关闭导航
热搜榜
热门下载
热门标签
php爱好者> php文档>Nutch 笔记(一):Quick Start

Nutch 笔记(一):Quick Start

时间:2007-09-24  来源:linxh

本文转自: http://martin.javaeye.com/blog/27188      nutch是一个基于lucene的开源搜索引擎,是一个完整的解决方案 。本文的目标是快速的能跑起来。  

一:安装JDK

sudo apt-get install sun-java5-jdk  


设置JAVA_HOME

sudo vi ~/.bashrc  

在最后面增加
export JAVA_HOME=/usr/lib/jvm/java-1.5.0-sun    export PATH=$PATH:$JAVA_HOME/bin   

二:到http://apache.justdn.org/lucene/nutch/下载nutch的最新版本

tar zxvf nutch-0.8.1.tar.gz  

三:抓取页面
增加url

cd nutch-0.8.1   mkdir urls    echo http://www.xici.net>>urls/xici      编辑conf/crawl-urlfilter.txt,修改MY.DOMAIN.NAME为   +^http://([a-z0-9]*.)*xici.net/   

修改conf/nutch-site.xml,增加http.agent.name值

<property>  
   <name>http.agent.name</name>  
   <value>test/unique</value>  
</property>  

执行bin/nutch crawl开始抓取页面

  sudo bin/nutch crawl urls -dir crawl -depth 5 -topN 50&   

这个过程需要等待一些时间

三:检索
安装tomcat

将nutch自带的war文件拷贝到webapps下面,并命名为 ROOT.war

rm -rf apache-tomcat-5.5.20/webapps/ROOT*   
cp nutch-0.8.1/nutch*.war apache-tomcat-5.5.20/webapps/ROOT.war  

运行tomcat,如果不设定nutch-site.xml的searcher.dir的值,则需要在crawl目录下面执行

sudo ${TOMCAT的目录}/bin/startup.sh  

也可以设定nutch-site.xml的searcher.dir的值

sudo vi ${TOMCAT的目录}/webapps/ROOT/WEB-INF/classes/nutch-site.xml   

增加

<property>     <name>searcher.dir</name>     <value>/home/martin/doc/nutch-0.8.1/crawl</value>   </property>  

四:中文乱码
修改tomcat的server.xml,在Connector的tag最后增加

URIEncoding="UTF-8" useBodyEncodingForURI="true"   

五:截图

500)this.width=500;" border=0>  
nutch site: http://lucene.apache.org/nutch nutch wiki: http://wiki.apache.org/nutch/  
相关阅读 更多 +
排行榜 更多 +
辰域智控app

辰域智控app

系统工具 下载
网医联盟app

网医联盟app

运动健身 下载
汇丰汇选App

汇丰汇选App

金融理财 下载