Nutch 笔记(一):Quick Start
时间:2007-09-24 来源:linxh
一:安装JDK
sudo apt-get install sun-java5-jdk
设置JAVA_HOME
sudo vi ~/.bashrc
在最后面增加export JAVA_HOME=/usr/lib/jvm/java-1.5.0-sun export PATH=$PATH:$JAVA_HOME/bin
二:到http://apache.justdn.org/lucene/nutch/下载nutch的最新版本
tar zxvf nutch-0.8.1.tar.gz
三:抓取页面
增加url
修改conf/nutch-site.xml,增加http.agent.name值
<property>
<name>http.agent.name</name>
<value>test/unique</value>
</property>
执行bin/nutch crawl开始抓取页面
这个过程需要等待一些时间
三:检索
安装tomcat
将nutch自带的war文件拷贝到webapps下面,并命名为 ROOT.war
rm -rf apache-tomcat-5.5.20/webapps/ROOT*
cp nutch-0.8.1/nutch*.war apache-tomcat-5.5.20/webapps/ROOT.war
运行tomcat,如果不设定nutch-site.xml的searcher.dir的值,则需要在crawl目录下面执行
sudo ${TOMCAT的目录}/bin/startup.sh
也可以设定nutch-site.xml的searcher.dir的值
增加
四:中文乱码
修改tomcat的server.xml,在Connector的tag最后增加
URIEncoding="UTF-8" useBodyEncodingForURI="true"
五:截图