hadoop初学之WordCount程序一步一步运行
时间:2010-09-16 来源:flying5
1. 经典的WordCound程序(WordCount.java),见 hadoop0.18文档
import java.io.IOException; |
2. 保证hadoop集群是配置好了的,单机的也好。 新建一个目录,比如 /home/admin/WordCount 编译WordCount.java程序。
javac -classpath /home/admin/hadoop/hadoop-0.19.1-core.jar WordCount.java -d /home/admin/WordCount |
3. 编译完后在/home/admin/WordCount目录会发现三个class文件 WordCount.class,WordCount$Map.class,WordCount$Reduce.class。 cd 进入 /home/admin/WordCount目录,然后执行:
jar cvf WordCount.jar *.class |
就会生成 WordCount.jar 文件。
4. 构造一些输入数据
input1.txt和input2.txt的文件里面是一些单词。如下:
[admin@host WordCount]$ cat input1.txt |
在hadoop上新建目录,和put程序运行所需要的输入文件:
hadoop fs -mkdir /tmp/input |
5. 运行程序,会显示job运行时的一些信息。
[admin@host WordCount]$ hadoop jar WordCount.jar WordCount /tmp/input /tmp/output
10/09/16 22:49:43 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same. |
6. 查看运行结果
[admin@host WordCount]$ hadoop fs -ls /tmp/output/ |
ok,结束了。