如何使用Shell命令完成文本处理操作
时间:2008-04-22 来源:barryhu
1. 统计文本中每个单词出现的次数,假定genesis为文本文件
tr -sc ’A-Za-z’ ’\012’ < genesis | sort | uniq -c
解释: tr -sc ’A-Za-z’ ’\012’用于分离文本genesis中的单词,然后每行显示一个单词。sort用于对文本中的句子按行排序。当每一行只有一个单词的时候,sort也就是对所有的单词排序。uniq -c 用于删除连续的相同的单词,并记录单词的连续次数。由于前面使用sort对所有单词排序了,所以uniq -c也就是统计每个单词的出现次数。
tr -sc ’A-Za-z’ ’\012’ < genesis | sort | uniq -c
解释: tr -sc ’A-Za-z’ ’\012’用于分离文本genesis中的单词,然后每行显示一个单词。sort用于对文本中的句子按行排序。当每一行只有一个单词的时候,sort也就是对所有的单词排序。uniq -c 用于删除连续的相同的单词,并记录单词的连续次数。由于前面使用sort对所有单词排序了,所以uniq -c也就是统计每个单词的出现次数。
相关阅读 更多 +