shell基础八：文本过滤工具（grep）

时间：2007-05-18 来源：piaoyizu

QUOTE:

原帖由 "网中人" 发表：
比方以 grep 来说, 在 Linux 上你可找到 grep, egrep, fgrep 这几个程序, 其差异大致如下:

* grep:
传统的 grep 程序, 在没有参数的情况下, 只输出符合 RE 字符串之句子. 常见参数如下:
-v: 逆反模示, 只输出"不含" RE 字符串之句子.
-r: 递归模式, 可同时处理所有层级子目录里的文件.
-q: 静默模式, 不输出任何结果(stderr 除外. 常用以获取 return value, 符合为 true, 否则为 false .)
-i: 忽略大小写.
-w: 整词比对, 类似 \<word\> .
-n: 同时输出行号.
-c: 只输出符合比对的行数.
-l: 只输出符合比对的文件名称.
-o: 只输出符合 RE 的字符串. (gnu 新版独有, 不见得所有版本都支持.)
-E: 切换为 egrep .

* egrep:
为 grep 的扩充版本, 改良了许多传统 grep 不能或不便的操作. 比方说:
- grep 之下不支持 ? 与 + 这两种 modifier, 但 egrep 则可.
- grep 不支持 a|b 或 (abc|xyz) 这类"或一"比对, 但 egrep 则可.
- grep 在处理 {n,m} 时, 需用 \{ 与 \} 处理, 但 egrep 则不需.
诸如此类的... 我个人会建议能用 egrep 就不用 grep 啦... ^_^

* fgrep:
不作 RE 处理, 表达式仅作一般字符串处理, 所有 meta 均失去功能. g r e p一般格式为：

CODE:

[Copy to clipboard]

grep [选项]基本正则表达式[文件]
这里基本正则表达式可为字符串。单引号双引号
在g r e p命令中输入字符串参数时，最好将其用双引号括起来。
在调用模式匹配时，应使用单引号。

例如：“m y s t r i n g”。这样做有两个原因，一是以防被误解为s h e l l命令，二是可以用来查找多个单词组成的字符串。
在调用变量时，也应该使用双引号，诸如： g r e p“$ M Y VA R”文件名，如果不这样，将没有返回结果。

常用的g r e p选项有：

QUOTE:

-c 只输出匹配行的计数。
-i 不区分大小写（只适用于单字符）。
-h 查询多文件时不显示文件名。
-l 查询多文件时只输出包含匹配字符的文件名。
-n 显示匹配行及行号。
-s 不显示不存在或无匹配文本的错误信息。
-v 显示不包含匹配文本的所有行。开始讨论之前，先生成一个文件，插入一段文本，并在每列后加入< Ta b >键，g r e p命令示例中绝大多数将以此为例，其命名为d a t a . . f。生成一个文件，d a t a . f的记录结构如下：

QUOTE:

第1列：城市位置编号。
第2列：月份。
第3列：存储代码及出库年份。
第4列：产品代号。
第5列：产品统一标价。
第6列：标识号。
第7列：合格数量。文件内容如下：

CODE:

[Copy to clipboard]

$ cat data.f
48    Dec    3BC1977 LPSX 68.00 LVX2A 138
483    Sept 5AP1996 USP    65.00 LVX2C 189
47    Oct    3ZL1998 LPSX 43.00 KVM9D 512
219    dec    2CC1999 CAD    23.00 PLV2C 68
484    nov    7PL1996 CAD    49.00 PLV2C 234
483    may    5PA1998 USP    37.00 KVM9D 644
216    sept 3ZL1998 USP    86.00 KVM9E 234