awk 使用技巧
时间:2010-09-26 来源:mywiki
文模仿十三问,以提问和回答的方式介绍awk的一些基础知识。论坛里awk高手众多,有错误的地方还请大家指正。
具体版本如下:
我们经常会说,awk是基于行列操作文本的,但如何定义“行”呢?这就是RS的作用。
默认情况下,RS的值是\n。下面通过实例来理解下RS。
上面RS固定的字符串,RS也可以定义为正则表达式。
下面我们看看将RS设置为空会是什么情况
1、忽略文件开头和结尾的空行。且文件不以记录分隔符结束,即最后不是空行,会将最后一个记录的尾\n去掉
2、不设置RT变量(测试未发现规律,暂时认为RT变量不可用)
3、影响FS变量
这个怎么理解?对于1、2两点,当作习题留给大家自己测试,3我们下节来讲。
总结下RS的3种情况:
1) 非空字符串
以固定字符串作为行分隔符,同时设置变量RT为固定字符串
2) 正则表达式
以正则表达式作为行分隔符,同时设置变量RT为正则表达式实际匹配到的字符串
3) 空字符
以连续的空行作为行分隔符,如果FS为单个字符,会将\n强制加入到FS变量中
理解了RS,再来理解ORS就简单了。RS是awk读取文件时的行分隔符,ORS则是awk输出时的行结束符。
更简单的讲,就是awk在输出时,会在每行记录后面增加一个ORS变量所设定的值。
ORS的值只能设定为字符串,默认情况下,ORS的值是\n
二、FS 与 OFS 差在哪
RS是awk用来定义“行”的,那么FS就是awk用来定义“列”的。
设置变量 FS 与使用 -F 参数是一样的。
那么,FS=" " 与 FS="[ \t\n]+" 有区别么???
答案是肯定的
同样,FS也可以设置为空
类似的,当我们想以固定的长度来分隔列的时候,可以使用 FIELDWIDTHS 来代替 FS
例如,一行记录的前3个字符作为第一列,接下来的2个字符作为第二列,接下来的4个字符作为第三列
总结下FS的4种情况:
1) 非空字符串
以固定字符串作为列分隔符
2) 正则表达式
以正则表达式作为列分隔符
3) 单个空格
以连续的 空格 或 制表符(\t) 或 换行符(\n)作为列分隔符
4) 空字符
以每个字符做为单独的一列
接下来我们来看看上节提到的问题:
当 RS="" 时,会将\n强制加入到FS变量中
了解的 FS ,我们来看看 OFS ,FS是awk读入记录时的列分隔符,OFS则是awk输出时的列分隔符。
我们平时使用的 print $1,$2 等价于 print $1 OFS $2
当然有简单的方法:
$1=$1 或者 NF+=0, $0 本身的内容实际上没有任何改变,只是为了使 OFS 的设置生效
在理解了 RS 和 FS 之后,我们来回顾开始的那句话:“awk是基于行列操作文本的”
这个说法实际上不是很准确,因为在改变了 RS 后,awk 中的“行”已经不是一般的“行”了
同样,改变了 FS 后,awk 中的“列”也已经不是一般的“列”了
因此,准确的应该这样讲:“awk是基于 记录(record) 和 域(field) 操作文本的”
三、0 与 "0" 差在哪
我们先来看一个例子:
其实要解释这个问题,只需要弄清楚awk中的“真”与“假”。
以下3种情况是“假”,其他情况都为“真”
1) 数字 0
2) 空字符串
3) 未定义的值
awk 会根据语境来给未定义的变量赋初始值
如果要进行数学运算,会被赋成数字 0
现在我们看看上面的代码 ! a[$0] ++ 等价于 if(! a[$0] ++) print $0
对于首次出现的记录,a[$0]的值是未定义的,由于后面的 ++ 是数学计算,所以a[$0]会被赋值成数字0
也是由于 ++ 操作符,会先取值,再计算,所以对于第一行记录实际上是if(! 0) print $0
! 是取反,0 是假,! 0 就是真,那么就会执行后面的 print $0
对于后面出现的重复记录,a[$0] 经过 ++ 的计算已经变为 1、2、3 。。。
而 ! 1 ! 2 ! 3 ... 都为假,不会打印。
下面我们用黑哥的一段代码来深刻体会一下,用awk打印奇数行:
未完,待续 。。。
具体版本如下:
- ly5066113@ubuntu:~$ uname -a
- Linux ubuntu 2.6.24-22-generic #1 SMP Mon Nov 24 19:35:06 UTC 2008 x86_64 GNU/Linux
- ly5066113@ubuntu:~$ bash --version
- GNU bash, version 3.2.39(1)-release (x86_64-pc-linux-gnu)
- Copyright (C) 2007 Free Software Foundation, Inc.
- ly5066113@ubuntu:~$ awk --version
- GNU Awk 3.1.6
- Copyright (C) 1989, 1991-2007 Free Software Foundation.
我们经常会说,awk是基于行列操作文本的,但如何定义“行”呢?这就是RS的作用。
默认情况下,RS的值是\n。下面通过实例来理解下RS。
- ly5066113@ubuntu:~$ echo '1a2a3a4a5' | awk '{print $1}'
- 1a2a3a4a5
- ly5066113@ubuntu:~$ echo '1a2a3a4a5' | awk 'BEGIN{RS="a"}{print $1}'
- 1
- 2
- 3
- 4
- 5
上面RS固定的字符串,RS也可以定义为正则表达式。
- ly5066113@ubuntu:~$ echo '1ab2bc3cd4de5' | awk 'BEGIN{RS="[a-z]+"}{print $1,RS,RT}'
- 1 [a-z]+ ab
- 2 [a-z]+ bc
- 3 [a-z]+ cd
- 4 [a-z]+ de
- 5 [a-z]+
下面我们看看将RS设置为空会是什么情况
- ly5066113@ubuntu:~$ cat urfile
- 1
-
- 2
-
-
- 3
-
-
-
-
-
-
-
-
- 4
- ly5066113@ubuntu:~$ awk 'BEGIN{RS=""}{print $0}' urfile
- 1
- 2
- 3
- 4
1、忽略文件开头和结尾的空行。且文件不以记录分隔符结束,即最后不是空行,会将最后一个记录的尾\n去掉
2、不设置RT变量(测试未发现规律,暂时认为RT变量不可用)
3、影响FS变量
这个怎么理解?对于1、2两点,当作习题留给大家自己测试,3我们下节来讲。
总结下RS的3种情况:
1) 非空字符串
以固定字符串作为行分隔符,同时设置变量RT为固定字符串
2) 正则表达式
以正则表达式作为行分隔符,同时设置变量RT为正则表达式实际匹配到的字符串
3) 空字符
以连续的空行作为行分隔符,如果FS为单个字符,会将\n强制加入到FS变量中
理解了RS,再来理解ORS就简单了。RS是awk读取文件时的行分隔符,ORS则是awk输出时的行结束符。
更简单的讲,就是awk在输出时,会在每行记录后面增加一个ORS变量所设定的值。
ORS的值只能设定为字符串,默认情况下,ORS的值是\n
- ly5066113@ubuntu:~$ seq 5 | awk '{print $0}'
- 1
- 2
- 3
- 4
- 5
- ly5066113@ubuntu:~$ seq 5 | awk 'BEGIN{ORS="a"}{print $0}'
- 1a2a3a4a5a
二、FS 与 OFS 差在哪
RS是awk用来定义“行”的,那么FS就是awk用来定义“列”的。
设置变量 FS 与使用 -F 参数是一样的。
- ly5066113@ubuntu:~$ echo '1,2' | awk -F , '{print $1}'
- 1
- ly5066113@ubuntu:~$ echo '1,2' | awk 'BEGIN{FS=","}{print $1}'
- 1
- ly5066113@ubuntu:~$ echo '1ab2bc3cd4de5' | awk 'BEGIN{FS="[a-z]+"}{print $1,$2,$5}'
- 1 2 5
- In the special case that FS is a single space, fields are separated by runs of spaces and/or tabs and/or newlines.
那么,FS=" " 与 FS="[ \t\n]+" 有区别么???
答案是肯定的
- ly5066113@ubuntu:~$ echo ' 1 2' | awk 'BEGIN{FS=" "}{print $1}'
- 1
- ly5066113@ubuntu:~$ echo ' 1 2' | awk 'BEGIN{FS="[ \t\n]+"}{print $1}'
同样,FS也可以设置为空
- ly5066113@ubuntu:~$ echo '123' | awk 'BEGIN{FS=""}{print $1,$2}'
- 1 2
类似的,当我们想以固定的长度来分隔列的时候,可以使用 FIELDWIDTHS 来代替 FS
例如,一行记录的前3个字符作为第一列,接下来的2个字符作为第二列,接下来的4个字符作为第三列
- ly5066113@ubuntu:~$ echo '123456789' | awk 'BEGIN{FIELDWIDTHS="3 2 4"}{print $1,$2,$3}'
- 123 45 6789
- ly5066113@ubuntu:~$ echo '123456789' | awk 'BEGIN{FIELDWIDTHS="3 2 3"}{print $1,$2,$3}'
- 123 45 678
- ly5066113@ubuntu:~$ echo '123456789' | awk 'BEGIN{FIELDWIDTHS="3 2 5"}{print $1,$2,$3}'
- 123 45 6789
总结下FS的4种情况:
1) 非空字符串
以固定字符串作为列分隔符
2) 正则表达式
以正则表达式作为列分隔符
3) 单个空格
以连续的 空格 或 制表符(\t) 或 换行符(\n)作为列分隔符
4) 空字符
以每个字符做为单独的一列
接下来我们来看看上节提到的问题:
当 RS="" 时,会将\n强制加入到FS变量中
- ly5066113@ubuntu:~$ cat urfile
- 1
- a
-
- 2
- a
-
-
- 3
- ly5066113@ubuntu:~$ awk -v RS="" '{print "#" $0 "#"}' urfile
- #1
- a#
- #2
- a#
- #3#
- ly5066113@ubuntu:~$ awk -F "b" -v RS="" '{print $1}' urfile
- 1
- 2
- 3
- ly5066113@ubuntu:~$ awk -F "c" -v RS="" '{print $1}' urfile
- 1
- 2
- 3
- ly5066113@ubuntu:~$ awk -F "c" -v RS="\n\n+" '{print "#" $1 "#"}' urfile
- #1
- a#
- #2
- a#
- #3
- #
了解的 FS ,我们来看看 OFS ,FS是awk读入记录时的列分隔符,OFS则是awk输出时的列分隔符。
我们平时使用的 print $1,$2 等价于 print $1 OFS $2
- ly5066113@ubuntu:~$ echo '1 2' | awk -v OFS="|" '{print $1,$2}'
- 1|2
- ly5066113@ubuntu:~$ echo '1 2' | awk -v OFS="|" '{print $1 OFS $2}'
- 1|2
当然有简单的方法:
- ly5066113@ubuntu:~$ echo '1 2 3 4 5' | awk -v OFS="|" '{print $0}'
- 1 2 3 4 5
- ly5066113@ubuntu:~$ echo '1 2 3 4 5' | awk -v OFS="|" '{$1=$1;print $0}'
- 1|2|3|4|5
- ly5066113@ubuntu:~$ echo '1 2 3 4 5' | awk -v OFS="|" '{NF+=0;print $0}'
- 1|2|3|4|5
$1=$1 或者 NF+=0, $0 本身的内容实际上没有任何改变,只是为了使 OFS 的设置生效
在理解了 RS 和 FS 之后,我们来回顾开始的那句话:“awk是基于行列操作文本的”
这个说法实际上不是很准确,因为在改变了 RS 后,awk 中的“行”已经不是一般的“行”了
同样,改变了 FS 后,awk 中的“列”也已经不是一般的“列”了
因此,准确的应该这样讲:“awk是基于 记录(record) 和 域(field) 操作文本的”
三、0 与 "0" 差在哪
我们先来看一个例子:
- ly5066113@ubuntu:~$ awk 'BEGIN{if(0) print "true";else print "false"}'
- false
- ly5066113@ubuntu:~$ awk 'BEGIN{if("0") print "true";else print "false"}'
- true
其实要解释这个问题,只需要弄清楚awk中的“真”与“假”。
以下3种情况是“假”,其他情况都为“真”
1) 数字 0
2) 空字符串
3) 未定义的值
- ly5066113@ubuntu:~$ awk 'BEGIN{a=0;if(a) print "true";else print "false"}'
- false
- ly5066113@ubuntu:~$ awk 'BEGIN{a="";if(a) print "true";else print "false"}'
- false
- ly5066113@ubuntu:~$ awk 'BEGIN{if(a) print "true";else print "false"}'
- false
- ly5066113@ubuntu:~$ awk 'BEGIN{if(a=1) print "true";else print "false"}'
- true
- ly5066113@ubuntu:~$ awk 'BEGIN{if(a=0) print "true";else print "false"}'
- false
- ly5066113@ubuntu:~$ awk 'BEGIN{if(a="0") print "true";else print "false"}'
- true
- ly5066113@ubuntu:~$ awk 'BEGIN{if(a="") print "true";else print "false"}'
- false
- ly5066113@ubuntu:~$ awk 'BEGIN{if(a=a) print "true";else print "false"}'
- false
- awk '! a[$0] ++'
awk 会根据语境来给未定义的变量赋初始值
- ly5066113@ubuntu:~$ awk 'BEGIN{print a "" 1}'
- 1
- ly5066113@ubuntu:~$ awk 'BEGIN{print a + 1}'
- 1
如果要进行数学运算,会被赋成数字 0
现在我们看看上面的代码 ! a[$0] ++ 等价于 if(! a[$0] ++) print $0
对于首次出现的记录,a[$0]的值是未定义的,由于后面的 ++ 是数学计算,所以a[$0]会被赋值成数字0
也是由于 ++ 操作符,会先取值,再计算,所以对于第一行记录实际上是if(! 0) print $0
! 是取反,0 是假,! 0 就是真,那么就会执行后面的 print $0
对于后面出现的重复记录,a[$0] 经过 ++ 的计算已经变为 1、2、3 。。。
而 ! 1 ! 2 ! 3 ... 都为假,不会打印。
下面我们用黑哥的一段代码来深刻体会一下,用awk打印奇数行:
- ly5066113@ubuntu:~$ seq 10 | awk 'i=!i'
- 1
- 3
- 5
- 7
- 9
未完,待续 。。。
相关阅读 更多 +