awk

时间：2005-08-11 来源：我菜我怕谁

studying...

6.9 改变字段分隔符
在g a w k中，缺省的字段分隔符一般是空格符或TA B。但你可以在命令行使用- F选项改变字
符分隔符，只需在- F后面跟着你想用的分隔符即可。
gawk -F" ;"'/tparker/{print}' /etc/passwd
在此例中，你将字符分隔符设置成分号。注意： - F必须是大写的，而且必须在第一个引号
之前。
6.10 元字符
g a w k语言在格式匹配时有其特殊的规则。例如， c a t能够和记录中任何位置有这三个字符
的字段匹配。但有时你需要一些更为特殊的匹配。如果你想让c a t只和c o n c a t e n a t e匹配，则需要
在格式两端加上空格：
/ cat / {print}
再例如，你希望既和c a t又和C AT匹配，则可以使用或（|）：
/ cat | CAT / {print}
在g a w k中，有几个字符有特殊意义。下面列出可以用在g a w k格式中的这些字符：
• ^ 表示字段的开始。
例如：
$3 ~ /^b/
如果第三个字段以字符b开始，则匹配。
• $ 表示字段的结束。
例如：
$3 ~ /b$/
如果第三个字段以字符b结束，则匹配。
• . 表示和任何单字符m匹配。
例如：
$3 ~ /i.m/
如果第三个字段有字符i，则匹配。
• | 表示“或”。
例如：
/ c a t | C AT/
和cat 或C AT字符匹配。
• * 表示字符的零到多次重复。
例如：
/UNI*X/
和U N X、U N I X、U N I I X、U N I I I X等匹配。
• + 表示字符的一次到多次重复。
例如：
/UNI+X/
和U N I X、U N I I X等匹配。
• {a，b} 表示字符a次到b次之间的重复。
例如：
/ U N I { 1，3 } X
和U N I X、U N I I X和U N I I I X匹配。
• ? 表示字符零次和一次的重复。
例如：
/UNI?X/
和UNX 和U N I X匹配。
• [] 表示字符的范围。
例如：
/I[BDG]M/
和I B M、I D M和I G M匹配
• [^] 表示不在[ ]中的字符。
例如：
/I[^DE]M/
和所有的以I开始、M结束的包括三个字符的字符串匹配，除了I D M和I E M之外。

6.11 调用gawk程序
当需要很多对模式和动作时，你可以编写一个g a w k程序（也叫做g a w k脚本）。在g a w k程序
中，你可以省略模式和动作两边的引号，因为在g a w k程序中，模式和动作从哪开始和从哪结
束时是很显然的。
你可以使用如下命令调用g a w k程序：
gawk -f script filename
此命令使g a w k对文件f i l e n a m e执行名为s c r i p t的g a w k程序。
如果你不希望使用缺省的字段分隔符，你可以在f选项后面跟着F选项指定新的字段分隔符
（当然你也可以在g a w k程序中指定），例如，使用分号作为字段分隔符：
gawk -f script -F";" filename
如果希望gawk 程序处理多个文件，则把各个文件名罗列其后：
gawk -f script filename1 filename2 filename3 ...
缺省情况下， g a w k的输出将送往屏幕。但你可以使用L i n u x的重定向命令使g a w k的输出送
往一个文件：
gawk -f script filename > save_file

6.12 BEGIN和END
有两个特殊的模式在g a w k中非常有用。B E G I N模式用来指明g a w k开始处理一个文件之前执行一些动作。B E G I N经常用来初始化数值，设置参数等。E N D模式用来在文件处理完成后
执行一些指令，一般用作总结或注释。
BEGIN 和E N D中所有要执行的指令都应该用花括号括起来。BEGIN 和E N D必须使用大写。
请看下面的例子：
BEGIN { print "Starting the process the file" }
$1 == "UNIX" {print}
$2 > 10 {printf "This line has a value of %d"，$ 2 }
END { print "Finished processing the file. Bye!"}
此程序中，先显示一条信息： Starting the process the file，然后将所有第一个字段等于
U N I X的整条记录显示出来，然后再显示第二个字段大于10 的记录，最后显示信息： F i n i s h e d
processing the file. Bye!。

6.13 变量
在g a w k中，可以用等号( = )给一个变量赋值：
var1 = 10
在g a w k中，你不必事先声明变量类型。
请看下面的例子：
$1 == "Plastic" { count = count + 1 }
如果第一个字段是P l a s t i c，则c o u n t的值加1。在此之前，我们应当给c o u n t赋予过初值，一
般是在B E G I N部分。
下面是比较完整的例子：
BEGIN { count = 0 }
$5 == "UNIX" { count = count + 1 }
END { printf "%d occurrences of UNIX were found"，count }
变量可以和字段和数值一起使用，所以，下面的表达式均为合法：
count = count + $6
count = $5 - 8
count = $5 + var1
变量也可以是格式的一部分，例如：
$2 > max_value {print "Max value exceeded by "，$2 - max_value}
$4 - var1 < min_value {print "Illegal value of "，$ 4 }

6.14 内置变量
g a w k语言中有几个十分有用的内置变量，现在列于下面：
NR 已经读取过的记录数。
FNR 从当前文件中读出的记录数。
F I L E N A M E 输入文件的名字。
FS 字段分隔符（缺省为空格）。
RS 记录分隔符（缺省为换行）。
OFMT 数字的输出格式（缺省为% g）。
OFS 输出字段分隔符。
ORS 输出记录分隔符。
NF 当前记录中的字段数。
如果你只处理一个文件，则NR 和FNR 的值是一样的。但如果是多个文件， N R是对所有
的文件来说的，而FNR 则只是针对当前文件而言。
例如：
NR <= 5 {print "Not enough fields in the record"}
检查记录数是否小于5，如果小于5，则显示出错信息。
F S十分有用，因为F S控制输入文件的字段分隔符。例如，在B E G I N格式中，使用如下的
命令：
F S = " : "

6.15 控制结构

6.15.1 if 表达式
if 表达式的语法如下：
if (expression){
c o m m a n d s
}
e l s e {
c o m m a n d s
}
例如：
# a simple if loop
(if ($1 == 0){
print "This cell has a value of zero"
}
else {
printf "The value is %d "，$ 1
} )
再看下一个例子：
# a nicely formatted if loop
(if ($1 > $2){
print "The first column is larger"
}
else {
print "The second column is larger"
} )

6.15.2 while 循环
while 循环的语法如下：
while (expression){
c o m m a n d s
}
例如：
# interest calculation computes compound interest
# inputs from a file are the amount，interest_rateand years
{var = 1
while (var <= $3) {
p r i n t f ( " % f n "，$ 1 * ( 1 + $ 2 ) ^ v a r )
v a r + +}
}

6.15.3 for 循环
for 循环的语法如下：
for (initialization; expression; increment) {
c o m m a n d
}
例如：
# interest calculation computes compound interest
# inputs from a file are the amount，interest_rateand years
{for (var=1; var <= $3; var++) {
p r i n t f ( " % f n "，$ 1 * ( 1 + $ 2 ) ^ v a r )
}
}
6.15.4 next 和exit
next 指令用来告诉gawk 处理文件中的下一个记录，而不管现在正在做什么。语法如下：
{ command1
c o m m a n d 2
c o m m a n d 3
n e x t
c o m m a n d 4
}
程序只要执行到n e x t指令，就跳到下一个记录从头执行命令。因此，本例中， c o m m a n d 4
指令永远不会被执行。
程序遇到e x i t指令后，就转到程序的末尾去执行E N D，如果有E N D的话。

6.16 数组
g a w k语言支持数组结构。数组不必事先初始化。声明一个数组的方法如下：
a r r a y n a m e [ n u m ] = v a l u e
请看下面的例子：
# reverse lines in a file
{line[NR] = $0 } # remember each line
END {var=NR # output lines in reverse order
while (var > 0){
print line[var]
v a r - -
}
}
此段程序读取一个文件的每一行，并用相反的顺序显示出来。我们使用N R作为数组的下
标来存储文件的每一条记录，然后在从最后一条记录开始，将文件逐条地显示出来。

6.17 用户自定义函数
复杂的gawk 程序常常可以使用自己定义的函数来简化。调用用户自定义函数与调用内部
函数的方法一样。函数的定义可以放在gawk 程序的任何地方。
用户自定义函数的格式如下：
function name (parameter-list) {
b o d y - o f - f u n c t i o n
}
name 是所定义的函数的名称。一个正确的函数名称可包括一序列的字母、数字、下标线
( u n d e r s c o r e s )，但是不可用数字做开头。p a r a m e t e r-list 是函数的全部参数的列表，各个参数之
间以逗点隔开。body-of-function 包含gawk 的表达式，它是函数定义里最重要的部分，它决定
函数实际要做的事情。
下面这个例子，会将每个记录的第一个字段的值的平方与第二个字段的值的平方加起来。
{print "sum ="，S q u a r e S u m ( $ 1，$ 2 ) }
function SquareSum(x，y) {
s u m = x * x + y * y
return sum
}
到此，我们已经知道了g a w k的基本用法。g a w k语言十分易学好用，例如，你可以用g a w k
编写一段小程序来计算一个目录中所有文件的个数和容量。如果用其他的语言，如C语言，则
会十分的麻烦，相反，g a w k只需要几行就可以完成此工作。
6.18 几个实例
最后，再举几个g a w k的例子：
gawk '{if (NF > max) max = NF}
END {print max}'
此程序会显示所有输入行之中字段的最大个数。
gawk 'length($0) > 80'
此程序会显示出超过80 个字符的每一行。此处只有模式被列出，动作是采用缺省值显示
整个记录。
gawk 'NF > 0'
显示拥有至少一个字段的所有行。这是一个简单的方法，将一个文件里的所有空白行删除。
gawk 'BEGIN {for (i = 1; i <= 7; i++)
print int(101 * rand())}'
此程序会显示出范围是0 到100 之间的7 个随机数。
ls -l files | gawk '{x += $4}; END {print "total bytes: " x}'
此程序会显示出所有指定的文件的总字节数。
expand file | gawk '{if (x < length()) x = length()}
END {print "maximum line length is " x}'
此程序会将指定文件里最长一行的长度显示出来。expand 会将tab 改成s p a c e，所以是用
实际的右边界来做长度的比较。
gawk 'BEGIN {FS = ":"}
{print $1 | "sort"}' /etc/passwd
此程序会将所有用户的登录名称，依照字母的顺序显示出来。
gawk '{nlines++}
END {print nlines}'
此程序会将一个文件的总行数显示出来。
gawk 'END {print NR}'
此程序也会将一个文件的总行数显示出来，但是计算行数的工作由g a w k来做。
gawk '{print NR，$ 0 } '
此程序显示出文件的内容时，会在每行的最前面显示出行号，它的函数与‘ cat -n’类似。
function name (parameter-list) {
b o d y - o f - f u n c t i o n
}
name 是所定义的函数的名称。一个正确的函数名称可包括一序列的字母、数字、下标线
( u n d e r s c o r e s )，但是不可用数字做开头。p a r a m e t e r-list 是函数的全部参数的列表，各个参数之
间以逗点隔开。body-of-function 包含gawk 的表达式，它是函数定义里最重要的部分，它决定
函数实际要做的事情。
下面这个例子，会将每个记录的第一个字段的值的平方与第二个字段的值的平方加起来。
{print "sum ="，S q u a r e S u m ( $ 1，$ 2 ) }
function SquareSum(x，y) {
s u m = x * x + y * y
return sum
}
到此，我们已经知道了g a w k的基本用法。g a w k语言十分易学好用，例如，你可以用g a w k
编写一段小程序来计算一个目录中所有文件的个数和容量。如果用其他的语言，如C语言，则
会十分的麻烦，相反，g a w k只需要几行就可以完成此工作。

6.18 几个实例
最后，再举几个g a w k的例子：
gawk '{if (NF > max) max = NF}
END {print max}'
此程序会显示所有输入行之中字段的最大个数。
gawk 'length($0) > 80'
此程序会显示出超过80 个字符的每一行。此处只有模式被列出，动作是采用缺省值显示
整个记录。
gawk 'NF > 0'
显示拥有至少一个字段的所有行。这是一个简单的方法，将一个文件里的所有空白行删除。
gawk 'BEGIN {for (i = 1; i <= 7; i++)
print int(101 * rand())}'
此程序会显示出范围是0 到100 之间的7 个随机数。
ls -l files | gawk '{x += $4}; END {print "total bytes: " x}'
此程序会显示出所有指定的文件的总字节数。
expand file | gawk '{if (x < length()) x = length()}
END {print "maximum line length is " x}'
此程序会将指定文件里最长一行的长度显示出来。expand 会将tab 改成s p a c e，所以是用
实际的右边界来做长度的比较。
gawk 'BEGIN {FS = ":"}
{print $1 | "sort"}' /etc/passwd
此程序会将所有用户的登录名称，依照字母的顺序显示出来。
gawk '{nlines++}
END {print nlines}'
此程序会将一个文件的总行数显示出来。
gawk 'END {print NR}'
此程序也会将一个文件的总行数显示出来，但是计算行数的工作由g a w k来做。
gawk '{print NR，$ 0 } '
此程序显示出文件的内容时，会在每行的最前面显示出行号，它的函数与‘ cat -n’类似。