SedAwkGrep

Posted by Mathew on 2017-02-13

知识拾遗–Linux文本处理三剑客

在Linux上,有众多的文本处理工具,其中最著名用的也最多的就是三剑客了,哪三剑客呢?

  • grep:文本过滤(模式:pattern)工具
  • sed:strean editor,流式编辑器
  • awk:Linux上的实现gawk ,文本报告生成器

接下来我们就来详细聊聊三剑客的使用~

grep

grep: Global search REgular expression and Print out the line。

作用:文本编辑工具,根据用户指定的“模式”对目标文本逐行进行匹配检查,打印匹配到的行;
模式:由正则表达式及文本字符所编写的过滤条件;
REGEXP:由一类特殊字符及文本字符所编写的模式,其中有些字符不表示字符表面的意义,而表示控制或通配的功能;

  正则表达式引擎

1
2
3
4
5
6
7
8
9
10
11
grep [OPTIONS] PATTERN [FILE...]

选项:
--color=auto:对匹配到的行着色显示
-v:显示不能够被pattern匹配到的行
-i:忽略字符大小写
-o:仅显示匹配到的字符串
-q:静默模式,不输出任何信息
-A #:after,后#行
-B #:before,前#行
-C #:context,前后各#行

  基本正则表达式元字符

1
2
3
4
5
6
7
8
9
10
11
字符匹配:
. :匹配任意单个字符
[]:匹配指定范围内的任意单个字符
[^]:匹配指定范围外的任意单个字符
[:dight:]:所有的数字
[:lower:]: 所有的小写字母
[:upper:]: 所有的大写字母
[:alpha:]: 所有的字母
[:alnum:]: 所有的数字和字母
[:punct:]: 所有的标点符号
[:space:]:空白字符

  匹配次数

1
2
3
4
5
6
7
8
*:匹配前面的字符任意次
.*: 任意长度的任意字符
\?: 匹配其前面的字符0或1此;即前面的可有可无
\+:匹配其前面的字符至少1次;
\{m\}:匹配前面的字符m次;
\{m,n\}:匹配前面的字符至少m次,至多n次;
\{0,n\}:匹配前面的字符至多n次;
\{m,\}:匹配前面的字符至少m次;

   位置锚定

1
2
3
4
5
6
7
8
^:行首锚定;用于模式的最左侧;
$:行尾锚定;用于模式的最右侧;
^PATTERN$: 用于模式匹配整行;
^$: 空行;
^[[:space:]]*$
\< 或 \b:词首锚定;用于单词模式的左侧;
\> 或 \b:词尾锚定;用于单词模式的右侧;
\<PATTERN\>:匹配整个单词;

   分组

1
2
3
4
5
6
7
8
	\(\):将一个或多个字符捆绑在一起,当作一个整体进行处理;
\(xy\)*ab
Note: 分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中,这些变量的命名方式为: \1, \2, \3, ...
\1: 从左侧起,第一个左括号以及与之匹配右括号之间的模式所匹配到的字符;
\(ab\+\(xy\)*\):
\1: ab\+\(xy\)*
\2: xy
后向引用:引用前面的分组括号中的模式所匹配字符,(而非模式本身)

Practice

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
1、显示/proc/meminfo文件中以大小s开头的行;(要求:使用两种方式)
# grep -i '^s' /proc/meminfo
# grep '^[Ss]' /proc/meminfo

# egrep -i '^s' /proc/meminfo
# egrep '^[Ss]' /proc/meminfo

2、显示/etc/passwd文件中不以/bin/bash结尾的行;
# grep -v '/bin/bash$' /etc/passwd

3、显示/etc/passwd文件中ID号最大的用户的用户名;
# sort -t: -k3 -n /etc/passwd | tail -1 | cut -d: -f1

4、如果用户root存在,显示其默认的shell程序;
# id root &> /dev/null && grep "^root\>" /etc/passwd | cut -d: -f7

# id root &> /dev/null && egrep "^root\>" /etc/passwd | cut -d: -f7

5、找出/etc/passwd中的两位或三位数;
# grep "\<[0-9]\{2,3\}\>" /etc/passwd

# egrep "[0-9]\{2,3\}" /etc/passwd

6、显示/etc/grub2.cfg文件中,至少以一个空白字符开头的且后面存非空白字符的行;
# grep "^[[:space:]]\+[^[:space:]]" /etc/grub2.cfg

# egrep "^[[:space:]]+[^[:space:]]" /etc/grub2.cfg

7、找出"netstat -tan"命令的结果中以'LISTEN'后跟0、1或多个空白字符结尾的行;
# netstat -tan | grep "LISTEN[[:space:]]*$"
# netstat -tan | egrep "LISTEN[[:space:]]*$"

8、添加用户bash、testbash、basher以及nologin(其shell为/sbin/nologin);而后找出/etc/passwd文件中用户名同shell名的行;
# grep "^\([[:alnum:]]\+\>\).*\1$" /etc/passwd
# egrep "^([[:alnum:]]+\>).*\1$" /etc/passwd

9、显示当前系统root、centos或user1用户的默认shell和UID;
# grep -E '^(root|centos|user1)\>' /etc/passwd | cut -d: -f1,3,7

10、找出/etc/rc.d/init.d/functions文件(centos6)中某单词后面跟一个小括号的行;
# grep -E -o "^[_[:alpha:]]+\(\)" /etc/rc.d/init.d/functions

11、使用echo输出一绝对路径,使用egrep取出其基名;
# echo "/mnt/sdc" | grep -E -o "[^/]+/?$" | cut -d"/" -f1

sed

sed:Stream EDitor:行编辑器:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
sed [option]... 'script' inputfile...
script:
'地址命令'
常用选项:
-n:不输出模式中的内容至屏幕;
-e: 多点编辑;
-f /PATH/TO/SCRIPT_FILE: 从指定文件中读取编辑脚本;
-r: 支持使用扩展正则表达式;
-i: 原处编辑;
地址定界:
(1) 不给地址:对全文进行处理;
(2) 单地址:
#: 指定的行;
/pattern/:被此处模式所能够匹配到的每一行;
(3) 地址范围:
#,#
#,+#
/pat1/,/pat2/
#,/pat1/
(4) ~:步进
1~2
2~2

  编辑命令

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
	d: 删除
p: 显示模式空间中的内容
a \text:在行后面追加文本;支持使用\n实现多行追加;
i \text:在行前面插入文本;支持使用\n实现多行插入;
c \text:替换行为单行或多行文本;
w /path/to/somefile: 保存模式空间匹配到的行至指定文件中;
r /path/from/somefile:读取指定文件的文本流至模式空间中匹配到的行的行后;
=: 为模式空间中的行打印行号;
!: 取反条件;
s///:支持使用其它分隔符,s@@@,s###;
替换标记:
g: 行内全局替换;
p: 显示替换成功的行;
w /PATH/TO/SOMEFILE:将替换成功的结果保存至指定文件中;

练习1:删除/boot/grub/grub.conf文件中所有以空白开头的行行首的空白字符;
# sed 's@^[[:space:]]\+@@' /etc/grub2.cfg

练习2:删除/etc/fstab文件中所有以#开头,后面至少跟一个空白字符的行的行首的#和空白字符;
# sed 's@^#[[:space:]]\+@@' /etc/fstab

练习3:echo一个绝对路径给sed命令,取出其基名;取出其目录名;
# echo "/etc/sysconfig/" | sed 's@[^/]\+/\?$@@'

  高级编辑命令:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
h: 把模式空间中的内容覆盖至保持空间中;
H:把模式空间中的内容追加至保持空间中;
g: 从保持空间取出数据覆盖至模式空间;
G:从保持空间取出内容追加至模式空间;
x: 把模式空间中的内容与保持空间中的内容进行互换;
n: 读取匹配到的行的下一行至模式空间;
N:追加匹配到的行的下一行至模式空间;
d: 删除模式空间中的行;
D:删除多行模式空间中的所有行;

sed -n 'n;p' FILE:显示偶数行
sed '1!G;h;$!d' FILE:逆向显示文件内容
sed '$!N;$!D' FILE: 取出文件后两行;
sed '$!d' FILE:取出文件最后一行;
sed 'G' FILE:
sed '/^$/d;G' FILE:
sed 'n;d' FILE: 显示奇数行;
sed -n '1!G;h;$p' FILE: 逆向显示文件中的每一行

GUN awk

gawk - pattern scanning and processing language

   基本语法

1
2
3
4
5
6
7
gawk [options] 'program' FILE ...
program: PATTERN{ACTION STATEMENTS}
语句之间用分号分隔
print, printf
选项:
-F:指明输入时用到的字段分隔符;
-v var=value: 自定义变量;

1、print

1
2
3
4
5
print item1, item2, ...
要点:
(1) 逗号分隔符;
(2) 输出的各item可以字符串,也可以是数值;当前记录的字段、变量或awk的表达式;
(3) 如省略item,相当于print $0;

2、变量

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
2.1 内建变量
FS:input field seperator,默认为空白字符;
OFS:output field seperator,默认为空白字符;
RS:input record seperator,输入时的换行符;
ORS:output record seperator,输出时的换行符;

NF:number of field,字段数量
{print NF}, {print $NF}
NR:number of record, 行数;
FNR:各文件分别计数;行数;

FILENAME:当前文件名;

ARGC:命令行参数的个数;
ARGV:数组,保存的是命令行所给定的各参数;
2.2 自定义变量
(1) -v var=value
变量名区分字符大小写;
(2) 在program中直接定义

3、printf命令

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
格式化输出:printf FORMAT, item1, item2, ...

(1) FORMAT必须给出;
(2) 不会自动换行,需要显式给出换行控制符,\n
(3) FORMAT中需要分别为后面的每个item指定一个格式化符号;

格式符:
%c: 显示字符的ASCII码;
%d, %i: 显示十进制整数;
%e, %E: 科学计数法数值显示;
%f:显示为浮点数;
%g, %G:以科学计数法或浮点形式显示数值;
%s:显示字符串;
%u:无符号整数;
%%: 显示%自身;

修饰符:
#[.#]:第一个数字控制显示的宽度;第二个#表示小数点后的精度;
%3.1f
-: 左对齐
+:显示数值的符号

4、操作符

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
	算术操作符:
x+y, x-y, x*y, x/y, x^y, x%y
-x
+x: 转换为数值;

字符串操作符:没有符号的操作符,字符串连接

赋值操作符:
=, +=, -=, *=, /=, %=, ^=
++, --

比较操作符:
>, >=, <, <=, !=, ==

模式匹配符:
~:是否匹配
!~:是否不匹配

逻辑操作符:
&&
||
!

函数调用:
function_name(argu1, argu2, ...)

条件表达式:
selector?if-true-expression:if-false-expression

# awk -F: '{$3>=1000?usertype="Common User":usertype="Sysadmin or SysUser";printf "%15s:%-s\n",$1,usertype}' /etc/passwd

5、PATTERN

1
2
3
4
5
6
7
8
9
10
11
(1) empty:空模式,匹配每一行;
(2) /regular expression/:仅处理能够被此处的模式匹配到的行;
(3) relational expression: 关系表达式;结果有“真”有“假”;结果为“真”才会被处理; 真:结果为非0值,非空字符串;
(4) line ranges:行范围,
startline,endline:/pat1/,/pat2/

注意: 不支持直接给出数字的格式
# awk -F: '(NR>=2&&NR<=10){print $1}' /etc/passwd
(5) BEGIN/END模式
BEGIN{}: 仅在开始处理文件中的文本之前执行一次;
END{}:仅在文本处理完成之后执行一次;

6、常用的function

1
2
3
4
5
(1) Expressions
(2) Control statements:if, while等;
(3) Compound statements:组合语句;
(4) input statements
(5) output statements

7、控制语句

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
7.1 if-else
语法:if(condition) statement [else statement]
# awk -F: '{if($3>=1000) {printf "Common user: %s\n",$1} else {printf "root or Sysuser: %s\n",$1}}' /etc/passwd

# awk -F: '{if($NF=="/bin/bash") print $1}' /etc/passwd
# awk '{if(NF>5) print $0}' /etc/fstab
# df -h | awk -F[%] '/^\/dev/{print $1}' | awk '{if($NF>=20) print $1}'

使用场景:对awk取得的整行或某个字段做条件判断;

7.2 while循环
语法:while(condition) statement
条件“真”,进入循环;条件“假”,退出循环;

使用场景:对一行内的多个字段逐一类似处理时使用;对数组中的各元素逐一处理时使用;

# awk '/^[[:space:]]*linux16/{i=1;while(i<=NF) {if(length($i)>=7) {print $i,length($i)}; i++}}' /etc/grub2.cfg

7.3 do-while循环
语法:do statement while(condition)
意义:至少执行一次循环体

7.4 for循环
语法:for(expr1;expr2;expr3) statement

for(variable assignment;condition;iteration process) {for-body}

# awk '/^[[:space:]]*linux16/{for(i=1;i<=NF;i++) {print $i,length($i)}}' /etc/grub2.cfg

特殊用法:
能够遍历数组中的元素;
语法:for(var in array) {for-body}

7.5 switch语句
语法:switch(expression) {case VALUE1 or /REGEXP/: statement; case VALUE2 or /REGEXP2/: statement; ...; default: statement}

7.6 breakcontinue
break [n]
continue

7.7 next
提前结束对本行的处理而直接进入下一行;
# awk -F: '{if($3%2!=0) next; print $1,$3}' /etc/passwd

8、array

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
关联数组:array[index-expression]

index-expression:
(1) 可使用任意字符串;字符串要使用双引号;
(2) 如果某数组元素事先不存在,在引用时,awk会自动创建此元素,并将其值初始化为“空串”;

若要判断数组中是否存在某元素,要使用"index in array"格式进行;

weekdays[mon]="Monday"

若要遍历数组中的每个元素,要使用for循环;
for(var in array) {for-body}

# awk 'BEGIN{weekdays["mon"]="Monday";weekdays["tue"]="Tuesday";for(i in weekdays) {print weekdays[i]}}'

注意:var会遍历array的每个索引;
state["LISTEN"]++
state["ESTABLISHED"]++

# netstat -tan | awk '/^tcp\>/{state[$NF]++}END{for(i in state) { print i,state[i]}}'

# awk '{ip[$1]++}END{for(i in ip) {print i,ip[i]}}' /var/log/httpd/access_log

练习1:统计/etc/fstab文件中每个文件系统类型出现的次数;
# awk '/^UUID/{fs[$3]++}END{for(i in fs) {print i,fs[i]}}' /etc/fstab

练习2:统计指定文件中每个单词出现的次数;
# awk '{for(i=1;i<=NF;i++){count[$i]++}}END{for(i in count) {print i,count[i]}}' /etc/fstab

9、函数

1
2
3
4
5
6
7
8
9
10
11
数值处理:
rand():返回0和1之间一个随机数;

字符串处理:
length([s]):返回指定字符串的长度;
sub(r,s,[t]):以r表示的模式来查找t所表示的字符中的匹配的内容,并将其第一次出现替换为s所表示的内容;
gsub(r,s,[t]):以r表示的模式来查找t所表示的字符中的匹配的内容,并将其所有出现均替换为s所表示的内容;

split(s,a[,r]):以r为分隔符切割字符s,并将切割后的结果保存至a所表示的数组中;

# netstat -tan | awk '/^tcp\>/{split($5,ip,":");count[ip[1]]++}END{for (i in count) {print i,count[i]}}'

“三剑客”功能强大,想要用好还需多加练习