Unix / Linux - 使用 SED 的正则表达式

笔记首页 >> unix >> Unix / Linux – 使用 SED 的正则表达式

Unix / Linux – 使用 SED 的正则表达式

在本章中，我们将详细讨论 Unix 中使用 SED 的正则表达式。

正则表达式是一个字符串，可用于描述多个字符序列。正则表达式由几个不同的 Unix 命令使用，包括ed、sed、awk、grep，以及在更有限的范围内vi。

这里SED代表小号tream版itor。这个面向流的编辑器专为执行脚本而创建。因此，您输入的所有输入都会通过并进入 STDOUT，并且不会更改输入文件。

调用 sed

在我们开始之前，让我们确保我们有一个/etc/passwd文本文件的本地副本来使用sed。

如前所述，可以通过如下方式通过管道向其发送数据来调用 sed –

$ cat /etc/passwd | sed
Usage: sed [OPTION]... {script-other-script} [input-file]...

  -n, --quiet, --silent
                 suppress automatic printing of pattern space
  -e script, --expression = script
...............................

该猫命令转储的内容/ etc / passwd中以SED通过管道进入的sed的模式空间。模式空间是 sed 用于其操作的内部工作缓冲区。

sed 通用语法

以下是 sed 的一般语法 –

/pattern/action

其中，pattern是一个正则表达式，action是下表中给出的命令之一。如果模式被省略，行动是为每正如我们所看到上面这一行执行。

模式周围的斜线字符 (/) 是必需的，因为它们用作分隔符。

Sr.No.	范围和描述
1	p 打印行
2	d 删除行
3	s/pattern1/pattern2/ 用模式 2 替换第一次出现的模式 1

Sr.No.

范围和描述

打印行

删除行

s/pattern1/pattern2/

用模式 2 替换第一次出现的模式 1

用sed删除所有行

我们现在将了解如何使用 sed 删除所有行。再次调用sed；但是 sed 现在应该使用编辑命令 delete line，由单个字母d 表示–

$ cat /etc/passwd | sed 'd'
$

可以指示 sed 从文件中读取数据，而不是通过管道向其发送文件来调用 sed，如下例所示。

以下命令与前面的示例完全相同，没有 cat 命令 –

$ sed -e 'd' /etc/passwd
$

sed 地址

sed 也支持地址。地址要么是文件中的特定位置，要么是应应用特定编辑命令的范围。当 sed 没有遇到地址时，它会在文件的每一行上执行操作。

以下命令为您一直使用的 sed 命令添加了一个基本地址 –

$ cat /etc/passwd | sed '1d' |more
daemon:x:1:1:daemon:/usr/sbin:/bin/sh
bin:x:2:2:bin:/bin:/bin/sh
sys:x:3:3:sys:/dev:/bin/sh
sync:x:4:65534:sync:/bin:/bin/sync
games:x:5:60:games:/usr/games:/bin/sh
man:x:6:12:man:/var/cache/man:/bin/sh
mail:x:8:8:mail:/var/mail:/bin/sh
news:x:9:9:news:/var/spool/news:/bin/sh
backup:x:34:34:backup:/var/backups:/bin/sh
$

请注意，在删除编辑命令之前添加了数字 1 。这指示 sed 在文件的第一行执行编辑命令。在这个例子中，sed 将删除/etc/password的第一行并打印文件的其余部分。

sed 地址范围

我们现在将了解如何使用sed 地址范围。那么如果你想从一个文件中删除多于一行怎么办？您可以使用 sed 指定地址范围，如下所示 –

$ cat /etc/passwd | sed '1, 5d' |more
games:x:5:60:games:/usr/games:/bin/sh
man:x:6:12:man:/var/cache/man:/bin/sh
mail:x:8:8:mail:/var/mail:/bin/sh
news:x:9:9:news:/var/spool/news:/bin/sh
backup:x:34:34:backup:/var/backups:/bin/sh
$

上述命令将应用于从 1 到 5 的所有行。这将删除前五行。

尝试以下地址范围 –

Sr.No.	范围和描述
1	‘4,10d’ 线路从 4^th 直到 10^th 被删除
2	‘10,4d’ 只有 10^th 行被删除，因为 sed 不能反向工作
3	‘4,&plus5d’ 这匹配文件中的第 4 行，删除该行，继续删除接下来的五行，然后停止删除并打印其余的行
4	‘2,5!d’ 这将删除所有内容，除了从 2 开始^nd 直到 5^th 线
5	‘1~3d’ 这将删除第一行，跳过接下来的三行，然后删除第四行。Sed 继续应用此模式，直到文件结束。
6	‘2~2d’ 这告诉 sed 删除第二行，跳过下一行，删除下一行，并重复直到到达文件末尾
7	‘4,10p’ 从 4 开始的行^th 直到 10^th 被印刷
8	‘4,d’ 这会产生语法错误
9	‘,10d’ 这也会产生语法错误

注意– 使用p操作时，您应该使用-n选项以避免重复行打印。检查以下两个命令之间的差异 –

$ cat /etc/passwd | sed -n '1,3p'
Check the above command without -n as follows −
$ cat /etc/passwd | sed '1,3p'

替换命令

用s表示的替换命令将用您指定的任何其他字符串替换您指定的任何字符串。

要将一个字符串替换为另一个字符串，sed 需要具有有关第一个字符串结束位置和替换字符串开始位置的信息。为此，我们继续使用正斜杠 ( / ) 字符对两个字符串进行预订。

以下命令用字符串amrood 替换字符串root的一行中的第一次出现。

$ cat /etc/passwd | sed 's/root/amrood/'
amrood:x:0:0:root user:/root:/bin/sh
daemon:x:1:1:daemon:/usr/sbin:/bin/sh
..........................

需要注意的是 sed 只替换一行中的第一次出现，这一点非常重要。如果字符串根在一行中出现不止一次，则只会替换第一个匹配项。

要让 sed 执行全局替换，请在命令末尾添加字母g，如下所示 –

$ cat /etc/passwd | sed 's/root/amrood/g'
amrood:x:0:0:amrood user:/amrood:/bin/sh
daemon:x:1:1:daemon:/usr/sbin:/bin/sh
bin:x:2:2:bin:/bin:/bin/sh
sys:x:3:3:sys:/dev:/bin/sh
...........................

替换标志

除了g标志之外，还有许多其他有用的标志可以传递，您可以一次指定多个。

Sr.No.	标志和描述
1	g 替换所有匹配项，而不仅仅是第一个匹配项
2	NUMBER 仅替换 NUMBER^th 比赛
3	p 如果进行了替换，则打印模式空间
4	w FILENAME 如果进行了替换，则将结果写入 FILENAME
5	I or i 以不区分大小写的方式匹配
6	M or m 除了特殊正则表达式字符 ^ 和 $ 的正常行为外，该标志还会导致 ^ 匹配换行符之后的空字符串，而 $ 匹配换行符之前的空字符串

使用替代字符串分隔符

假设您必须对包含正斜杠字符的字符串进行替换。在这种情况下，您可以通过在s之后提供指定字符来指定不同的分隔符。

$ cat /etc/passwd | sed 's:/root:/amrood:g'
amrood:x:0:0:amrood user:/amrood:/bin/sh
daemon:x:1:1:daemon:/usr/sbin:/bin/sh

在上面的例子中，我们使用:作为分隔符而不是斜杠 / 因为我们试图搜索/root而不是简单的根。

用空白空间替换

使用空替换字符串从/etc/passwd文件中完全删除根字符串–

$ cat /etc/passwd | sed 's/root//g'
:x:0:0::/:/bin/sh
daemon:x:1:1:daemon:/usr/sbin:/bin/sh

地址替换

如果您只想在第 10 行用字符串quiet替换字符串sh，您可以指定如下：

$ cat /etc/passwd | sed '10s/sh/quiet/g'
root:x:0:0:root user:/root:/bin/sh
daemon:x:1:1:daemon:/usr/sbin:/bin/sh
bin:x:2:2:bin:/bin:/bin/sh
sys:x:3:3:sys:/dev:/bin/sh
sync:x:4:65534:sync:/bin:/bin/sync
games:x:5:60:games:/usr/games:/bin/sh
man:x:6:12:man:/var/cache/man:/bin/sh
mail:x:8:8:mail:/var/mail:/bin/sh
news:x:9:9:news:/var/spool/news:/bin/sh
backup:x:34:34:backup:/var/backups:/bin/quiet

同样，要进行地址范围替换，您可以执行以下操作 –

$ cat /etc/passwd | sed '1,5s/sh/quiet/g'
root:x:0:0:root user:/root:/bin/quiet
daemon:x:1:1:daemon:/usr/sbin:/bin/quiet
bin:x:2:2:bin:/bin:/bin/quiet
sys:x:3:3:sys:/dev:/bin/quiet
sync:x:4:65534:sync:/bin:/bin/sync
games:x:5:60:games:/usr/games:/bin/sh
man:x:6:12:man:/var/cache/man:/bin/sh
mail:x:8:8:mail:/var/mail:/bin/sh
news:x:9:9:news:/var/spool/news:/bin/sh
backup:x:34:34:backup:/var/backups:/bin/sh

从输出中可以看出，前五行将字符串sh更改为quiet，但其余行保持不变。

匹配命令

您可以使用p选项和-n选项来打印所有匹配的行，如下所示 –

$ cat testing | sed -n '/root/p'
root:x:0:0:root user:/root:/bin/sh
[root@ip-72-167-112-17 amrood]# vi testing
root:x:0:0:root user:/root:/bin/sh
daemon:x:1:1:daemon:/usr/sbin:/bin/sh
bin:x:2:2:bin:/bin:/bin/sh
sys:x:3:3:sys:/dev:/bin/sh
sync:x:4:65534:sync:/bin:/bin/sync
games:x:5:60:games:/usr/games:/bin/sh
man:x:6:12:man:/var/cache/man:/bin/sh
mail:x:8:8:mail:/var/mail:/bin/sh
news:x:9:9:news:/var/spool/news:/bin/sh
backup:x:34:34:backup:/var/backups:/bin/sh

使用正则表达式

在匹配模式时，您可以使用提供更多灵活性的正则表达式。

检查以下示例，该示例匹配所有以daemon开头的行，然后删除它们 –

$ cat testing | sed '/^daemon/d'
root:x:0:0:root user:/root:/bin/sh
bin:x:2:2:bin:/bin:/bin/sh
sys:x:3:3:sys:/dev:/bin/sh
sync:x:4:65534:sync:/bin:/bin/sync
games:x:5:60:games:/usr/games:/bin/sh
man:x:6:12:man:/var/cache/man:/bin/sh
mail:x:8:8:mail:/var/mail:/bin/sh
news:x:9:9:news:/var/spool/news:/bin/sh
backup:x:34:34:backup:/var/backups:/bin/sh

以下是删除所有以sh结尾的行的示例–

$ cat testing | sed '/sh$/d'
sync:x:4:65534:sync:/bin:/bin/sync

下表列出了在正则表达式中非常有用的四个特殊字符。

Sr.No.	字符和描述
1	^ 匹配行的开头
2	$ 匹配行尾
3	. 匹配任何单个字符
4	* 匹配前一个字符的零次或多次出现
5	[chars] 匹配 chars 中给出的任何一个字符，其中 chars 是一个字符序列。您可以使用 – 字符来指示字符范围。

匹配字符

再看几个表达式来演示元字符的使用。例如，以下模式 –

Sr.No.	表达和描述
1	/a.c/ 匹配包含a&plusc、ac、abc、match和a3c 等字符串的行
2	*/ac/ 匹配相同的字符串以及诸如ace、yacc和arctic 之类的**字符串
3	/[tT]he/ 匹配字符串The和the
4	/^$/ 匹配空行
5	*/^.$/** 匹配整行，无论它是什么
6	*/ /** 匹配一个或多个空格
7	/^$/ 匹配空行

下表显示了一些常用的字符集 –

Sr.No.	设置和说明
1	[a-z] 匹配单个小写字母
2	[A-Z] 匹配单个大写字母
3	[a-zA-Z] 匹配单个字母
4	[0-9] 匹配单个数字
5	[a-zA-Z0-9] 匹配单个字母或数字

字符类关键字

一些特殊的关键字通常可用于regexp，尤其是使用regexp 的GNU 实用程序。这些对于 sed 正则表达式非常有用，因为它们可以简化事情并增强可读性。

例如，字符a 到 z和字符A 到 Z构成一类具有关键字[[:alpha:]]的字符

使用字母字符类关键字，此命令仅打印/etc/syslog.conf文件中以字母开头的那些行–

$ cat /etc/syslog.conf | sed -n '/^[[:alpha:]]/p'
authpriv.*                         /var/log/secure
mail.*                             -/var/log/maillog
cron.*                             /var/log/cron
uucp,news.crit                     /var/log/spooler
local7.*                           /var/log/boot.log

下表是 GNU sed 中可用字符类关键字的完整列表。

Sr.No.	字符类和描述
1	[[:alnum:]] 字母数字 [az AZ 0-9]
2	[[:alpha:]] 字母 [az AZ]
3	[[:blank:]] 空白字符（空格或制表符）
4	[[:cntrl:]] 控制字符
5	[[:digit:]] 数字 [0-9]
6	[[:graph:]] 任何可见字符（不包括空格）
7	[[:lower:]] 小写字母 [az]
8	[[:print:]] 可打印字符（非控制字符）
9	[[:punct:]] 标点符号
10	[[:space:]] 空白
11	[[:upper:]] 大写字母 [AZ]
12	[[:xdigit:]] 十六进制数字 [0-9 af AF]

与号引用

所述的sed元字符＆代表被匹配的模式的内容。例如，假设您有一个名为phone.txt的文件，其中包含电话号码，如下所示 –

您希望将区号（前三位数字）用括号括起来以便于阅读。为此，您可以使用与号替换字符 –

$ sed -e 's/^[[:digit:]][[:digit:]][[:digit:]]/(&)/g' phone.txt
(555)5551212
(555)5551213
(555)5551214
(666)5551215

(666)5551216
(777)5551217

在模式部分，您匹配前 3 位数字，然后使用&将这 3 位数字替换为周围的括号。

使用多个 sed 命令

您可以在单个 sed 命令中使用多个 sed 命令，如下所示 –

$ sed -e 'command1' -e 'command2' ... -e 'commandN' files

这里的command1到commandN是前面讨论过的类型的 sed 命令。这些命令应用于 files 给出的文件列表中的每一行。

使用相同的机制，我们可以编写上面的电话号码示例如下 –

$ sed -e 's/^[[:digit:]]\{3\}/(&)/g'  \ 
   -e 's/)[[:digit:]]\{3\}/&-/g' phone.txt 
(555)555-1212 
(555)555-1213 
(555)555-1214 
(666)555-1215 
(666)555-1216 
(777)555-1217

注意– 在上面的示例中，我们没有将字符类关键字[[:digit:]]重复三次，而是将其替换为\{3\}，这意味着前面的正则表达式匹配了三次。我们还使用\来给出换行符，并且必须在运行命令之前将其删除。

返回参考

该符号元字符是有用的，但更有用在正则表达式定义特定区域的能力。这些特殊区域可用作替换字符串中的参考。通过定义正则表达式的特定部分，您可以使用特殊的引用字符来引用这些部分。

要进行反向引用，您必须先定义一个区域，然后再引用该区域。要定义区域，请在每个感兴趣区域周围插入反斜线括号。然后用反斜杠包围的第一个区域由\1引用，第二个区域由\2引用，依此类推。

假设phone.txt具有以下文本 –

(555)555-1212
(555)555-1213
(555)555-1214
(666)555-1215
(666)555-1216
(777)555-1217

尝试以下命令 –

$ cat phone.txt | sed 's/\(.*)\)\(.*-\)\(.*$\)/Area \ 
   code:  Second:  Third: /' 
Area code: (555) Second: 555- Third: 1212 
Area code: (555) Second: 555- Third: 1213 
Area code: (555) Second: 555- Third: 1214 
Area code: (666) Second: 555- Third: 1215 
Area code: (666) Second: 555- Third: 1216 
Area code: (777) Second: 555- Third: 1217

注意– 在上面的示例中，括号内的每个正则表达式将被\1、\2等反向引用。我们在这里使用\来换行。这应该在运行命令之前删除。