4-19 Linux中的正则表达式 --- 字符匹配

捌千里路雲和月 2023-03-28 原文

1、正则表达式和通配符有点像。区别在于通配符匹配的是文件名和目录名中的字符串，不能匹配文本中内容的字符串。而正则表达式匹配的是文本中的字符串。

2、正则表达式（REGEXP）：由一类特殊字符及文本符号所编写的表达式，这种表达式的功能是匹配文本当中字符串。

3、正则表达式的特点：可以通过特殊字符及文本符号灵活组合各种过滤条件去匹配文本内容，从而达到自由度颇高的筛查方式。

4、正则表达式分两类：基本正则表达式（BRE）、扩展正则表达式（ERE），grep 加上 -E 参数就是使用 egrep。

5、元字符分类：元字符是指正则表达式中使用的特殊字符，这些特殊符号具有特定的功能。从功能上分类有：字符匹配、匹配次数、位置锚定、分组。

字符匹配：
①、 .：匹配任意单个字符。
②、 [ ]：匹配指定范围内的任意单个字符。
③、 [^]：排除匹配指定范围内的任意单个字符。
④、 [:alnum:]：字母和数字。
⑤、 [:alpha:]：任何英文大小写字符，即 A-Z，a-z。
⑥、 [:lower:]：小写字母。
⑦、 [:upper:]：大写字母。
⑧、 [:blank:]：空白字符（空格和制表符）。
⑨、 [:space:]：水平和垂直的空白字符（比 [:blank:] 包含的范围广）。
⑩、 [:cntrl:]：不打印的控制字符（退格、删除...）。
⑩-①、 [:digit:]：十进制数字。
⑩-②、 [:xdigit]：十六进制数字。
⑩-③、 [:graph:]：可打印的非空白字符。
⑩-④、 [:print:]：可打印字符。
⑩-⑤、 [:punct:]：标点符号。

①、 .：匹配任意单个字符。

创建一个文档 regexpTest.txt 。

[root@localhost ~]# vim regexpTest.txt

abc
abbc
abbbc
a.c
a/c
aabcd
aabbcc
                                                                               
~                                                                                       
~                                                                                       
~                                                                                       
:wq    ## 保存退出

"a.c"：表示过滤 a 与 c 之间夹着一位任意字符的字符串。

a.c：字符串中只要包含 a 与 c 之间有一位任意字符就会被过滤出来

"a..c"：表示过滤 a 与 c 之间夹着两位任意一位字符的字符串。

a..c：字符串中只要包含 a 与 c 之间有两位任意字符就会被过滤出来

汉字也算一个字符，（ . ）代表任意字符。

[root@localhost ~]# vim regexpTest.txt    ##  regexpTest.txt 添加新内容

abc
abbc
abbbc
a.c
a/c
aabcd
aabbcc
a我c    ## 新字符串                                                                        
~                                                                                                 
~                                                                                                 
~                                                                                                 
:wq

a我c：字符串 a 与 c 之间包含汉字字符也会被过滤出来

"..."：表示过滤包含三位的字符串。
regexpTest.txt 新增点内容。

[root@localhost ~]# vim regexpTest.txt     ##  regexpTest.txt 添加新内容 

abc
abbc
abbbc
a.c
a/c
aabcd
aabbcc
a我c
a    ## 新增的内容
ab    ## 新增的内容                                                                                           
~                                                                                                 
~                                                                                                 
~                                                                                                 
:wq    ## 保存退出

从输出结果可以看出不只是过滤出三位的字符串，而是三位以上的字符串都过滤出来了。这是 grep 默认的特性贪婪模式，尽可能的匹配满足的长度。

只要字符串满足三位字符就会被过滤出来，（满三位标红）

"a..."：表示过滤包含 a 开头，后面三位任意的字符。

a 开头或 a 开头后面满足三位任意的字符

"..c"：表示过滤包含 c 结尾，前面有两位任意的字符。

..c：c 前面满足两位任意字符

"a \ .c"：\ 转义字符，转义之后的。就是 . 本身的含义。不是正则表达式 . 任意单个字符的意思。所以，"a \ .c" 就是过滤出 a.c 的字符串。

\ 转义字符，转义之后是字符本身

②、 [ ]：匹配指定范围内的任意单个字符。

"a[qwer我]."：a 开头，第二位 [qwer我] 中括号的内容匹配文本中的字符串第二位，第三位 . 代表任意字符的意思。如果文本中的字符串有 a 开头，第二位也符合 q、w、e、r、我、的任意一个字符，而且满足三位的条件，就会打印出来。

文件内容匹配中括号范围内的任意单个字符图解

③、 [^]：排除匹配指定范围内的任意单个字符。

"a[^abc]"：a 开头，第二位 [^abc] 中括号的内容取反，即排除掉。除了中括号内的 a、b、c 字符，匹配其他字符都可以过滤出结果。

④、 [:alnum:]：过滤字母和数字，包含了大写字母、小写字母和 10个数字（0-9）。

更新以下 regexpTest.txt 内容

[root@localhost ~]# vim regexpTest.txt 

---------
loginTest
---------
sn:888888
---------                                                                                               
~                                                                                                 
~                                                                                                 
~                                                                                                 
:wq

由于 [:alunm:] 包含了大写字母、小写字母和 10个数字（0-9）。当用 [ ] 中括号包含 [:alnum:] 就相当于大写字母、小写字母和 10个数字（0-9）匹配文本中的内容。但凡符合要求的都会标红显示出来。

[:alnum:]：过滤字母和数字

更改一下 regexpTest.txt 内容，加入一些中文看看 [:alnum:] 过滤的效果如何？

[root@localhost ~]# vim regexpTest.txt 

----------
登录测试：
Test
----------
测试密码：
888888
----------                                                                         
~                                                                                                 
~                                                                                                 
~                                                                                                 
:wq

从输出效果看，[:alnum:] 也可以输出中文。

[:alnum:] 也可以输出中文

[:alnum:] 也可以匹配指定范围的内容。例如过略 T 开头，第二位任意小写字母的内容。
T[a-z]：T 开头，第二位 a-z 任意小写字母作为过滤条件。
T[[:alnum:]]：T 开头，第二位 A-Z 大写字母、a-z 小写字母和 10个数字（0-9）作为过滤条件。

过略 T 开头，第二位任意小写字母的内容

当然 [:alnum:] 作为一个 A-Z 大写字母、a-z 小写字母和 10个数字（0-9）的过滤条件范围有点大。第二位只要符合大写、小写和数字范围的字符都会被过滤出来。

[:alnum:] 类似一个数据的集合

单纯想过略 T 开头，第二位为任意小写字母的时候，用 [:alnum:] 显然不合适。这里只是想记录一下 [:alnum:] 这类特殊字符本意上类似数据的集合供使用者方便使用和写法上加了 [ ] 中括号的意思。

⑤、 [:alpha:]：任何英文大小写字符，即 A-Z，a-z。

更改一下 regexpTest.txt 内容。

[root@localhost ~]# vim regexpTest.txt 

------------
大写英文：                  
ABC                         
------------                
小写英文：                  
abc                         
------------                                                                            
~                                                                                       
~                                                                                       
~                                                                                       
:wq

[:alpha:] 可以过滤中文字符

[:alpha:] 匹配英文大小写字符，即 A-Z，a-z

[:alpha:] 匹配指定范围的内容

⑥、 [:lower:]：只过滤小写字母。

[:lower:]：只过滤小写字母

⑦、 [:upper:]：只过滤大写字母。

[:upper:]：只过滤大写字母

⑧、 [:blank:]：空白字符（空格和制表符）。

更改一下 regexpTest.txt 内容。

[root@localhost ~]# vim regexpTest.txt 

------------
空格(space):                              this's space.
------------
制表符(tab):            this's tab.
------------
                                                           
~                                                                                       
~                                                                                       
~                                                                                       
:wq

在输出中用鼠标括住输出内容就可以看到标红的部分，分别是空格space 和制表符 tab。

[:blank:]：空格和制表符

⑨、 [:space:]：水平和垂直的空白字符（比 [:blank:] 包含的范围广）。

[root@localhost ~]# vim regexpTest.txt 

----------
登录测试：              Test    ## <--- Test 前面有 2 个 tab
----------
测试密码：      888888    ## <--- Test 前面有 1 个 tab
----------  ## <--- 这里结尾有 1 个空格
                                                                                     
~                                                                                                 
~                                                                                                 
~                                                                                                 
:wq

通过 [:space:] 可以看到过滤出 regexpTest.txt 文件中的空白字符。

[:space:] 过滤空白字符

⑩-①、 [:digit:]：十进制数字。

[:digit:] 显示所有的数字内容

⑩-③、 [:graph:]：可打印的非空白字符。

[:graph:]：可打印的非空白字符

⑩-④、 [:print:]：可打印字符。相当于 [:alnum:]、[:punct:] 和 space。

从输出效果看出 [:print:] 可以过滤中文、大小写英文、数字、标点和空格。但是不能过滤 tab。

[:print:] 的效果

⑩-⑤、 [:punct:]：标点符号。

[root@localhost ~]# vim regexpTest.txt 

----------
登录测试：
Test
----------
测试密码：
888888
----------
符号测试
----------
` ~ ! @ # $ % ^ & * ( ) _ - + = \ | [ ] { } ; ' : " , . / < > ?
----------       
                                                                           
~                                                                                       
~                                                                                       
~                                                                                       
:wq

[:punct:]：标点符号

有关4-19 Linux中的正则表达式 --- 字符匹配的更多相关文章

ruby - 如何从 ruby 中的字符串运行任意对象方法？ - 2
总的来说，我对ruby还比较陌生，我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础，我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
Ruby 解析字符串 - 2
我有一个字符串input="maybe(thisis|thatwas)some((nice|ugly)(day|night)|(strange(weather|time)))"Ruby中解析该字符串的最佳方法是什么？我的意思是脚本应该能够像这样构建句子:maybethisissomeuglynightmaybethatwassomenicenightmaybethiswassomestrangetime等等，你明白了......我应该一个字符一个字符地读取字符串并构建一个带有堆栈的状态机来存储括号值以供以后计算，还是有更好的方法？也许为此目的准备了一个开箱即用的库？
ruby - 其他文件中的 Rake 任务 - 2
我试图在一个项目中使用rake，如果我把所有东西都放到Rakefile中，它会很大并且很难读取/找到东西，所以我试着将每个命名空间放在lib/rake中它自己的文件中，我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题，但没有任务。我现在只有一个.rake文件作为测试，名为“servers.rake”，它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时
ruby-on-rails - 在 Rails 中将文件大小字符串转换为等效千字节 - 2
我的目标是转换表单输入，例如“100兆字节”或“1GB”，并将其转换为我可以存储在数据库中的文件大小(以千字节为单位)。目前，我有这个:defquota_convert@regex=/([0-9]+)(.*)s/@sizes=%w{kilobytemegabytegigabyte}m=self.quota.match(@regex)if@sizes.include?m[2]eval("self.quota=#{m[1]}.#{m[2]}")endend这有效，但前提是输入是倍数(“gigabytes”，而不是“gigabyte”)并且由于使用了eval看起来疯狂不安全。所以，功能正常，
ruby-on-rails - Ruby net/ldap 模块中的内存泄漏 - 2
作为我的Rails应用程序的一部分，我编写了一个小导入程序，它从我们的LDAP系统中吸取数据并将其塞入一个用户表中。不幸的是，与LDAP相关的代码在遍历我们的32K用户时泄漏了大量内存，我一直无法弄清楚如何解决这个问题。这个问题似乎在某种程度上与LDAP库有关，因为当我删除对LDAP内容的调用时，内存使用情况会很好地稳定下来。此外，不断增加的对象是Net::BER::BerIdentifiedString和Net::BER::BerIdentifiedArray，它们都是LDAP库的一部分。当我运行导入时，内存使用量最终达到超过1GB的峰值。如果问题存在，我需要找到一些方法来更正我的代
ruby-on-rails - unicode 字符串的长度 - 2
在我的Rails(2.3，Ruby1.8.7)应用程序中，我需要将字符串截断到一定长度。该字符串是unicode，在控制台中运行测试时，例如'א'.length，我意识到返回了双倍长度。我想要一个与编码无关的长度，以便对unicode字符串或latin1编码字符串进行相同的截断。我已经了解了Ruby的大部分unicode资料，但仍然有些一头雾水。应该如何解决这个问题？最佳答案 Rails有一个返回多字节字符的mb_chars方法。试试unicode_string.mb_chars.slice(0,50)
ruby-on-rails - Rails 3 中的多个路由文件 - 2
Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情？最佳答案在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中，使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件，我们在StackOverflow上找到一个类似的问题
ruby - 将差异补丁应用于字符串/文件 - 2
对于具有离线功能的智能手机应用程序，我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl
ruby-on-rails - Rails 常用字符串(用于通知和错误信息等) - 2
大约一年前，我决定确保每个包含非唯一文本的Flash通知都将从模块中的方法中获取文本。我这样做的最初原因是为了避免一遍又一遍地输入相同的字符串。如果我想更改措辞，我可以在一个地方轻松完成，而且一遍又一遍地重复同一件事而出现拼写错误的可能性也会降低。我最终得到的是这样的:moduleMessagesdefformat_error_messages(errors)errors.map{|attribute,message|"Error:#{attribute.to_s.titleize}#{message}."}enddeferror_message_could_not_find(obje
ruby - 如何以所有可能的方式将字符串拆分为长度最多为 3 的连续子字符串？ - 2
我试图获取一个长度在1到10之间的字符串，并输出将字符串分解为大小为1、2或3的连续子字符串的所有可能方式。例如:输入:123456将整数分割成单个字符，然后继续查找组合。该代码将返回以下所有数组。[1,2,3,4,5,6][12,3,4,5,6][1,23,4,5,6][1,2,34,5,6][1,2,3,45,6][1,2,3,4,56][12,34,5,6][12,3,45,6][12,3,4,56][1,23,45,6][1,2,34,56][1,23,4,56][12,34,56][123,4,5,6][1,234,5,6][1,2,345,6][1,2,3,456][123

4-19 Linux中的正则表达式 --- 字符匹配

有关4-19 Linux中的正则表达式 --- 字符匹配的更多相关文章

随机推荐