正则表达式

risejl 2023-03-28 原文

简介 Introduction

正则表达式（Regular Expression）是计算机科学的一个概念，正则表达式是使用单个字符串来描述和匹配一系列符合句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索和替换那些符合某个模式的文本。

匹配规则

字面量字符和元字符

在正则表达式中，只表示其自身字符含义的叫做字面量字符。其实，大部分字符都表示字面含义。如：

/a/    #匹配 'a'
/b/    #匹配 'b'
/ab/   #匹配 'ab'

还有一些字符代表特殊含义，而不是其自身意义，叫做元字符，如：

｜字符表示“或”运算，匹配｜字符左边或右边的字符串，｜的数量可推广。

/a|b/      #匹配 'a' 或者 'b'
/a｜b｜c/   #匹配 'a' 或 'b' 或 'c'
/ab｜cd/    #匹配 'ab' 或 'cd' 而不匹配 'a' 或 'b' 或 'c' 或 'd'

.字符匹配除了回车、换行、行分隔符和段分割符的字符。

/a.b/  #可匹配a，b之间任意字符，如：'acb'，'a0b'等，但不匹配中间含有多个字符的情况

位置符：
- ^字符匹配字符串开始的位置
- $字符匹配字符串结束的位置

/^123/  #可匹配'123'出现在开始位置的字符串，如'12345'
/123$/  #可匹配'123'出现在结束位置的字符串，如'0123'

转义字符

如果想要匹配正则表达式中的元字符本身，则需要在它们前面加反斜杠\，如：

/a\+b/  #匹配 'a+b'

正则表达式中需要反斜杠转义的有：｜，.，^，$，{，[，(，)，\，+，*

特殊字符

正则表达式对一些不能打印的字符提供了特殊的表示方法：

\cX 表示Ctrl-[X]，其中的X是A-Z之中任一个英文字母，用来匹配控制字符。
[\b] 匹配退格键(U+0008)。
\n 匹配换行键。
\r 匹配回车键。
\t 匹配制表符 tab（U+0009）。
\v 匹配垂直制表符（U+000B）。
\f 匹配换页符（U+000C）。
\0 匹配null字符（U+0000）

字符类

字符类表示给定一系列字符，只要匹配其中任意一个即可。字符序列被放入方括号[]中，如：

/[abc]/  #可匹配'app，因为'app'含有字符'a'，但不能匹配'def'，因为'def'不含'abc'中任意一个

如果方括号内的第一个字符是[^]，则表示除了字符类之中的字符，其他字符都可以匹配。比如，[^xyz]表示除了x、y、z之外都可以匹配。

/[^abc]/  #可以匹配'cde'，但不能匹配'cba'

如果方括号内没有其他字符，只有[^]，就表示匹配一切字符，其中包括换行符。相比之下，点号作为元字符（.）是不包括换行符的
^只有在字符类的第一个位置才有特殊含义，否则就是字面含义。
某些情况下，对于连续序列的字符，连字符（-）用来提供简写形式，表示字符的连续范围。比如，[abc]可以写成[a-c]，[0123456789]可以写成[0-9],26个大写字母可以写成[A-Z]。

修饰符

修饰符放在正则表达式的末尾，表示一些附加规则，如：

i修饰符表示忽略大小写

/abc/i     #可匹配 'abc' 或 'ABC'

m修饰符表示会破坏^和$的匹配规则

/name$/    #不能匹配'my name\n'因为结尾不是name，而是换行符
/name$/m   #可以匹配'my name\n'

g修饰符表示全局匹配。默认情况下，正则表达式第一次匹配成功就停止了，而g修饰符可以匹配到末尾

/aaaaa/    #只匹配第一个'a'
/aaaaa/g   #匹配所有的'a'

数量符

数量符用来表示某个模式的出现次数。

? 问号表示某个模式出现0次或1次。
* 星号表示某个模式出现0次或多次。
+ 加号表示某个模式出现1次或多次。

/n?ame/  #可匹配'name'，'ame'
/n*ame/  #可匹配'name'，'ame'，'nname'
/n+ame/  #可匹配'name'，'nname'

数量符默认为贪婪匹配，在数量符后加?可以将其变为非贪婪匹配：

+?：表示某个模式出现1次或多次，匹配时采用非贪婪模式。
*?：表示某个模式出现0次或多次，匹配时采用非贪婪模式。
??：表格某个模式出现0次或1次，匹配时采用非贪婪模式

贪婪匹配指匹配到下一个字符不满足要求为止，而非贪婪匹配则只匹配到第一个满足要求的字符。

重复

表示模式的精确匹配次数，使用大括号{}表示。{n}表示恰好重复n次，{n,}表示至少重复n次，{n,m}表示重复不少于n次，不多于m次。

/a{2}b/   #可匹配'aab'
/a{2,}b/  #可匹配'aab'，'aaab'
/a{2,4}b/ #匹配'aaab'

预定义

预定义模式指的是某些常见模式的简写方式。

\d 匹配0-9之间的任一数字，相当于[0-9]。
\D 匹配所有0-9以外的字符，相当于[^0-9]。
\w 匹配任意的字母、数字和下划线，相当于[A-Za-z0-9_]。
\W 除所有字母、数字和下划线以外的字符，相当于[^A-Za-z0-9_]。
\s 匹配空格（包括换行符、制表符、空格符等），相等于[ \t\r\n\v\f]。
\S 匹配非空格的字符，相当于[^ \t\r\n\v\f]。
\b 匹配词的边界。
\B 匹配非词边界，即在词的内部。

正则表达式正则 span class md 其他技术区

有关正则表达式的更多相关文章

ruby 正则表达式 - 如何替换字符串中匹配项的第 n 个实例 - 2
在我的应用程序中，我需要能够找到所有数字子字符串，然后扫描每个子字符串，找到第一个匹配范围(例如5到15之间)的子字符串，并将该实例替换为另一个字符串“X”。我的测试字符串s="1foo100bar10gee1"我的初始模式是1个或多个数字的任何字符串，例如，re=Regexp.new(/\d+/)matches=s.scan(re)给出["1","100","10","1"]如果我想用“X”替换第N个匹配项，并且只替换第N个匹配项，我该怎么做？例如，如果我想替换第三个匹配项“10”(匹配项[2])，我不能只说s[matches[2]]="X"因为它做了两次替换“1fooX0barXg
ruby - 正则表达式将非英文字母匹配为非单词字符 - 2
@raw_array[i]=~/[\W]/非常简单的正则表达式。当我用一些非拉丁字母(具体来说是俄语)尝试时，条件是错误的。我能用它做什么？最佳答案 @raw_array[i]=~/[\p{L}]/使用西里尔字符进行测试。引用:http://www.regular-expressions.info/unicode.html#prop 关于ruby-正则表达式将非英文字母匹配为非单词字符，我们在StackOverflow上找到一个类似的问题： https://
ruby - 正则表达式在哪个位置失败？ - 2
我需要一个非常简单的字符串验证器来显示第一个符号与所需格式不对应的位置。我想使用正则表达式，但在这种情况下，我必须找到与表达式相对应的字符串停止的位置，但我找不到可以做到这一点的方法。(这一定是一种相当简单的方法……也许没有？)例如，如果我有正则表达式:/^Q+E+R+$/带字符串:"QQQQEEE2ER"期望的结果应该是7 最佳答案一个想法:你可以做的是标记你的模式并用可选的嵌套捕获组编写它:^(Q+(E+(R+($)?)?)?)?然后你只需要计算你获得的捕获组的数量就可以知道正则表达式引擎在模式中停止的位置，你可以确定匹配结束
ruby - 有没有办法从 ruby case 语句中访问表达式？ - 2
我想从then子句中访问case语句表达式，即food="cheese"casefoodwhen"dip"then"carrotsticks"when"cheese"then"#{expr}crackers"else"mayo"end在这种情况下，expr是食物的当前值(value)。在这种情况下，我知道，我可以简单地访问变量food，但是在某些情况下，该值可能无法再访问(array.shift等)。除了将expr移出到局部变量然后访问它之外，是否有直接访问caseexpr值的方法？罗亚附注我知道这个具体示例很简单，只是一个示例场景。最佳答案
ruby - 正则表达式 - 排除一个字符 - 2
这是一个例子:s="abcd+subtext@example.com"s.match(/+[^@]*/)Result=>"+subtext"问题是，我不想在其中包含“+”。我希望结果是“潜台词”，没有+ 最佳答案您可以在正则表达式中使用括号来创建匹配组:s="abcd+subtext@example.com"s=~/\+([^@]*)/&&$1=>"subtext" 关于ruby-正则表达式-排除一个字符，我们在StackOverflow上找到一个类似的问题：
ruby - 如何遍历 Ruby 中所有正则表达式匹配的字符串？ - 2
我们有一个字符串:“”这个正则表达式://i如何从当前字符串中获取所有匹配项？最佳答案 "".scan(//)参见scan在ruby-docs上关于ruby-如何遍历Ruby中所有正则表达式匹配的字符串？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/6857852/
Ruby 正则表达式匹配逗号，但忽略括号中的逗号 - 2
我正在尝试通过正则表达式拆分参数列表。这是一个带有我的参数列表的字符串:"a=b,c=3,d=[1,3,5,7],e,f=g"我想要的是:["a=b","c=3","d=[1,3,5,7]","e","f=g"]我试过先行，但Ruby不允许使用动态范围后行，所以这行不通:/(?如何让正则表达式忽略方括号中的所有内容？最佳答案也许这样的东西对你有用:str.scan(/(?:\[.*?\]|[^,])+/)编辑再三考虑。简单的非贪婪匹配器在某些嵌套括号的情况下会失败。关于Ruby正则
ruby - 查找重叠的正则表达式匹配项 - 2
我想找到给定字符串中的所有匹配项，包括重叠匹配项。我怎样才能实现它？#Example"a-b-c-d".???(/\w-\w/)#=>["a-b","b-c","c-d"]expected#Solutionwithoutoverlappedresults"a-b-c-d".scan(/\w-\w/)#=>["a-b","c-d"],but"b-c"ismissing 最佳答案在积极的前瞻中使用捕获:"a-b-c-d".scan(/(?=(\w-\w))/).flatten#=>["a-b","b-c","c-d"]参见Rubyde
ruby-on-rails - rails 中的正则表达式匹配 [\w] 和 "-"但不匹配数字 - 2
我想为名字验证编写一个正则表达式。正则表达式应包括所有字母(拉丁/法语/德语字符等)。但是我想从中排除数字并允许-。所以基本上它是\w(减)数(加)-。请帮忙。最佳答案 ^[\p{L}-]+$\p{L}匹配anykindofletterfromanylanguage. 关于ruby-on-rails-rails中的正则表达式匹配[\w]和"-"但不匹配数字，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.c
ruby - 正则表达式 - 保存重复捕获的组 - 2
这就是我做的a="%span.rockets#diamonds.ribbons.forever"a=a.match(/(^\%\w+)([\.|\#]\w+)+/)putsa.inspect这是我得到的#这就是我想要的#帮助？我尝试过但失败了:( 最佳答案通常，您不能获得任意数量的捕获组，但如果您使用扫描，您可以为您想要捕获的每个标记获得一个匹配:a="%span.rockets#diamonds.ribbons.forever"a=a.scan(/^%\w+|\G[.|#]\w+/)putsa.inspect["%span","