刘亦菲生日当天，引发了我对正则的思考

Coder小明 2023-04-16 原文

前两天从网上采集到一条短视频数据（刷短视频），发现六公主连排5部刘亦菲主演的电影！甚是震惊，太有牌面了，看了一下日子是8月25号，嗷，原来当天是刘亦菲的生日。巧了，正好也是我家柴犬旺财的3岁生日?。

言归正传，我们看到这条数据的

标题：#刘亦菲35岁生日获央视独宠# 神仙姐姐生日快乐！

为了分析数据，我们需要获取数据中所提到的话题#刘亦菲35岁生日获央视独宠#。提问：你能想到几种实现方式呢？欢迎评论区留言。

正则

想必细心看标题的朋友一定会猜到本文的主人公——正则，这玩意优点是写起来快，但缺点也显而易见，性能差，跟批处理一个德性，反人类的难记，长时间不用，每次都要重新学习，日常开发中也就偶尔写工具用一下。因此，我们只需要把常用的正则理解透就可以了，不要有心理包袱，看完本文，大部分的正则使用场景就可以活学活用。

场景一：匹配两个`#`之间的字符串

现在我们把需求转换成实现思路，想要获取上述数据中的话题，其实就是匹配两个#之间的文本内容，show code：

正则表达式：#.*?#

    public static void main(String[] args) {
        String title = "#刘亦菲35岁生日获央视独宠# 神仙姐姐生日快乐！";
        Pattern p = Pattern.compile("(#.*?#)");
        Matcher m = p.matcher(title);
        while (m.find()) {
            String group = m.group(0);
            System.out.println("话题:" + group);
        }
    }

输出

话题:#刘亦菲35岁生日获央视独宠#

可以看出，输出的结果就是该条数据的话题，给大家分析一下这个正则表达式：
.表示任意字符，?平时表示匹配0个或者多个，此时它表示不贪婪，那什么是贪婪呢？

说到贪婪，那就不得不提这两个限定符：* 和 + ，它们两个就是贪婪的！*表示匹配0个或者多个，+表示匹配至少一个，可以发现它们的共性：都会尽可能匹配更多。但，只要紧跟在它们的后面加上一个 ? ，让他们扪心自问，就可以实现非贪婪，即最小匹配。比如，我们在标题上再加一个#，此时标题变为#刘亦菲35岁生日获央视独宠## 神仙姐姐生日快乐！，然后正则表达式我们不使用?，此时，运行代码后输出结果为：

话题:#刘亦菲35岁生日获央视独宠##

比较两次的执行结果，我们会发现输出结果多了一#，这样就很贪婪，违背了我们的初衷，这就是?的妙用。

场景二：只匹配`#`开头的字符串

我们知道不同平台的话题格式是不一样的，比如抖音，它的话题形式就与微博不同，只是#开头，并没有成对的#与其呼应：

标题：#刘亦菲35岁生日获央视独宠神仙姐姐生日快乐！

如果是这种形式的话题，爱动脑筋的朋友就会发现无非就是将后面的#变为一个空格或者多个空格呗。没错，我们可以使用

正则表达式：#.*?\\s+

    public static void main(String[] args) {
        String title = "#刘亦菲35岁生日获央视独宠  神仙姐姐生日快乐！";
        Pattern p = Pattern.compile("(#.*?\\s+)");
        Matcher m = p.matcher(title);
        while (m.find()) {
            String group = m.group(0);
            System.out.println("话题:" + group);
        }
    }

输出

话题:#刘亦菲35岁生日获央视独宠

Tips：\s 表示匹配所有空白符，它不仅仅可以匹配空格，还可以匹配换行等空白字符，如果再加上+，组合起来就表示甭管几个空白字符，统统all in。

不过，不要高兴得太早，心细的小明还发现话题可能会存在文末的情况：

标题：神仙姐姐生日快乐！#刘亦菲35岁生日获央视独宠

此时是没有空白字符结束的，上面的正则就不满足这种情况。那如何是好？小明当时就想到了两个方案：

方案一：不管话题在不在文末，我们在匹配之前全部给标题追加一个空白字符，这样就可以人为干预，巧妙地避开了这种情况，曲线救国，便于正则匹配
方案二：使用正则表达式#.*?$

Tips：方案二中的$ 是用来匹配输入字符串的结尾位置，组合起来就表示匹配#开头，一直到句末的话题。

进阶

前面两种场景我们虽然获取到了两个#之间或者#开头的内容，实现了需求，但是匹配的结果还是会带上#，贪婪的小明不满足现状（产品强制要求），可不可以不带呢？
当然可以了！小明又想到了两个方案：

方案一：得到匹配的话题后，再二次文本处理去掉#
方案二：使用正则表达式?<=和?=一步到位，直接去除#

使用方法

(?<=exp2)exp1：表示匹配 exp2 后面的 exp1
exp1(?=exp2)：表示匹配 exp2 前面的 exp1
那结合以上我们实际使用的所有场景，最终这个理想的正则表达式就正式出炉（好热）：((?<=#).*?(?=#|\s+))

反应慢的朋友，可以慢点理解，我们先运行试一下（不自信）：

    public static void main(String[] args) {
        String title = "#刘亦菲# #神仙姐姐 #生日快乐# #刘亦菲35岁生日获央视独宠";
        Pattern p = Pattern.compile("((?<=#).*?(?=#|\\s+|$))");
        Matcher m = p.matcher(title);
        while (m.find()) {
            String group = m.group(0);
            System.out.println("话题:" + group);
        }
    }

输出

话题:刘亦菲
话题:
话题:神仙姐姐
话题:生日快乐
话题:
话题:刘亦菲35岁生日获央视独宠

Tips：正则表达式中的|表示或，即多项之间的一个选择，就像今天你看完本文，感觉不错的话，
必须做出(关注|点赞|星标)其中的一个选择！
从代码的输出结果我们可以看出，目前的正则是经得住实际考验的。但是唯一美中不足的是，会有空字符串的情况出现（产品不同意）。
这该如何是好？
目前小明的解决方案是，拿到匹配结果时，过滤掉空字符串。能解决问题的办法就是好办法。不过，肯定有更完美的表达式可以实现这个需求，此处抛砖引玉，期待你在评论区分享！

常用的正则表达式分享

微信号（并不能帮你要到男神|女神的微信号）

^[a-zA-Z][a-zA-Z\d_-]{5,19}$

未完待续……
对了，记得关注一下微信公众号，我在那里等大家。

欢迎关注微信公众号，获取更多资源

引发思考 code strong 的 Java

有关刘亦菲生日当天，引发了我对正则的思考的更多相关文章

ruby 正则表达式 - 如何替换字符串中匹配项的第 n 个实例 - 2
在我的应用程序中，我需要能够找到所有数字子字符串，然后扫描每个子字符串，找到第一个匹配范围(例如5到15之间)的子字符串，并将该实例替换为另一个字符串“X”。我的测试字符串s="1foo100bar10gee1"我的初始模式是1个或多个数字的任何字符串，例如，re=Regexp.new(/\d+/)matches=s.scan(re)给出["1","100","10","1"]如果我想用“X”替换第N个匹配项，并且只替换第N个匹配项，我该怎么做？例如，如果我想替换第三个匹配项“10”(匹配项[2])，我不能只说s[matches[2]]="X"因为它做了两次替换“1fooX0barXg
ruby-on-rails - Capybara-webkit 引发 Capybara::Driver::Webkit::WebkitInvalidResponseError - 2
我在rspec中收到来自webkit驱动程序的以下消息:Capybara::Driver::Webkit::WebkitInvalidResponseError:UnabletoloadURL:http://127.0.0.1:44923/posts几天前它成功了。问题出在save_page方法上。有什么问题吗？最佳答案当我的页面出现错误时，我收到过类似的错误消息。您应该通过在测试模式下启动服务器(railss-etest)并自行访问页面来手动检查情况是否如此。关于ruby-on-
ruby - 正则表达式将非英文字母匹配为非单词字符 - 2
@raw_array[i]=~/[\W]/非常简单的正则表达式。当我用一些非拉丁字母(具体来说是俄语)尝试时，条件是错误的。我能用它做什么？最佳答案 @raw_array[i]=~/[\p{L}]/使用西里尔字符进行测试。引用:http://www.regular-expressions.info/unicode.html#prop 关于ruby-正则表达式将非英文字母匹配为非单词字符，我们在StackOverflow上找到一个类似的问题： https://
ruby - 正则表达式在哪个位置失败？ - 2
我需要一个非常简单的字符串验证器来显示第一个符号与所需格式不对应的位置。我想使用正则表达式，但在这种情况下，我必须找到与表达式相对应的字符串停止的位置，但我找不到可以做到这一点的方法。(这一定是一种相当简单的方法……也许没有？)例如，如果我有正则表达式:/^Q+E+R+$/带字符串:"QQQQEEE2ER"期望的结果应该是7 最佳答案一个想法:你可以做的是标记你的模式并用可选的嵌套捕获组编写它:^(Q+(E+(R+($)?)?)?)?然后你只需要计算你获得的捕获组的数量就可以知道正则表达式引擎在模式中停止的位置，你可以确定匹配结束
ruby - 正则表达式 - 排除一个字符 - 2
这是一个例子:s="abcd+subtext@example.com"s.match(/+[^@]*/)Result=>"+subtext"问题是，我不想在其中包含“+”。我希望结果是“潜台词”，没有+ 最佳答案您可以在正则表达式中使用括号来创建匹配组:s="abcd+subtext@example.com"s=~/\+([^@]*)/&&$1=>"subtext" 关于ruby-正则表达式-排除一个字符，我们在StackOverflow上找到一个类似的问题：
ruby - 如何遍历 Ruby 中所有正则表达式匹配的字符串？ - 2
我们有一个字符串:“”这个正则表达式://i如何从当前字符串中获取所有匹配项？最佳答案 "".scan(//)参见scan在ruby-docs上关于ruby-如何遍历Ruby中所有正则表达式匹配的字符串？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/6857852/
Ruby 正则表达式匹配逗号，但忽略括号中的逗号 - 2
我正在尝试通过正则表达式拆分参数列表。这是一个带有我的参数列表的字符串:"a=b,c=3,d=[1,3,5,7],e,f=g"我想要的是:["a=b","c=3","d=[1,3,5,7]","e","f=g"]我试过先行，但Ruby不允许使用动态范围后行，所以这行不通:/(?如何让正则表达式忽略方括号中的所有内容？最佳答案也许这样的东西对你有用:str.scan(/(?:\[.*?\]|[^,])+/)编辑再三考虑。简单的非贪婪匹配器在某些嵌套括号的情况下会失败。关于Ruby正则
ruby - 查找重叠的正则表达式匹配项 - 2
我想找到给定字符串中的所有匹配项，包括重叠匹配项。我怎样才能实现它？#Example"a-b-c-d".???(/\w-\w/)#=>["a-b","b-c","c-d"]expected#Solutionwithoutoverlappedresults"a-b-c-d".scan(/\w-\w/)#=>["a-b","c-d"],but"b-c"ismissing 最佳答案在积极的前瞻中使用捕获:"a-b-c-d".scan(/(?=(\w-\w))/).flatten#=>["a-b","b-c","c-d"]参见Rubyde
ruby-on-rails - rails 中的正则表达式匹配 [\w] 和 "-"但不匹配数字 - 2
我想为名字验证编写一个正则表达式。正则表达式应包括所有字母(拉丁/法语/德语字符等)。但是我想从中排除数字并允许-。所以基本上它是\w(减)数(加)-。请帮忙。最佳答案 ^[\p{L}-]+$\p{L}匹配anykindofletterfromanylanguage. 关于ruby-on-rails-rails中的正则表达式匹配[\w]和"-"但不匹配数字，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.c
ruby - 正则表达式 - 保存重复捕获的组 - 2
这就是我做的a="%span.rockets#diamonds.ribbons.forever"a=a.match(/(^\%\w+)([\.|\#]\w+)+/)putsa.inspect这是我得到的#这就是我想要的#帮助？我尝试过但失败了:( 最佳答案通常，您不能获得任意数量的捕获组，但如果您使用扫描，您可以为您想要捕获的每个标记获得一个匹配:a="%span.rockets#diamonds.ribbons.forever"a=a.scan(/^%\w+|\G[.|#]\w+/)putsa.inspect["%span","

刘亦菲生日当天，引发了我对正则的思考

正则

场景一：匹配两个#之间的字符串

场景二：只匹配#开头的字符串

进阶

常用的正则表达式分享

欢迎关注微信公众号，获取更多资源

有关刘亦菲生日当天，引发了我对正则的思考的更多相关文章

随机推荐

场景一：匹配两个`#`之间的字符串

场景二：只匹配`#`开头的字符串