代码审计之正则表达式学习

VICE 2023-03-28 原文

前言

代码审计是检查源代码中的安全缺陷，检查程序源代码是否存在安全隐患，或者有编码不规范的地方，通过自动化工具或者人工审查的方式，对程序源代码逐条进行检查和分析，发现这些源代码缺陷引发的安全漏洞，并提供代码修订措施和建议。
而代码审计就不得不讲到正则表达式，此博客整理了php中的一些常规的正则表达式

正则表达式整理

general token 通用令牌
 \n 匹配换行符
\r 匹配回车
\t 匹配tab键
\0 匹配空字符

common token 命令令牌
[abc] 匹配a或者b或者c
[^abc] 匹配除了a,b,c以外的字符
[a-z] 匹配从a-z的字符
[^a-z] 匹配除了a-z以外的字符
[a-zA-Z] 匹配a-z之间或A-Z之间的字符
. 匹配除换行符以外的任何字符（或包含带有/s标志的行终止符
a|b  匹配a或b其中一个字符
\s 匹配任何空格、制表符或换行符
\S 匹配除空格、制表符或换行符以外的任何内容
\d 匹配数字0-9
\d+ 匹配1个数字或多个数字
\D 匹配除了数字0-9以外的任何字符
\D+ 匹配除了数字0-9以外的任意一个字符或多个字符
\w 匹配a-z之间和A-Z之间和0-9之间的字符，相当于[a-zA-Z0-9]
\W 匹配除了a-z之间和A-Z之间和0-9之间的字符，相当于[^a-zA-Z0-9]
(?:xxx) 匹配xxx字符一次
(?# xxx) 不匹配xxx
(?> xxx) 匹配组中可能最长的子字符串，不允许以后回溯以重新评估组。它不是一个捕获组。
(xxx) 匹配xxx字符一次且将xxx与其他字符隔开独立运行
(xxx)+ 匹配1次或多次xxx 且将xxx与其他字符隔开独立运行
ab? -> ? 匹配ab一次或者不匹配 如果没有ab就匹配第一个字符 a 一次或者不匹配
ba* -> * 匹配 ba无限次或一个b+无限个a或无限个b一个a或只能第一个字符无限，但不能第二个字符单独无限次
a+ -> + 匹配一个a或无限个a
a{3}} 只匹配有三个a的字符,{3}代表有三次或三个
a{3,} 匹配至少3个a以及以上的字符
a{3,6} 匹配三个a和6个a之间 包括3个a 和 6个a 
^ 是匹配开始的标志符
$ 是匹配正则的结束符
\b 可以在\b前后添加字符[]，如 d\b 就是匹配 d空格 的形式 \b是作为一个隐式占位符存在  如：\b\w， \w\b,\b\w\w\b
\B 可以在\B前后添加[a-zA-Z0-9]或[^a-zA-Z0-9] 如 \Br   \B\w \w\B  \B\W \W\B

其他标识符
\G 一个起点的标志符与^差不多
\A 仅匹配字符串的开头，不同于^，这不受影响
\Z 匹配字符串的结尾或字符串末尾的行终止符之前的位置（如果有），不同于$不受影响
\z 仅匹配字符串的结尾，与$不同，不受多行影响，并且与\Z相反，在字符串末尾的尾随换行符之前不匹配
\X 匹配任何有效的Unicode序列，包括换行符。相当于（？s:.）
\C 匹配输入的第一个单元字符串（出现的第一串字符串）的第一个字符 任意字符
\R 匹配任何Unicode换行符序列。等效于（？>\r\n|\n|\x0b|\f|\r |\x85）
\N 匹配任何不是换行符的字符，与\n相反。不受单行标志的影响
\v 匹配unicode垂直空白，PCRE引擎将其视为字符类：[\x｛2028｝\n\r\n｛000B｝\f\x 2029｝\x 0085｝]z
\V 匹配\v不匹配的任何内容
\h 匹配空格、制表符、不间断/数学/表意空格等。适用于Unicode。相当于[\t\x｛00A0｝\x｛1680｝\ x｛180E｝\x 2000｝\x2001｝\x2002｝\x2003｝\x2004｝\x2005｝\xmlclose等
\H 匹配非水平空格的任何字符\h
\K 将正则表达式中的给定位置设置为匹配的新开始。\K之前的任何内容都不会作为完全匹配的一部分返回 /[\d]+\k[\d,]+
\pS 匹配任何数学符号、货币符号、丁巴、方框图字符等
\k{name} \k<name> \k'name' 匹配名为“name”的捕获组匹配并捕获的相同文本。替代符号为\k<name>和\k'name'。对.NET有效
\gn \g{n} \g{-n} \g<n> \g<+n> n是数字 匹配第n组捕获的文本。如果需要，n可以包含多个数字
\xYY 将8位字符与给定的十六进制值匹配
\X{YYYY} 将16位字符与给定的十六进制值匹配
\ddd 将8位字符与给定的八进制值匹配
\cY 匹配通常与Control+A到Control+Z:\x01到\x1A关联的ASCII字符。

推荐一个正则表达式匹配测试网站 https://regex101.com/

下面两实例来自于菜鸟教程
通过实例了解正则表达式，以下是我自己的见解

第一个例题:
<?php
/*
 * (?: )*  是 无限匹配
 * \D+ 是匹配任意非数字(asdaasdas)
 * <\d+> 是1个或者多个数字(76874856)
 * | 是 或者的意思
 * [!?] 是匹配 字符中有没有!或者?
 */
preg_match('/(?:\D+|<\d+>)*[!?]/', '165dasda465!');

if (preg_last_error() == PREG_BACKTRACK_LIMIT_ERROR) {
    print 'Backtrack limit was exhausted!';
}else{
    echo "666"."<br>";
}
////运行结果
//666
?>

首先preg_match()是一个正则匹配的函数，可以过滤字符串
preg_match()函数中第一个参数是用于匹配第二个参数中的字符串的
1.正则表达式中一开始的 / 和结束的 / 是正则的一个表达式书写格式可以是 /xxx/i /xxxx/g等等

2.其次，这个正则分成两部分，第一捕获组（第一个匹配组）是(?: \D+|<\d+>) ，其中的(?: )意思是匹配\D+|<\d+>一次的意思，而(?:)后面多加了*代表的是无限匹配\D+|<\d+>无限次直至匹配成功，或匹配所有情况最后失败

3.紧接着就是\D+，这里先讲\d。\d是匹配0-9其中一个数字而\D是匹配非0-9的字符，在表达式中，两个都有+号，+号代表的是1或者无限个的意思，那么当在\D和\d中添加+号，\d+表示0-9的数字里可以1个数字组成或无限个数字组成，如123456，\D+表示非0-9数字的字符可以是1个或者无限个组成，如ajals!#!，然后他们中间有个 | 意思是或者的意思

4.[!?] 其中[]是将表达式框起来选择执行的，很显然里面只有 !? ，[]的作用是匹配的时候对 ! ? 二选一进行匹配，相当于 (! | ?)

5.整体上来看的意思就是，匹配非数字的字符1个或者无限个或匹配数字字符1个或无限个且这一整个是匹配无限次，然后匹配无限次的同时要匹配!或者?在末尾，如ashasl! asdasda? 46546asd? 6856dasa! 563! 4684864?等等，所以题目中165dasda465!是可以匹配成功的，preg_last_error()是出现匹配报错的时候才会跟PREG_BACKTRACK_LIMIT_ERROR相等，匹配成功了最后就输出 666

第二个例题：

<?php
$subject = array('1', 'a', '2', 'b', '3', 'A', 'B', '4'); 
$pattern = array('/\d/', '/[a-z]/', '/[1a]/'); 
$replace = array('A:$0', 'B:$0', 'C:$0'); 
 
echo "preg_filter 返回值：\n";
print_r(preg_filter($pattern, $replace, $subject)); 
 
echo "preg_replace 返回值：\n";
print_r(preg_replace($pattern, $replace, $subject)); 
?>

//执行结果
preg_filter 返回值：
Array
(
    [0] => A:C:1
    [1] => B:C:a
    [2] => A:2
    [3] => B:b
    [4] => A:3
    [7] => A:4
)
preg_replace 返回值：
Array
(
    [0] => A:C:1
    [1] => B:C:a
    [2] => A:2
    [3] => B:b
    [4] => A:3
    [5] => A
    [6] => B
    [7] => A:4
)

preg_filter与preg_replace都是用来过滤匹配代替字符的，本质区别是preg_repalce不管有没有代替都会把所有输出出来，preg_filter不会，就如上面，[5][6]都没输出。他们都有三个参数，第一个参数$pattern使用一个模式的意思，也是要匹配的正则，第二个参数$replace是要替换的字符，第三个参数$subject是要被拿去匹配的字符，而且第二个参数与第三个参数绑定在一起，如果出现匹配到 \d 就会输出 A:$0 ，$0是原数组的元素索引，比如第一个匹配到\d就会输出 A:1

根据上面的逻辑，我们推出，\d -> A:$0 [a-z] -> B:$0 [1a] -> C:$0
紧接着我们要处理就是了解每个正则表达式什么意思。

\d 表示0-9其中匹配一个数字，[a-z] 表示26个字母匹配一个 [1a] 表示 1 或者a匹配1个或者都匹配到

解析 $subject = array('1', 'a', '2', 'b', '3', 'A', 'B', '4'); $pattern = array('/\d/', '/[a-z]/', '/[1a]/');
$replace = array('A:$0', 'B:$0', 'C:$0'); 首先第一个字符 1 匹配$pattern数组中的正则第一个和第三个所以当匹配到\d [1a] 会把 1 前面代替为A:C:$0 此时$0=1 => A:C:1，以此类推，第二个字符a匹配到[a-z] [1a]根据执行逻辑，得到B:C:a，剩下的都是同理，因为在对A B (也就是[5][6])时，没有匹配到，preg_filter函数会不输出，所以看不到。最终得到执行结果。

代码审计代码 blockquote 匹配换行符网络安全

有关代码审计之正则表达式学习的更多相关文章

ruby - 如何在 buildr 项目中使用 Ruby 代码？ - 2
如何在buildr项目中使用Ruby？我在很多不同的项目中使用过Ruby、JRuby、Java和Clojure。我目前正在使用我的标准Ruby开发一个模拟应用程序，我想尝试使用Clojure后端(我确实喜欢功能代码)以及JRubygui和测试套件。我还可以看到在未来的不同项目中使用Scala作为后端。我想我要为我的项目尝试一下buildr(http://buildr.apache.org/)，但我注意到buildr似乎没有设置为在项目中使用JRuby代码本身!这看起来有点傻，因为该工具旨在统一通用的JVM语言并且是在ruby中构建的。除了将输出的jar包含在一个独特的、仅限ruby
ruby-on-rails - Rails 源代码 : initialize hash in a weird way? - 2
在rails源中:https://github.com/rails/rails/blob/master/activesupport/lib/active_support/lazy_load_hooks.rb可以看到以下内容@load_hooks=Hash.new{|h,k|h[k]=[]}在IRB中，它只是初始化一个空哈希。和做有什么区别@load_hooks=Hash.new 最佳答案查看rubydocumentationforHashnew→new_hashclicktotogglesourcenew(obj)→new_has
ruby 正则表达式 - 如何替换字符串中匹配项的第 n 个实例 - 2
在我的应用程序中，我需要能够找到所有数字子字符串，然后扫描每个子字符串，找到第一个匹配范围(例如5到15之间)的子字符串，并将该实例替换为另一个字符串“X”。我的测试字符串s="1foo100bar10gee1"我的初始模式是1个或多个数字的任何字符串，例如，re=Regexp.new(/\d+/)matches=s.scan(re)给出["1","100","10","1"]如果我想用“X”替换第N个匹配项，并且只替换第N个匹配项，我该怎么做？例如，如果我想替换第三个匹配项“10”(匹配项[2])，我不能只说s[matches[2]]="X"因为它做了两次替换“1fooX0barXg
ruby-on-rails - 浏览 Ruby 源代码 - 2
我的主要目标是能够完全理解我正在使用的库/gem。我尝试在Github上从头到尾阅读源代码，但这真的很难。我认为更有趣、更温和的踏脚石就是在使用时阅读每个库/gem方法的源代码。例如，我想知道RubyonRails中的redirect_to方法是如何工作的:如何查找redirect_to方法的源代码？我知道在pry中我可以执行类似show-methodmethod的操作，但我如何才能对Rails框架中的方法执行此操作？您对我如何更好地理解Gem及其API有什么建议吗？仅仅阅读源代码似乎真的很难，尤其是对于框架。谢谢! 最佳答案 Ru
ruby - 模块嵌套代码风格偏好 - 2
我的假设是moduleAmoduleBendend和moduleA::Bend是一样的。我能够从thisblog找到解决方案,thisSOthread和andthisSOthread.为什么以及什么时候应该更喜欢紧凑语法A::B而不是另一个，因为它显然有一个缺点？我有一种直觉，它可能与性能有关，因为在更多命名空间中查找常量需要更多计算。但是我无法通过对普通类进行基准测试来验证这一点。最佳答案这两种写作方法经常被混淆。首先要说的是，据我所知，没有可衡量的性能差异。(在下面的书面示例中不断查找)最明显的区别，可能也是最著名的，是你的
ruby - 寻找通过阅读代码确定编程语言的ruby gem？ - 2
几个月前，我读了一篇关于rubygem的博客文章，它可以通过阅读代码本身来确定编程语言。对于我的生活，我不记得博客或gem的名称。谷歌搜索“ruby编程语言猜测”及其变体也无济于事。有人碰巧知道相关gem的名称吗？最佳答案是这个吗:http://github.com/chrislo/sourceclassifier/tree/master 关于ruby-寻找通过阅读代码确定编程语言的rubygem？，我们在StackOverflow上找到一个类似的问题：
ruby - Net::HTTP 获取源代码和状态 - 2
我目前正在使用以下方法获取页面的源代码:Net::HTTP.get(URI.parse(page.url))我还想获取HTTP状态，而无需发出第二个请求。有没有办法用另一种方法做到这一点？我一直在查看文档，但似乎找不到我要找的东西。最佳答案在我看来，除非您需要一些真正的低级访问或控制，否则最好使用Ruby的内置Open::URI模块:require'open-uri'io=open('http://www.example.org/')#=>#body=io.read[0,50]#=>"["200","OK"]io.base_ur
程序员如何提高代码能力？ - 2
前言作为一名程序员，自己的本质工作就是做程序开发，那么程序开发的时候最直接的体现就是代码，检验一个程序员技术水平的一个核心环节就是开发时候的代码能力。众所周知，程序开发的水平提升是一个循序渐进的过程，每一位程序员都是从“菜鸟”变成“大神”的，所以程序员在程序开发过程中的代码能力也是根据平时开发中的业务实践来积累和提升的。提高代码能力核心要素程序员要想提高自身代码能力，尤其是新晋程序员的代码能力有很大的提升空间的时候，需要针对性的去提高自己的代码能力。提高代码能力其实有几个比较关键的点，只要把握住这些方面，就能很好的、快速的提高自己的一部分代码能力。1、多去阅读开源项目，如有机会可以亲自参与开源
7个大一C语言必学的程序 / C语言经典代码大全 - 2
嗨~大家好，这里是可莉！今天给大家带来的是7个C语言的经典基础代码~那一起往下看下去把【程序一】打印100到200之间的素数#includeintmain(){ inti; for(i=100;i 【程序二】输出乘法口诀表#includeintmain(){inti;for(i=1;i 【程序三】判断1000年---2000年之间的闰年#includeintmain(){intyear;for(year=1000;year 【程序四】给定两个整形变量的值，将两个值的内容进行交换。这里提供两种方法来进行交换，第一种为创建临时变量来进行交换，第二种是不创建临时变量而直接进行交换。1.创建临时变量来
LC滤波器设计学习笔记（一）滤波电路入门 - 2
目录前言滤波电路科普主要分类实际情况单位的概念常用评价参数函数型滤波器简单分析滤波电路构成低通滤波器RC低通滤波器RL低通滤波器高通滤波器RC高通滤波器RL高通滤波器部分摘自《LC滤波器设计与制作》，侵权删。前言最近需要学习放大电路和滤波电路，但是由于只在之前做音乐频谱分析仪的时候简单了解过一点点运放，所以也是相当从零开始学习了。滤波电路科普主要分类滤波器：主要是从不同频率的成分中提取出特定频率的信号。有源滤波器：由RC元件与运算放大器组成的滤波器。可滤除某一次或多次谐波，最普通易于采用的无源滤波器结构是将电感与电容串联，可对主要次谐波（3、5、7）构成低阻抗旁路。无源滤波器：无源滤波器，又称

代码审计之正则表达式学习

前言

正则表达式整理

有关代码审计之正则表达式学习的更多相关文章

随机推荐