一文带你入木三分地理解字符串KMP算法(next指针解法)

Yvchen 2023-03-28 原文

1. KMP算法简介

温馨提示:在通篇阅读完并理解后再看简介效果更佳
以下简介由百度百科提供https://baike.baidu.com/item/KMP%E7%AE%97%E6%B3%95/10951804：
KMP算法是一种改进的字符串匹配算法，由D.E.Knuth，J.H.Morris和V.R.Pratt提出的，因此人们称它为克努特—莫里斯—普拉特操作（简称KMP算法）。KMP算法的核心是利用匹配失败后的信息，尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是通过一个next()函数实现，函数本身包含了模式串的局部匹配信息。KMP算法的时间复杂度O(m+n)

2. 对算法本质的理解

注意：为了叙述方便，本小节中的索引都从1开始而非0

· 抽象理解人眼是如何匹配字符串的

我们要在字符串1中查找字符串2，则把字符串1称为文本串，字符串2成为匹配串。
人眼在文本串与匹配串中来回扫描，一个个判断两串字符是否相等(你可能觉得你能一下子比较五个以上字符，但不妨理解为你的大脑还是一个个比较的)。如下图所示：当人眼发现两个字符不相等时，视线(图中红色区块)不会移到两串的起始位置重新比较，而是会找到文本串视线曾经过区域中与匹配串某前缀(图中黄色区块)相等的地方开始比较，

当我们对匹配字符串时人视线的移动进行模拟便可以实现KMP这一高效的匹配算法。

· 用最大公共前后缀与指针模拟人眼操作

我们如此定义最大公共前后缀：在匹配串位置[1，N]的区块中找一个子串，使得该子串既是最长的前缀，又是最长的后缀，并且该子串不能等于该区块本身,则称该子串为匹配串位置[1，N]的区块的最大公共前后缀。
例如下图：
对于匹配串AAXAAXAA，可以发现AAXAA就是它的最大公共前后缀。

需要用到最大公共前后缀做什么呢？别急，咱们根据以下几个步骤循序渐进地理解：
1.假设匹配串与文本串在位置[1，W-1]都相等，在位置W字符不等，在此条件下我们设pre为[1，W-1]区域中匹配串的某前缀(下文会确定下来)，设指针i指向文本串中的字符，指针j指向匹配串中的字符。
模拟人眼的操作，此时我们要在文本串[1,W-1]之间(去除已经和pre比较过的部分)寻找pre并由此移动指针。

2.由于是从前向后匹配字符串的，所以如果pre在[1,W-1]这个文本串区块间存在，其第一次出现一定是出现在区块的末尾，也就是说它就是区块的后缀。又由于匹配串与文本串在位置[1,W-1] 都相等，所以pre也是匹配串的后缀，于是成为了匹配串[1，W-1]区域的公共前后缀。
图例：

3.我们这时候就可以尝试着使用公共前后缀将比较字符串的视线移动用指针具象化。当双指针所指的字符相同时，令i++；j++即可；若字符不同时，我们如此考虑：

当文本串[1，W-1] (去除已经和pre比较过的部分)中含有pre，即在[1，W-1] 有公共前后缀(pre长大于0)时。我们记len[W-1]为匹配串的前缀终止位置，从上文得文本串后缀的终止位置为W-1，由于匹配串的前缀与文本串的后缀相对应，所以我们只需要从匹配串前缀与文本串后缀之后开始比较即可。即令i不变仍为W；j=len[W-1]+1。
我们又额外考虑当文本串[1，W-1] (去除已经和pre比较过的部分)中不含pre，即在[1，W-1] 无公共前后缀(pre长为0)时的情况。这时完全可以看作len[W-1]=0，与上一种情况一致，i不变保持W；j=len[W-1]+1。

指针移动图例：

所以无论哪种情况，文本串上的指针i不会回退，而匹配串的指针j则会根据不同情况而回退

4.到这公共前后缀的价值已经很明确了，只要找出每一个[1，W-1]区域匹配串的公共前后缀之长len[W-1]，那么就可以得到如下指针移动公式，使得每次字符不同时，指针的移动模拟了人眼的匹配过程。

5.这里我们应当确立步骤1中的某前缀应当为满足匹配串[1，W-1]区域的公共前后缀最大时的前缀。也就是说要pre满足其为匹配串[1，W-1]区域的最大公共前后缀。理由：见下图两个取不同大小公共前后缀的示例的比较次数，其中橙色区块为公共前后缀，蓝色区块为指针j回退后还需要比较的字符，明显取大的公共前后缀的比较字符更少(因为大的公共前后缀中包括了小的公共前后缀情况下还需要比较的字符)。

以AA为公共前后缀时：还需比较7个字符

以AAXAA为公共前后缀时：还需比较4个字符

归纳：到这里为止，我们所有的问题就转化为了求len[W-1]，即求匹配串[1，W-1]中最大公共前后缀的值。

3. 使用next数组求解最大公共前后缀长度

注意：上文说到，我们只要知道len[W-1]的值，便可以在位置W处字符不等式快速找到指针回退的位置。然而在大多数官方的解释中，这个len数组被命名为next，为了规范化，我们下文中会用next数组来称呼len数组。此外，索引仍从1开始。

我们设字符串F表示匹配串，设next[index]表示匹配串[1，index]区域中最大公共前后缀的长度。并使用使用双指针求解，指针i指向当前字符位置(也可以看作就是后缀终止位置)，用指针j指向[1，i]间最大公共前后缀的前缀终止位置(同时可以发现j就是最大公共前后缀长度)，
求最大公共前后缀的过程如下，当i从1向匹配串末尾遍历时

若F[j+1]=F[i],说明当下前缀之后的第一个位置与后缀终止字符相等，那么最大公共前后缀就可以增加一个字符，前缀终止位置可以指向下一个字符，即next[i]=j+1；j++。
若F[j+1]\(\neq\)F[i]，此时的情况就需要分多步进行理解：

1.可以把当前的状态用下图表示，其中整个矩形为匹配串[1，i]的部分，可见A=F[j+1]，B=F[i]。

2.现在我们先将问题转化为以下这种情况，找到一个如下的橙色部分，判断A是否与C相等，相等则橙色部位加上F[i]即为[1，i]的最大公共前后缀。

所以我们可以确定橙色部分长度为next[j]。
3.将上图简化为下图，我们发现这个状态是似曾相识的

我们不如直接令j回退到next[j]处，然后再判断F[j+1]与F[i]是否相等，这时一切又转化为整个过程的开始。
4.可以发现，当F[j+1]\(\neq\)F[i]时，我们总是周而复始找到j这个最大公共前后缀的最大公共前后缀，然后重新判断，直到无最大公共前后缀或者判断出相等。

归纳：至此我们已经可以对于任意索引index,求出匹配串[1，index]区间的最大公共前后缀长度，结合上部分指针移动公式即可完成KMP算法。

4. 用c++代码实现

#include<bits/stdc++.h>
using namespace std;
//索引仍然从1开始 
void getNext(int* next,string key){
	//输入空next数组与匹配串key，将next数组生成为key的最大公共前后缀数组
      int j=0;next[1]=0;
      for(int i=2;i<key.length();i++){
      	while(j>0 && key[i]!=key[j+1]) j=next[j];//不断寻找最大公共前后缀的最大公共前缀，直到最大公共前后缀或者判断出相等。
		if(key[i]==key[j+1]) j++;//判断出相等，最大公共前后缀增长
		next[i]=j;
	  }
}
int KMP(string text,string key){
	/*输入文本串与匹配串，返回匹配串在文本串中的位置
	找不到则返回-1*/ 
	text=" "+text;key=" "+key;//因为索引从1开始，所以要在0的位置垫上空格 
    if(key.length() == 0)return -1;
    int next[key.length()+1];
    getNext(next, key);//生成匹配串的next数组 
    int j=1,i=1;
    while(j < key.length() && i < text.length()){
    	if(text[i] == key[j])i++,j++;//当字符相等时的公式 
		else j = next[i-1]+1;//当字符不等时的公式 
	}
	if(j == key.length())return i-key.length()+1;
    return -1;
}
int main() {
	string text,key;//文本串与匹配串
	cin>>text>>key;
    int i=KMP(text,key);
    printf("匹配串出现在文本串第%d位",i);
    return 0;
}

输入：AAXAAXAAXAAD AAXAAXAAD
输出：匹配串出现在文本串第4位

写文不易，若对您有帮助请给予鼓励。

一文入木三分大公共 3056047 区块算法与数据结构

有关一文带你入木三分地理解字符串KMP算法(next指针解法)的更多相关文章

ruby - 如何从 ruby 中的字符串运行任意对象方法？ - 2
总的来说，我对ruby还比较陌生，我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础，我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
Ruby 解析字符串 - 2
我有一个字符串input="maybe(thisis|thatwas)some((nice|ugly)(day|night)|(strange(weather|time)))"Ruby中解析该字符串的最佳方法是什么？我的意思是脚本应该能够像这样构建句子:maybethisissomeuglynightmaybethatwassomenicenightmaybethiswassomestrangetime等等，你明白了......我应该一个字符一个字符地读取字符串并构建一个带有堆栈的状态机来存储括号值以供以后计算，还是有更好的方法？也许为此目的准备了一个开箱即用的库？
ruby-on-rails - 在 Rails 中将文件大小字符串转换为等效千字节 - 2
我的目标是转换表单输入，例如“100兆字节”或“1GB”，并将其转换为我可以存储在数据库中的文件大小(以千字节为单位)。目前，我有这个:defquota_convert@regex=/([0-9]+)(.*)s/@sizes=%w{kilobytemegabytegigabyte}m=self.quota.match(@regex)if@sizes.include?m[2]eval("self.quota=#{m[1]}.#{m[2]}")endend这有效，但前提是输入是倍数(“gigabytes”，而不是“gigabyte”)并且由于使用了eval看起来疯狂不安全。所以，功能正常，
ruby-on-rails - unicode 字符串的长度 - 2
在我的Rails(2.3，Ruby1.8.7)应用程序中，我需要将字符串截断到一定长度。该字符串是unicode，在控制台中运行测试时，例如'א'.length，我意识到返回了双倍长度。我想要一个与编码无关的长度，以便对unicode字符串或latin1编码字符串进行相同的截断。我已经了解了Ruby的大部分unicode资料，但仍然有些一头雾水。应该如何解决这个问题？最佳答案 Rails有一个返回多字节字符的mb_chars方法。试试unicode_string.mb_chars.slice(0,50)
ruby - 将差异补丁应用于字符串/文件 - 2
对于具有离线功能的智能手机应用程序，我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl
ruby-on-rails - Rails 常用字符串(用于通知和错误信息等) - 2
大约一年前，我决定确保每个包含非唯一文本的Flash通知都将从模块中的方法中获取文本。我这样做的最初原因是为了避免一遍又一遍地输入相同的字符串。如果我想更改措辞，我可以在一个地方轻松完成，而且一遍又一遍地重复同一件事而出现拼写错误的可能性也会降低。我最终得到的是这样的:moduleMessagesdefformat_error_messages(errors)errors.map{|attribute,message|"Error:#{attribute.to_s.titleize}#{message}."}enddeferror_message_could_not_find(obje
ruby - 如何以所有可能的方式将字符串拆分为长度最多为 3 的连续子字符串？ - 2
我试图获取一个长度在1到10之间的字符串，并输出将字符串分解为大小为1、2或3的连续子字符串的所有可能方式。例如:输入:123456将整数分割成单个字符，然后继续查找组合。该代码将返回以下所有数组。[1,2,3,4,5,6][12,3,4,5,6][1,23,4,5,6][1,2,34,5,6][1,2,3,45,6][1,2,3,4,56][12,34,5,6][12,3,45,6][12,3,4,56][1,23,45,6][1,2,34,56][1,23,4,56][12,34,56][123,4,5,6][1,234,5,6][1,2,345,6][1,2,3,456][123
ruby - 什么是填充的 Base64 编码字符串以及如何在 ruby 中生成它们？ - 2
我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%
ruby - 如何使用文字标量样式在 YAML 中转储字符串？ - 2
我有一大串格式化数据(例如JSON)，我想使用Psychinruby同时保留格式转储到YAML。基本上，我希望JSON使用literalstyle出现在YAML中:---json:|{"page":1,"results":["item","another"],"total_pages":0}但是，当我使用YAML.dump时，它不使用文字样式。我得到这样的东西:---json:!"{\n\"page\":1,\n\"results\":[\n\"item\",\"another\"\n],\n\"total_pages\":0\n}\n"我如何告诉Psych以想要的样式转储标量？解
ruby 正则表达式 - 如何替换字符串中匹配项的第 n 个实例 - 2
在我的应用程序中，我需要能够找到所有数字子字符串，然后扫描每个子字符串，找到第一个匹配范围(例如5到15之间)的子字符串，并将该实例替换为另一个字符串“X”。我的测试字符串s="1foo100bar10gee1"我的初始模式是1个或多个数字的任何字符串，例如，re=Regexp.new(/\d+/)matches=s.scan(re)给出["1","100","10","1"]如果我想用“X”替换第N个匹配项，并且只替换第N个匹配项，我该怎么做？例如，如果我想替换第三个匹配项“10”(匹配项[2])，我不能只说s[matches[2]]="X"因为它做了两次替换“1fooX0barXg