这里写自定义目录标题
解决问题:
- 前缀表和next数组的关系
- 为什么有些next数组是0,1开头,而有些next数组是-1,0开头
- 如何计算KMP算法中的next数组
注:本文不讲解KMP算法的实现,只涉及next数组的计算
模式匹配: 从某个字符串中找出与一个给定子串相同的子串的位置。简单说就是从一个字符串中找出是否含有另一个字符串,若存在则返回位置。常用的模式匹配算法有:BF(朴素模式匹配算法或暴力匹配算法)、BM算法、RK算法、KMP算法。
主串: 待查找的字符串。
模式串(子串): 模式匹配就是要从主串中找到子串。
KMP算法: 是一种改进BF算法的模式匹配算法。KMP算法的核心是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。
前缀: 字符串的开头,例如字符串abcd的前缀为a, ab, abc, abcd。在KMP算法中使用的前缀为真前缀,既不包括原字符串abcd的前缀。(真前缀:a, ab, abc)
后缀: 字符串的结尾,在KMP算法中同样使用的是真后缀。
最长公共前后缀: 最长的相等的前缀与后缀,例如字符串ABCxyzABC的最长公共前后缀为ABC
前缀表: 存储每一个前缀的最长公共前后缀的长度。


BF算法就是暴力匹配算法,是最好理解的算法。就是对主串一位一位的做判断,匹配失败则将模式串向后移动一位,如下图所示。


由图可见染色的部分有22块,也就是匹配了22次才找到。在极端条件下BF算法要匹配(N-M+1)*M次(其中N为主串长度,M为模式串长度),所以BF算法的时间复杂度为O(M*N)。
KMP算法优化了BM算法,通过一次尽可能多的向右移动来减少匹配次数。KMP算法的时间复杂度只有O(M+N)。
KMP算法利用了最长公共前后缀的值来进行移动,如下图所示:

可以看到,已经匹配过的aba就不用再次进行匹配,而是从index=3的b继续匹配,相较于BF算法节省了大量匹配操作。在KMP算法中,每次移动的位置都由在此处匹配的字符其前缀的最长公共前后缀决定。
前缀表存储每一个前缀的最长公共前后缀的长度,next数组存储的是模式串向右移动到next值的位置,这个值与前缀的最长公共前后缀的长度有关,所以next数组是可以由前缀表生成的。
用前缀表生成一个next数组很容易,将前缀表每一位都向后移动1位(最后一位舍去)并在第一位补一个-1就得到了next数组。

-1,0开头与0, 1开头的next数组本质是一样的。实际上,以0, 1开头的next数组就是以-1,0开头的next数组每一项加1得到的。出现这种情况的原因在于模式串起始的索引值:在程序中,一个数组的索引的起始值为0;然而在考试和书中给的模式串起始值是多从1开始。所以在考试中遇到的next数组通常是以0, 1开头;而一些程序或教程中的next数组是以-1, 0开头。
注:在考试中通常会给模式串的索引,或者会给next值的前两项,在答题时要按照题目中的要求写next数组。
这种方法计算的是0, 1开头的next数组,如果需要-1, 0开头的next数组,将最后一行对数组每一项都加1的代码删除即可。
具体流程见上前缀表和next数组的关系的第二段
prefix = [0]*kmp_len
# 从最长的前后缀开始找,依次找到只有一个字符。
for i in range(1, kmp_len): # i = 1 to n-1
# 若模式串为:kkskyyds,i为3(前缀表第4位的值)
# 则找kksk的最长公共前后缀(通过下面的循环)
for j in range(i, 0, -1): # j = i to 1
# j = 3 --- kks不等于ksk
# j = 2 --- kk不等于sk
# j = 1 --- k等于k,最长公共前后缀长度为1,所以prefix[i] = j
# 假若在j = 1时还找不到最长公共前后缀,则next值不变为0
str1 = kmp_str[0:j]
str2 = kmp_str[i-j+1:i+1]
if str1 == str2:
prefix[i] = j
break
prefix.insert(0,-1) # 第一项添加-1
prefix.pop(-1) # 删除最后一项
kmp_next1 = [i+1 for i in prefix]
# 或者:kmp_next1 = list(map(lambda x:x+1, prefix))
全部代码:
def calc_next(kmp_str, kmp_len):
prefix = [0]*kmp_len
for i in range(1, kmp_len):
for j in range(i, 0, -1):
str1 = kmp_str[0:j]
str2 = kmp_str[i-j+1:i+1]
if str1 == str2:
prefix[i] = j
break
prefix.insert(0,-1)
prefix.pop(-1)
kmp_next = [i+1 for i in prefix]
# kmp_next = prefix
return kmp_next
这种方法直接计算next数组(以0, 1开头)。既然方法一中要移位还要添加-1并删除最后一位,可以提前添加好一位,并且不计算最后一位。
# 前两位为[0, 1],其余位全是1
kmp_next2 = [1]*kmp_len
kmp_next2[0] = 0
for i in range(2, kmp_len): # i = 2 to n-1
for j in range(i-1, 0, -1): # j = i-1 to 0
# 实际上就是找前一位的最长公共前后缀
if kmp_str[0:j] == kmp_str[i-j:i]:
# 这里就是在next的基础上每一项都加1
kmp_next2[i] = j + kmp_next2[i]
break
全部代码:
def calc_next(kmp_str, kmp_len):
kmp_next = [1]*kmp_len
kmp_next[0] = 0
for i in range(2, kmp_len):
for j in range(i-1, 0, -1):
if kmp_str[0:j] == kmp_str[i-j:i]:
kmp_next[i] = j + kmp_next[i]
break
return kmp_next
借助动态规划的思想,当计算一个字符串的最长公共前后缀时,通过使用已经找好的next表快速计算。
具体流程如下(开头为0, 1的next数组):
例如:设模式串为abaabacd,计算index等于5时的next值
| index | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
|---|---|---|---|---|---|---|---|---|
| 主串 | a | b | a | a | b | a | c | d |
| next数组 | 0 | 1 | 1 | 2 | ? |
① 找到index = 5 前一个字符,index = 4的字符为a,其next值为2,index = 2对应的字符为b
② 对比 b 和 a 不相等,b的next值为1,,index = 1对应的字符为a
③ 对比 a 和 a 相等,index = 5的next值为b对应的字符a的index值加1,既为1+1=2
总的来说:如果到第一个字符都没有找到相等的字符,则next值设置为1。对比到一个相等的字符,则next值等于此字符的index值+1。
下图是所有next值的对比流程(连线代表两个字符进行对比,字符相等输出右边的next值+1,不相等继续对比,直到找到最左边的字符还不相等next值为1):

全部代码:
def calc_next(kmp_str, kmp_len):
kmp_next = [1]*kmp_len
kmp_next[0] = 0 # next的前两项为0,1
for i in range(2, kmp_len):
strCompare0 = kmp_str[i-1] # 前一个字符
n = kmp_next[i-1] # 前一个字符对应的next值
strCompare1 = kmp_str[n-1] # 对应字符
while True:
if strCompare0 == strCompare1:
kmp_next[i] = n+1
break
elif n == 1:
break
else:
n = kmp_next[n-1]
strCompare1 = kmp_str[n-1]
return kmp_next
我有多个ActiveRecord子类Item的实例数组,我需要根据最早的事件循环打印。在这种情况下,我需要打印付款和维护日期,如下所示:ItemAmaintenancerequiredin5daysItemBpaymentrequiredin6daysItemApaymentrequiredin7daysItemBmaintenancerequiredin8days我目前有两个查询,用于查找maintenance和payment项目(非排他性查询),并输出如下内容:paymentrequiredin...maintenancerequiredin...有什么方法可以改善上述(丑陋的)代
我的代码目前看起来像这样numbers=[1,2,3,4,5]defpop_threepop=[]3.times{pop有没有办法在一行中完成pop_three方法中的内容?我基本上想做类似numbers.slice(0,3)的事情,但要删除切片中的数组项。嗯...嗯,我想我刚刚意识到我可以试试slice! 最佳答案 是numbers.pop(3)或者numbers.shift(3)如果你想要另一边。 关于ruby-多次弹出/移动ruby数组,我们在StackOverflow上找到一
我需要读入一个包含数字列表的文件。此代码读取文件并将其放入二维数组中。现在我需要获取数组中所有数字的平均值,但我需要将数组的内容更改为int。有什么想法可以将to_i方法放在哪里吗?ClassTerraindefinitializefile_name@input=IO.readlines(file_name)#readinfile@size=@input[0].to_i@land=[@size]x=1whilex 最佳答案 只需将数组映射为整数:@land边注如果你想得到一条线的平均值,你可以这样做:values=@input[x]
我正在使用puppet为ruby程序提供一组常量。我需要提供一组主机名,我的程序将对其进行迭代。在我之前使用的bash脚本中,我只是将它作为一个puppet变量hosts=>"host1,host2"我将其提供给bash脚本作为HOSTS=显然这对ruby不太适用——我需要它的格式hosts=["host1","host2"]自从phosts和putsmy_array.inspect提供输出["host1","host2"]我希望使用其中之一。不幸的是,我终其一生都无法弄清楚如何让它发挥作用。我尝试了以下各项:我发现某处他们指出我需要在函数调用前放置“function_”……这
这个问题在这里已经有了答案:Checktoseeifanarrayisalreadysorted?(8个答案)关闭9年前。我只是想知道是否有办法检查数组是否在增加?这是我的解决方案,但我正在寻找更漂亮的方法:n=-1@arr.flatten.each{|e|returnfalseife
这里是Ruby新手。完成一些练习后碰壁了。练习:计算一系列成绩的字母等级创建一个方法get_grade来接受测试分数数组。数组中的每个分数应介于0和100之间,其中100是最大分数。计算平均分并将字母等级作为字符串返回,即“A”、“B”、“C”、“D”、“E”或“F”。我一直返回错误:avg.rb:1:syntaxerror,unexpectedtLBRACK,expecting')'defget_grade([100,90,80])^avg.rb:1:syntaxerror,unexpected')',expecting$end这是我目前所拥有的。我想坚持使用下面的方法或.join,
我有一个这样的哈希数组:[{:foo=>2,:date=>Sat,01Sep2014},{:foo2=>2,:date=>Sat,02Sep2014},{:foo3=>3,:date=>Sat,01Sep2014},{:foo4=>4,:date=>Sat,03Sep2014},{:foo5=>5,:date=>Sat,02Sep2014}]如果:date相同,我想合并哈希值。我对上面数组的期望是:[{:foo=>2,:foo3=>3,:date=>Sat,01Sep2014},{:foo2=>2,:foo5=>5:date=>Sat,02Sep2014},{:foo4=>4,:dat
我正在尝试在Ruby中制作一个cli应用程序,它接受一个给定的数组,然后将其显示为一个列表,我可以使用箭头键浏览它。我觉得我已经在Ruby中看到一个库已经这样做了,但我记不起它的名字了。我正在尝试对soundcloud2000中的代码进行逆向工程做类似的事情,但他的代码与SoundcloudAPI的使用紧密耦合。我知道cursesgem,我正在考虑更抽象的东西。广告有没有人见过可以做到这一点的库或一些概念证明的Ruby代码可以做到这一点? 最佳答案 我不知道这是否是您正在寻找的,但也许您可以使用我的想法。由于我没有关于您要完成的工作
我使用Ember作为我的前端和GrapeAPI来为我的API提供服务。前端发送类似:{"service"=>{"name"=>"Name","duration"=>"30","user"=>nil,"organization"=>"org","category"=>nil,"description"=>"description","disabled"=>true,"color"=>nil,"availabilities"=>[{"day"=>"Saturday","enabled"=>false,"timeSlots"=>[{"startAt"=>"09:00AM","endAt"=>
我正在尝试按0-9和a-z的顺序创建数字和字母列表。我有一组值value_array=['0','1','2','3','4','5','6','7','8','9','a','b','光盘','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','','u','v','w','x','y','z']和一个组合列表的数组,按顺序,这些数字可以产生x个字符,比方说三个list_array=[]和一个当前字母和数字组合的数组(在将它插入列表数组之前我会把它变成一个字符串,]current_combo['0','0','0']