我试图从字符串 text 中找到一个子字符串,它是字符串 pattern 的变位词。
我的问题: 可以Rabin-Karp algorithm为此目的进行调整?还是有更好的算法?
我尝试了一种蛮力算法,但在我的案例中不起作用,因为文本和模式每个都可以达到一百万个字符。
更新:我听说有一个使用 O(1) 空间的最坏情况 O(n2) 算法。有谁知道这个算法是什么?
更新 2:作为引用,这里是 Rabin-Karp 算法的伪代码:
function RabinKarp(string s[1..n], string sub[1..m])
hsub := hash(sub[1..m]); hs := hash(s[1..m])
for i from 1 to n-m+1
if hs = hsub
if s[i..i+m-1] = sub
return i
hs := hash(s[i+1..i+m])
return not found
这使用滚动哈希函数允许在 O(1) 中计算新哈希,
所以整体搜索在最坏的情况下是 O(nm),但在最好的情况下具有良好的散列函数是 O(m + n)。在搜索字符串的字谜时,是否有滚动哈希函数会产生很少的冲突?
最佳答案
计算不依赖于模式中字母顺序的模式散列(例如,使用每个字母的字符代码之和)。然后以“滚动”方式对文本应用相同的散列函数,就像在 Rabin-Karp 中一样。如果哈希值匹配,您需要针对文本中的当前窗口执行完整的模式测试,因为哈希值也可能与其他值发生冲突。
通过将字母表中的每个符号与素数相关联,然后计算这些素数的乘积作为哈希码,您将减少冲突。
但是,如果您想像这样计算一个正在运行的产品,有一些数学技巧可以帮助您:每次您进入窗口时,将正在运行的哈希码乘以multiplicative inverse离开窗口的交易品种的代码,然后乘以进入窗口的交易品种的代码。
例如,假设您正在计算字母“a”-“z”的哈希值作为一个无符号的 64 位值。使用这样的表格:
symbol | code | code-1 -------+------+--------------------- a | 3 | 12297829382473034411 b | 5 | 14757395258967641293 c | 7 | 7905747460161236407 d | 11 | 3353953467947191203 e | 13 | 5675921253449092805 ... z | 103 | 15760325033848937303
n 的乘法逆数是乘以 n 对某个数取模时得到 1 的数。这里的模数是 264,因为您使用的是 64 位数字。因此,例如,5 * 14757395258967641293 应该是 1。这行得通,因为你只是 multiplying in GF(264).
计算第一个素数的列表很容易,您的平台应该有一个库 efficiently计算这些数字的乘法逆元。
从数字 3 开始编码,因为 2 与整数的大小互质(在您使用的任何处理器上都是 2 的幂),并且不能倒数。
关于c++ - 在一个字符串中搜索另一个字符串的变位词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14667925/
总的来说,我对ruby还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
我有一个字符串input="maybe(thisis|thatwas)some((nice|ugly)(day|night)|(strange(weather|time)))"Ruby中解析该字符串的最佳方法是什么?我的意思是脚本应该能够像这样构建句子:maybethisissomeuglynightmaybethatwassomenicenightmaybethiswassomestrangetime等等,你明白了......我应该一个字符一个字符地读取字符串并构建一个带有堆栈的状态机来存储括号值以供以后计算,还是有更好的方法?也许为此目的准备了一个开箱即用的库?
我的目标是转换表单输入,例如“100兆字节”或“1GB”,并将其转换为我可以存储在数据库中的文件大小(以千字节为单位)。目前,我有这个:defquota_convert@regex=/([0-9]+)(.*)s/@sizes=%w{kilobytemegabytegigabyte}m=self.quota.match(@regex)if@sizes.include?m[2]eval("self.quota=#{m[1]}.#{m[2]}")endend这有效,但前提是输入是倍数(“gigabytes”,而不是“gigabyte”)并且由于使用了eval看起来疯狂不安全。所以,功能正常,
在我的Rails(2.3,Ruby1.8.7)应用程序中,我需要将字符串截断到一定长度。该字符串是unicode,在控制台中运行测试时,例如'א'.length,我意识到返回了双倍长度。我想要一个与编码无关的长度,以便对unicode字符串或latin1编码字符串进行相同的截断。我已经了解了Ruby的大部分unicode资料,但仍然有些一头雾水。应该如何解决这个问题? 最佳答案 Rails有一个返回多字节字符的mb_chars方法。试试unicode_string.mb_chars.slice(0,50)
对于具有离线功能的智能手机应用程序,我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl
大约一年前,我决定确保每个包含非唯一文本的Flash通知都将从模块中的方法中获取文本。我这样做的最初原因是为了避免一遍又一遍地输入相同的字符串。如果我想更改措辞,我可以在一个地方轻松完成,而且一遍又一遍地重复同一件事而出现拼写错误的可能性也会降低。我最终得到的是这样的:moduleMessagesdefformat_error_messages(errors)errors.map{|attribute,message|"Error:#{attribute.to_s.titleize}#{message}."}enddeferror_message_could_not_find(obje
我试图获取一个长度在1到10之间的字符串,并输出将字符串分解为大小为1、2或3的连续子字符串的所有可能方式。例如:输入:123456将整数分割成单个字符,然后继续查找组合。该代码将返回以下所有数组。[1,2,3,4,5,6][12,3,4,5,6][1,23,4,5,6][1,2,34,5,6][1,2,3,45,6][1,2,3,4,56][12,34,5,6][12,3,45,6][12,3,4,56][1,23,45,6][1,2,34,56][1,23,4,56][12,34,56][123,4,5,6][1,234,5,6][1,2,345,6][1,2,3,456][123
我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案 他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%
使用带有Rails插件的vim,您可以创建一个迁移文件,然后一次性打开该文件吗?textmate也可以这样吗? 最佳答案 你可以使用rails.vim然后做类似的事情::Rgeneratemigratonadd_foo_to_bar插件将打开迁移生成的文件,这正是您想要的。我不能代表textmate。 关于ruby-使用VimRails,您可以创建一个新的迁移文件并一次性打开它吗?,我们在StackOverflow上找到一个类似的问题: https://sta
我需要从一个View访问多个模型。以前,我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它,但这似乎不是“ruby方式”,我将需要在不久的将来访问更多模型。这可能会变得很脏,是否有针对这种情况的任何技术?注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展,本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向,这似乎很麻烦。最终从任何