我需要为大约 N=1 亿个 key 生成哈希 key 。根据我的研究,murmur3(MurmurHash3_x86_32,参见 murmur3 hash)似乎是最快的哈希函数,具有最佳延迟和足够小的冲突率。我面临的问题是该函数将键返回为 void *。更具体地说,模板是:
void MurmurHash3_x86_32 (const void *key, int len, uint32_t seed, void *out);
由于我的哈希表大小将小于它可以生成的最大哈希值,因此我需要将它放入表范围 [0, N-1] 中。最简单的解决方案似乎是使用 % 运算符。但众所周知,它是一个缓慢的运算符(operator),我想知道是否有更快的方法来解决这个问题。
我发现了一个有趣的建议 Is there an alternative to using % (modulus) in C/C++?在 StackOverflow 本身。它建议“二的幂,以下作品(假设二进制补码表示)”:
返回 i & (n-1);
我的问题是,在较新的 CPU 上,有时(或者是大多数时候?),由于多路缓存行,性能会在大小为 2^n 左右时下降,IIRC。 (此链接提供了有关插入的说明 Big Memory, Part 3.5: Google sparsehash!)。
目前,murmur3 的优势似乎被硬件相关问题和已知的 % 运算符效率低下所抵消。由于性能是一个限制因素,我要求低延迟和更快的解决方案来满足我的要求,即使它不是 MurmurHash3_x86_32。
最佳答案
The problem I am facing is that the function returns key as
void *.
事实并非如此。它不返回任何内容 (void)。哈希结果记录在您通过最后一个参数指定的缓冲区(指向)中。对于 MurmurHash3_x86_32(),将其作为指向 uint32_t 的指针最有意义。
As my hash table size would be smaller than the largest hash it can generate, I need to get it into the table range [0, N-1]. The easiest solution seems to be to use % operator. But as it is known to be a slow operator, I wonder if there is a quicker way to solve the problem.
% 不仅是最简单的解决方案,而且是最常用的解决方案。 “慢”是相对的——% 比 + 慢,但比调用 MurmurHash3_x86_32()<>多/.
One interesting suggestion I found [...] suggests [using a power-of-two table size, and computing the modulus via the
&operator]
请注意,与 SO 答案中的断言相反,实际上这完全不依赖于二进制补码表示。
My issue with this is that on newer CPUs, it is sometimes (or is it most of the times?), the performance degrades at around sizes 2^n, IIRC, due to multiway cache lines. (This link provides an illustration regarding insertions Big Memory, Part 3.5: Google sparsehash!).
您链接的报告中描述的性能下降归因于重新散列,这似乎很合理。这与您询问的操作无关。可以想象,高速缓存(缺乏)关联性可能会影响大型哈希表的性能,但可能不会比大型哈希表通常产生的影响更大。使用哈希表所固有的内存访问模式自然会产生较差的缓存局部性。这实际上是点。
At the moment, the advantages of murmur3 seems to be nullified by hard-ware related issues and known inefficiency of % operator. As performance is a constraint, I request for low latency and faster solutions to my requirement even if it is not MurmurHash3_x86_32.
你想多了。无法有效使用 CPU 缓存只是您为使用大型哈希表付出的代价。它与散列函数无关(只要散列函数能正常工作)。单个算术运算的成本,无论是 % 还是 &,与计算散列以对其进行运算的成本相比都不会引人注意。,所以你选择哪个并不重要。如果您希望该操作获得微小优势,请使用大小为 2 的幂的表和 & 运算符。另一方面,这会丢弃一些您费了很大力气才能计算出的散列位。考虑改为选择 prime 哈希表大小和 % 运算符 - 然后所有哈希位都将有助于桶选择,这可能会改善您的传播。
关于C++:获取范围内整数的最快方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30924502/
我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
总的来说,我对ruby还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
我正在尝试设置一个puppet节点,但rubygems似乎不正常。如果我通过它自己的二进制文件(/usr/lib/ruby/gems/1.8/gems/facter-1.5.8/bin/facter)在cli上运行facter,它工作正常,但如果我通过由rubygems(/usr/bin/facter)安装的二进制文件,它抛出:/usr/lib/ruby/1.8/facter/uptime.rb:11:undefinedmethod`get_uptime'forFacter::Util::Uptime:Module(NoMethodError)from/usr/lib/ruby
我想了解Ruby方法methods()是如何工作的。我尝试使用“ruby方法”在Google上搜索,但这不是我需要的。我也看过ruby-doc.org,但我没有找到这种方法。你能详细解释一下它是如何工作的或者给我一个链接吗?更新我用methods()方法做了实验,得到了这样的结果:'labrat'代码classFirstdeffirst_instance_mymethodenddefself.first_class_mymethodendendclassSecond使用类#returnsavailablemethodslistforclassandancestorsputsSeco
我在我的项目中添加了一个系统来重置用户密码并通过电子邮件将密码发送给他,以防他忘记密码。昨天它运行良好(当我实现它时)。当我今天尝试启动服务器时,出现以下错误。=>BootingWEBrick=>Rails3.2.1applicationstartingindevelopmentonhttp://0.0.0.0:3000=>Callwith-dtodetach=>Ctrl-CtoshutdownserverExiting/Users/vinayshenoy/.rvm/gems/ruby-1.9.3-p0/gems/actionmailer-3.2.1/lib/action_mailer
设置:狂欢ruby1.9.2高线(1.6.13)描述:我已经相当习惯在其他一些项目中使用highline,但已经有几个月没有使用它了。现在,在Ruby1.9.2上全新安装时,它似乎不允许在同一行回答提示。所以以前我会看到类似的东西:require"highline/import"ask"Whatisyourfavoritecolor?"并得到:Whatisyourfavoritecolor?|现在我看到类似的东西:Whatisyourfavoritecolor?|竖线(|)符号是我的终端光标。知道为什么会发生这种变化吗? 最佳答案
我的瘦服务器配置了nginx,我的ROR应用程序正在它们上运行。在我发布代码更新时运行thinrestart会给我的应用程序带来一些停机时间。我试图弄清楚如何优雅地重启正在运行的Thin实例,但找不到好的解决方案。有没有人能做到这一点? 最佳答案 #Restartjustthethinserverdescribedbythatconfigsudothin-C/etc/thin/mysite.ymlrestartNginx将继续运行并代理请求。如果您将Nginx设置为使用多个上游服务器,例如server{listen80;server
我已经从我的命令行中获得了一切,所以我可以运行rubymyfile并且它可以正常工作。但是当我尝试从sublime中运行它时,我得到了undefinedmethod`require_relative'formain:Object有人知道我的sublime设置中缺少什么吗?我正在使用OSX并安装了rvm。 最佳答案 或者,您可以只使用“require”,它应该可以正常工作。我认为“require_relative”仅适用于ruby1.9+ 关于ruby-主要:Objectwhenrun
我有一个具有一些属性的模型:attr1、attr2和attr3。我需要在不执行回调和验证的情况下更新此属性。我找到了update_column方法,但我想同时更新三个属性。我需要这样的东西:update_columns({attr1:val1,attr2:val2,attr3:val3})代替update_column(attr1,val1)update_column(attr2,val2)update_column(attr3,val3) 最佳答案 您可以使用update_columns(attr1:val1,attr2:val2