我们需要建立一个系统,让多个进程处理同一个数据集。我们的想法是拥有一组可以被我们的工作进程(异步)拉取的元素(即没有重复的值)。进程可能分布在多个服务器上,因此我们需要一个分布式的解决方案。
目前我们想到的模式是用Redis做一个集合,这个集合保存工作数据。每个进程都应该连接到集合,并从中弹出一个值。 spop 的随机功能实际上对我们来说是一个优势,因为我们需要随机访问集合中的元素。数据必须从我们的主 PostgreSQL 数据库中填充。
就像我说的,我们还有一个可供查询的 PostgreSQL 数据库,进程可以在请求元素时访问该数据库。但是,我们不知道在重负载下是否会成为瓶颈。我们确实希望在此子系统上进行大量到非常大量的并发访问(想想成百上千个进程)。
如果它与此有任何关联,我们将使用 Python 和 rQ 来处理异步任务(作业和工作人员)。
编辑:就大小而言,元素预计不会很大 - 最大大小应该在 500 - 1000 字节左右。它们基本上是 URL,因此除非发生奇怪的事情,否则它们应该远小于该大小。元素的数量将取决于并发进程的数量,因此大约 10 - 50 K 元素可能是一个不错的选择。请记住,这更像是一个暂存区,因此应该更多地关注速度而不是大小。
总的来说,我的问题是:
在使用多个进程时,Redis 集是否是共享访问的好主意?是否有任何数据可以让我们知道该解决方案将如何扩展?如果是这样,您能否提供任何指示或建议?
填充共享数据时,什么是好的更新策略?
非常感谢!
最佳答案
不是一个完整的答案,只是一些想法: 就像有人说的那样,Redis 在内存中维护你的集合,所以为了回答 1 你需要考虑或至少估计最坏的情况:
一旦有了估算,您就可以计算并查看使用 Redis 是否可行:
例如,具有 100 个字节的元素并期望“非常重”的 1.000.000 个元素负载,您将需要至少 100MB 的内存仅用于 Redis,并且使用它是可行的,甚至便宜。但是如果您每个元素需要 500 个字节,而你的重负载意味着 30.000.000 个元素,那么你需要 15GB 的内存,它甚至是可行的,但与使用你的 postgre 数据库相比可能太贵了,导致你需要的第二个估计:
进行一些估算可以帮助您确定最适合您的要求/预算的解决方案。
关于postgresql - 如何在多个进程之间共享一组数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14104572/
出于纯粹的兴趣,我很好奇如何按顺序创建PI,而不是在过程结果之后生成数字,而是让数字在过程本身生成时显示。如果是这种情况,那么数字可以自行产生,我可以对以前看到的数字实现垃圾收集,从而创建一个无限系列。结果只是在Pi系列之后每秒生成一个数字。这是我通过互联网筛选的结果:这是流行的计算机友好算法,类机器算法:defarccot(x,unity)xpow=unity/xn=1sign=1sum=0loopdoterm=xpow/nbreakifterm==0sum+=sign*(xpow/n)xpow/=x*xn+=2sign=-signendsumenddefcalc_pi(digits
Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情? 最佳答案 在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中,使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件,我们在StackOverflow上找到一个类似的问题
我有多个ActiveRecord子类Item的实例数组,我需要根据最早的事件循环打印。在这种情况下,我需要打印付款和维护日期,如下所示:ItemAmaintenancerequiredin5daysItemBpaymentrequiredin6daysItemApaymentrequiredin7daysItemBmaintenancerequiredin8days我目前有两个查询,用于查找maintenance和payment项目(非排他性查询),并输出如下内容:paymentrequiredin...maintenancerequiredin...有什么方法可以改善上述(丑陋的)代
如何在buildr项目中使用Ruby?我在很多不同的项目中使用过Ruby、JRuby、Java和Clojure。我目前正在使用我的标准Ruby开发一个模拟应用程序,我想尝试使用Clojure后端(我确实喜欢功能代码)以及JRubygui和测试套件。我还可以看到在未来的不同项目中使用Scala作为后端。我想我要为我的项目尝试一下buildr(http://buildr.apache.org/),但我注意到buildr似乎没有设置为在项目中使用JRuby代码本身!这看起来有点傻,因为该工具旨在统一通用的JVM语言并且是在ruby中构建的。除了将输出的jar包含在一个独特的、仅限ruby
我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案 他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%
我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
我需要从一个View访问多个模型。以前,我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它,但这似乎不是“ruby方式”,我将需要在不久的将来访问更多模型。这可能会变得很脏,是否有针对这种情况的任何技术?注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展,本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向,这似乎很麻烦。最终从任何
exe应该在我打开页面时运行。异步进程需要运行。有什么方法可以在ruby中使用两个参数异步运行exe吗?我已经尝试过ruby命令-system()、exec()但它正在等待过程完成。我需要用参数启动exe,无需等待进程完成是否有任何rubygems会支持我的问题? 最佳答案 您可以使用Process.spawn和Process.wait2:pid=Process.spawn'your.exe','--option'#Later...pid,status=Process.wait2pid您的程序将作为解释器的子进程执行。除
我构建了两个需要相互通信和发送文件的Rails应用程序。例如,一个Rails应用程序会发送请求以查看其他应用程序数据库中的表。然后另一个应用程序将呈现该表的json并将其发回。我还希望一个应用程序将存储在其公共(public)目录中的文本文件发送到另一个应用程序的公共(public)目录。我从来没有做过这样的事情,所以我什至不知道从哪里开始。任何帮助,将不胜感激。谢谢! 最佳答案 无论Rails是什么,几乎所有Web应用程序都有您的要求,大多数现代Web应用程序都需要相互通信。但是有一个小小的理解需要你坚持下去,网站不应直接访问彼此
在MRIRuby中我可以这样做:deftransferinternal_server=self.init_serverpid=forkdointernal_server.runend#Maketheserverprocessrunindependently.Process.detach(pid)internal_client=self.init_client#Dootherstuffwithconnectingtointernal_server...internal_client.post('somedata')ensure#KillserverProcess.kill('KILL',