postgresql - 如何在多个进程之间共享一组数据？

coder 2023-07-17 原文

我们需要建立一个系统，让多个进程处理同一个数据集。我们的想法是拥有一组可以被我们的工作进程(异步)拉取的元素(即没有重复的值)。进程可能分布在多个服务器上，因此我们需要一个分布式的解决方案。

目前我们想到的模式是用Redis做一个集合，这个集合保存工作数据。每个进程都应该连接到集合，并从中弹出一个值。 spop 的随机功能实际上对我们来说是一个优势，因为我们需要随机访问集合中的元素。数据必须从我们的主 PostgreSQL 数据库中填充。

就像我说的，我们还有一个可供查询的 PostgreSQL 数据库，进程可以在请求元素时访问该数据库。但是，我们不知道在重负载下是否会成为瓶颈。我们确实希望在此子系统上进行大量到非常大量的并发访问(想想成百上千个进程)。

如果它与此有任何关联，我们将使用 Python 和 rQ 来处理异步任务(作业和工作人员)。

编辑:就大小而言，元素预计不会很大 - 最大大小应该在 500 - 1000 字节左右。它们基本上是 URL，因此除非发生奇怪的事情，否则它们应该远小于该大小。元素的数量将取决于并发进程的数量，因此大约 10 - 50 K 元素可能是一个不错的选择。请记住，这更像是一个暂存区，因此应该更多地关注速度而不是大小。

总的来说，我的问题是:

在使用多个进程时，Redis 集是否是共享访问的好主意？是否有任何数据可以让我们知道该解决方案将如何扩展？如果是这样，您能否提供任何指示或建议？
填充共享数据时，什么是好的更新策略？

非常感谢!

最佳答案

不是一个完整的答案，只是一些想法: 就像有人说的那样，Redis 在内存中维护你的集合，所以为了回答 1 你需要考虑或至少估计最坏的情况:

集合中的每个元素需要多少内存空间
有多少(数量)元素是一个很重的负载

一旦有了估算，您就可以计算并查看使用 Redis 是否可行:

例如，具有 100 个字节的元素并期望“非常重”的 1.000.000 个元素负载，您将需要至少 100MB 的内存仅用于 Redis，并且使用它是可行的，甚至便宜。但是如果您每个元素需要 500 个字节，而你的重负载意味着 30.000.000 个元素，那么你需要 15GB 的内存，它甚至是可行的，但与使用你的 postgre 数据库相比可能太贵了，导致你需要的第二个估计:

您将有多少请求/秒(总共)针对您的 Redis/Postgre 服务器，或者您希望有多少进程发出请求以及每个进程每秒将发出多少请求。

进行一些估算可以帮助您确定最适合您的要求/预算的解决方案。

关于postgresql - 如何在多个进程之间共享一组数据？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14104572/

何在 postgresql section 的 Redis asynchronous queue distributed-computing

有关postgresql - 如何在多个进程之间共享一组数据？的更多相关文章

ruby - 如何在 Ruby 中顺序创建 PI - 2
出于纯粹的兴趣，我很好奇如何按顺序创建PI，而不是在过程结果之后生成数字，而是让数字在过程本身生成时显示。如果是这种情况，那么数字可以自行产生，我可以对以前看到的数字实现垃圾收集，从而创建一个无限系列。结果只是在Pi系列之后每秒生成一个数字。这是我通过互联网筛选的结果:这是流行的计算机友好算法，类机器算法:defarccot(x,unity)xpow=unity/xn=1sign=1sum=0loopdoterm=xpow/nbreakifterm==0sum+=sign*(xpow/n)xpow/=x*xn+=2sign=-signendsumenddefcalc_pi(digits
ruby-on-rails - Rails 3 中的多个路由文件 - 2
Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情？最佳答案在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中，使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件，我们在StackOverflow上找到一个类似的问题
ruby-on-rails - 在 Ruby 中循环遍历多个数组 - 2
我有多个ActiveRecord子类Item的实例数组，我需要根据最早的事件循环打印。在这种情况下，我需要打印付款和维护日期，如下所示:ItemAmaintenancerequiredin5daysItemBpaymentrequiredin6daysItemApaymentrequiredin7daysItemBmaintenancerequiredin8days我目前有两个查询，用于查找maintenance和payment项目(非排他性查询)，并输出如下内容:paymentrequiredin...maintenancerequiredin...有什么方法可以改善上述(丑陋的)代
ruby - 如何在 buildr 项目中使用 Ruby 代码？ - 2
如何在buildr项目中使用Ruby？我在很多不同的项目中使用过Ruby、JRuby、Java和Clojure。我目前正在使用我的标准Ruby开发一个模拟应用程序，我想尝试使用Clojure后端(我确实喜欢功能代码)以及JRubygui和测试套件。我还可以看到在未来的不同项目中使用Scala作为后端。我想我要为我的项目尝试一下buildr(http://buildr.apache.org/)，但我注意到buildr似乎没有设置为在项目中使用JRuby代码本身!这看起来有点傻，因为该工具旨在统一通用的JVM语言并且是在ruby中构建的。除了将输出的jar包含在一个独特的、仅限ruby
ruby - 什么是填充的 Base64 编码字符串以及如何在 ruby 中生成它们？ - 2
我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%
ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby-on-rails - Rails - 一个 View 中的多个模型 - 2
我需要从一个View访问多个模型。以前，我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它，但这似乎不是“ruby方式”，我将需要在不久的将来访问更多模型。这可能会变得很脏，是否有针对这种情况的任何技术？注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展，本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向，这似乎很麻烦。最终从任何
ruby-on-rails - 如何在 ruby 中使用两个参数异步运行 exe？ - 2
exe应该在我打开页面时运行。异步进程需要运行。有什么方法可以在ruby中使用两个参数异步运行exe吗？我已经尝试过ruby命令-system()、exec()但它正在等待过程完成。我需要用参数启动exe，无需等待进程完成是否有任何rubygems会支持我的问题？最佳答案您可以使用Process.spawn和Process.wait2:pid=Process.spawn'your.exe','--option'#Later...pid,status=Process.wait2pid您的程序将作为解释器的子进程执行。除
ruby-on-rails - Rails 应用程序之间的通信 - 2
我构建了两个需要相互通信和发送文件的Rails应用程序。例如，一个Rails应用程序会发送请求以查看其他应用程序数据库中的表。然后另一个应用程序将呈现该表的json并将其发回。我还希望一个应用程序将存储在其公共(public)目录中的文本文件发送到另一个应用程序的公共(public)目录。我从来没有做过这样的事情，所以我什至不知道从哪里开始。任何帮助，将不胜感激。谢谢! 最佳答案无论Rails是什么，几乎所有Web应用程序都有您的要求，大多数现代Web应用程序都需要相互通信。但是有一个小小的理解需要你坚持下去，网站不应直接访问彼此
ruby - 在 jRuby 中使用 'fork' 生成进程的替代方案？ - 2
在MRIRuby中我可以这样做:deftransferinternal_server=self.init_serverpid=forkdointernal_server.runend#Maketheserverprocessrunindependently.Process.detach(pid)internal_client=self.init_client#Dootherstuffwithconnectingtointernal_server...internal_client.post('somedata')ensure#KillserverProcess.kill('KILL',

postgresql - 如何在多个进程之间共享一组数据？

有关postgresql - 如何在多个进程之间共享一组数据？的更多相关文章

随机推荐