php - 哪个数据库用于处理非常大的结果集？

coder 2023-10-12 原文

我目前正在开发一个 PHP 应用程序(预发布)。

背景

我们的 MySQL 数据库中有一个表，预计会变得非常大 - 单个用户在该表中拥有 250,000 行并不罕见。表格中的每一行都给出了金额和日期等信息。

此外，这个特定的表格在大多数页面上被非常频繁地读取(和写入)。鉴于每一行都有一个日期，我使用 GROUP BY date 来最小化 MySQL 给出的结果集的大小 - 包含在同一年的行现在可以看作只是一个总数。

但是，一个典型的页面仍然会有 1000-3000 个结果之间的结果集。还有一些地方执行了很多 SUM()，总共有数十 - 如果不是数百 - 数千行。

尝试 MySQL

在通常的页面上，MySQL 通常需要大约 600-900 毫秒。使用 LIMIT 和偏移量无助于提高性能，并且数据已高度规范化，因此进一步规范化似乎没有帮助。

更糟糕的是，应用程序的某些部分需要从数据库中检索 10,000-15,000 行。然后将结果用于 PHP 的计算并相应地格式化。鉴于此，MySQL 的性能是 Not Acceptable 。

试用 MongoDB

我已将表转换为 MongoDB，速度更快 - 通常检索 2,000 个文档需要 250 毫秒左右。但是，聚合管道中的 $group 命令 - 需要根据字段所在的年份来聚合字段 - 会减慢速度。不幸的是，无论何时删除/更新/插入文档时都保留总数并更新也是不可能的，因为尽管我们可以对应用程序的某些部分使用年度总数，但在其他部分，计算要求每个金额都落在一个特定的日期。

我也考虑过 Redis，尽管我认为数据的复杂性超出了 Redis 的设计范围。

最后一根稻草

最重要的是，速度很重要。因此，性能是最重要的。

问题:

在知道大多数查询会检索到非常大的结果集的情况下，存储频繁读取/写入和快速增长的数据的最佳方法是什么？
是否有其他解决方案？我完全乐于接受建议。

我现在有点卡住了，我没能在可接受的时间内检索到这么大的结果集。似乎大多数数据存储都非常适合小规模的检索——即使是大量数据——但我还没有找到任何关于从更大的表/集合中检索大量数据的信息。

最佳答案

我只读了前两行，但您正在使用聚合(GROUP BY)然后期望它只是实时进行？

我会说您是数据库内部的新手，不是要贬低您，而是要尝试帮助您。

MySQL 和 MongoDB 中的组运算符都在内存中。换句话说，它采用您提供的任何数据结构，无论是索引还是文档(行)，它都会遍历每一行/文档，获取字段并将其分组。

这意味着您可以通过确保为分组使用索引来在 MySQL 和 MongoDB 中加速它，但这仍然只是到目前为止，即使在 MongoDB 中的直接工作集中放置索引(内存).

事实上，将 LIMIT 与 OFFSET 一起使用可能只会进一步降低速度。因为在写出设置后MySQL需要再次查询才能得到你的答案。

完成后它会写出结果，MySQL 会把它写出到一个结果集(这里使用内存和 IO)，如果你没有设置 $out，MongoDB 会直接回复，内联输出的最大大小为 16MB(文档的最大大小)。

这里要指出的最后一点是:聚合很糟糕

这里没有 Elixir 可以拯救你，一些数据库会试图吹嘘它们的速度等等，但事实上大多数大型聚合器都使用一种叫做“预聚合报告”的东西。您可以在 MongoDB 文档中找到快速介绍:http://docs.mongodb.org/ecosystem/use-cases/pre-aggregated-reports/

这意味着您将聚合和分组的工作放在其他一些进程上，这些进程可以很容易地完成它，从而允许您的阅读线程，需要实时进行的线程是实时的。

关于php - 哪个数据库用于处理非常大的结果集？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29936515/

php 哪个 strong code 的 mysql performance mongodb scalability

有关php - 哪个数据库用于处理非常大的结果集？的更多相关文章

ruby-on-rails - Rails 常用字符串(用于通知和错误信息等) - 2
大约一年前，我决定确保每个包含非唯一文本的Flash通知都将从模块中的方法中获取文本。我这样做的最初原因是为了避免一遍又一遍地输入相同的字符串。如果我想更改措辞，我可以在一个地方轻松完成，而且一遍又一遍地重复同一件事而出现拼写错误的可能性也会降低。我最终得到的是这样的:moduleMessagesdefformat_error_messages(errors)errors.map{|attribute,message|"Error:#{attribute.to_s.titleize}#{message}."}enddeferror_message_could_not_find(obje
ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - 如何指定 Rack 处理程序 - 2
Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时，rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack
Ruby Sinatra 配置用于生产和开发 - 2
我已经在Sinatra上创建了应用程序，它代表了一个简单的API。我想在生产和开发上进行部署。我想在部署时选择，是开发还是生产，一些方法的逻辑应该改变，这取决于部署类型。是否有任何想法，如何完成以及解决此问题的一些示例。例子:我有代码get'/api/test'doreturn"Itisdev"end但是在部署到生产环境之后我想在运行/api/test之后看到ItisPROD如何实现？最佳答案根据SinatraDocumentation:EnvironmentscanbesetthroughtheRACK_ENVenvironm
ruby - Ruby 有 `Pair` 数据类型吗？ - 2
有时我需要处理键/值数据。我不喜欢使用数组，因为它们在大小上没有限制(很容易不小心添加超过2个项目，而且您最终需要稍后验证大小)。此外，0和1的索引变成了魔数(MagicNumber)，并且在传达含义方面做得很差(“当我说0时，我的意思是head...”)。散列也不合适，因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题，但我很想知道:Ruby标准库是否已经带有这样一个类？最佳
ruby - inverse_of 是否适用于 has_many？ - 2
当我使用has_one时，它工作得很好，但在has_many上却不行。在这里您可以看到object_id不同，因为它运行了另一个SQL来再次获取它。ruby-1.9.2-p290:001>e=Employee.create(name:'rafael',active:false)ruby-1.9.2-p290:002>b=Badge.create(number:1,employee:e)ruby-1.9.2-p290:003>a=Address.create(street:"123MarketSt",city:"SanDiego",employee:e)ruby-1.9.2-p290
ruby - 我如何添加二进制数据来遏制 POST - 2
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_
报告回顾丨模型进化狂飙，DetectGPT能否识别最新模型生成结果？ - 2
导读语言模型给我们的生产生活带来了极大便利，但同时不少人也利用他们从事作弊工作。如何规避这些难辨真伪的文字所产生的负面影响也成为一大难题。在3月9日智源Live第33期活动「DetectGPT：判断文本是否为机器生成的工具」中，主讲人Eric为我们讲解了DetectGPT工作背后的思路——一种基于概率曲率检测的用于检测模型生成文本的工具，它可以帮助我们更好地分辨文章的来源和可信度，对保护信息真实、防止欺诈等方面具有重要意义。本次报告主要围绕其功能，实现和效果等展开。（文末点击“阅读原文”，查看活动回放。）Ericmitchell斯坦福大学计算机系四年级博士生，由ChelseaFinn和Chri
世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2
无论您是想搭建桌面端、WEB端或者移动端APP应用，HOOPSPlatform组件都可以为您提供弹性的3D集成架构，同时，由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台（桌面/WEB/APP，而且某些客户端是“瘦”客户端）快速、方便地将数据接入到3D应用系统的解决方案，并且当访问数据时，在各个平台上的性能和用户体验保持一致，HOOPSPlatform将帮助您完成。利用HOOPSPlatform，您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品，HOOPSSDK包含的技术有：快速且准确的CAD
FOHEART H1数据手套驱动Optitrack光学动捕双手运动(Unity3D) - 2
本教程将在Unity3D中混合Optitrack与数据手套的数据流，在人体运动的基础上，添加双手手指部分的运动。双手手背的角度仍由Optitrack提供，数据手套提供双手手指的角度。 01 客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照：https://gitee.com/foheart_1/foheart-h1-data-summary.git02 数据转发打开MotiveBody软件的Streaming，开始向Unity3D广播数据；MotionVenus中设置->选项选择Unit

php - 哪个数据库用于处理非常大的结果集？

有关php - 哪个数据库用于处理非常大的结果集？的更多相关文章

随机推荐