php - 导入大型数据集的性能提示

coder 2023-10-22 原文

我有一个功能可以让用户导入联系人(电子邮件地址和姓名)。一些用户导入的文件包含大约 70,000 个联系人。可以是 xls 或 csv。这就是我现在所拥有的。

用户选择他们想要从中导入联系人的文件(从他们的计算机)。
我将文件保存在服务器上并创建一个引用文件位置的数据库条目。
Amazon SQS 用于在后台处理此问题。
作业第一次运行时，我处理文件，仅保存包含电子邮件地址和名称(如果找到)的行。数据保存到同一位置的 json 文件并缓存。然后我将作业放回队列中。
现在可以导入联系人了。我在每个工作中获取 1000 个联系人，并将每个联系人保存在数据库中自己的行中。我使用 array_slice 跳过 json 文件中的联系人。跳过计数保存到数据库中。
当没有联系人时，任务被删除，一切都完成。

这就是整个过程。我还有一个检查(数据库查找)来检查重复项。只允许使用唯一的电子邮件地址。

我遇到的问题是这项工作似乎花费了太多时间，而且我会超时。这导致导入需要很长时间。

所以我的问题是:有什么我可以做得更好的吗？

如果您还需要什么，请告诉我。我对大数据和许多用户没有太多经验。

编辑:我不需要代码。我想要的是，问题是服务器问题吗？也许将数据库移到它自己的服务器上就可以了？还是我应该使用不同的方法？

编辑 2: 用户可以看到导入的进度。所以我需要计算联系人数量，为此我需要先过滤掉没有电子邮件地址的行。我还修剪了它和名称列。当我这样做时，我发现将新数据集保存到 JSON 文件中会更容易。

编辑 3:超时发生在将用户保存到数据库时，而不是在初始处理和创建 json 文件时。

编辑 4:加快作业速度的一种方法可能是从一开始就将其保存为 block (在第一次处理中)。这样我就不需要处理跳过计数器，也不必在大型数据集上使用 array_slice。另外现在想想，把它保存到json文件然后缓存起来有点愚蠢。为什么不从头缓存数组？

最佳答案

I take 1000 contacts in each job and saves each contact in its own row in the database.

我以前也遇到过这个问题，但在我的问题中，我需要导入大约 50000 条员工在场记录，我已经使用并行化解决了这个问题。您可能也注意到了，因此您在每个作业队列中接收了 1000 个联系人。真正的问题是“Process Time out”如果我们接受这么多，我们会面临吗？

因此，我的解决方案是创建更多子进程来完成一项工作。如果我创建一个作业来进行 1000 次导入，它会花费更多的时间和更慢的速度。因此，我创建了 100 个作业队列，每个作业导入 100 条记录。我一起运行它。在这种方法中，您的 CPU 负载会因此增加。如果您有高性能计算机，这不是问题。

我的建议是:

创建更多作业队列以进行导入。
避免使用过多的循环。
如果可能，请将您的数据存储在内存缓存中，因为它会加快您的处理速度。我想你也这么认为。了解 APC

你可以读一下here如何将数据存储在内存中。希望这对你有点帮助:)

关于php - 导入大型数据集的性能提示，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29885468/

大型 php strong 联系人 section mysql json laravel amazon-sqs

有关php - 导入大型数据集的性能提示的更多相关文章

ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - Ruby 有 `Pair` 数据类型吗？ - 2
有时我需要处理键/值数据。我不喜欢使用数组，因为它们在大小上没有限制(很容易不小心添加超过2个项目，而且您最终需要稍后验证大小)。此外，0和1的索引变成了魔数(MagicNumber)，并且在传达含义方面做得很差(“当我说0时，我的意思是head...”)。散列也不合适，因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题，但我很想知道:Ruby标准库是否已经带有这样一个类？最佳
ruby - 检查是否通过 require 执行或导入了 Ruby 程序 - 2
如何检查Ruby文件是否是通过“require”或“load”导入的，而不是简单地从命令行执行的？例如:foo.rb的内容:puts"Hello"bar.rb的内容require'foo'输出:$./foo.rbHello$./bar.rbHello基本上，我想调用bar.rb以不执行puts调用。最佳答案将foo.rb改为:if__FILE__==$0puts"Hello"end检查__FILE__-当前ruby文件的名称-与$0-正在运行的脚本的名称。关于ruby-检查是否
ruby - 我如何添加二进制数据来遏制 POST - 2
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_
世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2
无论您是想搭建桌面端、WEB端或者移动端APP应用，HOOPSPlatform组件都可以为您提供弹性的3D集成架构，同时，由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台（桌面/WEB/APP，而且某些客户端是“瘦”客户端）快速、方便地将数据接入到3D应用系统的解决方案，并且当访问数据时，在各个平台上的性能和用户体验保持一致，HOOPSPlatform将帮助您完成。利用HOOPSPlatform，您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品，HOOPSSDK包含的技术有：快速且准确的CAD
FOHEART H1数据手套驱动Optitrack光学动捕双手运动(Unity3D) - 2
本教程将在Unity3D中混合Optitrack与数据手套的数据流，在人体运动的基础上，添加双手手指部分的运动。双手手背的角度仍由Optitrack提供，数据手套提供双手手指的角度。 01 客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照：https://gitee.com/foheart_1/foheart-h1-data-summary.git02 数据转发打开MotiveBody软件的Streaming，开始向Unity3D广播数据；MotionVenus中设置->选项选择Unit
使用canal同步MySQL数据到ES - 2
文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目，Java开发。基于数据库增量日志解析，提供增量数据订阅&消费。Git地址：https://github.co
ruby-on-rails - 创建 ruby 数据库时惰性符号绑定(bind)失败 - 2
我正在尝试在Rails上安装ruby，到目前为止一切都已安装，但是当我尝试使用rakedb:create创建数据库时，我收到一个奇怪的错误:dyld:lazysymbolbindingfailed:Symbolnotfound:_mysql_get_client_infoReferencedfrom:/Library/Ruby/Gems/1.8/gems/mysql2-0.3.11/lib/mysql2/mysql2.bundleExpectedin:flatnamespacedyld:Symbolnotfound:_mysql_get_client_infoReferencedf
STM32读取串口传感器数据（颗粒物传感器，主动上传） - 2
文章目录1.开发板选择*用到的资源2.串口通信（个人理解）3.代码分析（注释比较详细）1.主函数2.串口1配置3.串口2配置以及中断函数4.注意问题5.源码链接1.开发板选择我用的是STM32F103RCT6的板子，不过代码大概在F103系列的板子上都可以运行，我试过在野火103的霸道板上也可以，主要看一下串口对应的引脚一不一样就行了，不一样的就更改一下。*用到的资源keil5软件这里用到了两个串口资源，采集数据一个，串口通信一个，板子对应引脚如下：串口1，TX：PA9，RX：PA10串口2，TX：PA2，RX：PA32.串口通信（个人理解）我就从串口采集传感器数据这个过程说一下我自己的理解，
SPI接收数据异常问题总结 - 2
SPI接收数据左移一位问题目录SPI接收数据左移一位问题一、问题描述二、问题分析三、探究原理四、经验总结最近在工作在学习调试SPI的过程中遇到一个问题——接收数据整体向左移了一位（1bit）。SPI数据收发是数据交换，因此接收数据时从第二个字节开始才是有效数据，也就是数据整体向右移一个字节（1byte）。请教前辈之后也没有得到解决，通过在网上查阅前人经验终于解决问题，所以写一个避坑经验总结。实际背景：MCU与一款芯片使用spi通信，MCU作为主机，芯片作为从机。这款芯片采用的是它规定的六线SPI，多了两根线：RDY和INT，这样从机就可以主动请求主机给主机发送数据了。一、问题描述根据从机芯片手

php - 导入大型数据集的性能提示

有关php - 导入大型数据集的性能提示的更多相关文章

随机推荐