草庐IT

php - 从巨大的数组 : optimization question 批量插入 MySql

coder 2023-10-10 原文

在资源优化方面,我被要求从三个选项中选择最佳选项。
假设我有一个包含数千条记录的大 Excel 文件,我需要提取这些数据并将它们插入入数据库。 3 个选项是:

  1. 将所有内容加载到一个多维数组中,并通过一个复杂的查询插入所有内容;
  2. 将所有内容加载到多维数组中,然后遍历每个 excel 行并执行简单的插入查询。
  3. 在一个循环中,读取每个 Excel 行,将其放入一个数组中,然后在数据库上执行一个简单的插入查询。

这是为了面试测试(我把它标记为作业,不确定是否正确);我沉思了一下:

  • 案例 1:我可能会遇到 *out_of_memory* 错误(当然取决于机器),但这是对数据库执行较少请求的解决方案。两个缺点是要分配给数组和数据库的大量内存。我知道我可以将 excel 转换为 CSV,但这里不是一个选项。我会选择一个大数组和一个批量插入,但我担心这对数据库来说会很困难。
  • 案例 2:我可能会在将其加载到数组中时出现 *out_of_memory* 错误,但第二个任务不会。尽管如此,执行数千个查询可能会影响数据库的性能,并且此查询可能是优化的候选对象。
  • 案例 3:仍然有数千条记录的循环(这也需要大量内存......),并且仍然有数以千计的查询要运行(这会访问数据库)。

所以,我实际上选择了第一个答案,在做之前我花了一些时间思考。

这是错误的。而且我实际上不知道这三个中哪一个是正确的。

有人可以帮我解决这个问题吗?这个回答有这么差吗?我认为成千上万的插入查询会“不好”,但似乎我完全错了..

编辑
澄清:我的问题不是关于哪种优化绝对最好,而是我提出的三种优化中的哪一种;所以我没有考虑其他选择,只是解释我为什么错了,而这有争议地是最好的答案。

最佳答案

一方面,这似乎是个棘手的问题。理智的答案是,使用批量导入实用程序,如 MySQL 的 mysqlimport 或 SQL Server 的 BULK INSERT ... FROM [data_file]。另一方面,这些实用程序基本上是在执行上述三个选项中的一个(尽管可能是以高度优化的方式)。

问题是,您在回答这些问题时必须考虑整个问题。 “就资源利用率而言的最佳选择”是情况 3,因为您的内存使用率将相当低,而且大多数数据库平台都旨在处理每秒大量请求的指标。

关于php - 从巨大的数组 : optimization question 批量插入 MySql,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6656249/

有关php - 从巨大的数组 : optimization question 批量插入 MySql的更多相关文章

  1. ruby-on-rails - 在 Ruby 中循环遍历多个数组 - 2

    我有多个ActiveRecord子类Item的实例数组,我需要根据最早的事件循环打印。在这种情况下,我需要打印付款和维护日期,如下所示:ItemAmaintenancerequiredin5daysItemBpaymentrequiredin6daysItemApaymentrequiredin7daysItemBmaintenancerequiredin8days我目前有两个查询,用于查找maintenance和payment项目(非排他性查询),并输出如下内容:paymentrequiredin...maintenancerequiredin...有什么方法可以改善上述(丑陋的)代

  2. ruby - 多次弹出/移动 ruby​​ 数组 - 2

    我的代码目前看起来像这样numbers=[1,2,3,4,5]defpop_threepop=[]3.times{pop有没有办法在一行中完成pop_three方法中的内容?我基本上想做类似numbers.slice(0,3)的事情,但要删除切片中的数组项。嗯...嗯,我想我刚刚意识到我可以试试slice! 最佳答案 是numbers.pop(3)或者numbers.shift(3)如果你想要另一边。 关于ruby-多次弹出/移动ruby​​数组,我们在StackOverflow上找到一

  3. ruby - 将数组的内容转换为 int - 2

    我需要读入一个包含数字列表的文件。此代码读取文件并将其放入二维数组中。现在我需要获取数组中所有数字的平均值,但我需要将数组的内容更改为int。有什么想法可以将to_i方法放在哪里吗?ClassTerraindefinitializefile_name@input=IO.readlines(file_name)#readinfile@size=@input[0].to_i@land=[@size]x=1whilex 最佳答案 只需将数组映射为整数:@land边注如果你想得到一条线的平均值,你可以这样做:values=@input[x]

  4. ruby - 通过 erb 模板输出 ruby​​ 数组 - 2

    我正在使用puppet为ruby​​程序提供一组常量。我需要提供一组主机名,我的程序将对其进行迭代。在我之前使用的bash脚本中,我只是将它作为一个puppet变量hosts=>"host1,host2"我将其提供给bash脚本作为HOSTS=显然这对ruby​​不太适用——我需要它的格式hosts=["host1","host2"]自从phosts和putsmy_array.inspect提供输出["host1","host2"]我希望使用其中之一。不幸的是,我终其一生都无法弄清楚如何让它发挥作用。我尝试了以下各项:我发现某处他们指出我需要在函数调用前放置“function_”……这

  5. ruby - 检查数组是否在增加 - 2

    这个问题在这里已经有了答案:Checktoseeifanarrayisalreadysorted?(8个答案)关闭9年前。我只是想知道是否有办法检查数组是否在增加?这是我的解决方案,但我正在寻找更漂亮的方法:n=-1@arr.flatten.each{|e|returnfalseife

  6. ruby - 如果指定键的值在数组中相同,如何合并哈希 - 2

    我有一个这样的哈希数组:[{:foo=>2,:date=>Sat,01Sep2014},{:foo2=>2,:date=>Sat,02Sep2014},{:foo3=>3,:date=>Sat,01Sep2014},{:foo4=>4,:date=>Sat,03Sep2014},{:foo5=>5,:date=>Sat,02Sep2014}]如果:date相同,我想合并哈希值。我对上面数组的期望是:[{:foo=>2,:foo3=>3,:date=>Sat,01Sep2014},{:foo2=>2,:foo5=>5:date=>Sat,02Sep2014},{:foo4=>4,:dat

  7. ruby - 在 Ruby 中用键盘诅咒数组浏览 - 2

    我正在尝试在Ruby中制作一个cli应用程序,它接受一个给定的数组,然后将其显示为一个列表,我可以使用箭头键浏览它。我觉得我已经在Ruby中看到一个库已经这样做了,但我记不起它的名字了。我正在尝试对soundcloud2000中的代码进行逆向工程做类似的事情,但他的代码与SoundcloudAPI的使用紧密耦合。我知道cursesgem,我正在考虑更抽象的东西。广告有没有人见过可以做到这一点的库或一些概念证明的Ruby代码可以做到这一点? 最佳答案 我不知道这是否是您正在寻找的,但也许您可以使用我的想法。由于我没有关于您要完成的工作

  8. ruby - 如何在 Grape 中定义哈希数组? - 2

    我使用Ember作为我的前端和GrapeAPI来为我的API提供服务。前端发送类似:{"service"=>{"name"=>"Name","duration"=>"30","user"=>nil,"organization"=>"org","category"=>nil,"description"=>"description","disabled"=>true,"color"=>nil,"availabilities"=>[{"day"=>"Saturday","enabled"=>false,"timeSlots"=>[{"startAt"=>"09:00AM","endAt"=>

  9. ruby - 使用多个数组创建计数 - 2

    我正在尝试按0-9和a-z的顺序创建数字和字母列表。我有一组值value_array=['0','1','2','3','4','5','6','7','8','9','a','b','光盘','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','','u','v','w','x','y','z']和一个组合列表的数组,按顺序,这些数字可以产生x个字符,比方说三个list_array=[]和一个当前字母和数字组合的数组(在将它插入列表数组之前我会把它变成一个字符串,]current_combo['0','0','0']

  10. ruby - 在哈希的键数组中追加元素 - 2

    查看我的Ruby代码:h=Hash.new([])h[0]=:word1h[1]=h[1]输出是:Hash={0=>:word1,1=>[:word2,:word3],2=>[:word2,:word3]}我希望有Hash={0=>:word1,1=>[:word2],2=>[:word3]}为什么要附加第二个哈希元素(数组)?如何将新数组元素附加到第三个哈希元素? 最佳答案 如果您提供单个值作为Hash.new的参数(例如Hash.new([]),完全相同的对象将用作每个缺失键的默认值。这就是您所拥有的,那是你不想要的。您可以改用

随机推荐