mongodb - pymongo cursor getMore 需要很长时间

coder 2023-10-30 原文

我的 python 脚本迭代数据集所花费的时间让我遇到了问题。数据集大约有 40k 个文档。这足以导致 pymongo 游标发出多个内部提取并从开发人员那里抽象出来。我尽可能简化了我的脚本来演示问题:

from pymongo import Connection
import time

def main():
    starttime = time.time()
    cursor = db.survey_answers.find()
    counter=0;
    lastsecond=-1;
    for entry in cursor:
        if int(time.time()-starttime)!=lastsecond:
            print "loop number:", counter, "   seconds:",int(time.time()-starttime);
            lastsecond= int(time.time()-starttime)
        counter+=1;
    print (time.time()-starttime), "seconds for the mongo query to get rows:",counter;

connection = Connection(APPSERVER)#either localhost or hostname depending on test
db = connection.beacon

if __name__ == "__main__":
    main()

我的设置如下。我有 4 个独立的主机，一个运行 mongos 的 APPSERVER 和其他 3 个分片主机，每个主机都是主副本集和另外两个的辅助副本集。

我可以从其中一个分片服务器(连接指向 APPSERVER 主机名)运行它，我得到:

loop number: 0    seconds: 0
loop number: 101    seconds: 2
loop number: 7343    seconds: 5
loop number: 14666    seconds: 8
loop number: 21810    seconds: 10
loop number: 28985    seconds: 13
loop number: 36078    seconds: 15
16.0257680416 seconds for the mongo query to get rows: 41541

所以很明显这里发生了什么，游标请求的第一个批处理大小是 100，然后每个后续请求都是 4m 的数据，这对我来说似乎刚好超过 7k 个文档。并且每次获取花费 2-3 秒!!!!

我想我可以通过将我的应用程序移近 mongos 实例来解决这个问题。我在 APPSERVER 上运行了上面的代码(连接指向本地主机)希望减少网络使用....但情况更糟!

loop number: 0    seconds: 0
loop number: 101    seconds: 9
loop number: 7343    seconds: 19
loop number: 14666    seconds: 28
loop number: 21810    seconds: 38
loop number: 28985    seconds: 47
loop number: 36078    seconds: 53
53.5974030495 seconds for the mongo query to get rows: 41541

两个测试中的游标大小完全相同，这很好，但是这里每次游标获取都需要 9-10 秒!!!

我知道我有四台不同的主机需要通信，所以这不可能是即时的。但我需要迭代可能有 1000 万条记录的集合。以每 7k 2 秒计算，这将花费 不到一个小时!我不能要这个!

顺便说一句，我是 python/mongo 世界的新手，我习惯了 php 和 mysql，我希望它能在几分之一秒内处理:

$q=mysql_query("select * from big_table");//let's say 10m rows here ....
$c=0;
while($r=mysql_fetch_rows($q))
    $c++;
echo $c." rows examined";

有人可以解释一下我介绍的 pymongo(约 1 小时)和 php/mysql(<1>

最佳答案

我在 A. Jesse Jiryu Davis 的帮助下解决了这个问题。原来我没有安装 C 扩展。我想在没有分片的情况下运行另一个测试，这样我就可以排除网络延迟问题。我得到了一个全新的干净主机，设置了 mongo，导入了我的数据，并运行了我的脚本，它花费了相同的时间。所以我知道分片/副本集与问题没有任何关系。

修复之前，我能够打印:

pymongo.has_c(): False
pymongo version 2.3

然后我关注了instructions安装 c 扩展的依赖项:

yum install gcc python-devel

然后我重新安装了pymongo驱动:

git clone git://github.com/mongodb/mongo-python-driver.git pymongo
cd pymongo/
python setup.py install

我重新运行我的脚本，它现在打印:

pymongo.has_c(): True
pymongo version 2.3+

与上面的 16 秒相比，运行大约需要 1.8 秒。获取 40k 条记录并迭代它们似乎仍然很长，但这是一个显着的改进。

我现在将在我的生产(分片、副本集)环境中运行这些更新，希望能看到相同的结果。

**更新** 我在我的生产环境中更新了我的 pymongo 驱动程序并且有一个改进，虽然没有那么多。几次测试大约需要 2.5-3.5 秒。我认为分片性质是这里的错误。迭代超过 40k 条记录似乎仍然非常慢。

关于mongodb - pymongo cursor getMore 需要很长时间，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12809474/

长时 mongodb seconds number pymongo cursor

有关mongodb - pymongo cursor getMore 需要很长时间的更多相关文章

ruby - 我需要将 Bundler 本身添加到 Gemfile 中吗？ - 2
当我使用Bundler时，是否需要在我的Gemfile中将其列为依赖项？毕竟，我的代码中有些地方需要它。例如，当我进行Bundler设置时:require"bundler/setup" 最佳答案没有。您可以尝试，但首先您必须用鞋带将自己抬离地面。关于ruby-我需要将Bundler本身添加到Gemfile中吗？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/4758609/
ruby - rspec 需要 .rspec 文件中的 spec_helper - 2
我注意到像bundler这样的项目在每个specfile中执行requirespec_helper我还注意到rspec使用选项--require，它允许您在引导rspec时要求一个文件。您还可以将其添加到.rspec文件中，因此只要您运行不带参数的rspec就会添加它。使用上述方法有什么缺点可以解释为什么像bundler这样的项目选择在每个规范文件中都需要spec_helper吗？最佳答案我不在Bundler上工作，所以我不能直接谈论他们的做法。并非所有项目都checkin.rspec文件。原因是这个文件，通常按照当前的惯例，只
ruby - 如何在 Lion 上安装 Xcode 4.6，需要用 RVM 升级 ruby - 2
我实际上是在尝试使用RVM在我的OSX10.7.5上更新ruby，并在输入以下命令后:rvminstallruby我得到了以下回复:Searchingforbinaryrubies,thismighttakesometime.Checkingrequirementsforosx.Installingrequirementsforosx.Updatingsystem.......Errorrunning'requirements_osx_brew_update_systemruby-2.0.0-p247',pleaseread/Users/username/.rvm/log/138121
ruby - 为什么在 ruby 中创建 Rational 不需要新方法 - 2
这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Rubysyntaxquestion:Rational(a,b)andRational.new!(a,b)我正在阅读ruby镐书，我对创建有理数的语法感到困惑。Rational(3,4)*Rational(1,2)产生=>3/8为什么Rational不需要new方法(我还注意到例如我可以在没有new方法的情况下创建字符串)？
ruby-on-rails - 需要帮助最大化多个相似对象中的 3 个因素并适当排序 - 2
我需要用任何语言编写一个算法，根据3个因素对数组进行排序。我以度假村为例(如Hipmunk)。假设我想去度假。我想要最便宜的地方、最好的评论和最多的景点。但是，显然我找不到在所有3个中都排名第一的方法。Example(assumingthereare20importantattractions):ResortA:$150/night...98/100infavorablereviews...18of20attractionsResortB:$99/night...85/100infavorablereviews...12of20attractionsResortC:$120/night
ruby - 我需要从 facebook 游戏中抓取数据——使用 ruby - 2
修改(澄清问题)我已经花了几天时间试图弄清楚如何从Facebook游戏中抓取特定信息；但是，我遇到了一堵又一堵砖墙。据我所知，主要问题如下。我可以使用Chrome的检查元素工具手动查找我需要的html-它似乎位于iframe中。但是，当我尝试抓取该iframe时，它是空的(属性除外):如果我使用浏览器的“查看页面源代码”工具，这与我看到的输出相同。我不明白为什么我看不到iframe中的数据。答案不是它是由AJAX之后添加的。(我知道这既是因为“查看页面源代码”可以读取Ajax添加的数据，也是因为我有b/c我一直等到我可以看到数据页面之后才抓取它，但它仍然不存在)。发生这种情况是因为
ruby - 可以正常中断的来自 Rake 的长时间运行的 shell 命令？ - 2
在几个项目中，我希望有一个类似rakeserver的rake任务，它将通过任何需要的方式开始为该应用程序提供服务。这是一个示例:task:serverdo%x{bundleexecrackup-p1234}end这行得通，但是当我准备停止它时，按Ctrl+c并没有正常关闭；它中断了Rake任务本身，它说rakeaborted!并给出堆栈跟踪。在某些情况下，我必须执行Ctrl+c两次。我可能可以用Signal.trap写一些东西来更优雅地中断它。有没有更简单的方法？最佳答案 trap('SIGINT'){puts"Yourmessa
ruby - 需要重构为新的 Ruby 1.9 哈希语法 - 2
这个问题在这里已经有了答案:HashsyntaxinRuby[duplicate](1个回答)关闭5年前。我有一个Recipe，其中包含以下未通过lint测试的代码:service'apache'dosupports:status=>true,:restart=>true,:reload=>trueend失败并出现错误:UsethenewRuby1.9hashsyntax.supports:status=>true,:restart=>true,:reload=>true不确定新语法是什么样的...有人可以帮忙吗？
ruby-on-rails - 我真的需要在 Rails 中使用 csv gem 吗？ - 2
我的问题很简单:我是否必须在使用RubyonRails的类上require'csv'？如果我打开一个railsconsole并尝试使用CSVgem它可以工作，但我必须在文件中这样做吗？最佳答案 CSVlibrary是ruby标准库的一部分；它不是gem(即第三方库)。与所有标准库(与核心库不同)一样，csv不会由ruby解释器自动加载。所以是的，在您的应用程序中某处您确实需要要求它:irb(main):001:0>CSVNameError:uninitializedconstantCSVfrom(irb):1from/Us
ruby-on-rails - 我需要一个真正的 UNIX RoR 开发环境 - 2
从一开始，我就是一个Windows高手。我从MS-DOS开始。我安装了Windows2.1以及此后的所有Windows。现在，我家里有10台不同的Windows机器在运行，从Windows7Ultimate到各种版本的WindowsServer。我还没有完成Windows8，也不想去那里。我在服务器和各种软件方面都有UNIX经验，但它并不是我的首选环境。但是，我想我正在转换。我试图假装使用Cygwin和MSYS在Windows下运行UNIX。我的目的是搭建一个开发环境。两者都让我失望了。我花了比开发更多的时间来解决一系列技术问题。这是NotAcceptable。到目前为止，我的Ruby

mongodb - pymongo cursor getMore 需要很长时间

有关mongodb - pymongo cursor getMore 需要很长时间的更多相关文章

随机推荐