草庐IT

performance - MongoDB的奇怪插入时间

coder 2023-11-04 原文

我需要保存很多传感器测量数据,我正在MongoDB上做一些基准测试。
数据:
这是我正在使用的“模式”:

public class BetterConsolidatedTag
{
    public ObjectId Id { get; set; }

    /// <summary>
    /// The base time to which the offset values relate.
    /// </summary>
    public DateTime BaseTime { get; set; }

    /// <summary>
    /// The name of the data series
    /// </summary>
    public string Name { get; set; }

    /// <summary>
    /// Values of the series in this time frame. The values are saved as offsets in milliseconds from the BaseTime.
    /// </summary>
    [BsonElement]
    private SortedDictionary<int, object> OffsetValues { get; set; }
}

这样做的目的是,我不需要单独保存每个测量值,而是在一个小时内将特定传感器的所有测量值合并。因此,每个文档都代表一个小时内特定传感器的所有测量值,从BaseTime开始。
定义了两个索引:basetime_1_name_1和name_1_basetime_1。
数据库
MongoDB正在Windows Server 2012 R2 Standard上运行,硬件如下:
处理器:Intel(R)Xeon(R)CPU X5675@3.07GHz,3059MHz,6核,12个逻辑处理器
内存:96GB
磁盘:带RAID 1的300GB本地磁盘(IBM ServeRAID M5015)
网络:英特尔82575EB千兆以太网控制器
基准
为了简单起见,我的模拟以恒定速率生成数据——我生成代表所有不同传感器一小时的数据,并将其保存到数据库中。我记录保存这个一小时数据所需的时间(如上所述,每次包含相同数量的样本)。
数据生成在我的桌面上(windows 7 enterprise,i7,8gbram,ssd),它使用官方的mongodb c驱动程序通过网络将数据发送到mongodb服务器。在测试过程中,我没有对桌面做任何特别的处理——主要是在互联网上浏览和不时地在excel中绘制测量结果。在此期间,除了我之外,没有人连接到远程服务器,在基准测试期间,除了我的基准测试之外,也没有人连接到MongoDB。
结果
这是一个图,将插入时间(毫秒)描述为数据库中样本总数的函数(数据库的总大小约为200GB,保存在101个文件中):
再放大一点:
我很难理解这些结果。我预计插入时间会随着时间的推移而略微增长——有两个索引,随着文档数量的增加,预计维护这些索引需要更长的时间。此外,我还预计,一旦数据不再适合物理内存,分页开始更频繁地发生,插入时间应该会变得更高,但图表看起来不像是有一个单一的时间点,当事情变得更糟。
我真的不明白为什么这个图看起来好像是由三个不同的图组成的-
-一个增长非常缓慢,几乎容纳了所有数据点(这是我所期望的所有结果的样子)
-一个增长速度更快,占用点更少的节点(可能这是发生分页的时候?但在物理内存被填满的时候,它会在图表中出现“跳跃”
-一个疯狂增长并拥有大约40个数据点的系统。这些数据点似乎以大约每15分钟的恒定速率出现。我想这可能是MongoDB创建一个新文件的时候,但是数据保存在101个文件中,而这些奇怪的度量只有大约40个。
这些结果有意义吗?如果没有,会有什么问题?我应该在服务器上寻找神秘的后台作业吗?硬件问题?
编辑:高点对应于文件创建是没有意义的,因为随着数据越来越大,创建文件不应该花费更多的时间。也许MongoDB在后台做了某种压缩?沿着大多数时间的线的东西小的紧致(第二个“图”,有时是完全紧致(第三个和最高的“图”)。随着数据的增长,压缩需要更长的时间,这是有意义的。或者垃圾收集,我想也可以用这种行为来表示?
编辑2:嗯,MunGDB是用C++编写的,所以我猜GC是不可能的。所以现在背景压缩是我最好的猜测。

最佳答案

默认情况下,MongoDB每分钟执行一次fsync,因此每分钟执行一次,插入速度会慢得多——这是数据实际保存到磁盘的时间点,其余时间只保存在内存中。将其设置为每秒同步一次数据(如果可能的话,在每次写入时同步一次),则图形将看起来不同。

关于performance - MongoDB的奇怪插入时间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25904292/

有关performance - MongoDB的奇怪插入时间的更多相关文章

  1. ruby-on-rails - Ruby 检查日期时间是否为 iso8601 并保存 - 2

    我需要检查DateTime是否采用有效的ISO8601格式。喜欢:#iso8601?我检查了ruby​​是否有特定方法,但没有找到。目前我正在使用date.iso8601==date来检查这个。有什么好的方法吗?编辑解释我的环境,并改变问题的范围。因此,我的项目将使用jsapiFullCalendar,这就是我需要iso8601字符串格式的原因。我想知道更好或正确的方法是什么,以正确的格式将日期保存在数据库中,或者让ActiveRecord完成它们的工作并在我需要时间信息时对其进行操作。 最佳答案 我不太明白你的问题。我假设您想检查

  2. ruby-on-rails - 将 Ruby 中的日期/时间格式化为 YYYY-MM-DD HH :MM:SS - 2

    这个问题在这里已经有了答案:Railsformattingdate(4个答案)关闭4年前。我想格式化Time.Now函数以显示YYYY-MM-DDHH:MM:SS而不是:“2018-03-0909:47:19+0000”该函数需要放在时间中.现在功能。require‘roo’require‘roo-xls’require‘byebug’file_name=ARGV.first||“Template.xlsx”excel_file=Roo::Spreadsheet.open(“./#{file_name}“,extension::xlsx)xml=Nokogiri::XML::Build

  3. ruby - 查找字符串中的内容类型(数字、日期、时间、字符串等) - 2

    我正在尝试解析一个CSV文件并使用SQL命令自动为其创建一个表。CSV中的第一行给出了列标题。但我需要推断每个列的类型。Ruby中是否有任何函数可以找到每个字段中内容的类型。例如,CSV行:"12012","Test","1233.22","12:21:22","10/10/2009"应该产生像这样的类型['integer','string','float','time','date']谢谢! 最佳答案 require'time'defto_something(str)if(num=Integer(str)rescueFloat(s

  4. sql - 查询忽略时间戳日期的时间范围 - 2

    我正在尝试查询我的Rails数据库(Postgres)中的购买表,我想查询时间范围。例如,我想知道在所有日期的下午2点到3点之间进行了多少次购买。此表中有一个created_at列,但我不知道如何在不搜索特定日期的情况下完成此操作。我试过:Purchases.where("created_atBETWEEN?and?",Time.now-1.hour,Time.now)但这最终只会搜索今天与那些时间的日期。 最佳答案 您需要使用PostgreSQL'sdate_part/extractfunction从created_at中提取小时

  5. ruby - 在没有基准或时间的情况下用 Ruby 测量用户时间或系统时间 - 2

    因为我现在正在做一些时间测量,我想知道是否可以在不使用Benchmark类或命令行实用程序time的情况下测量用户时间或系统时间。使用Time类只显示挂钟时间,而不显示系统和用户时间,但是我正在寻找具有相同灵active的解决方案,例如time=TimeUtility.now#somecodeuser,system,real=TimeUtility.now-time原因是我有点不喜欢Benchmark,因为它不能只返回数字(编辑:我错了-它可以。请参阅下面的答案。)。当然,我可以解析输出,但感觉不对。*NIX系统的time实用程序也应该可以解决我的问题,但我想知道是否已经在Ruby中实

  6. ruby - 如何在 Ruby 字符串中插入项目符号字符? - 2

    我正在尝试创建一个带有项目符号字符的Ruby1.9.3字符串。str="•"+"helloworld"但是,当我输入它时,我收到有关非ASCII字符的语法错误。我该怎么做? 最佳答案 你可以把Unicode字符放在那里。str="\u2022"+"helloworld" 关于ruby-如何在Ruby字符串中插入项目符号字符?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/1195

  7. ruby-on-rails - Resque - 类的未定义方法 'perform' - 2

    我目前对后台队列不太满意。我正在尝试让Resque工作。我已经安装了redis和Resquegem。Redis正在运行。一个worker正在运行(rakeresque:workQUEUE=simple)。使用Web界面,我可以看到工作人员正在运行并等待工作。当我运行“rakeget_updates”时,作业已排队但失败了。我已经用defself.perform和defperform试过了。发条.raketask:get_updates=>:environmentdoResque.enqueue(GetUpdates)end类文件(app/workers/get_updates.rb)c

  8. ruby - 以毫秒为单位获取当前系统时间 - 2

    在Ruby中,以毫秒为单位获取自纪元(1970)以来的当前系统时间的正确方法是什么?我试过了Time.now.to_i,好像不是我想要的结果。我需要结果显示毫秒并且使用long类型,而不是float或double。 最佳答案 (Time.now.to_f*1000).to_iTime.now.to_f显示包含十进制数字的时间。要获得毫秒数,只需将时间乘以1000。 关于ruby-以毫秒为单位获取当前系统时间,我们在StackOverflow上找到一个类似的问题:

  9. ruby-on-rails - 浮点乘法的 Ruby 奇怪问题 - 2

    有没有人用ruby​​解决这个问题:假设我们有:a=8.1999999我们想将它四舍五入为2位小数,即8.20,然后乘以1,000,000得到8,200,000我们是这样做的;(a.round(2)*1000000).to_i但是我们得到的是8199999,为什么?奇怪的是,如果我们乘以1000、100000或10000000而不是1000000,我们会得到正确的结果。有人知道为什么吗?我们正在使用ruby​​1.9.2并尝试使用1.9.3。谢谢! 最佳答案 每当你在计算中得到时髦的数字时使用bigdecimalrequire'bi

  10. ruby - 在 ruby​​ 中使用自动创建插入数组 - 2

    我想知道是否可以通过自动创建数组来插入数组,如果数组不存在的话,就像在PHP中一样:$toto[]='titi';如果尚未定义$toto,它将创建数组并将“titi”压入。如果已经存在,它只会推送。在Ruby中我必须这样做:toto||=[]toto.push('titi')可以一行完成吗?因为如果我有一个循环,它会测试“||=”,除了第一次:Person.all.eachdo|person|toto||=[]#with1billionofperson,thislineisuseless999999999times...toto.push(person.name)你有更好的解决方案吗?

随机推荐