mysql - 高效存储时间序列数据 : mySQL or flat files? 很多表(或文件)或WHERE条件查询？

coder 2023-06-11 原文

存储数千个(但可能很快会变成数百万个)真实世界硬件传感器的时间序列数据的最佳方式是什么？传感器本身是不同的，有些只捕获一个变量，有些则多达十几个。我需要每小时存储这些值，并且我不想删除早于 x 的数据，即数据将继续增长。

目前，我使用 mySQL 数据库来存储这些时间序列(它还提供一个 Web 前端，为每个传感器显示漂亮的时间序列图)。我为每个传感器准备了一张 table ，现在总共大约有 11000 个。每个表都有一个类似“timestamp, value1, [value2] ...”的布局。

数据库的主要任务是更多的选择(每次 sombebody 查看图表)而不是插入/更新(每小时一次)。用于显示图表的选择查询只是“SELECT * FROM $sensor_id ORDER BY timestamp”，因此从我的选择语句中获取信息非常简单/高效。

但是，在备份数据库时，拥有这么多表已经存在一些问题，因为我遇到了 LOCK 限制(例如 mysqldump: Got error: 23: Out of resources when opening file './database/table_xyz.MYD' ( Errcode: 24) when using LOCK TABLES"). 我可以绕过这个错误，但显然这让我开始思考......

所以，真正的问题，分解成子问题:

我为每个传感器设置一个表的方法有多糟糕？如果我有几百万张 table 而不是几千张 table 怎么办(在不久的将来我可能不得不处理这么多传感器)？
将所有传感器的数据存储在一个带有额外列的组合表中，该列保存 sensor_id 是一种更好的方法，因为它可能会大大减慢我的选择语句(SELECT * from all_sensors WHERE sensor_id='$sensor_id')?请记住，不同的传感器测量不同的东西，所以如果我每个传感器都有自己的表，那么这个表会有几十列而不是一到几列？
我还考虑过不将时间序列数据存储在 mySQL 中，而是存储在平面 (CSV) 文件中。我用于前端的图形库(dygraphs)可以很好地处理 CSV 文件(另外它可以让我选择让这些文件可供下载，这将是一个奖励，但目前不是必需的)。我仍然需要数据库来处理其他与前端相关的事情，但这意味着有几十个表而不是 11000 个(如果我们添加更多传感器，甚至更多)。
如果我为每个表创建一个文件，那么我最终可能会遇到文件系统限制(这是一个 ext3 分区，因此每个目录限制为 ~32k 个文件)。所以这里也适用与上述相同的问题:然后我应该将它存储在一个包含所有传感器数据的大文件中吗？这可能会减慢我的读取速度，甚至更糟，因为每次有人查看图表时，图形库都需要将一个大得多的文件读入内存？

你会怎么做？

谢谢!

最佳答案

要回答这个问题，我们必须首先分析您面临的真正问题。

真正的问题是写入和检索数据的最有效组合。

让我们回顾一下你的结论:

数以千计的表 - 嗯，这违反了数据库的目的并使其更难使用。你也一无所获。仍然涉及磁盘查找，这一次使用了许多文件描述符。您还必须知道表名，而且有数千个。提取数据也很困难，这就是数据库的用途 - 以您可以轻松交叉引用记录的方式构建数据。数以千计的 table - 效率不高。观点看法。从使用的角度来看效率不高。糟糕的选择。
一个 csv 文件 - 如果您一次需要全部内容，它可能非常适合获取数据。但它远非操作或转换数据的好处。鉴于您依赖于特定布局的事实 - 在写入 CSV 时必须格外小心。如果这增长到数以千计的 CSV 文件，您就没有帮自己一个忙。您消除了 SQL 的所有开销(不是那么大)，但您没有为检索部分数据集做任何事情。您在获取历史数据或交叉引用任何内容时也会遇到问题。糟糕的选择。

理想的情况是能够以高效、快速的方式访问数据集的任何部分，而无需更改任何类型的结构。

这正是我们使用关系数据库以及将具有大量 RAM 的整个服务器专用于这些数据库的原因。

在您的情况下，您使用的是 MyISAM 表(.MYD 文件扩展名)。这是一种旧的存储格式，适用于当时使用的低端硬件。但是这些天来，我们拥有出色而快速的计算机。这就是我们使用 InnoDB 并允许它使用大量 RAM 以降低 I/O 成本的原因。控制它的变量称为 innodb_buffer_pool_size - 谷歌搜索会产生有意义的结果。

要回答这个问题 - 一个有效且令人满意的解决方案是使用一个存储传感器信息(ID、标题、描述)的表和存储传感器读数的另一个表。您分配了足够的 RAM 或足够快的存储空间(SSD)。表格如下所示:

CREATE TABLE sensors ( 
    id int unsigned not null auto_increment,
    sensor_title varchar(255) not null,
    description varchar(255) not null,
    date_created datetime,
    PRIMARY KEY(id)
) ENGINE = InnoDB DEFAULT CHARSET = UTF8;

CREATE TABLE sensor_readings (
    id int unsigned not null auto_increment,
    sensor_id int unsigned not null,
    date_created datetime,
    reading_value varchar(255), -- note: this column's value might vary, I do not know what data type you need to hold value(s)
    PRIMARY KEY(id),
    FOREIGN KEY (sensor_id) REFERENCES sensors (id) ON DELETE CASCADE
) ENGINE = InnoDB DEFAULT CHARSET = UTF8;

默认情况下，InnoDB 为整个数据库/安装使用一个平面文件。这缓解了超出操作系统/文件系统的文件描述符限制的问题。如果您要分配 5-6 GB 的 RAM 来将工作数据集保存在内存中，那么几条甚至几千万条记录应该不是问题 - 这将允许您快速访问数据。

如果我要设计这样一个系统，这是我(个人)会采用的第一种方法。从那里开始，您可以根据需要对这些信息做什么来轻松进行调整。

关于mysql - 高效存储时间序列数据 : mySQL or flat files? 很多表(或文件)或WHERE条件查询？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27002903/

mysql 传感的 code time-series

有关mysql - 高效存储时间序列数据 : mySQL or flat files? 很多表(或文件)或WHERE条件查询？的更多相关文章

ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby-on-rails - 相关表上的范围为 "WHERE ... LIKE" - 2
我正在尝试从Postgresql表(table1)中获取数据，该表由另一个相关表(property)的字段(table2)过滤。在纯SQL中，我会这样编写查询:SELECT*FROMtable1JOINtable2USING(table2_id)WHEREtable2.propertyLIKE'query%'这工作正常:scope:my_scope,->(query){includes(:table2).where("table2.property":query)}但我真正需要的是使用LIKE运算符进行过滤，而不是严格相等。然而，这是行不通的:scope:my_scope,->(que
ruby-on-rails - Ruby 检查日期时间是否为 iso8601 并保存 - 2
我需要检查DateTime是否采用有效的ISO8601格式。喜欢:#iso8601?我检查了ruby是否有特定方法，但没有找到。目前我正在使用date.iso8601==date来检查这个。有什么好的方法吗？编辑解释我的环境，并改变问题的范围。因此，我的项目将使用jsapiFullCalendar，这就是我需要iso8601字符串格式的原因。我想知道更好或正确的方法是什么，以正确的格式将日期保存在数据库中，或者让ActiveRecord完成它们的工作并在我需要时间信息时对其进行操作。最佳答案我不太明白你的问题。我假设您想检查
ruby - Ruby 有 `Pair` 数据类型吗？ - 2
有时我需要处理键/值数据。我不喜欢使用数组，因为它们在大小上没有限制(很容易不小心添加超过2个项目，而且您最终需要稍后验证大小)。此外，0和1的索引变成了魔数(MagicNumber)，并且在传达含义方面做得很差(“当我说0时，我的意思是head...”)。散列也不合适，因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题，但我很想知道:Ruby标准库是否已经带有这样一个类？最佳
ruby-on-rails - 将 Ruby 中的日期/时间格式化为 YYYY-MM-DD HH :MM:SS - 2
这个问题在这里已经有了答案:Railsformattingdate(4个答案)关闭4年前。我想格式化Time.Now函数以显示YYYY-MM-DDHH:MM:SS而不是:“2018-03-0909:47:19+0000”该函数需要放在时间中.现在功能。require‘roo’require‘roo-xls’require‘byebug’file_name=ARGV.first||“Template.xlsx”excel_file=Roo::Spreadsheet.open(“./#{file_name}“,extension::xlsx)xml=Nokogiri::XML::Build
ruby - 查找字符串中的内容类型(数字、日期、时间、字符串等) - 2
我正在尝试解析一个CSV文件并使用SQL命令自动为其创建一个表。CSV中的第一行给出了列标题。但我需要推断每个列的类型。Ruby中是否有任何函数可以找到每个字段中内容的类型。例如，CSV行:"12012","Test","1233.22","12:21:22","10/10/2009"应该产生像这样的类型['integer','string','float','time','date']谢谢! 最佳答案 require'time'defto_something(str)if(num=Integer(str)rescueFloat(s
ruby - 是否有用于序列化和反序列化各种格式的对象层次结构的模式？ - 2
给定一个复杂的对象层次结构，幸运的是它不包含循环引用，我如何实现支持各种格式的序列化？我不是来讨论实际实现的。相反，我正在寻找可能会派上用场的设计模式提示。更准确地说:我正在使用Ruby，我想解析XML和JSON数据以构建复杂的对象层次结构。此外，应该可以将该层次结构序列化为JSON、XML和可能的HTML。我可以为此使用Builder模式吗？在任何提到的情况下，我都有某种结构化数据-无论是在内存中还是文本中-我想用它来构建其他东西。我认为将序列化逻辑与实际业务逻辑分开会很好，这样我以后就可以轻松支持多种XML格式。最佳答案我最
ruby - 我如何添加二进制数据来遏制 POST - 2
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_
世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2
无论您是想搭建桌面端、WEB端或者移动端APP应用，HOOPSPlatform组件都可以为您提供弹性的3D集成架构，同时，由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台（桌面/WEB/APP，而且某些客户端是“瘦”客户端）快速、方便地将数据接入到3D应用系统的解决方案，并且当访问数据时，在各个平台上的性能和用户体验保持一致，HOOPSPlatform将帮助您完成。利用HOOPSPlatform，您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品，HOOPSSDK包含的技术有：快速且准确的CAD
ruby - Rack:如何将 URL 存储为变量？ - 2
我正在编写一个简单的静态Rack应用程序。查看下面的config.ru代码:useRack::Static,:urls=>["/elements","/img","/pages","/users","/css","/js"],:root=>"archive"map'/'dorunProc.new{|env|[200,{'Content-Type'=>'text/html','Cache-Control'=>'public,max-age=6400'},File.open('archive/splash.html',File::RDONLY)]}endmap'/pages/search.

mysql - 高效存储时间序列数据 : mySQL or flat files? 很多表(或文件)或WHERE条件查询？

有关mysql - 高效存储时间序列数据 : mySQL or flat files? 很多表(或文件)或WHERE条件查询？的更多相关文章

随机推荐