存储数千个(但可能很快会变成数百万个)真实世界硬件传感器的时间序列数据的最佳方式是什么?传感器本身是不同的,有些只捕获一个变量,有些则多达十几个。我需要每小时存储这些值,并且我不想删除早于 x 的数据,即数据将继续增长。
目前,我使用 mySQL 数据库来存储这些时间序列(它还提供一个 Web 前端,为每个传感器显示漂亮的时间序列图)。我为每个传感器准备了一张 table ,现在总共大约有 11000 个。每个表都有一个类似“timestamp, value1, [value2] ...”的布局。
数据库的主要任务是更多的选择(每次 sombebody 查看图表)而不是插入/更新(每小时一次)。用于显示图表的选择查询只是“SELECT * FROM $sensor_id ORDER BY timestamp”,因此从我的选择语句中获取信息非常简单/高效。
但是,在备份数据库时,拥有这么多表已经存在一些问题,因为我遇到了 LOCK 限制(例如 mysqldump: Got error: 23: Out of resources when opening file './database/table_xyz.MYD' ( Errcode: 24) when using LOCK TABLES"). 我可以绕过这个错误,但显然这让我开始思考......
所以,真正的问题,分解成子问题:
all_sensors WHERE sensor_id='$sensor_id')?请记住,不同的传感器测量不同的东西,所以如果我每个传感器都有自己的表,那么这个表会有几十列而不是一到几列?你会怎么做?
谢谢!
最佳答案
要回答这个问题,我们必须首先分析您面临的真正问题。
真正的问题是写入和检索数据的最有效组合。
让我们回顾一下你的结论:
数以千计的表 - 嗯,这违反了数据库的目的并使其更难使用。你也一无所获。仍然涉及磁盘查找,这一次使用了许多文件描述符。您还必须知道表名,而且有数千个。提取数据也很困难,这就是数据库的用途 - 以您可以轻松交叉引用记录的方式构建数据。数以千计的 table - 效率不高。观点看法。从使用的角度来看效率不高。糟糕的选择。
一个 csv 文件 - 如果您一次需要全部内容,它可能非常适合获取数据。但它远非操作或转换数据的好处。鉴于您依赖于特定布局的事实 - 在写入 CSV 时必须格外小心。如果这增长到数以千计的 CSV 文件,您就没有帮自己一个忙。您消除了 SQL 的所有开销(不是那么大),但您没有为检索部分数据集做任何事情。您在获取历史数据或交叉引用任何内容时也会遇到问题。糟糕的选择。
理想的情况是能够以高效、快速的方式访问数据集的任何部分,而无需更改任何类型的结构。
这正是我们使用关系数据库以及将具有大量 RAM 的整个服务器专用于这些数据库的原因。
在您的情况下,您使用的是 MyISAM 表(.MYD 文件扩展名)。
这是一种旧的存储格式,适用于当时使用的低端硬件。但是这些天来,我们拥有出色而快速的计算机。这就是我们使用 InnoDB 并允许它使用大量 RAM 以降低 I/O 成本的原因。控制它的变量称为 innodb_buffer_pool_size - 谷歌搜索会产生有意义的结果。
要回答这个问题 - 一个有效且令人满意的解决方案是使用一个存储传感器信息(ID、标题、描述)的表和存储传感器读数的另一个表。您分配了足够的 RAM 或足够快的存储空间(SSD)。表格如下所示:
CREATE TABLE sensors (
id int unsigned not null auto_increment,
sensor_title varchar(255) not null,
description varchar(255) not null,
date_created datetime,
PRIMARY KEY(id)
) ENGINE = InnoDB DEFAULT CHARSET = UTF8;
CREATE TABLE sensor_readings (
id int unsigned not null auto_increment,
sensor_id int unsigned not null,
date_created datetime,
reading_value varchar(255), -- note: this column's value might vary, I do not know what data type you need to hold value(s)
PRIMARY KEY(id),
FOREIGN KEY (sensor_id) REFERENCES sensors (id) ON DELETE CASCADE
) ENGINE = InnoDB DEFAULT CHARSET = UTF8;
默认情况下,InnoDB 为整个数据库/安装使用一个平面文件。这缓解了超出操作系统/文件系统的文件描述符限制的问题。如果您要分配 5-6 GB 的 RAM 来将工作数据集保存在内存中,那么几条甚至几千万条记录应该不是问题 - 这将允许您快速访问数据。
如果我要设计这样一个系统,这是我(个人)会采用的第一种方法。从那里开始,您可以根据需要对这些信息做什么来轻松进行调整。
关于mysql - 高效存储时间序列数据 : mySQL or flat files? 很多表(或文件)或WHERE条件查询?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27002903/
我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
我正在尝试从Postgresql表(table1)中获取数据,该表由另一个相关表(property)的字段(table2)过滤。在纯SQL中,我会这样编写查询:SELECT*FROMtable1JOINtable2USING(table2_id)WHEREtable2.propertyLIKE'query%'这工作正常:scope:my_scope,->(query){includes(:table2).where("table2.property":query)}但我真正需要的是使用LIKE运算符进行过滤,而不是严格相等。然而,这是行不通的:scope:my_scope,->(que
我需要检查DateTime是否采用有效的ISO8601格式。喜欢:#iso8601?我检查了ruby是否有特定方法,但没有找到。目前我正在使用date.iso8601==date来检查这个。有什么好的方法吗?编辑解释我的环境,并改变问题的范围。因此,我的项目将使用jsapiFullCalendar,这就是我需要iso8601字符串格式的原因。我想知道更好或正确的方法是什么,以正确的格式将日期保存在数据库中,或者让ActiveRecord完成它们的工作并在我需要时间信息时对其进行操作。 最佳答案 我不太明白你的问题。我假设您想检查
有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳
这个问题在这里已经有了答案:Railsformattingdate(4个答案)关闭4年前。我想格式化Time.Now函数以显示YYYY-MM-DDHH:MM:SS而不是:“2018-03-0909:47:19+0000”该函数需要放在时间中.现在功能。require‘roo’require‘roo-xls’require‘byebug’file_name=ARGV.first||“Template.xlsx”excel_file=Roo::Spreadsheet.open(“./#{file_name}“,extension::xlsx)xml=Nokogiri::XML::Build
我正在尝试解析一个CSV文件并使用SQL命令自动为其创建一个表。CSV中的第一行给出了列标题。但我需要推断每个列的类型。Ruby中是否有任何函数可以找到每个字段中内容的类型。例如,CSV行:"12012","Test","1233.22","12:21:22","10/10/2009"应该产生像这样的类型['integer','string','float','time','date']谢谢! 最佳答案 require'time'defto_something(str)if(num=Integer(str)rescueFloat(s
给定一个复杂的对象层次结构,幸运的是它不包含循环引用,我如何实现支持各种格式的序列化?我不是来讨论实际实现的。相反,我正在寻找可能会派上用场的设计模式提示。更准确地说:我正在使用Ruby,我想解析XML和JSON数据以构建复杂的对象层次结构。此外,应该可以将该层次结构序列化为JSON、XML和可能的HTML。我可以为此使用Builder模式吗?在任何提到的情况下,我都有某种结构化数据-无论是在内存中还是文本中-我想用它来构建其他东西。我认为将序列化逻辑与实际业务逻辑分开会很好,这样我以后就可以轻松支持多种XML格式。 最佳答案 我最
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_
无论您是想搭建桌面端、WEB端或者移动端APP应用,HOOPSPlatform组件都可以为您提供弹性的3D集成架构,同时,由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台(桌面/WEB/APP,而且某些客户端是“瘦”客户端)快速、方便地将数据接入到3D应用系统的解决方案,并且当访问数据时,在各个平台上的性能和用户体验保持一致,HOOPSPlatform将帮助您完成。利用HOOPSPlatform,您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品,HOOPSSDK包含的技术有:快速且准确的CAD
我正在编写一个简单的静态Rack应用程序。查看下面的config.ru代码:useRack::Static,:urls=>["/elements","/img","/pages","/users","/css","/js"],:root=>"archive"map'/'dorunProc.new{|env|[200,{'Content-Type'=>'text/html','Cache-Control'=>'public,max-age=6400'},File.open('archive/splash.html',File::RDONLY)]}endmap'/pages/search.