memory - 无 ECC 平台的软件内存位翻转检测

coder 2023-06-04 原文

大多数可用的桌面(廉价)x86 平台现在仍然不支持 ECC 内存 (Error Checking & Correction)。但内存位翻转错误率仍在增长(not the best SO thread，Large scale CERN 2007 study "Data integrity":“其内存模块的位错误率为 10^-12 ...观察到的错误率为比预期低 4 个数量级”；2009 年 Google 的 "DRAM Errors in the Wild: A Large-Scale Field Study")。对于当前具有数据密集型负载(8 GB/s 读取)的硬件，这意味着可能每分钟(来自 CERN07 的 10^-12 个供应商 BER)或两天一次(10< cern07="" 的="" sup="">-16 BER)。 Google09 表示每 Mbit 最多可以有 25000-75000 位 FIT(每十亿小时的时间故障)，这相当于 8GB RAM 每小时 1-5 位错误(“平均可纠正错误率每年每 GB 2000–6000")。

所以，我想知道，是否可以在系统范围内添加某种软件错误检测(检查用户和内核内存)。例如，为 Linux 内核和/或系统编译器创建一个补丁，为每个内存页面添加一些校验和，并尝试通过定期重新计算校验和来检测静默内存损坏(位翻转)？

例如，我们能否查看所有对内存的写入(来自用户和内核空间)，以区分预期的内存更改和内存中的位翻转？或者我们可以通过一些帮助程序以某种方式检测所有代码吗？

我了解任何类型的软件内存 ECC 都可能会消耗大量性能并且不会捕获所有错误，但我认为尽早检测至少一些内存位翻转是有用的，然后它们将在以后被重用计算或存储到硬盘驱动器。

我也明白更好的数据保护方法是切换到 ECC 硬件，但大多数 PC 仍然是非 ECC。

最佳答案

问题是，与“软件 ECC 对策”相比，ECC 非常便宜。您可以轻松检测他们是否有 ECC 模块并在没有时提示(或打印警告)。

http://www.cyberciti.biz/faq/ecc-memory-modules/

For example, can we see all writes to memory (both from user and kernel space), to distinguish between intended memory changes from in-memory bit flips? Or can we somehow instrument all codes with some helper?

呃，你永远不会“看到”总线上的位翻转。它们实际上是由粒子撞击 RAM 引起的，稍微翻转一下。直到很久以后，您才能注意到您读出的内容与您写入的内容不同。要仅通过总线检测到这一点，您需要一份 all RAM 的副本(即创建一个影子副本)位于您的真实 RAM 中，因此您可以验证每次读取都返回写入该位置的内容。)

try to detect silent memory corruptions (bit-flips) by regular recomputing of checksums?

Redis 专家对用于测试 RAM 是否存在问题的算法写了一篇很好的文章。 http://antirez.com/news/43但这实际上是在寻找 RAM 错误，而不是随机位翻转。

如果“重新计算校验和”仅在您不写入内存时有效。这可能“足够好”，但您需要弄清楚哪些页面没有被写入。

要捕获 100% 的错误，每次写入之前都必须先计算该内存块的校验和，然后将其与记录的校验和进行比较(以确保该 block 在 RAM 中没有降级)。只有这样才能安全地进行写入然后更新校验和。正如你可以想象的那样，它的性能将是可怕的(至少慢 100 倍)。

I understand that any kind of software memory ECC may cost a lot of performance and will not catch all errors, but I think it can be useful to detect at least some memory bit-flips early, before they will be reused in later computations or stored to hard drive.

嗯，有一种简单的方法可以检测 100% 的错误，但会以 50% 的性能为代价:只需一次在 2 个盒子上运行计算(或者在两个不同时间在一个盒子上运行，可能需要进行 RAM 测试)如果您偏执，则介于两者之间。)如果结果不同，则说明您检测到错误。

另见:

https://www.linuxquestions.org/questions/linux-hardware-18/how-to-detect-ecc-memory-errors-under-linux-886011/

关于memory - 无 ECC 平台的软件内存位翻转检测，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23587591/

有关memory - 无 ECC 平台的软件内存位翻转检测的更多相关文章

ruby-on-rails - Ruby net/ldap 模块中的内存泄漏 - 2
作为我的Rails应用程序的一部分，我编写了一个小导入程序，它从我们的LDAP系统中吸取数据并将其塞入一个用户表中。不幸的是，与LDAP相关的代码在遍历我们的32K用户时泄漏了大量内存，我一直无法弄清楚如何解决这个问题。这个问题似乎在某种程度上与LDAP库有关，因为当我删除对LDAP内容的调用时，内存使用情况会很好地稳定下来。此外，不断增加的对象是Net::BER::BerIdentifiedString和Net::BER::BerIdentifiedArray，它们都是LDAP库的一部分。当我运行导入时，内存使用量最终达到超过1GB的峰值。如果问题存在，我需要找到一些方法来更正我的代
ruby - RuntimeError(自动加载常量 Apps 多线程时检测到循环依赖 - 2
我收到这个错误:RuntimeError(自动加载常量Apps时检测到循环依赖当我使用多线程时。下面是我的代码。为什么会这样？我尝试多线程的原因是因为我正在编写一个HTML抓取应用程序。对Nokogiri::HTML(open())的调用是一个同步阻塞调用，需要1秒才能返回，我有100,000多个页面要访问，所以我试图运行多个线程来解决这个问题。有更好的方法吗？classToolsController0)app.website=array.join(',')putsapp.websiteelseapp.website="NONE"endapp.saveapps=Apps.order("
ruby-on-rails - Ruby 中的内存模型 - 2
ruby如何管理内存。例如:如果我们在执行过程中采用C程序，则以下是内存模型。类似于这个ruby如何处理内存。C:__________________|||stack|||------------------||||------------------|||||Heap|||||__________________|||data|__________________|text|__________________Ruby:? 最佳答案 Ruby中没有“内存”这样的东西。Class#allocate分配一个对象并返回该对象。这就是程序
软件测试基础 - 2
Ⅰ软件测试基础一、软件测试基础理论1、软件测试的必要性所有的产品或者服务上线都需要测试2、测试的发展过程3、什么是软件测试找bug，发现缺陷4、测试的定义使用人工或自动的手段来运行或者测试某个系统的过程。目的在于检测它是否满足规定的需求。弄清预期结果和实际结果的差别。5、测试的目的以最小的人力、物力和时间找出软件中潜在的错误和缺陷6、测试的原则28原则：20%的主要功能要重点测（eg：支付宝的支付功能，其他功能都是次要的）80%的错误存在于20%的代码中7、测试标准8、测试的基本要求功能测试性能测试安全性测试兼容性测试易用性测试外观界面测试可靠性测试二、质量模型衡量一个优秀软件的维度①功能性功
键删除后 ruby 哈希内存泄漏 - 2
你好，我无法成功如何在散列中删除key后释放内存。当我从哈希中删除键时，内存不会释放，也不会在手动调用GC.start后释放。当从Hash中删除键并且这些对象在某处泄漏时，这是预期的行为还是GC不释放内存？如何在Ruby中删除Hash中的键并在内存中取消分配它？例子:irb(main):001:0>`ps-orss=-p#{Process.pid}`.to_i=>4748irb(main):002:0>a={}=>{}irb(main):003:0>1000000.times{|i|a[i]="test#{i}"}=>1000000irb(main):004:0>`ps-orss=-p
ruby-on-rails - HTTParty 的内存问题和下载大文件 - 2
这会导致Ruby出现内存问题吗？我知道如果大小超过10KB，Open-URI会写入TempFile。但是HTTParty会在写入TempFile之前尝试将整个PDF保存到内存吗？src=Tempfile.new("file.pdf")src.binmodesrc.writeHTTParty.get("large_file.pdf").parsed_response 最佳答案您可以使用Net::HTTP。参见thedocumentation(特别是标题为“流媒体响应机构”的部分)。这是文档中的示例:uri=URI('http://e
ruby - 检测由 RSpec、Ruby 运行的代码 - 2
我想知道我的代码是否在rspec下运行。这可能吗？原因是我正在加载一些错误记录器，这些记录器在测试期间会被故意错误(expect{x}.toraise_error)弄得乱七八糟。我查看了我的ENV变量，没有(明显的)测试环境变量的迹象。最佳答案在spec_helper.rb的开头添加:ENV['RACK_ENV']='test'现在您可以在代码中检查RACK_ENV是否经过测试。关于ruby-检测由RSpec、Ruby运行的代码，我们在StackOverflow上找到一个类似的问题
ruby - 使用 Ruby Daemons gem 检测停止 - 2
我正在使用rubydaemongem。想知道如何向停止操作添加一些额外的步骤？希望我能检测到停止被调用，并向其添加一些额外的代码。任何人都知道我如何才能做到这一点？最佳答案查看守护程序gem代码，它似乎没有用于此目的的明显扩展点。但是，我想知道(在守护进程中)您是否可以捕获守护进程在发生“停止”时发送的KILL/TERM信号...？trap("TERM")do#executeyourextracodehereend或者你可以安装一个at_exit钩子(Hook):-at_exitdo#executeyourextracodehe
ruby - Ruby 脚本如何检测到它正在 irb 中运行？ - 2
我有一个定义类的Ruby脚本。我希望脚本执行语句BoolParser.generate:file_base=>'bool_parser'仅当脚本作为可执行文件被调用时，而不是当它被irbrequire(或通过-r在命令行上传递)时。我可以用什么来包装上面的语句，以防止它在我的Ruby文件加载时执行？最佳答案条件$0==__FILE__...!/usr/bin/ruby1.8classBoolParserdefself.generate(args)p['BoolParser.generate',args]endendif$0==_
Ruby 无法检测字符串中的换行符 - 2
我有以下字符串，我想检测那里的换行符。但是Ruby的字符串方法include?检测不到它。我正在运行Ruby1.9.2p290。我哪里出错了？"/'ædres/\nYour".include?('\n')=>false 最佳答案 \n需要在双引号内，否则无法转义。>>"\n".include?'\n'=>false>>"\n".include?"\n"=>true 关于Ruby无法检测字符串中的换行符，我们在StackOverflow上找到一个类似的问题： h

memory - 无 ECC 平台的软件内存位翻转检测

有关memory - 无 ECC 平台的软件内存位翻转检测的更多相关文章

随机推荐