草庐IT

如何排查和修复数据丢失问题?

Thoughtworks洞见 2023-12-19 原文

作者 | 林冰玉

一、离奇的数据丢失案件

最近生产环境出了一起数据离奇丢失的案件,调查过程很曲折,几度进入死胡同。下面跟大家分享整个事件的来龙去脉。

1. 数据丢失案件

8月初,用户批量导入了一批(300+)委托人数据,导入后检查过数据都没有问题。最近(10月中),处理那些委托人的时候,发现所有委托人的某几个列表(list)类型的自定义字段的值都没有了……

用户报过来以上问题,涉及到数据丢失,是高优先级问题,客户为此特别紧张。

团队随即展开调查。

2. 补充说明

为了更好地解释这个问题,补充如下信息:

委托人的信息存在于两个系统中:从A系统导入,存入A系统的数据库,同时会有同步机制把数据同步到B系统的数据库;在B系统也可以修改这些数据,修改完会同时写入A、B两个系统。

丢失数据的“字段”(不是字段的“值”)本身是通过list类型来自定义的,也就是说不同类型的委托人可能看到的字段是不一样的;而丢失的是自定义字段对应的“值”。

3. 案件排查过程

案件排查过程

(1) 团队第一反应是怀疑双写和同步之间出了问题,但仔细检查后觉得没法成立。

(2) 怀疑B系统的用户操作不当导致数据被抹去。但是,通过检查数据变更event,没有发现来自B系统的event;况且,现在丢失的是一批数据,B系统并没有批量操作的入口。

(3) 是不是A系统进行过批量操作,导致数据被重写?开发人员看代码,测试人员尝试重试各种相关场景,也是没有成功;同时,从event里也没有找到跟这批委托人相关的任何可疑event。

(4) 会不会是第三方的系统写入导致数据丢失?随即查看第三方的api和相关event,也是没有找到任何可疑迹象。

(5) 能想到的用户相关操作都试过了,也没有任何相关event的记录,难道是直接运行SQL脚本把数据删除了?客户的相关人员不会无故去运行脚本,怀疑可能我们提供的某次修复生产环境问题的脚本搞得鬼……查看最近这段时间的脚本记录,大家放心了,没有脚本会导致数据丢失!

(6) 真的是见鬼了!怎么可能数据就这么莫名其妙的丢了呢?!调查小组几经折腾已经筋疲力尽了,决定求助资深专家小陈。小陈同学听了前面的排查过程,好像真的天衣无缝,但他还是不甘心,决定再去看看event和log。他重新查了前面提到的那些委托人相关的event,的确没有发现任何可疑。又仔细看了看用户报过来的问题,发现竟然只是list类型的值丢失了!这一定有什么不对!他赶紧去查看那几个list字段相关event,终于真相大白了!原来是有用户把list里的选项删除又重新以不同顺序添加了一遍,从而导致原来用这些选项的字段的值都没有了!

二、案件引发的思考

找到了罪魁祸首,案件也就侦破了。不过,经历这次惊心动魄的数据丢失案件,我们该有哪些启发和思考呢?下面,我从问题排查、修复问题和制定预防措施几个维度进行反思和总结。

数据丢失案件的思考

1. 问题排查

数据出现问题相对比较严重,团队都会着急去排查原因,不过,在开始排查之前,有更重要的事情要做。我认为问题排查也分两个步骤:清晰识别问题、定位问题。

(1) 清晰识别问题

对于数据丢失的情况,首先要搞清楚丢失的数据类型,以及丢失数据的时间段和对应的系统/功能模块等。案件中小陈就是进一步识别了问题,发现了问题的根本点在于只有list类型自定义字段对应的数值有丢失,因此找到了问题的突破口。

因此,清晰识别问题,才可能朝着更加正确的方向去排查问题,这一点至关重要!

(2) 定位问题

  • 收集日志、Event等信息:查看系统日志、数据库日志和其他相关的系统记录,收集可能有关丢失数据的信息,例如异常情况、错误信息、登录记录等。
  • 对收集到的信息进行分析,以确定可能导致数据丢失的原因。例如,检查数据库或其他系统的异常操作、网络连接或系统故障等。
  • 排查过程需要结合业务、开发、测试和运维人员的力量,考虑可能会影响的业务场景,从界面操作和系统代码两方面入手,同时排查各种可能性。案件中的定位问题过程还是做的比较周全的,对于复杂的系统,就得集团队之力一步一步细心地去排查;甚至有的时候需要借助外部专家的力量,外部力量作为旁观者加入,可能会事半功倍,起到关键作用。

2. 修复问题

数据丢失问题的修复需要处理以下几种情况:恢复数据、修复代码缺陷、审查安全措施。

(1) 恢复数据

数据丢失问题,最紧急的是恢复数据。如果有备份数据,则可以尝试使用备份数据进行恢复。如果没有备份,则可能需要使用数据恢复工具或其他手段尝试恢复丢失的数据。

(2) 修复代码缺陷

如果数据丢失是因代码缺陷导致,在恢复数据之后需要修复相应的代码问题。本案件中的自定义字段被使用,但是还允许用户删除该字段,且没有收到任何提示,这也是一种代码缺陷,是需要结合真实业务使用情况进行完善和修复的。

(3) 审查安全措施

数据丢失也可能是代码以外的其他原因所致,需要评估现有的安全措施。例如数据备份策略、数据恢复策略、访问控制和身份验证措施、加密和防火墙等。以确定是否存在缺陷或漏洞,并进行相应的修复和改进。

3. 制定预防措施

任何问题如果能做到防患于未然当然是最好的!分析数据丢失事件的原因和影响,制定预防措施以避免类似事件再次发生至关重要。例如,加强数据备份和恢复策略、加强安全防范和监控、加强员工培训和管理等。

《都是脏数据惹的祸》一文对于脏数据的预防有详细的介绍,而数据丢失也是脏数据的一种形式,适用同样的预防措施。

有关如何排查和修复数据丢失问题?的更多相关文章

  1. ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2

    我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div

  2. ruby - 如何从 ruby​​ 中的字符串运行任意对象方法? - 2

    总的来说,我对ruby​​还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用

  3. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  4. ruby-on-rails - 如何验证 update_all 是否实际在 Rails 中更新 - 2

    给定这段代码defcreate@upgrades=User.update_all(["role=?","upgraded"],:id=>params[:upgrade])redirect_toadmin_upgrades_path,:notice=>"Successfullyupgradeduser."end我如何在该操作中实际验证它们是否已保存或未重定向到适当的页面和消息? 最佳答案 在Rails3中,update_all不返回任何有意义的信息,除了已更新的记录数(这可能取决于您的DBMS是否返回该信息)。http://ar.ru

  5. ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2

    我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗?当我运行compasswatch时,它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行?文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们?我自己编译的.sass文件编译成compiled/t

  6. ruby - 在 64 位 Snow Leopard 上使用 rvm、postgres 9.0、ruby 1.9.2-p136 安装 pg gem 时出现问题 - 2

    我想为Heroku构建一个Rails3应用程序。他们使用Postgres作为他们的数据库,所以我通过MacPorts安装了postgres9.0。现在我需要一个postgresgem并且共识是出于性能原因你想要pggem。但是我对我得到的错误感到非常困惑当我尝试在rvm下通过geminstall安装pg时。我已经非常明确地指定了所有postgres目录的位置可以找到但仍然无法完成安装:$envARCHFLAGS='-archx86_64'geminstallpg--\--with-pg-config=/opt/local/var/db/postgresql90/defaultdb/po

  7. ruby - 如何将脚本文件的末尾读取为数据文件(Perl 或任何其他语言) - 2

    我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚

  8. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  9. ruby - 通过 rvm 升级 ruby​​gems 的问题 - 2

    尝试通过RVM将RubyGems升级到版本1.8.10并出现此错误:$rvmrubygemslatestRemovingoldRubygemsfiles...Installingrubygems-1.8.10forruby-1.9.2-p180...ERROR:Errorrunning'GEM_PATH="/Users/foo/.rvm/gems/ruby-1.9.2-p180:/Users/foo/.rvm/gems/ruby-1.9.2-p180@global:/Users/foo/.rvm/gems/ruby-1.9.2-p180:/Users/foo/.rvm/gems/rub

  10. ruby - 如何指定 Rack 处理程序 - 2

    Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时,rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack

随机推荐