草庐IT

故障灯

全部标签

滴滴2023.11.27P0级故障技术复盘回顾(k8s的的错?)

本文从滴滴官方恢复及技术公众号带大家从技术角度复盘这次事故目录1.背景2.滴滴官方消息3.问题分析及定位4.网传的k8s及解析5.k8s引发的思考:举一反三,怎么避免再次出现6.近段时间其他平台崩溃回顾1.背景11月27晚约10点,滴滴打车遭遇大范围技术故障。用户在使用滴滴的应用程序及小程序时遇到诸多问题,包括叫车功能反应迟缓、无法使用青桔单车扫码功能,以及领取打车优惠券功能失效。直至第二天早上,滴滴发文已恢复正常。根据微博反馈发现了如下问题:网络加载异常,无法排单;数据紊乱,一个订单被派到4个司机订单中;数据展示、数据状态有误,订单取消、订单支付都出现问题;排单逻辑出错,司机接单到两千公里以

android - 60 fps 时的 Kindle Fire 故障和纹理损坏

这似乎是一个特定于Fire的GPU问题,我将不胜感激任何帮助或建议。在大多数情况下,我的塔防游戏能够以每秒60帧的速度运行,即使有数十个敌人和塔向各个方向射击。然而,在看似随机的时间(即使什么都没有发生——比如坐在主菜单上)非常均匀间隔的400毫秒停顿以大约2-3秒的间隔暂停游戏。然后突然间,故障会消失,16x16像素的纹理block将随机不渲染。这2个故障似乎是相互排斥的,就像我说的那样,可以通过启动游戏并从主菜单导航到关卡选择屏幕来简单地触发,在该屏幕上加载的资源最少,并且发生的游戏逻辑很少。我将OpenSL用于音效,并且我注意到禁用sfx会将停顿持续时间更改为280毫秒。然后我手

android - 诊断 HTC One/lollipop 上的警报故障

我正在开发一个闹钟应用程序,它适用于我尝试过的所有设备,但配备AndroidLollipop的HTCOne除外。应用程序UI一切正常,但当闹钟响起时,没有任何反应,没有声音,也没有“停止”按钮。不幸的是HTC不是我的,所以我只能偶尔和短暂地访问它,我无法将它连接到我的PC以查看日志。我有Genymotion,但它只有HTCOne和Android4.4的仿真。我的闹钟在这方面工作得很好。我还尝试过使用Lollipop的xperiaZ和galaxySIII,它们都运行良好。它还适用于具有早期版本android的各种其他设备。所以我希望得到一些可能的解释,或者一些可能的诊断问题的机制。或者可

CentOS Linux服务器无法远程 SSH 登录故障处理

在管理CentOSLinux服务器时,远程SSH登录是一项关键功能。然而,有时候你可能会遇到无法通过SSH远程登录到服务器的问题。这篇文章将为你提供一些故障处理的步骤,帮助你解决这个问题。以下是一些可能导致无法远程SSH登录的常见问题和相应的解决方法:确认SSH服务是否正在运行:首先,你需要确认SSH服务是否正在运行。SSH服务负责监听来自远程客户端的连接请求。你可以通过运行以下命令来检查SSH服务的状态:systemctlstatussshd如果SSH服务正在运行,你应该看到类似于“Active:active(running)”的输出。如果服务没有运行,你可以使用以下命令启动SSH服务:sy

【数据库】数据库可恢复性目标的实现模型,针对灾难级故障的数据完整性保护对策

系统故障的对策​专栏内容:手写数据库toadb本专栏主要介绍如何从零开发,开发的步骤,以及开发过程中的涉及的原理,遇到的问题等,让大家能跟上并且可以一起开发,让每个需要的人成为参与者。本专栏会定期更新,对应的代码也会定期更新,每个阶段的代码会打上tag,方便阶段学习。​开源贡献:toadb开源库个人主页:我的主页管理社区:开源数据库座右铭:天行健,君子以自强不息;地势坤,君子以厚德载物.文章目录系统故障的对策前言概述故障的类型可恢复操作的模型日志恢复备份总结结尾irect/407dc6c10d524f2f80cdeddc71f76a18.jpeg#pic_center)前言随着信息技术的飞速发

android - 检索数据时 Phonegap 摄像头故障

----------------更新----------------HTCDesire相机和此版本的Phonegap似乎存在某种问题。问题似乎是HTC在Android上返回相机规范的方式。----------------更新----------------我一直在使用phonegap重写我以前应用程序的代码,但我不需要使用相机API。当我在真手机上使用它时,拍照后它崩溃了,我在SendLog中遇到了这个错误。10-0709:44:46.980D/AndroidRuntime(1626):ShuttingdownVM10-0709:44:46.980W/dalvikvm(1626):th

彻底搞懂 K8S Pod Pending 故障原因及解决方案

即使在高成熟度级别Kubernetes集群中podpending也是无处不在。如果您随机询问任何使用KubernetesDevOps工程师来确定折磨他们噩梦的最常见错误,podpending可能是非常常见的问题(可能仅次于CrashLoopBackOff)。尝试推送更新并看到它卡住会使DevOps紧张。即使解决方案相当简单,找到pod挂起的原因并了解您需要应用的更改也很重要(Kubernetes故障排除很少是微不足道的)。在本文中,我们将阐明导致此问题的不同情况,让DevOps团队能够快速找到解决方案,最重要的是,尽可能避免它。KubernetesPodpending是什么意思?Kuberne

Redis哨兵模式,一主二仆反客为主,论故障转移和恢复能力还得是它呀

实际场景分析:为了解决主从模式的无法自动容错及恢复的问题,Redis引入了一种哨兵模式的集群架构。哨兵模式是在主从复制的基础上加入了哨兵节点。哨兵节点是一种特殊的Redis节点,用于监控主节点和从节点的状态。当主节点发生故障时,哨兵节点可以自动进行故障转移,选择一个合适的从节点升级为主节点,并通知其他从节点和应用程序进行更新。图片 在原来的主从架构中,引入哨兵节点,其作用是监控Redis主节点和从节点的状态。每个Redis实例都可以作为哨兵节点,通常需要部署多个哨兵节点,以确保故障转移的可靠性。好啦,话不多说,接下来就让我们一起实操吧!看重点看到最后:免费领取详细的Word文档?图片01哨兵模

滴滴致歉公布事故原因:底层软件出故障,补偿方案引不满:最后竟是司机买单!

整理| 小欧出品|51CTO技术栈(微信号:blog51cto)11月29日,滴滴出行通过官方微博再一次致歉。滴滴出行表示,11月27日夜间发生的系统故障,给广大用户造成了诸多困扰和不便,在大家需要的时候,让大家失望了,再次向大家真诚致歉。同时,滴滴出行表示,各项服务恢复的同时,在28日启动了内部复盘调查。初步确定,这起事故的起因是底层系统软件发生故障,并非网传的“遭受攻击”。滴滴出行称,后续将深入开展技术风险隐患排查和升级工作,全面保障服务稳定性,尽最大努力避免类似事故再发生。目前,滴滴App的所有服务已经全部恢复。因这起事故给大家造成的困扰和问题,正在加快妥善解决。图片1、从道歉到被要求补

通过滴滴技术博客:探寻造成此次P0故障的真正原因

2023年11月27日晚至2023年11月28日早晨,滴滴发生了长达12小时的P0级故障,导致滴滴核心业务都受到了影响,比如不显示定位无法打车、滴滴单车无法扫码等问题,期间滴滴进行了多次致歉目前问题故障已经恢复,根据最新的消息得知造成此次事故的原因,是由于升级K8S集群导致那么在K8s升级过程中,遇到了那些问题,我们可以从滴滴弹性云基于K8S的调度实践文章中看出一些原因1.集群体量大最大集群规模已经远远超出了社区推荐的5千个node上限,有问题的爆炸半径大;2.版本升级跨度大直接从1.12升级到了1.20,跨越多个版本,有可能存在api不兼容的问题3.升级方式应该选择了原地升级虽然滴滴有能力基