草庐IT

故障灯

全部标签

通过滴滴技术博客:探寻造成此次P0故障的真正原因

2023年11月27日晚至2023年11月28日早晨,滴滴发生了长达12小时的P0级故障,导致滴滴核心业务都受到了影响,比如不显示定位无法打车、滴滴单车无法扫码等问题,期间滴滴进行了多次致歉图片            来源:https://weibo.com/2838754010/NuMAAaUEl目前问题故障已经恢复,根据最新的消息得知造成此次事故的原因,是由于升级K8S集群导致图片1.集群体量大最大集群规模已经远远超出了社区推荐的5千个node上限,有问题的爆炸半径大;图片2.版本升级跨度大直接从1.12升级到了1.20,跨越多个版本,有可能存在api不兼容的问题3.升级方式应该选择了原地

阿里云史诗级故障赔偿拿到了!但是业务也是影响的一片狼藉

2023年11月12日18时许,阿里云发布公告称,阿里云云产品控制台服务异常,阿里云立即发布公告,公告显示,北京时间2023年11月12日17:44起,阿里云监控发现云产品控制台访问及API调用出现异常,阿里云工程师正在紧急介入排查。工程师通过分批重启组件服务,绝大部分地域控制台服务已恢复访问。业务影响数据排查图片排查图片结果最终结果是三分之一的直播录制视频完全丢失,其它的录制视频都是不完整,也就是说只录制了前半部分,后半部分是没有的。赔付PS:由于业务影响较大,所以除了代金券赔付,还有额外的现金赔付,现金数额㊙️㊙️赔偿短信【阿里云】尊敬的xxx:您好,非常抱歉阿里云11月12日发生的产品故

国民级应用滴滴11.27故障12小时全称回顾,看完,你想到些什么?

国民级应用滴滴出行,服务不可用长达12个多小时,你敢想,这可是出行类关键基础设施,免不了被约谈,又要有人背锅了。滴滴出行市场份额70%~80%,经这次故障折腾,估计市场份额占有率直接减少5%~10%。据了解高德系打车连夜扩容服务器,以应对这实属罕见的机会,滴滴故障,高德吃撑,平时高德叫车根本不用排队,用不着排队,今天排队了,排队了,你敢想,我德也硬气了一把。本次故障缘起一次使用滴滴打车,时间:2023-11-2722:26:25司机:您好,我已经到达您的定位地点,您在哪呢?乘客:啊,我这定位显示您没到啊?司机:啊,我到了啊!乘客:啊,您没到啊!。。。。。。。。在司机与乘客的争论中,国民级应用滴

网络故障的隐形元凶:MTU配置你了解吗?

背景我司使用的是亚马逊厂商的云服务,厂商的消息队列产品我们并没有用,我们选择自建,自建的好处是更灵活,定制性更广。公司内部有多套Kafka集群,100+broker节点,针对kafka我司也有比较完善的自动化运维管理体系,最近出现过一次业务连接kafka集群频繁超时的情况,在这里记录下处理过程,加深对网络知识的理解。问题现象业务收到服务可用性下降报警,分析日志发现是连接亚马逊kafka集群有频繁超时,超时日志如下:基本分析影响因素:多台主机同时报警,排查单台主机问题。集群检查:立即确认kafka集群以及涉及到topic健康状态。集群状态正常,收发消息正常,压力负载正常;topic读写正常。变更

Mysql主从同步时Slave_SQL_Running状态为Yes , 但是Slave_IO_Running状态为Connecting以及NO的情况故障排除

感兴趣的话大家可以关注一下公众号:猿人刘先生,欢迎大家一起学习,一起进步,一起来交流吧!1.环境说明主机IP:192.168.154.146从机1IP:192.168.154.147从机2IP:192.168.154.1482.故障记录当使用Navicat工具打开这三个数据库时,发现主库和从库的数据不同3.排查过程-(Slave_IO_Running状态为Connecting)3.1网络是否互通互ping三台机器,看机器之间相互能否ping通这里发现三台机器都能够相互ping通,所以排除网络原因3.2检查my.cnf文件192.168.154.146192.168.154.147192.168

java - 故障处理 "javax/xml/XMLConstants.class"

我正在开始一个新的Android项目。该项目引用了一个第三方JAR,该JAR又引用了另外4个jar:ws-commons-java5-1.0.1.jarws-commons-util-1.0.2.jarxmlrpc-client-3.1.3.jarxmlrpc-common-3.1.3.jar据我所知,我认为这4个jar是我认为的标准Java类。无论如何,我的构建路径中有所有这五个jar(上面的4个+1个第三方jar)。当我尝试运行我的Android应用程序时,我得到:Dxtroubleprocessing"javax/xml/XMLConstants.class":Ill-advis

android - Lollipop 上的微调器出现故障

我的Android项目构建目标是5.1.1API22此应用程序似乎适用于除Lollipop之外的所有操作系统版本。Lollipop重组了一些Activity的高度(取消了可滚动布局)并扰乱了微调器。点击微调器上的特定位置将在应用中输入不同的位置。我不确定为什么,也不知道如何解决。在某些情况下,即使您单击微调器上的按钮,它也会注册微调器上最底部可见的按钮。对于某些微调器,它根本不允许用户滚动。我的一个故障微调器代码是这样的:ArrayAdapteradapterl4=newArrayAdapter(this,android.R.layout.simple_spinner_item,hbm

【FTP】docker 连接ftp失败的,故障代码500 Illegal PORT command.处理过程

docker连接ftp失败的,故障代码500IllegalPORTcommand.处理过程故障现象:自建应用,改用docker搭建后,无法上传附件,docker内测试ftp连接,提示错误500IllegalPORTcommand.宿主机ftp测试连接,425Failedtoestablishconnection。本地ftp服务器测试连接,上传正常。windows10ftp工具连接正常。处理过程vim/etc/vsftpd.conf查看ftp配置模式被动模式分析原因:可能是防火墙端口设置的问题宿主机和ftp服务器执行modprobeip_conntrack_ftpmodprobeip_nat_f

【送书活动】阿里云经历的历史级的大故障,能给我们什么启迪?

作为一个淘系出来的人,参加过声势浩大的S11、S2大促;也和阿里云数据库团队、内核团队等并肩作战过;更是手握过六七百万的预算支持阿里云的服务,更是他们的至尊群用户,得知此次重大故障后,也甚是惊讶。从阿里云的角度看,这次故障很“不阿里云”,毕竟阿里云一向以安全稳定高可用自居,如此范围之大、持续时间之久、影响面如此广的故障,对阿里云的品牌形象绝对是致命的打击。目录回顾时间影响阿里系产品集体崩溃受影响云产品受影响地区生活的方方面面处理过程原因启迪稳定性代码需要稳定性设计上需要稳定性迭代变更需要稳定性最重要的是人员需要稳定性书籍推荐书籍名称:《收割Offer互联网大厂面经》内容介绍适合人群如何领书回顾

大数据之LibrA数据库系统告警处理(ALM-12007 进程故障)

告警解释进程健康检查模块按5秒周期检测进程状态。当进程健康检查模块连续三次检测到进程连接状态为故障时,产生该告警。当进程连接正常时,告警恢复。告警属性告警ID告警级别可自动清除12007严重是告警参数参数名称参数含义ServiceName产生告警的服务名称。RoleName产生告警的角色名称。HostName产生告警的主机名。对系统的影响该进程提供的业务不可用。可能原因实例进程异常。磁盘空间不足。说明:如果同一时间段,存在大量的进程故障告警,则可能存在安装目录文件被误删除或者权限被修改。处理步骤检查实例进程是否异常。打开FusionInsightManager页面,在告警列表中,单击此告警所在