草庐IT

故障灯

全部标签

故障现场 | 控制好取值范围,甭给别人犯错的机会

1.问题&分析1.1.案例小艾刚刚和大飞哥炒了一架,心情非常低落。整个事情是这样,小艾前段时间刚刚接手订单系统,今天收到一大波线上NPE(NullPointerException)报警,经排查发现订单表的商品类型(ProductType)出现一组非法值,在展示订单时由于系统无法识别这些非法值导致空指针异常。小艾通过排查,发现订单来自于市场团队,于是找到团队负责人大飞哥,并把现状和排查结果进行同步。经过大飞哥的排查,确实是在前端的各种跳转过程中导致商品类型参数被覆盖,立即安排紧急上线进行修复。整个事情处理速度快也没造成太大损失,但在事故复盘过程中出现了偏差:小艾认为核心问题是调用方没有按规范进行

C(初学者)中的分割故障

我是C编程的新手,这里有非常简单的代码。它编译但不会运行,并且会出现细分故障。我一直在寻找几个小时可能出了什么问题。现在,我有一个很好的了解,分段故障的含义,但为什么它在我的一小部分代码中显示出来:它应该打印给给定参数的user_id和group_id。#include#include#include#includeintmain(intargc,char*argv[]){if(argc!=1){printf("ERROR");}structpasswdstr;structpasswd*pointer=getpwnam(argv[1]);str=*pointer;printf("user:%d

如何在Elasticsearch中添加故障转移节点

我目前在WindowsServer中有Elasticsearch的单个节点。您能解释一下如何在不同机器中添加一个额外的节点以进行故障转移吗?我也想知道如何使用NEST保持两个节点相同。看答案通常,您不运行故障转移节点,但运行一组节点以提供高可用性。最低拓扑的3个主要合格节点minimum_master_nodes设置为2和碎片策略,该策略在节点上分布主要和复制碎片以提供数据冗余,这是我认为在生产中运行的最低可行拓扑。

【故障排查】dig通过coredns的svc IP,解析pod的fqdn出现connection timed out; no servers could be reached

环境信息:#另一个环境master1、master2、node1、node2k8s1.22、docker、calico、node2上有kuboard问题描述:dig通过coredns的svcIP,解析pod的fqdn出现connectiontimedout;noserverscouldbereached最终处理方法:删掉node2上的kuboard创建的网络。正常的状态:node2也有去往calico的路由信息了造成“故障”的操作为:至于为啥会故障/冲突,似懂非懂。(在创建了docker网络的情况下。容器不会走docker0的?!),node2有两个bridge排查方法(***):总结下排查方

Android 与 WCF Web 服务使用 ksoap2 - 错误 SoapFault - 故障代码 : ‘a:ActionNotSupported’

我做了一个简单的项目来使用ksoap2调用wcfweb服务。但是当它调用信封.getResponse();它给出了错误的说法————–“SoapFault–faultcode:‘a:ActionNotSupported’faultstring:‘ThemessagewithAction‘GetString’cannotbeprocessedatthereceiver,duetoaContractFiltermismatchattheEndpointDispatcher.Thismaybebecauseofeitheracontractmismatch(mismatchedActions

2023-11-12阿里云故障解密和反思

    阿里云故障过去一段时间了,目前原因基本确认了;相关原因和反思可以重新思考一下看看有哪些是值得借鉴和反思的地方先来看一下网上披露官方报告原因访问密钥服务(AK)在读取白名单数据时出现读取异常,因处理读取异常的代码存在逻辑缺陷,生成了一份不完整白名单,导致不在此白名单中的有效请求失败,影响云产品控制台及管控API服务出现异常,同时部分依赖AK服务的产品因不完整的白名单出现部分服务运行异常。改进措施1、增加AK服务白名单生成结果的校验及告警拦截能力。2、增加AK服务白名单更新的灰度验证逻辑,提前发现异常。3、增加AK服务白名单的快速恢复能力。4、加强云产品侧的联动恢复能力。问题回顾2023年

android - Gradle:上传 app-local-debug.apk 时出错:未知故障 ([CDS]close[0])

我正在尝试使用gradlewcAT命令通过我的Android手机执行已连接的Android测试。但我收到以下错误日志,无法安装该应用程序。如果使用adb命令,应用程序将被安装。上面的命令在OnePlusOne手机上可以正常工作,但在Lenovo和Asus上不行错误日志如下:Unabletoinstall/home/admin/MyApp/app/build/outputs/apk/app-local-debug.apkcom.android.ddmlib.InstallException:Failedtoinstallallatcom.android.ddmlib.SplitApkIn

Android 媒体播放器音频故障/断断续续仅在较新的设备上

我有一个相当标准的媒体播放器对象,它在onCreate中启动并在我的应用程序中循环播放背景音乐。该文件不是特别大,它是一个6MB的MP3。来自onCreate:MediaPlayermp;mp=MediaPlayer.create(MainActivity.this,R.raw.lostmexicancity);mp.setLooping(true);mp.setVolume(0.4f,0.4f);mp.start();这在我的大多数测试设备上运行良好,包括旧手机、SamsungGalaxyTab210"平板电脑,甚至Nexus4。不幸的是,我在Nexus5和更新的Nexus10上遇到

容器故障?别慌:debug 不行,还有superdebug

这篇内容主要探讨了 Kubernetes 的调试功能,介绍了kubectldebug和kubectlsuperdebug。它们支持容器挂载并且能够调试一些需要排查问题的 Pod。文章指出了在Kubernetes中使用kubectlexec命令的限制,并介绍了kubectldebug的作用,它能创建一个新的容器来调试运行中的容器,并且能够在同一个Pod内共享系统资源。此外,还提到了ephemeralcontainers,它们在调试过程中可以临时运行在现有的Pod中,支持一些排查操作。最后,文章还提及了一些非Kubernetes本地调试容器的方法,包括使用DockerEngine或者一些基于Lin

一次 K8s 升级,竟然导致滴滴故障 12 小时?

大家好,我是君哥。前段时间滴滴的故障相信大家都知道了。中断业务12小时定级为P0级故障一点都不冤。图片故障回顾网上有传言是运维人员升级k8s时,本来计划是从1.12版本升级到1.20,但是操作失误选错了版本,操作了集群降级到低版本。从下面滴滴技术的博客中也可以看到滴滴的升级方案:图片滴滴为了降低升级成本,选择了原地升级的方式。首先升级master,然后升级node。我们一起看一下k8s官方架构:图片master(官网图中叫CONTROLPLANE)节点由 3个重要的组件组成:cloud-controller-manager:负责容器编排;kube-api-server:为Node节点提供api