草庐IT

故障灯

全部标签

面向故障处理的可观测性体系建设

笔者从12年开始入行,从事DevOps研发工作,做过部署系统、监控系统、可观测性相关产品,也做过SRE一线和管理工作,对于可观测性的理解和实践,有一些小小的见解,利用本文和大家做一个探讨分享。本文主要内容包括:可观测性在整个商业体系中的位置和价值如何快速发现故障,使用哪类指标告警SRE在谈论故障定位的时候,谈的是什么如何找到故障直接原因,找到止损依据如何让可观测性系统呈现观点,辅助洞察,定位故障可观测性在整个商业体系中的位置和价值做一个事,首先得有价值,如果价值太小不值得投入。可观测性也不例外,我们首先分析一下可观测性在整个商业体系中的位置和价值。思考第一个问题:作为在线类产品,我们希望客户/

ruby - 安装 Gherkin 2.1.5 的故障排除

我正在尝试安装Gherkin2.1.5,嗯,实际上它是https://github.com/opencongress/opencongress的依赖项.我在要安装的代码的根目录中使用bundleinstall,安装了大约20-30个包,现在我被困在这个上面。我在运行:Linux3.2.0-27-generic#43-UbuntuSMPLinuxMint13Maya这是停止安装后的输出。---snip--(abunchofusings)Installinggherkin(2.1.5)withnativeextensionsGem::Installer::ExtensionBuildErr

ruby - 安装 Gherkin 2.1.5 的故障排除

我正在尝试安装Gherkin2.1.5,嗯,实际上它是https://github.com/opencongress/opencongress的依赖项.我在要安装的代码的根目录中使用bundleinstall,安装了大约20-30个包,现在我被困在这个上面。我在运行:Linux3.2.0-27-generic#43-UbuntuSMPLinuxMint13Maya这是停止安装后的输出。---snip--(abunchofusings)Installinggherkin(2.1.5)withnativeextensionsGem::Installer::ExtensionBuildErr

linux - Linux 中的堆栈预故障 - 需要单个或多个故障

在Linux中,当进程从系统请求一些(虚拟)内存时,它只是在vma(进程虚拟内存的描述符)中注册,但在调用时并未保留每个虚拟内存的物理页面。之后,当进程要访问这个页面时,就会出错(访问会产生PageFault中断),PF#handler会分配物理页面并更新进程页表。有两种情况:读取时出错可能变成链接到写保护的零页(特殊全局预置零页);和写入错误(在零页和只是需要但尚未物理映射的页上)将导致实际的私有(private)物理页分配。对于mmaps(和brk/sbrk,它也是内部mmap),这个方法是每页的;所有mmaped区域都在vma中作为整体注册(它们具有开始和结束地址)。但是堆栈以其

linux - Linux 中的堆栈预故障 - 需要单个或多个故障

在Linux中,当进程从系统请求一些(虚拟)内存时,它只是在vma(进程虚拟内存的描述符)中注册,但在调用时并未保留每个虚拟内存的物理页面。之后,当进程要访问这个页面时,就会出错(访问会产生PageFault中断),PF#handler会分配物理页面并更新进程页表。有两种情况:读取时出错可能变成链接到写保护的零页(特殊全局预置零页);和写入错误(在零页和只是需要但尚未物理映射的页上)将导致实际的私有(private)物理页分配。对于mmaps(和brk/sbrk,它也是内部mmap),这个方法是每页的;所有mmaped区域都在vma中作为整体注册(它们具有开始和结束地址)。但是堆栈以其

能否在 Linux 上实现正确的故障安全进程共享屏障?

在过去的一个问题中,我询问了关于在没有破坏竞争的情况下实现pthreadbarrier的问题:Howcanbarriersbedestroyableassoonaspthread_barrier_waitreturns?并从MichaelBurr那里收到了针对进程本地障碍的完美解决方案,但对于进程共享障碍却失败了。我们后来也有过一些想法,但一直没有得出令人满意的结论,甚至没有开始进入资源故障案例。是否有可能在Linux上制作满足这些条件的屏障:进程共享(可以在任何共享内存中创建)。在屏障等待函数返回后立即安全地从任何线程取消映射或销毁屏障。不能因资源分配失败而失败。Michael尝试解

能否在 Linux 上实现正确的故障安全进程共享屏障?

在过去的一个问题中,我询问了关于在没有破坏竞争的情况下实现pthreadbarrier的问题:Howcanbarriersbedestroyableassoonaspthread_barrier_waitreturns?并从MichaelBurr那里收到了针对进程本地障碍的完美解决方案,但对于进程共享障碍却失败了。我们后来也有过一些想法,但一直没有得出令人满意的结论,甚至没有开始进入资源故障案例。是否有可能在Linux上制作满足这些条件的屏障:进程共享(可以在任何共享内存中创建)。在屏障等待函数返回后立即安全地从任何线程取消映射或销毁屏障。不能因资源分配失败而失败。Michael尝试解

linux - 围攻因套接字故障过多而中止

我在MacOSX10.8.3上尝试从围攻中运行以下命令时遇到了这个问题。siege-d1-c20-t2m-i-f-r10urls.txtSiege的输出如下:**SIEGE2.74**Preparing20concurrentusersforbattle.Theserverisnowundersiege...done.siegeabortedduetoexcessivesocketfailure;youcanchangethefailurethresholdin$HOME/.siegercTransactions:0hitsAvailability:0.00%Elapsedtime:2

linux - 围攻因套接字故障过多而中止

我在MacOSX10.8.3上尝试从围攻中运行以下命令时遇到了这个问题。siege-d1-c20-t2m-i-f-r10urls.txtSiege的输出如下:**SIEGE2.74**Preparing20concurrentusersforbattle.Theserverisnowundersiege...done.siegeabortedduetoexcessivesocketfailure;youcanchangethefailurethresholdin$HOME/.siegercTransactions:0hitsAvailability:0.00%Elapsedtime:2

故障:Office 重复提示激活

故障现象:在一台 Windows10 客户端中,打算安装新的批量许可的 Office2016 Standard。安装完毕后,打开如 Excel、Outlook 应用程序时,总是跳出已购买Office 产品的激活信息。故障处理:1、在控制面板程序中,无额外 Office 应用程序。2、在设置 → 应用中,无额外Office 应用程序。3、使用 ospp.vbs 命令,查看 Office 产品的注册情况,有额外的系列激活信息,清除。故障依旧。4、在注册表中,清除以下注册表项:HKEY_LOCAL_MACHINE\SOFTWARE\Wow6432Node\Microsoft\Office\16.0\