草庐IT

故障灯

全部标签

HDC2021技术分论坛:进程崩溃/应用卡死,故障频频怎么办?

​作者:jiwenqiang,DFX技术专家 提到开发一个产品,我们通常首先想到的是要实现什么样的功能,但是除了功能之外,非功能属性也会很大程度上影响一个产品的体验效果,比如不定时出现的应用卡死、崩溃现象。那为什么有的系统故障频频,有的却很少出现这些问题呢,这就不得不提到我们今天的主角DFX了。 一、什么是DFX?DFX是早在1960~1970年代就出现的产品设计理念,但是对于不少开发者而言,这是一个陌生的概念,什么是DFX?所谓DFX(DesignForX),是指产品的非功能属性设计,其中的X代表产品的某个特性或者产品生命周期的某个阶段。 从下面的图可以看出,产品的非功能属性是非常丰富的,它

HDC2021技术分论坛:进程崩溃/应用卡死,故障频频怎么办?

​作者:jiwenqiang,DFX技术专家 提到开发一个产品,我们通常首先想到的是要实现什么样的功能,但是除了功能之外,非功能属性也会很大程度上影响一个产品的体验效果,比如不定时出现的应用卡死、崩溃现象。那为什么有的系统故障频频,有的却很少出现这些问题呢,这就不得不提到我们今天的主角DFX了。 一、什么是DFX?DFX是早在1960~1970年代就出现的产品设计理念,但是对于不少开发者而言,这是一个陌生的概念,什么是DFX?所谓DFX(DesignForX),是指产品的非功能属性设计,其中的X代表产品的某个特性或者产品生命周期的某个阶段。 从下面的图可以看出,产品的非功能属性是非常丰富的,它

Karmada跨集群优雅故障迁移特性解析

摘要:在Karmada最新版本v1.3中,跨集群故障迁移特性支持优雅故障迁移,确保迁移过程足够平滑。本文分享自华为云社区《Karmada跨集群优雅故障迁移特性解析》,作者:Karmada社区。在多云多集群应用场景中,为了提高业务的高可用性,用户的工作负载可能会被部署在多个集群中。然而当某个集群发生故障时,为保证业务的可用性与连续性,用户希望故障集群上的工作负载被自动的迁移到其他条件适合的集群中去,从而达成故障迁移的目的。Karmada在v1.0版本发布之前便已支持跨集群故障迁移能力,经历过社区多个版本的开发迭代,跨集群故障迁移能力不断完善。在Karmada最新版本v1.3(https://gi

Karmada跨集群优雅故障迁移特性解析

摘要:在Karmada最新版本v1.3中,跨集群故障迁移特性支持优雅故障迁移,确保迁移过程足够平滑。本文分享自华为云社区《Karmada跨集群优雅故障迁移特性解析》,作者:Karmada社区。在多云多集群应用场景中,为了提高业务的高可用性,用户的工作负载可能会被部署在多个集群中。然而当某个集群发生故障时,为保证业务的可用性与连续性,用户希望故障集群上的工作负载被自动的迁移到其他条件适合的集群中去,从而达成故障迁移的目的。Karmada在v1.0版本发布之前便已支持跨集群故障迁移能力,经历过社区多个版本的开发迭代,跨集群故障迁移能力不断完善。在Karmada最新版本v1.3(https://gi

基于案例分析 MySQL Group Replication 的故障检测流程

故障检测(FailureDetection)是GroupReplication的一个核心功能模块,通过它可以及时识别集群中的故障节点,并将故障节点从集群中剔除掉。如果不将故障节点及时剔除的话,一方面会影响集群的性能,另一方面还会阻止集群拓扑的变更。下面结合一个具体的案例,分析GroupReplication的故障检测流程。除此之外,本文还会分析以下问题。当出现网络分区时,对于少数派节点,会有什么影响?什么是XComCache?如何预估XComCache的大小?在线上,为什么group_replication_member_expel_timeout不宜设置过大?案例以下是测试集群的拓扑,多主模

基于案例分析 MySQL Group Replication 的故障检测流程

故障检测(FailureDetection)是GroupReplication的一个核心功能模块,通过它可以及时识别集群中的故障节点,并将故障节点从集群中剔除掉。如果不将故障节点及时剔除的话,一方面会影响集群的性能,另一方面还会阻止集群拓扑的变更。下面结合一个具体的案例,分析GroupReplication的故障检测流程。除此之外,本文还会分析以下问题。当出现网络分区时,对于少数派节点,会有什么影响?什么是XComCache?如何预估XComCache的大小?在线上,为什么group_replication_member_expel_timeout不宜设置过大?案例以下是测试集群的拓扑,多主模

手把手教你:基于深度学习的滚动轴承故障诊断

系列文章手把手教你:玩转图像分类和目标检测系统手把手教你:图像识别的垃圾分类系统手把手教你:基于粒子群优化算法(PSO)优化卷积神经网络(CNN)的文本分类一、项目简介本文主要介绍如何使用python搭建:一个基于深度学习的滚动轴承故障诊断系统项目中涉及使用了多种方法对比检测结果,包括:传统机器学习方法:随机森林深度学习方法:CNN增加残差模块后的深度学习方法:CNN+ResBlock如各位童鞋需要更换训练数据,完全可以根据源码将图像和标注文件更换即可直接运行。博主也参考过网上故障检测的相关文章,但大多是理论大于方法。很多同学肯定对原理不需要过多了解,只需要搭建出一个基于深度学习的轴承故障预测

手把手教你:基于深度学习的滚动轴承故障诊断

系列文章手把手教你:玩转图像分类和目标检测系统手把手教你:图像识别的垃圾分类系统手把手教你:基于粒子群优化算法(PSO)优化卷积神经网络(CNN)的文本分类一、项目简介本文主要介绍如何使用python搭建:一个基于深度学习的滚动轴承故障诊断系统项目中涉及使用了多种方法对比检测结果,包括:传统机器学习方法:随机森林深度学习方法:CNN增加残差模块后的深度学习方法:CNN+ResBlock如各位童鞋需要更换训练数据,完全可以根据源码将图像和标注文件更换即可直接运行。博主也参考过网上故障检测的相关文章,但大多是理论大于方法。很多同学肯定对原理不需要过多了解,只需要搭建出一个基于深度学习的轴承故障预测

Kubernetes 集群中 Ingress 故障的根因诊断

作者:scwang18,主要负责技术架构,在容器云方向颇有研究。前言KubeSphere是青云开源的基于Kubernetes的云原生分布式操作系统,提供了比较炫酷的Kubernetes集群管理界面,我们团队用KubeSphere来作为开发平台。本文记录了一次KubeSphere环境下的网络故障的解决过程。现象开发同学反馈自己搭建的Harbor仓库总是出问题,偶尔会报net/http:TLShandshaketimeout,通过curl的方式访问harbor.xxxx.cn,也会随机频繁挂起。但是ping的反馈一切正常。原因分析接到错误报障后,经过了多轮分析,才最终定位到原因,应该是安装Kube

Kubernetes 集群中 Ingress 故障的根因诊断

作者:scwang18,主要负责技术架构,在容器云方向颇有研究。前言KubeSphere是青云开源的基于Kubernetes的云原生分布式操作系统,提供了比较炫酷的Kubernetes集群管理界面,我们团队用KubeSphere来作为开发平台。本文记录了一次KubeSphere环境下的网络故障的解决过程。现象开发同学反馈自己搭建的Harbor仓库总是出问题,偶尔会报net/http:TLShandshaketimeout,通过curl的方式访问harbor.xxxx.cn,也会随机频繁挂起。但是ping的反馈一切正常。原因分析接到错误报障后,经过了多轮分析,才最终定位到原因,应该是安装Kube