草庐IT

通过可视化运维配置,实现故障秒级自愈

急促的告警铃声响彻寂静的夜晚。对运维人来说,晚间值守耗费更大的精力,往往一个简单的磁盘使用率告警通知,就不得不爬起来进行处理,毕竟告警无小事,对于小问题,运维人也不能心存侥幸心理。虽然有着值班人员和团队的支撑,但频繁的告警还是让运维人员精疲力竭,如何让系统的稳定性提高,减轻一线人员的工作量,减轻一线人员的压力?通过智能运维,实现故障自愈将成为不可避免的选择。故障自愈是提升企业网络系统可用性和降低故障处理的人力投入,实现故障自愈从"人工处理"到"无人值守"的变革。通过实时发现告警,进行预诊断分析,判断告警类型和级别,如果是一般告警,平台进行自动恢复,如果是严重复杂告警则通过告警通知、运维工单等形

奇富科技:大数据任务从诊断到自愈的实践之路

一、为什么要做诊断引擎毓数平台是奇富科技公司自主研发的一站式大数据管理、开发、分析平台,覆盖大数据资产管理、数据开发及任务调度、自助分析及可视化、统一指标管理等多个数据生命周期流程,让用户使用数据的同时,挖掘数据最大的价值。而毓数平台的大数据任务调度底层是基于ApacheDolphinScheduler实现的。整个大数据平台有1000+机器、70P数据量,每日新增200T数据。每天在毓数工作流上运行的任务实例有13万+,周活跃用户400+;每天在毓数自助查询中运行的sql有16万+,周活跃用户500+。运行的任务类型有Spark任务、Sqoop任务、DataX任务等10多种任务类型。而我们的几

ElasticSearch自愈之节点丢失恢复

点击上方“IT那活儿”公众号,关注后了解更多内容,不管IT什么活儿,干就完了!!!背景Elasticsearch是一个开源的、分布式的、高可用的、实时的搜索和分析引擎,它有助于快速收集、存储和分析大量数据,广泛应用于大规模数据的实时搜索和分析。而在现实运维中,随着业务的扩展,数据量不断增大,为保障业务性能,ES集群不断的扩容节点,扩大集群,有的集群多达上百个节点,虽集群内部具有副本冗余机制,但由于PCSERVER的不稳定性(磁盘故障、网络故障、硬件BUG、内核、内部错误等)或集群的性能压力或程序Bug,可能会导致集群节点丢失。目前我们运维已经做到7*24短信告警监控,只是在大半夜,有可能无法即

Kubernetes 集群的异常处理手段,包括集群自愈、集群监控、日志收集、集群规模扩容、节点问题处理、Pod问题定位、网络故障诊断、应用性能瓶颈分析、应用访问失效问题排查等方面知识

作者:禅与计算机程序设计艺术1.简介随着容器技术的普及和应用,容器集群已经成为云计算领域中一个重要的基础设施,用来提供快速、可扩展、高可用和弹性的服务。Kubernetes(简称K8s)是最具代表性的开源容器编排引擎之一,通过自动化部署、管理和调度容器izedapplication,极大的促进了容器集群管理的便利性和效率。因此,掌握Kubernetes的相关知识对于架构师、工程师等从事容器技术开发工作的人员来说尤其重要。在日益复杂的容器集群环境中,Kubernetes集群也可能因为各种原因出现故障或崩溃,比如节点、网络或者存储故障导致组件不可用、资源不足、服务停止、DNS解析失败、机器宕机、硬

自动化测试未来趋势(一)自愈(Self-Healing)技术

自动化测试未来趋势系列:自愈(Self-Healing)技术1.自愈技术自愈(Self-Healing)技术在计算机术语中是指:一种自我修复的管理机制。类比生命体,当生命体遭受到一些小的伤害时,它们的身体往往能够通过自身的修复机制来实现自愈,而不需要外界加以干预。如壁虎的断尾再生,或者蟹类的躯体再生能力那样。回到计算机领域,自愈技术也在广泛的使用,比如芯片的信息通道自愈,软件系统的故障自愈等。那么我们这里要介绍的是在自动化测试方向上的一种自愈技术:可以发现其测试脚本执行中的非预期错误并在无需人工干预的情况下自行更改,从而将自身恢复到更好的运行状态。2.技术原理问题域:在自动化测试中使用自愈技术

腾讯云宣布VPC网络架构重磅升级,可毫秒级感知网络故障并实现自愈

8月11日,腾讯云宣布VPC(Virtual Private Cloud,云私有网络)架构重磅升级。新架构采用多项腾讯核心自研技术,能够支撑用户构建业界最大 300万节点超大规模单VPC网络,并将转发性能最大提升至业界领先的200Gbps。同时,腾讯云VPC还在业界率先实现了毫秒级网络故障感知,并拥有快速自愈能力。VPC是用户在云上专属于自己的一个网络空间,在这个私有环境下,用户可以自由地管理和配置网络,包括IP地址,路由规则等。目前,VPC被广泛地应用于搭建大流量视频、直播业务、物联网业务、游戏加速业务以及混合云构建等场景中。当前,随着企业“云化”进程的加速和深入,全面云原生、云边一体化以及

Redis 自愈集群或云、Kubernetes 或 Swarm 中的替代方案?

是否可以部署一个我可以在Kubernetes(或Swarm或任何其他自动化云环境)中运行的self修复和扩展的类似Redis的键值存储?我发现Redis的挑战:您需要使用redis-trib手动创建集群新节点需要显式添加到集群需要明确删除节点节点不会点对点复制其分片中的数据,而是使用主从模型上面的意思就是下面的场景都会失败。我有一个简单的3-master和3-slave集群。“MasterA”失败,导致Kubernetes在新的“MasterA”不了解集群,不会加入拥有数据副本的“从属A”现在从新的“主控A”同步,并丢失所有数据,破坏了从属副本的目的在全新的启动中,“MasterA”可

Redis 自愈集群或云、Kubernetes 或 Swarm 中的替代方案?

是否可以部署一个我可以在Kubernetes(或Swarm或任何其他自动化云环境)中运行的self修复和扩展的类似Redis的键值存储?我发现Redis的挑战:您需要使用redis-trib手动创建集群新节点需要显式添加到集群需要明确删除节点节点不会点对点复制其分片中的数据,而是使用主从模型上面的意思就是下面的场景都会失败。我有一个简单的3-master和3-slave集群。“MasterA”失败,导致Kubernetes在新的“MasterA”不了解集群,不会加入拥有数据副本的“从属A”现在从新的“主控A”同步,并丢失所有数据,破坏了从属副本的目的在全新的启动中,“MasterA”可

【Kubernetes】 故障转移和自愈能力机制详解

文章目录一.引言1.介绍Kubernetes2.故障转移和自愈能力的重要性二.Kubernetes概览1.Kubernetes架构2.Kubernetes组件和功能三.故障转移1.如何定义故障转移2.Kubernetes中的故障转移机制2.1健康检查2.2Pod和ReplicaSet2.3控制器和故障转移3.Pods和ReplicaSets之间的关系4.控制器和故障转移四.自愈能力1.如何定义自愈能力2.Kubernetes中的自愈能力机制2.1自动滚动升级2.2自动扩缩容2.3自动容错2.4自动更新配置2.5自动修复3.Pod健康监控4.什么是Liveness和Readiness探针五.Ku

【Kubernetes】 故障转移和自愈能力机制详解

文章目录一.引言1.介绍Kubernetes2.故障转移和自愈能力的重要性二.Kubernetes概览1.Kubernetes架构2.Kubernetes组件和功能三.故障转移1.如何定义故障转移2.Kubernetes中的故障转移机制2.1健康检查2.2Pod和ReplicaSet2.3控制器和故障转移3.Pods和ReplicaSets之间的关系4.控制器和故障转移四.自愈能力1.如何定义自愈能力2.Kubernetes中的自愈能力机制2.1自动滚动升级2.2自动扩缩容2.3自动容错2.4自动更新配置2.5自动修复3.Pod健康监控4.什么是Liveness和Readiness探针五.Ku
12