草庐IT

集群容错

全部标签

云计算项目十:ES集群安装|部署kibana

ES集群安装部署ES集群,用于ELK日志分析平台的构建es-0001主机更改/etc/hosts[root@es-0001~]#vim/etc/hosts192.168.1.71es-0001192.168.1.72es-0002192.168.1.73es-0003192.168.1.74kibana192.168.1.75logstash#将最新的/etc/hosts配置文件更新到所有的云主机上[root@es-0001~]#foriin192.168.1.{72..75};doscp/etc/hosts$i:etc;done#在跳板机ecs-proxy将ELK相关软件包做好yum仓库,若

Ceph集群部署

目录一、环境准备1、准备4台centos服务器2、配置ceph源3、配置主机名解析和SSH互信4、NTP时间同步二、ceph集群部署1、安装ceph组件2、部署MON集群3、部署OSD集群一、环境准备1、准备4台centos服务器主机主机名IP备注客户端client192.168.2.10关闭selinux和firewalldOSD+MONnode1192.168.2.20关闭selinux和firewalld添加2块磁盘,sdb和sdcOSD+MONnode2192.168.2.30关闭selinux和firewalld添加2块磁盘,sdb和sdcOSD+MONnode3192.168.2.

Kubernetes 集群节点处于 Not Ready 问题排查

背景Kubernetes是一个强大的平台,用于自动化部署、扩展和操作容器中的应用程序。有时,您可能会遇到节点处于非就绪状态(“NotReady”)。本文将指导您逐步解决这些问题。当Kubernetes中的一个节点处于不可用状态时,需要立即排查。可以按照以下步骤来确定根本原因。检查节点的状态首先,您需要确认节点确实处于“未就绪”状态。使用以下命令列出所有节点的状态:kubectlgetnodes您将看到类似于这样的输出:NAMESTATUSROLESAGEVERSIONnode-1Ready30dv1.25.1node-2NotReady25dv1.25.1node-3Ready28dv1.25

Meta公布Llama 3训练集群细节!储备60万块H100迎接AGI

每年3月份,照例各家大厂又要开始秀自己最新的产品和研究了。OpenAI刚刚发布了震惊世人的Sora,最新的ChatGPT版本似乎也是箭在弦上。谷歌更是举全公司之力,从去年底就开始放出了包括GeminiUltra,Gemini1.5,Gemma在内,各分支赛道上的惊艳成果。可是作为开源AI的扛把子,Meta在去年发布了Llama2和后续的模型后,就一直缺少有影响力的产品问世。而对于开源社区来说,OpenAI虽好,可Meta才是大家真的衣食父母。大家都在翘首以待Llama3的发布。在Llama3公开之前,不甘寂寞的Meta还是想到办法在行业内刷了一波存在感——秀肌肉。MetaAI刚刚发表了一份技术

Flink容错机制

目录Flink容错机制一,检查点:二,保存点:Flink容错机制一,检查点:    在出现故障时,我们将系统重置回正确状态,以确保数据的完整性和准确性。在流处理中,我们采用存档和读档的策略,将之前的计算结果进行保存。这样,在系统重启后,我们可以继续处理新数据,而无需重新计算。    更重要的是,在有状态的流处理中,任务需要保持其之前的状态,以便继续处理新数据。为了实现这一目标,我们将之前某个时间点的所有状态保存下来,这个“存档”被称为“检查点”。    检查点是Flink容错机制的核心。它关注的是故障恢复的结果:在故障恢复后,处理的结果应与故障发生前完全一致。因此,有时将checkpoint称

【Docker】Nacos的单机部署及集群部署

一、Nacos的介绍Nacos是一个更易于构建云原生应用的动态服务发现、配置管理和服务管理平台。动态服务发现:Nacos支持DNS与RPC服务发现,提供原生SDK、OpenAPI等多种服务注册方式和DNS、HTTP与API等多种服务发现方式。服务健康监测:Nacos提供对服务的实时健康检查,阻止向不健康的主机或服务实例发送请求。动态配置服务:Nacos提供配置统一管理功能,能够以中心化、外部化和动态化的方式管理所有环境的应用配置和服务配置。动态DNS服务:Nacos支持动态DNS服务权重路由,能够实现中间层负载均衡、更灵活的路由策略、流量控制以及数据中心内网的简单DNS解析服务。服务及其元数据

RabbitMQ-消息队列:三台虚拟机搭建RabbitMQ集群

22、RabbitMQ集群使用集群的原因​最开始我们介绍了如何安装及运行RabbitMQ服务,不过这些是单机版的,无法满足目前真实应用的要求。如果RabbitMQ服务器遇到内存崩溃、机器掉电或者主板故障等情况,该怎么办?单台RabbitMQ服务器可以满足每秒1000条消息的吞吐量,那么如果应用需要RabbitMQ服务满足每秒10万条消息的吞吐量呢?购买昂贵的服务器来增强单机RabbitMQ务的性能显得捉襟见肘,搭建一个RabbitMQ集群才是解决实际问题的关键.克隆虚拟机搭建步骤1.修改3台机器的主机名称vim/etc/hostname2.配置各个节点的hosts文件,让各个节点都能互相识别对

Springboot对接ceph集群以及java利用s3对象网关接口与ceph集群交互

springboot中引入相关依赖software.amazon.awssdkregions2.22.13software.amazon.awssdkeksauth2.22.13software.amazon.awssdks32.22.12testsoftware.amazon.awssdks32.22.12compile然后java代码,一些相关注意的事项都在代码里有标出。importjava.net.URI;importjava.net.URISyntaxException;importjava.nio.ByteBuffer;importjava.nio.file.Paths;import

25-k8s集群中-RBAC用户角色资源权限

一、RBAC概述1,k8s集群的交互逻辑(简单了解)    我们通过k8s各组件架构,知道各个组件之间是使用https进行数据加密及交互的,那么同理,我们作为“使用”k8s的各种资源的使用者,也是通过https进行数据加密的;    k8s通过我们家目录下的证书来判断我们是谁?通过证书内容来认定我们的权限;用户证书的位置[root@k8s231~]#ll-a.kube/config -rw-------1rootroot5634Jan 119:40.kube/config2,k8s的安全架构(简单了解)3,RBAC用户授权的逻辑(重要)用户/主题Topic    1,User    2,Ser

Gitlab+Jenkins+Docker+Harbor+K8s集群搭建CICD平台(持续集成部署Hexo博客Demo)

目录涉及内容:一、CICD服务器环境搭建1、docker环境安装(1)、拉取镜像,启动并设置开机自启(2)、配置docker加速器2、安装并配置GitLab(1)、创建共享卷目录(2)、创建gitlab容器(3)、关闭容器修改配置文件(4)、修改完配置文件之后。直接启动容器(5)、相关的git命令(针对已存在的文件夹)3、安装配置远程镜像仓库harbor(1)、首先需要设置selinux、防火墙(2)、安装并启动docker并安装docker-compose,关于docker-compose,这里不用了解太多,一个轻量的docker编排工具(3)、解压harbor安装包:harbor-offl