NotReady

记一则K8S Node NotReady故障

报障：今日上午，值班同学发现airflow无法使用。查看时其部署的Node节点NotReady了。分析：马上查看K8S集群节点的状态，发现这个节点已经是NotReady状态了。第一反应就是ping下节点看是否宕机了？ping正常，于是登录到该节点查看kubelet状态。发现kubelet报runtime不可用，查看containerd的状态，一直在不断的重启，而且启动不成功。为了尽快恢复业务，决定先将containerd的数据目录清空后重新拉起。于是删除containerd数据目录下的文件夹：#ls-lrth/xpu-k8s-data/containerd/total0drwx

一则 NotReady nbsp containerd 容器开发测试 K8S kubelet 数据

K8S集群NotReady问题处理

问题场景：K8Smaster节点安装完kube-flannel之后(加粗是重点)执行kubectlgetnodes命令看到master状态依旧是NotReadyK8Snode节点kubeadmjoin命令后，已成功添加到集群，但是执行kubectlgetnodes命令看到node状态依旧是NotReady图片展示的是node节点的NotReady状态，master节点最开始也是这个状态，我已经解决过了，无论master节点还是node节点，都可以试下这个方法核对问题症状：执行journalctl-f-ukubelet命令报错：NetworkReady=falsereason:NetworkPl

NotReady K8S xff0c xff xff0 kubernetes linux 容器

K8S集群node节点状态为notready

Kubernetes集群中的node节点状态显示为notready，这通常意味着该节点上的一个或多个组件出现了故障。在这种情况下，您需要进一步检查该节点的状态以确定问题的原因。您可以使用kubectl命令检查node的详细信息，例如：kubectldescribenode>此命令将显示该节点的状态，以及可能导致notready状态的任何错误。例如，容器可能因内存不足而停止，网络可能不可用等。如果您无法确定问题的原因，建议您查看Kubernetes日志以获取更多信息。

节点集群 xff0c xff0 kubernetes docker 容器运维 java

K8S-节点notReady如何处理？

使用vmWare虚拟机部署K8S集群，将虚拟机挂起重启后其中一个节点显示notReady状态，为解决该问题，进行了如下处理。先在master节点确定问题1.查看node节点的详细信息kubectldescribenodenode01没有找到问题。2.确定不存在网络问题在node节点，执行下述命令pingmaster3.查看kubelet状态在node节点，执行下述命令systemctlstatuskubelet有报错信息，但不全。执行下述命令，查看更详细日志信息journalctl-ukubelet-f4.结论在第3步打开的日志中看出，该node节点在尝试删除master节点上的管理pod

节点何处 code language-bash pre kubernetes 运维 linux

记一次现场故障分析总结k8s节点NotReady问题

背景某现场19年部署一套k8s集群，docker版本1.12，k8s版本1.8.6，现网k8s资源池规模，生产环境58台物理机，灰环境60台虚机（后来才知道用的一套k8s资源池，通过标签区分)，生产环境实例数2000左右，灰度环境实数900左右现象某现场在夜晚做业务升级的时候，批量更新业务包（由于微服务架构，而拆分并不完全，批量更新了十个中心的代码）同时启动副本为1的实例，再通过批量扩容的方式拉起2000左右的实例，出现现场大面积的k8s-node节点notReady,以至于业务无法全部启动成功。故障定位流程由于之前现场出现过此问题，并只是伴有几个node的notReady问题，现场并没有第一

节点 NotReady section 现场 docker

解决K8S节点NotReady状态

问题场景使用kubectlgetnode指令查看节点状态检查kubeadm的文件，检查k8s初始化信息，情况正常kubeadmconfigimageslist--configkubeadm-config.yaml查看系统中的pod，发现少了一个flannel的podkubectlgetpods-nkube-system出现pod的NotReady这个问题的情况不一样，有的人是flannel有但是状态是Error:ErrImagePull，这种情况下可以删除后重试，删除指令：kubectldeletepodskube-flannel-ds-amd64-rkjv2-nkube-system手动拉取

节点 NotReady span class operator docker kubernetes java

k8s节点NotReady问题定位

步骤一：在master节点上执行kubeletgetnodes命令，可以看到某节点的状态一直是notready。步骤二：k8s上可以使用命令kubectldescribenodes10-X-X-X.node，查看node节点日志。日志中有报错Kubeletstoppedpostingnodestatus，大概可以知道是由于node1节点上kubelet服务没有启动导致节点状态存在问题。步骤三：登录10-X-X-X节点服务器，systemctlstartkubelet命令启动服务。步骤四：查看节点上的kubelet状态systemctlstatuskubelet，发现状态不对。步骤五：查看内存

节点 NotReady xff xff0c kubernetes 容器云原生

k8s node NotReady：NetworkReady=false reason:NetworkPluginNotReady；cni plugin not initialized

kubectl获取node节点，集群状态检测时，master、node一直处于NotReady状态[root@master~]#kubectlgetnodesNAME STATUS ROLES AGE VERSIONmaster NotReady control-plane 27m v1.26.3node NotReady 80s v1.26.3查看pod状态，发现coredns一直处于pending状态[root@master~]#kubectlgetpods--all-namespacesNAMESPACE NAME READY

NetworkPluginNotReady NetworkReady master blockquote calico kubernetes 容器云原生

集群重启后发现node1节点出现notready状态，问题排查及解决（kubelet与docker的cgroup驱动不同导致）

集群重启后发现node1节点出现notready状态排查：1、查看服务器的物理环境free-mh/df-h2、查看内存是否溢出，磁盘空间是否够用，经查均在正常使用范围内；3、top查看cpu使用状态，在可用范围内；4、再查master组件scheduer，controller-manager，apiserver等都在正常运行；5、查看node详细信息[root@master~]#kubectldescribenodesnode1Name:node1Roles:Labels:beta.kubernetes.io/arch=amd64beta.kubernetes.io/os=linuxdisk=

排查节点 span class token docker kubelet kubernetes

K8s节点频繁处于notready状态的解决办法

项目场景：环境情况：kubeadmin部署的k8s集群，版本1.22.1，docker版本20.10.7现象：kubectlgetpod发现pod长时间处于containercreating状态/或者kubectlgetnode时node节点长时间处于notready状态/或者kubectlgetnode时node节点状态一会儿ready一会儿notready状态之间相互转换/pod长时间不更新状态过段时间后hz-cs2上的pod状态就会全变terminating问题描述问题描述：k8s集群过一段时间就会有节点notready，有时候是一直notready，有时候是一会儿notready一会儿

频繁 notready span class token kubernetes docker 容器

12 3