报障: 今日上午,值班同学发现airflow无法使用。查看时其部署的Node节点NotReady了。分析: 马上查看K8S集群节点的状态,发现这个节点已经是NotReady状态了。第一反应就是ping下节点看是否宕机了?ping正常,于是登录到该节点查看kubelet状态。发现kubelet报runtime不可用,查看containerd的状态,一直在不断的重启,而且启动不成功。为了尽快恢复业务,决定先将containerd的数据目录清空后重新拉起。于是删除containerd数据目录下的文件夹:#ls-lrth/xpu-k8s-data/containerd/total0drwx
问题场景:K8Smaster节点安装完kube-flannel之后(加粗是重点)执行kubectlgetnodes命令看到master状态依旧是NotReadyK8Snode节点kubeadmjoin命令后,已成功添加到集群,但是执行kubectlgetnodes命令看到node状态依旧是NotReady图片展示的是node节点的NotReady状态,master节点最开始也是这个状态,我已经解决过了,无论master节点还是node节点,都可以试下这个方法核对问题症状:执行journalctl-f-ukubelet命令报错:NetworkReady=falsereason:NetworkPl
Kubernetes集群中的node节点状态显示为notready,这通常意味着该节点上的一个或多个组件出现了故障。在这种情况下,您需要进一步检查该节点的状态以确定问题的原因。您可以使用kubectl命令检查node的详细信息,例如:kubectldescribenode>此命令将显示该节点的状态,以及可能导致notready状态的任何错误。例如,容器可能因内存不足而停止,网络可能不可用等。如果您无法确定问题的原因,建议您查看Kubernetes日志以获取更多信息。
使用vmWare虚拟机部署K8S集群,将虚拟机挂起重启后其中一个节点显示notReady状态,为解决该问题,进行了如下处理。 先在master节点确定问题1.查看node节点的详细信息kubectldescribenodenode01没有找到问题。2.确定不存在网络问题在node节点,执行下述命令pingmaster3.查看kubelet状态在node节点,执行下述命令systemctlstatuskubelet有报错信息,但不全。执行下述命令,查看更详细日志信息journalctl-ukubelet-f4.结论 在第3步打开的日志中看出,该node节点在尝试删除master节点上的管理pod
背景某现场19年部署一套k8s集群,docker版本1.12,k8s版本1.8.6,现网k8s资源池规模,生产环境58台物理机,灰环境60台虚机(后来才知道用的一套k8s资源池,通过标签区分),生产环境实例数2000左右,灰度环境实数900左右现象某现场在夜晚做业务升级的时候,批量更新业务包(由于微服务架构,而拆分并不完全,批量更新了十个中心的代码)同时启动副本为1的实例,再通过批量扩容的方式拉起2000左右的实例,出现现场大面积的k8s-node节点notReady,以至于业务无法全部启动成功。故障定位流程由于之前现场出现过此问题,并只是伴有几个node的notReady问题,现场并没有第一
问题场景使用kubectlgetnode指令查看节点状态检查kubeadm的文件,检查k8s初始化信息,情况正常kubeadmconfigimageslist--configkubeadm-config.yaml查看系统中的pod,发现少了一个flannel的podkubectlgetpods-nkube-system出现pod的NotReady这个问题的情况不一样,有的人是flannel有但是状态是Error:ErrImagePull,这种情况下可以删除后重试,删除指令:kubectldeletepodskube-flannel-ds-amd64-rkjv2-nkube-system手动拉取
步骤一:在master节点上执行kubeletgetnodes命令,可以看到某节点的状态一直是notready。步骤二:k8s上可以使用命令kubectldescribenodes10-X-X-X.node,查看node节点日志。日志中有报错Kubeletstoppedpostingnodestatus,大概可以知道是由于node1节点上kubelet服务没有启动导致节点状态存在问题。 步骤三:登录10-X-X-X节点服务器,systemctlstartkubelet命令启动服务。步骤四:查看节点上的kubelet状态systemctlstatuskubelet,发现状态不对。步骤五:查看内存
kubectl获取node节点,集群状态检测时,master、node一直处于NotReady状态[root@master~]#kubectlgetnodesNAME STATUS ROLES AGE VERSIONmaster NotReady control-plane 27m v1.26.3node NotReady 80s v1.26.3查看pod状态,发现coredns一直处于pending状态[root@master~]#kubectlgetpods--all-namespacesNAMESPACE NAME READY
集群重启后发现node1节点出现notready状态排查:1、查看服务器的物理环境free-mh/df-h2、查看内存是否溢出,磁盘空间是否够用,经查均在正常使用范围内;3、top查看cpu使用状态,在可用范围内;4、再查master组件scheduer,controller-manager,apiserver等都在正常运行;5、查看node详细信息[root@master~]#kubectldescribenodesnode1Name:node1Roles:Labels:beta.kubernetes.io/arch=amd64beta.kubernetes.io/os=linuxdisk=
项目场景:环境情况:kubeadmin部署的k8s集群,版本1.22.1,docker版本20.10.7现象:kubectlgetpod发现pod长时间处于containercreating状态/或者kubectlgetnode时node节点长时间处于notready状态/或者kubectlgetnode时node节点状态一会儿ready一会儿notready状态之间相互转换/pod长时间不更新状态过段时间后hz-cs2上的pod状态就会全变terminating问题描述问题描述:k8s集群过一段时间就会有节点notready,有时候是一直notready,有时候是一会儿notready一会儿