细说Kubernetes Pod的驱逐

乔克 2023-03-28 原文

Kubernetes Pods被驱逐是什么意思？它们被终止了，通常是由于没有足够的资源，但是为什么会发生这种情况呢？

驱逐是一个过程，分配给一个节点的Pod被要求终止。Kubernetes中最常见的情况之一是抢占，为了在资源有限的节点上安排一个新的Pod，通常需要终止另外一个Pod。

另外，Kubernetes会不断检查资源使用情况，当节点压力过大的时候，会触发节点压力驱逐。

每天，数以千计的Pod被驱逐出他们的家园。搁浅和迷茫，他们不得不放弃以前的生活方式。他们中的一些人甚至会无家可归。当前的社会，对CPU和内存的要求会越来越高。

本篇文章将从以下几个方面来展开介绍：

Pod被驱逐的原因：抢占和节点压力

抢占式驱逐

Pod优先级类

节点压力驱逐

服务质量类

其他类型的驱逐

Prometheus中的Kubernetes Pod驱逐监控

Pods被驱逐的原因：抢占和节点压力Kubernetes中发生Pod驱逐的原因有几个，最重要的原因是：

抢占

节点压力驱逐

抢占驱逐

抢占的过程如下：如果一个新的Pod需要被调度，但没有任何合适的节点有足够的资源，那么kube-scheduler将检查是否通过驱逐（终止）一些优先级较低的Pod，用来保障新的Pod可以调度。

让我们先了解一下Kubernetes调度是如何工作的。

Pod调度

Kubernetes调度是将Pod分配给节点的过程。

默认情况下，有一个负责调度的Kubernetes实体，称为kube-scheduler，它将在控制平面上运行。Pod将在Pending状态下开始，直到找到一个匹配的节点。

将一个Pod分配给一个节点的过程遵循这个顺序。

预选
打分

预选

在预选过程中，kube-scheduler将选择当前Pod可能被放置的所有节点。这里将考虑到污点和容忍度等特征。一旦完成，它将有一个适合该Pod的节点列表。

打分

在打分过程中，kube-scheduler将从上一步得到的列表中，给每个节点分配一个分数。这样一来，候选节点就会从最合适到最不合适排序。如果两个节点有相同的分数，kube-scheduler会将它们随机排序。

image.png

但是，如果没有合适的节点让Pod运行，会发生什么？在这种情况下，Kubernetes将启动抢占程序，试图驱逐低优先级的Pod，以便分配新的Pod。

Pod Priority Class

怎样才能防止某个特定的Pod在抢占过程中被驱逐？有时候，一个特定的Pod对你来说是至关重要的，不应该被终止。

这就是为什么Kubernetes具有Priority Class。

Priority Class是一个Kubernetes对象，允许我们将数字优先级值映射到特定的Pod。那些数值较高的被归类为更重要，不太可能被驱逐。

你可以通过以下方式查询当前的Priority Class。

kubectl get priorityclasses
kubectl get pc

NAME                      VALUE        GLOBAL-DEFAULT   AGE
system-cluster-critical   2000000000   false            2d
system-node-critical      2000001000   false            2d

测试Priority Class

这里有三个Pod：blueberry, raspberry 和 strawberry。

NAME         READY   STATUS             RESTARTS   AGE
blueberry    1/1     Running            0          4h41m
raspberry    1/1     Running            0          58m
strawberry   1/1     Running            0          5h22m

还有两个Priority Class：trueberry和falseberry。其中trueberry拥有比较高的优先级。

apiVersion: scheduling.k8s.io/v1
kind: PriorityClass
metadata:
  name: trueberry
value: 1000000
globalDefault: false
description: "This fruit is a true berry"

apiVersion: scheduling.k8s.io/v1
kind: PriorityClass
metadata:
  name: falseberry
value: 5000
globalDefault: false
description: "This fruit is a false berry"

blueberry将使用trueberry
raspberry和strawberry将使用ffalseberry

这意味着在发生抢占的情况下，raspberry和strawberry更有可能被驱逐，以便为更高优先级的Pod腾出空间。

然后通过在Pod定义中加入优先级类别，将其分配给Pod。

priorityClassName: trueberry

现在让我们试着再增加三种水果：所有的新水果将包含更高的优先级类，称为trueberry。

由于这三个新的水果对内存或CPU的要求是节点无法满足的，kubelet会驱逐所有比新水果优先级低的Pod。Blueberry保持运行，因为它有更高的优先级。

NAME         READY   STATUS             RESTARTS   AGE
banana       0/1     ContainerCreating  0          2s
blueberry    1/1     Running            0          4h42m
raspberry    0/1     Terminating        0          59m
strawberry   0/1     Terminating        0          5h23m
tomato       0/1     ContainerCreating  0          2s
watermelon   0/1     ContainerCreating  0          2s

最终结果如下：

NAME         READY   STATUS             RESTARTS   AGE
banana       1/1     Running            0          3s
blueberry    1/1     Running            0          4h43m
tomato       1/1     Running            0          3s
watermelon   1/1     Running            0          3s

节点压力驱逐

除了抢占之外，Kubernetes还不断检查节点资源，如磁盘压力、CPU或内存不足（OOM）。

如果节点的资源（如CPU或内存）消耗达到一定的阈值，Kubelet将开始驱逐Pod，以释放资源。服务质量（QoS）将被纳入考虑范围，以确定驱逐顺序。

服务质量QoS

在Kubernetes中，Pod被赋予三种QoS类别之一，这将定义它们在缺乏资源的情况下被驱逐的可能性。这三种QoS分别是：

Guaranteed
Burstable
BestEffort

这些QoS类别是如何分配给Pod的？这是基于对CPU和内存的限制和请求。

limits：一个容器可以使用的资源的最大数量。
requests：容器运行所需的最小资源量。

Guaranteed

如果一个Pod被分配了一个Guaranteed的QoS等级，它们的特征如下：

Pod中的所有容器都为CPU和内存设置了限制和请求。
在Pod中的所有容器都有相同的CPU限制和CPU请求的值。
Pod中的所有容器都有相同的内存限制和内存请求值。

一个有保证的Pod在正常情况下不会被驱逐以分配给节点中的另一个Pod。

Burstable

如果一个Pod的QoS等级为Burstable，那么它将被分配到一个QoS等级。

它没有担保的QoS等级。
为Pod中的一个容器设置了限制或请求。

一个Burstable Pod可以被驱逐，但比下一个类别的可能性小。

BestEffort

一个Pod将被分配一个BestEffort的QoS类别，它们将：

没有为Pod中的任何容器设置限制和请求。

BestEffort Pod在节点中发生节点压力过程的情况下具有最高的驱逐机会。

重要的是：在限制和请求中可能有其他可用的资源，如短暂的存储，但它们不用于QoS类的计算。

如前所述，QoS类将被纳入节点压力驱逐的考虑范围。以下是内部发生的过程。

kubelet按照以下顺序排列要被驱逐的Pod。

使用量超过请求的BestEffort Pods或Burstable Pods
使用量低于请求的Burstable Pods或Guaranteed Pods

Kubernetes将尝试在第二组之前驱逐第一组的Pod。

从上述内容中得到的一些启示。

如果在你的容器中添加了非常低的请求，他们的Pod可能会被分配到组1，这意味着它更有可能被驱逐。
你无法知道哪个特定的Pod会被驱逐，只是Kubernetes会尝试在第2组之前驱逐第1组的Pod。
有保证的Pod通常不会被驱逐：Kubelet不会为了安排其他Pod而驱逐它们。但是，如果一些系统服务需要更多的资源，kubelet将在必要时终止有保证的Pod，并且总是以最低的优先级。

其他类型的驱逐

本文主要介绍抢占和节点压力驱逐，但Pod也可以通过其他方式被驱逐。例子包括。

API发起的驱逐

你可以通过使用Kubernetes Eviction API【1】请求对你的一个节点中的Pod进行按需驱逐。

基于污点的驱逐

通过Kubernetes污点和容忍度，可以指导你的Pod应该如何分配给Node。但是，如果你将NoExecute污点应用于现有的Node，所有不容忍它的Pod将被立即驱逐。

节点排水

有些时候，节点变得无法使用，或者你不想再在上面工作。命令kubectl cordon可以防止新的Pod被安排在它上面，但也有可能一次性完全清空所有当前Pod。如果你运行kubectl drain nodename，该节点中的所有Pod将被驱逐，尊重其优雅的终止期。

Kubernetes Pod驱逐监控

在你的云解决方案中，你可以使用Prometheus来轻松监控Pod驱逐的做法。

kube_pod_status_reason{reasnotallow="Evicted"} > 0

这将显示你的集群中所有被驱逐的Pod。你也可以将其与kube_pod_status_phase{phase="Failed"}配对，以提醒那些在Pod发生故障后被驱逐的人。

如果你想深入了解，请查看以下关于Prometheus中监控资源的文章。

如何合理调整Kubernetes的资源限制【1】
Kubernetes容量规划：如何合理安排你的集群的请求【2】

总结

正如你所看到的，驱逐只是Kubernetes的另一个功能，它允许你控制有限的资源：在这种情况下，Pod将使用的节点。

在抢占期间，Kubernetes将试图通过驱逐优先级较低的Pod来释放资源，以安排一个新的Pod。通过优先级类，你可以控制哪些Pod更有可能在抢占后继续运行，因为它们被驱逐的可能性较小。

在执行过程中，Kubernetes将检查节点压力，并在需要时驱逐Pod。通过QoS类，你可以控制哪些Pod在节点压力的情况下更有可能被驱逐。

内存和CPU是节点中的重要资源，你需要配置你的Pod、容器和节点来使用它们的正确数量。如果你对这些资源进行相应的管理，不仅可以节省成本，而且还可以确保重要的进程无论如何都能继续运行。

文档

【1】https://kubernetes.io/docs/reference/generated/kubernetes-api/v1.25/#create-eviction-pod-v1-core【1】https://sysdig.com/blog/kubernetes-resource-limits/

【2】https://sysdig.com/blog/kubernetes-capacity-planning/

细说 Kubernetes span style color 云计算云原生 $Kubernetes Pod 优先级

有关细说Kubernetes Pod的驱逐的更多相关文章

java - 与父实体一起驱逐依赖集合 - 2
我刚刚意识到，当一个对象从Hibernate缓存中被逐出时，dependantcollections,ifcached,havetobeevictedseparately.对我来说，这是一个很大的WTF:很容易忘记驱逐一个集合(例如，当一个新的集合被添加到对象映射时)；驱逐依赖集合的代码丑陋且庞大，例如MyClassmyObject=...;getHibernateTemplate().evict(myObject);缓存cache=getHibernateTemplate().getSessionFactory().getCache();cache.evictCollection("
java - Guava 缓存是否考虑驱逐选择的权重？ - 2
优秀的Guava库的最新版本更新了缓存api。CacheBuilder现在有一个maxmimumWeight()方法来强制缓存的最大权重。javadoc指出:Specifiesthemaximumweightofentriesthecachemaycontain.WeightisdeterminedusingtheWeigherspecifiedwithweigher,anduseofthismethodrequiresacorrespondingcalltoweigherpriortocallingbuild(com.google.common.cache.CacheLoader).
java - ehcache 不会在驱逐时从内存中删除元素 - 2
缓存2.5timeToIdleSeconds="1800"(30分钟)，所以我希望元素在闲置30分钟后退出最后一次使用元素后30分钟，我仍然可以看到缓存中充满了元素强制GC并进行堆转储表明，元素仍在内存中getSize()返回正数，getKeys()按预期返回键(getKeys()不检查元素是否过期)获取特定元素，但结果为NULL值，这意味着它已过期。getKeysWithExpiryCheck()显示缓存为空，所有元素都已过期并被逐出强制GC和进行堆转储显示，元素收集到内存不足。maxEntriesLocalHeap="10000"eternal="false"statistics=
seo - 查看详细说明后如何更改 H1 - 2
在我的网上商店中，我显示了一个简短的文本(文本是从存储所有博客的PrestaShop中提取的。这是来自category.tpl的代码{if$category->description}{ifTools::strlen($category->description)>350}{$description_short}{$category->description}getCategoryLink($category->id_category,$category->link_rewrite)|escape:'html':'UTF-8'}"class="lnk_more">{ls='More'}
强化学习之stable_baseline3详细说明和各项功能的使用 - 2
本文基于官方文档的基础上，把其中的重要部分整合和翻译，并整理成容易理解的顺序。其中蕴含有大量使用案例，方便大家理解和查看。官方文档：https://stable-baselines3.readthedocs.io/en/master/参考资料：https://zhuanlan.zhihu.com/p/406517851前言接触过强化学习的同学想必都已经用过OpenAI的Gym了，Gym给我们提供多种多样的强化学习环境，同时也可以让我们方便地创建自己的环境，是试验强化学习算法的绝佳场所。现在有了试验场地，那么我们当然想要一个趁手的实验工具来帮助我们快速实现各种强化学习算法啦。固然，我们可以在了解
redis - 有什么方法可以在访问 Redis 后立即从中驱逐 key ？ - 2
根据这个答案[https://stackoverflow.com/a/17099452/8804776][1]"Youmightnotknowit,butRedisisactuallysingle-threaded,whichishoweverycommandisguaranteedtobeatomic.Whileonecommandisexecuting,noothercommandwillrun."Redis是单线程的。我的要求是在Redis中存储一个key，一旦线程访问它，它就应该退出。例如:HSETbucket-1名字贾斯汀线程A和B访问同一个keyHGETbucket-1名称
Redis:失败而不是驱逐？ - 2
有没有办法设置Redis，使其在内存不足时永远不会逐出数据并导致硬故障？我需要确保没有数据丢失；我没有将其用作永久数据存储机制，而是用于更多的用于大容量/高性能数据转换的临时数据存储机制。是否有替代的NoSQL数据存储可以在性能上接近，但在内存用完时利用磁盘读/写？这并不理想，但总比丢失数据好。我正在读取/写入/更新数百万个JSON文档(超过12万个并且还在增长)。最佳答案是的。首先确保将maxmemory指令(在conf文件中或使用CONFIGSET)设置为0以外的值。这将指示Redis使用该值是内存上限。接下来，将maxme
Spring Redis缓存不驱逐 - 2
以下工作(导致执行驱逐):fooController{@ApiEndpointpublicdelete(id){fooService.deleteFoo(id)}}fooService{@CacheEvict(value="cache1",key="#id")publicvoiddeleteFoo(Longid){//deletelogichere}}但这不起作用(缓存中没有任何内容被逐出):fooController{@ApiEndpointpublicdelete(name){fooService.deleteFoo2(name)}}fooService{publicvoiddel
redis - 如何配置 redis 驱逐策略运行时？ - 2
在官方网站上，它说:howeveryoucanreconfigurethepolicyatruntimewhiletheapplicationisrunning如果想在运行时使用volatile-lru策略，如何实现？最佳答案引用CONFIGSETcommand-例如，要将逐出策略设置为“noeviction”，请发送此命令(例如通过redis-cli):redis>CONFIGSETmaxmemory-policynoeviction 关于redis-如何配置redis驱逐策略运行
细说Mmongo ES 数据过期机制 - 2
数据过期在redis上非常容易实现，mongo中可使用TTL索引实现类似的功能。Mongo数据过期TTL索引TTL是mongo中的一种特殊的单字段索引，可以支持文档在一定时间之后自动删除，字段类型必须是ISODate类型或者包含有ISODate类型的数组，创建TTL索引和创建普通索引的方法一样，只是多加了一个属性而已：db.collection(集合).createIndex({create_time(ISODate类型字段):1(正序),{expireAfterSeconds:过期时间，单位秒},{backgroud(后台执行):true}})TTL索引包含以下特点：_id字段不支持TTL索

细说Kubernetes Pod的驱逐

抢占驱逐

Pod调度

预选

打分

Pod Priority Class

测试Priority Class

节点压力驱逐

服务质量QoS

Guaranteed

Burstable

BestEffort

其他类型的驱逐

API发起的驱逐

基于污点的驱逐

节点排水

Kubernetes Pod驱逐监控

总结

有关细说Kubernetes Pod的驱逐的更多相关文章

随机推荐