k8s集群Job Pod 容器可能因为多种原因失效，想要更加稳定的使用Job负载，有哪些需要注意的地方？

囧么肥事 2023-03-28 原文

k8s集群Job Pod 容器可能因为多种原因失效，想要更加稳定的使用Job负载，有哪些需要注意的地方？

面试官：“计数性Job默认完成模式是什么？Indexed模式如何发布自定义索引呢？”

面试官：“k8s的Job Pod 中的容器可能因为多种不同原因失效，想要更加稳定的使用Job负载，有哪些可以注意的地方？“

面试官：“为什么k8s建议在调试 Job 时将 `restartPolicy` 设置为 "Never"？”

面试官：“Job 终止与清理了解嘛？Pod重试次数还未 达到 `backoffLimit` 所设的限制，为什么突然被终止了？猜测原因？“

囧么肥事-胡说八道

计数性Job默认完成模式是什么？Indexed模式如何发布自定义索引呢？

计数性Job默认完成模式是无索引模式NonIndexed。

实际上，带有 确定完成计数 的 Job，即 .spec.completions 不为 null 的 Job，都可以在其 .spec.completionMode 中设置完成模式：NonIndexed（默认）和Indexed两种。

先看默认模式NonIndexed，无索引模式?‍?‍

1、每个Job完成事件都是独立无关且同质的
2、成功完成的Pod个数达到.spec.completions值时认为Job已经完成
3、当.spec.completions取值null时，Job被隐式处理为NonIndexed

再看Indexed，索引模式?‍?‍

1、Job 的 Pod 会分配对应的完成索引
2、索引取值为 0 到.spec.completions-1
3、当每个索引都对应一个完成的 Pod 时，Job 被认为是已完成的
4、同一索引值可能被分配给多个Pod，但是只有一个会被记入完成计数

对于索引模式来说，我下发10个索引，我不关注10个索引分别由多少个Pod去完成，我只关注10个索引任务是否按需完成即可。

Indexed模式下，索引有三种获取方式：?

第一种：基于注解，Pod 索引在注解 batch.kubernetes.io/job-completion-index中呈现，具体表示为一个十进制值字符串。
第二种：基于主机名，作为 Pod 主机名的一部分，遵循模式 $(job-name)-$(index)。当你同时使用带索引的 Job（Indexed Job）与服务（Service）， Job 中的 Pods 可以通过 DNS 使用确切的主机名互相寻址。
第三种：基于环境变量，对于容器化的任务，在环境变量 JOB_COMPLETION_INDEX 中体现。

Indexed模式如何发布自定义索引呢？

上面提到了三种获取索引的方式：注解，主机名，环境变量。

Downward API 机制有两种方式可以把将 Pod 和 Container 字段信息呈现给 Pod 中运行的容器：

环境变量
卷文件

你使用 Job 控制器为所有容器设置的内置 JOB_COMPLETION_INDEX 环境变量。 Init 容器将索引映射到一个静态值，并将其写入一个文件，该文件通过 emptyDir 卷与运行 worker 的容器共享。

举例?‍?‍

定义使用带索引完成信息的 Job 清单。
Downward API 将 Pod 索引注释作为环境变量或文件传递给容器。例如环境变量控制平面自动设置 downward API 以在 JOB_COMPLETION_INDEX 环境变量中公开索引
根据该清单启动一个带索引（Indexed）的 Job。

Pod 中的容器可能因为多种不同原因失效，想要更加稳定的使用Job负载，有哪些可以注意的地方？

首先需要理解的是，失效有两种形式，需要适配的能力也不同。

第一种Pod管理的部分容器失效

第二种Pod失效

第一种Pod管理的部分容器失效

Pod 中的容器可能因为多种不同原因失效，例如因为其中的进程退出时返回值非零，或者容器因为超出内存约束而被杀死等。

如果发生这类事件，并且 .spec.template.spec.restartPolicy = "OnFailure"， Pod 则继续留在当前节点，但容器会被重新运行。

面对这种场景，你的程序需要具备能够处理在本地被重启的情况的能力，或者容器设置 .spec.template.spec.restartPolicy = "Never"

注意，即使你将 .spec.parallelism 设置为 1，且将 .spec.completions 设置为 1，并且 .spec.template.spec.restartPolicy 设置为 "Never"，同一程序仍然有可能被启动两次?，程序猿思维：“永远不要假想某某情况不会发生???”。

它就发生了，你能咋滴，不管啊？？？???

第二种Pod失效

整个 Pod 也可能会失败，且原因各不相同。 ???

例如，当 Pod 启动时，节点失效（被升级、被重启、被删除等）?

或者其中的容器失败并且设置了 .spec.template.spec.restartPolicy = "Never"。

当 Pod 失败时，Job 控制器会启动一个新的 Pod 替身，去接替失败的Pod未处理完成的工作。

这意味着，你的应用需要处理在一个新 Pod 中被重启的情况。尤其是应用需要处理之前运行所产生的临时文件、锁、不完整的输出等问题。

再次注意?

如果你将 .spec.parallelism 和 .spec.completions 都设置为比 1 大的值，那就有可能同时出现多个 Pod 运行的情况。

为此，你的 Pod 也必须能够处理并发性问题☺️。

为什么k8s建议在调试 Job 时将 `restartPolicy` 设置为 "Never"？

回答这个问题前，先看下Job Pod 回退失效策略

在有些情形下，你可能希望 Job 在经历若干次重试之后直接进入失败状态，因为这很可能意味着Job遇到了配置错误。

.spec.backoffLimit 字段设置Job Pod 回退失效策略，标识Job失败重试次数，失效回退的限制值默认为 6。
与 Job 相关的失效的 Pod 会被 Job 控制器重建，同时回退重试时间将会按指数增长 （从 10 秒、20 秒到 40 秒）最多至 6 分钟。
当 Job 的 Pod 被删除，或者 Pod 成功时没有其它 Pod 处于失败状态，失效回退的次数也会被重置（为 0）。

好了，这下可以回答刚才的问题，为什么重启策略要设置为Never?

如果你的 Job 的 restartPolicy 被设置为 "OnFailure"，那么该 Job 管理的 Pod 会在 Job 到达失效回退次数上限时自动被终止。

Pob 被终止，那么调试 Job 中可执行文件的工作变得非常棘手，难以把控。也许你刚调试没多久，结果Pod终止了，调试过程中断了，绝望不！！！

为了解决Pod终止后 Jobs 的输出遗失掉的问题，k8s建议在调试 Job 时将 restartPolicy 设置为 "Never"，或者使用日志系统来确保失效 Jobs 的输出不会意外遗失。

Job 终止与清理了解嘛？Pod重试次数还未达到 `backoffLimit` 所设的限制，为什么突然被终止了？猜测原因？

Job终止和清理策略

Job 完成时不会再创建新的 Pod，不过已有的 Pod 也不会被删除。

保留这些 Pod 使得你可以查看已完成的 Pod 的日志输出，以便检查错误、警告或者其它诊断性输出。

Job 完成时 Job 对象也一样被保留下来，这样你就可以查看它的状态。

删除老的 Job 的操作留给了用户自己，在查看了 Job 状态之后，你可以使用 kubectl 来删除 Job（例如，kubectl delete jobs/pi 或者 kubectl delete -f ./job.yaml）。当使用 kubectl 来删除 Job 时，该 Job 所创建的 Pods 也会被删除。

默认情况下，Job 会持续运行，除非某个 Pod 失败（restartPolicy=Never）或者某个容器出错退出（restartPolicy=OnFailure）。这时，Job 基于前述的 spec.backoffLimit 来决定是否以及如何重试。一旦重试次数到达 .spec.backoffLimit 所设的上限，Job 会被标记为失败，其中运行的 Pods 都会被终止。

终止 Job 的另一种方式是设置一个活跃期限。你可以为 Job 的 .spec.activeDeadlineSeconds 设置一个秒数值。该值适用于 Job 的整个生命期，无论 Job 创建了多少个 Pod。一旦 Job 运行时间达到 activeDeadlineSeconds 秒，其所有运行中的 Pod 都会被终止，并且 Job 的状态更新为 type: Failed 及 reason: DeadlineExceeded。

注意 Job 的 .spec.activeDeadlineSeconds 优先级高于其 .spec.backoffLimit 设置。因此，如果一个 Job 正在重试一个或多个失效的 Pod，该 Job 一旦到达 activeDeadlineSeconds 所设的时限，即不再部署额外的 Pod，即使其重试次数还未达到 backoffLimit 所设的限制。

注意问题

Job 规约和 Job 中的Pod 模版规约都有 activeDeadlineSeconds 字段。请确保你在合适的层次设置正确的字段。

还要注意的是，restartPolicy 对应的是 Pod，而不是 Job 本身：一旦 Job 状态变为 type: Failed，就不会再发生 Job 重启的动作。换言之，由 .spec.activeDeadlineSeconds 和 .spec.backoffLimit 所触发的 Job 终结机制 都会导致 Job 永久性的失败，而这类状态都需要手工干预才能解决。

有关k8s集群Job Pod 容器可能因为多种原因失效，想要更加稳定的使用Job负载，有哪些需要注意的地方？的更多相关文章

ruby - 我需要将 Bundler 本身添加到 Gemfile 中吗？ - 2
当我使用Bundler时，是否需要在我的Gemfile中将其列为依赖项？毕竟，我的代码中有些地方需要它。例如，当我进行Bundler设置时:require"bundler/setup" 最佳答案没有。您可以尝试，但首先您必须用鞋带将自己抬离地面。关于ruby-我需要将Bundler本身添加到Gemfile中吗？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/4758609/
ruby - rspec 需要 .rspec 文件中的 spec_helper - 2
我注意到像bundler这样的项目在每个specfile中执行requirespec_helper我还注意到rspec使用选项--require，它允许您在引导rspec时要求一个文件。您还可以将其添加到.rspec文件中，因此只要您运行不带参数的rspec就会添加它。使用上述方法有什么缺点可以解释为什么像bundler这样的项目选择在每个规范文件中都需要spec_helper吗？最佳答案我不在Bundler上工作，所以我不能直接谈论他们的做法。并非所有项目都checkin.rspec文件。原因是这个文件，通常按照当前的惯例，只
ruby - 如何在 Lion 上安装 Xcode 4.6，需要用 RVM 升级 ruby - 2
我实际上是在尝试使用RVM在我的OSX10.7.5上更新ruby，并在输入以下命令后:rvminstallruby我得到了以下回复:Searchingforbinaryrubies,thismighttakesometime.Checkingrequirementsforosx.Installingrequirementsforosx.Updatingsystem.......Errorrunning'requirements_osx_brew_update_systemruby-2.0.0-p247',pleaseread/Users/username/.rvm/log/138121
ruby - nanoc 和多种布局 - 2
是否可以为特定(或所有)项目使用多个布局？例如，我有几个项目，我想对其应用两种不同的布局。一个是绿色的，一个是蓝色的(但是)。我想将它们编译到我的输出目录中的两个不同文件夹中(例如v1和v2)。我一直在玩弄规则和编译block，但我不知道这是怎么回事。因为，每个项目在编译过程中只编译一次，我不能告诉nanoc第一次用layout1编译，第二次用layout2编译。我试过这样的东西，但它导致输出文件损坏。compile'*'doifitem.binary?#don’tfilterbinaryitemselsefilter:erblayout'layout1'layout'layout2'
ruby - 为什么在 ruby 中创建 Rational 不需要新方法 - 2
这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Rubysyntaxquestion:Rational(a,b)andRational.new!(a,b)我正在阅读ruby镐书，我对创建有理数的语法感到困惑。Rational(3,4)*Rational(1,2)产生=>3/8为什么Rational不需要new方法(我还注意到例如我可以在没有new方法的情况下创建字符串)？
阿里云国际版免费试用：如何注册以及注意事项 - 2
作为新的阿里云用户，您可以50免费试用多种优惠，价值高达1,700美元（或8,500美元）。这将让您了解和体验阿里云平台上提供的一系列产品和服务。如果您以个人身份注册免费试用，您将获得价值1,700美元的优惠。但是，如果您是注册公司，您可以选择企业免费试用，提交基本信息通过企业实名注册验证，即可开始价值$8,500的免费试用！本教程介绍了如何设置您的帐户并使用您的免费试用版。关于免费试用在我们开始此试用之前，您还必须遵守以下条款和条件才能访问您的免费试用：只有在一年内创建的账户才有资格获得阿里云免费试用。通过此免费试用优惠，用户可以免费试用免费试用活动页面上列出的每种产品一次。如果您有多个帐
ruby-on-rails - 需要帮助最大化多个相似对象中的 3 个因素并适当排序 - 2
我需要用任何语言编写一个算法，根据3个因素对数组进行排序。我以度假村为例(如Hipmunk)。假设我想去度假。我想要最便宜的地方、最好的评论和最多的景点。但是，显然我找不到在所有3个中都排名第一的方法。Example(assumingthereare20importantattractions):ResortA:$150/night...98/100infavorablereviews...18of20attractionsResortB:$99/night...85/100infavorablereviews...12of20attractionsResortC:$120/night
ruby - 我需要从 facebook 游戏中抓取数据——使用 ruby - 2
修改(澄清问题)我已经花了几天时间试图弄清楚如何从Facebook游戏中抓取特定信息；但是，我遇到了一堵又一堵砖墙。据我所知，主要问题如下。我可以使用Chrome的检查元素工具手动查找我需要的html-它似乎位于iframe中。但是，当我尝试抓取该iframe时，它是空的(属性除外):如果我使用浏览器的“查看页面源代码”工具，这与我看到的输出相同。我不明白为什么我看不到iframe中的数据。答案不是它是由AJAX之后添加的。(我知道这既是因为“查看页面源代码”可以读取Ajax添加的数据，也是因为我有b/c我一直等到我可以看到数据页面之后才抓取它，但它仍然不存在)。发生这种情况是因为
ruby - 需要重构为新的 Ruby 1.9 哈希语法 - 2
这个问题在这里已经有了答案:HashsyntaxinRuby[duplicate](1个回答)关闭5年前。我有一个Recipe，其中包含以下未通过lint测试的代码:service'apache'dosupports:status=>true,:restart=>true,:reload=>trueend失败并出现错误:UsethenewRuby1.9hashsyntax.supports:status=>true,:restart=>true,:reload=>true不确定新语法是什么样的...有人可以帮忙吗？
ruby-on-rails - 我真的需要在 Rails 中使用 csv gem 吗？ - 2
我的问题很简单:我是否必须在使用RubyonRails的类上require'csv'？如果我打开一个railsconsole并尝试使用CSVgem它可以工作，但我必须在文件中这样做吗？最佳答案 CSVlibrary是ruby标准库的一部分；它不是gem(即第三方库)。与所有标准库(与核心库不同)一样，csv不会由ruby解释器自动加载。所以是的，在您的应用程序中某处您确实需要要求它:irb(main):001:0>CSVNameError:uninitializedconstantCSVfrom(irb):1from/Us

k8s集群Job Pod 容器可能因为多种原因失效，想要更加稳定的使用Job负载，有哪些需要注意的地方？