草庐IT

故障灯

全部标签

hadoop - namenode ha故障转移时间

NamenodeHA(NFS、QJM)在hadoop2.x(HDFS-1623)中可用。它为Namenode提供快速故障转移,但我找不到任何关于多长时间从故障中恢复的描述。谁能告诉我?谢谢你的回答。事实上,我想知道两个节点(activenamenode和standbynamenode)转换之间的时间。你能告诉我多长时间吗? 最佳答案 以下是一些使用备用NameNode进行故障转移的合格示例:A60nodeclusterwith6millionblocksusing300TBrawstorage,and100Kfiles:30seco

hadoop - 当 Yarn 中的资源管理器 (RM) 出现故障时会发生什么?

当Yarn中的资源管理器(RM)出现故障时会发生什么?在运行作业的过程中,如果资源管理器宕机,那么作业会发生什么情况?作业是自动提交还是我们需要再次提交作业?谢谢,文卡特 最佳答案 资源管理器(RM)高可用性在Apache中进行了解释链接如下。ResourceManagerHA通过Active/Standby架构实现。在任何时间点,其中一个RM是Active,如果ActiveRM发生故障,则其他备用节点正在等待接管。被提升为事件状态的RM从State-store加载RM内部状态,并从前一个事件状态停止的地方继续运行。为之前提交给RM

hadoop - 如何为 YARN MapReduce 作业处理容器故障?

YARN如何处理软件/硬件故障?具体来说,如果容器出现故障/崩溃,会发生什么情况? 最佳答案 容器和任务故障由节点管理器处理。当容器发生故障或死亡时,节点管理器会检测到故障事件并启动一个新容器来替换发生故障的容器并在新容器中重新启动任务执行。如果application-master发生故障,资源管理器会检测到故障并使用新容器启动application-master的新实例。查找详情here 关于hadoop-如何为YARNMapReduce作业处理容器故障?,我们在StackOverfl

apache-spark - yarn 容器故障引起的 Spark

Forreference:IsolvedthisissuebyaddingNetty4.1.17inhadoop/share/hadoop/common无论我尝试运行什么jar(包括来自https://spark.apache.org/docs/latest/running-on-yarn.html的示例),在Yarn上运行Spark时,我总是收到有关容器故障的错误。我在命令提示符中收到此错误:Diagnostics:Exceptionfromcontainer-launch.Containerid:container_1530118456145_0001_02_000001Exitc

hadoop - Oozie 协调器操作从故障节点重新运行

我正在尝试使用以下命令重新运行oozie协调器操作。ooziejob-rerun-action-Doozie.wf.rerun.fail.nodes=true但它是从头开始执行Action,而不是从故障节点开始执行。协调器忽略了“oozie.wf.rerun.fail.nodes=true”选项。我想念提供一些选择吗? 最佳答案 对于OozieCoordinator重新运行,使用-failed标志重新运行在-action中传递的协调器操作的失败工作流操作。ooziejob-rerun-failed-action属性-Doozie.w

java - 在插件存储库中找不到插件 - 当我的公司 Nexus 出现故障时如何解决问题?

我正在尝试在本地构建Hadoop以及何时构建$mvn-Ucleaninstall-Pdist-Dtar-Ptest-patch如前所述-http://wiki.apache.org/hadoop/HowToSetupYourDevelopmentEnvironment[ERROR]Errorresolvingversionforplugin'org.apache.maven.plugins:maven-javadoc-plugin'fromtherepositories[local(/Users/me/.m2/repository),nexus(http://beefy.myorg.l

apache-spark - 有关 yarn-cluster 模式下 Spark 驱动程序(及其 YARN 容器)的故障转移过程如何工作的资源/文档

我试图了解在以集群模式部署Yarn时,SparkDriver是否是单点故障。因此,我想在这种情况下更好地了解有关SparkDriver的YARN容器的故障转移过程的内部结构。我知道Spark驱动程序将在Yarn容器内的SparkApplicationMaster中运行。如果需要,SparkApplicationMaster将向YARNResourceManager请求资源。但是我还没有找到足够详细的文档来说明在SparkApplicationMaster(和Spark驱动程序)的YARN容器发生故障时的故障转移过程。我试图找到一些详细的资源,这些资源可以让我回答与以下场景相关的一些问题

hadoop - Apache Spark 在 YARN 中部署时如何处理系统故障?

先决条件假设ApacheSpark使用YARN部署在hadoop集群上。此外,Spark执行正在运行。Spark是如何处理下面列出的情况的?案例与问题hadoop集群的一个节点由于磁盘错误而失败。但是复制足够高并且没有数据丢失。在该节点上运行的任务会怎样?hadoop集群的一个节点由于磁盘错误而失败。复制不足够高,数据丢失了。Simplyspark再也找不到预先配置为工作流资源的文件。它将如何处理这种情况?在执行期间主名称节点故障转移。spark是否自动使用故障转移名称节点?当辅助名称节点也发生故障时会发生什么情况?由于工作流程中的某些原因,集群完全关闭。spark会随着集群自动重启吗

php - 如何对卡在重定向循环中的 CakePHP 应用程序进行故障排除?

我有一个卡在重定向循环中的CakePHP站点。我删除了执行重定向的所有代码,并且关闭了Auth对象上的自动重定向。这发生在我退出网站时,即使在删除所有cookie并尝试加载主页后仍然存在。索引Action在$this->Auth->allow中。我不应该,它一直试图将我重定向到/users/login,然后重定向循环。登录Action也在允许列表中有没有人知道是什么原因造成的? 最佳答案 如果您添加扩展Component而不是Object的自定义组件,这也会发生在CakePHP1.3中。

php - 防止 GD 图像库内存不足的故障安全方法? (PHP)

有没有办法阻止PHPGDimagelibrary内存不足?如果上传的图像太大,GD往往会耗尽内存,从而终止脚本。我希望它抛出一个可捕获的异常或类似的东西,但遗憾的是它没有。现在我正在使用一个拼凑在一起的脚本,它首先发出一个ini_set('memory_limit','128M'),如果可行的话,我通常都准备好了。根据服务器配置,虽然这可能是不可能的,所以我求助于一种算法,该算法试图估计所需的内存量(考虑分辨率、颜色深度、channel和软糖因素),然后将其与memory_get_usage()如果该函数存在,否则粗略估计。目前为止一切正常,但它远谈不上优雅,并且在某些极端情况下会失败