草庐IT

k8s-master-node

全部标签

hadoop - 使用 MASTER=yarn-cluster 运行 HiveFromSpark 示例

我正在尝试运行HiveFromSpark我的EMRSpark/Hive集群上的示例。问题使用yarn-client:~/spark/bin/spark-submit--masteryarn-client--num-executors=19--classorg.apache.spark.examples.sql.hive.HiveFromSpark~/spark/lib/spark-examples-1.3.0-hadoop2.4.0.jar就像一个魅力。但是,使用yarn-cluster:~/spark/bin/spark-submit--masteryarn-cluster--num

hadoop - 当 Name Node 在 YARN 中失败时,工作状态是什么?

当一个job在集群中运行时,如果NameNode突然挂了,那么这个job的状态是什么(failed或者killed)?如果失败意味着谁在更新作业状态?这在内部是如何工作的? 最佳答案 备用Namenode将通过故障转移过程变为事件Namenode。看看HowdoesHadoopNamenodefailoverprocessworks?YARN架构围绕着ResourceManager、NodeManager和ApplicationsMaster。作业将继续进行,而不会因名称节点故障而受到任何影响。如果以上三个进程中的任何一个失败,将根

NPM命令运行报错:npm v10.2.4 is known not to run on Node.js v14.21.1

网上看过很多人说使用npminstall-gnpm@xxx解决,不知道遇到的情况是否一样,npm命令都用不了还使用npm命令安装去解决问题,怎么想的?我遇到的是linux系统的npm版本与node版本不一致的问题,导致出现这个问题,最终解决方式是:1.使用find-name npm,找到npm的安装路径,并把本服务器的删除,安装路径不懂的同学可以自行百度操作,2.再去其他相同Linux服务下找到npm的安装路径文件,使用zip-r npm.zip npm打包后下载,并复制到有问题的服务器上面,再解压, 此时运行npm-v正常,并且版本和我复制的那台服务器的版本一致。注意:此操作的成功,肯定是被

hadoop - Service Monitor 在 HBase 服务中没有找到活跃的 Master

我用clouderaCDH5.8.0做了一个主节点和三个从节点的集群。经过一些配置工作后,我的所有服务都正常运行,但只有一个:HBase。重新启动后几分钟,它的健康状况不佳。ClouderaManager显示的错误是:“错误:Master摘要:此健康测试错误,因为服务监视器未找到事件的Master”。我检查了服务监视器日志,发现了这个警告:(7skipped)ExceptionindoWorkfortask:hbase_HBASE_SERVICE_STATE_TASKorg.apache.hadoop.hbase.client.RetriesExhaustedException:Fai

hadoop - Oozie 字符串 wf :errorCode(String node) how to check empty?

我有一个名为“CW”的Action节点,之后我放置了一个决策节点来检查“CW”是否返回错误....我应该如何编写谓词?我试过:${wf:errorCode('CW')eq''}然后转到Y${wf:errorCode('CW')!=''}然后转到N虽然它返回空字符串(没有错误),但它总是转到N。有什么建议吗?谢谢!! 最佳答案 尝试${notemptywf:errorCode('CW')}检测故障 关于hadoop-Oozie字符串wf:errorCode(Stringnode)howto

hadoop - 亚马逊电子病历 : Configuring storage on data nodes

我使用的是AmazonEMR,我能够很好地运行大多数作业。当我开始在EMR集群中加载和生成更多数据时,我遇到了问题。集群存储空间不足。每个数据节点都是一个c1.medium实例。根据链接here和here每个数据节点应配备350GB的实例存储。通过ElasticMapReduceSlave安全组,我已经能够在我的AWS控制台中验证c1.medium数据节点正在运行并且是实例存储。当我在名称节点上运行hadoopdfsadmin-report时,每个数据节点都有大约10GB的存储空间。这通过运行df-h进一步验证hadoop@domU-xx-xx-xx-xx-xx:~$df-hFiles

K8s部署Minio使用NFS持久化存储

一、介绍Minio是一款高性能的对象存储服务器,它兼容AmazonS3API。它的设计目的是为了提供云存储服务的性能和可扩展性,同时还保持着本地存储的简单性和易用性。Minio可以在Linux、MacOS和Windows等操作系统上运行,它可以通过命令行界面或RESTfulAPI进行管理。Minio的核心是对象存储,对象是一组二进制数据和元数据的组合。对象可以存储为文件,也可以存储为内存中的数据结构。对象可以存储在不同的存储介质中,如本地磁盘、网络文件系统、云存储等。Minio支持多种存储介质,它可以轻松地将数据存储到本地磁盘、AmazonS3、GoogleCloudStorage、Micro

k8s集群部分使用gpu资源的pod出现UnexpectedAdmissionError问题

记录一次排查UnexpectedAdmissionError问题的过程1.问题环境3master节点+N个GPU节点kubelet版本:v1.19.4kubernetes版本:v1.19.4生产环境K8S集群,莫名其妙的出现大量UnexpectedAdmissionError状态的Pod,导致部分任务执行异常,出现这种情况时,节点的资源是足以支持运行一个GPUPod的。报的错误:Allocatefailedduetorequestednumberofdevicesunavailablefornvidia.com/gpu.Requested:1,Available:0,whichisunexpe

解析Kubernetes (k8s):提升应用部署与管理的利器

Kubernetes概述Kubernetes是一个可移植、可拓展的开源平台,用于管理容器化的工作负载和服务,可促进声明式配置和自动化。k8s这个缩写是因为k和s之间有八个字符的关系。应用部署方式传统部署时代​早期,直接将应用程序部署在物理机上,无法限制在物理服务器中运行的应用程序资源使用,因此会导致资源分配问题,程序之间还会相互影响。如果将应用程序运行在不同的物理服务器上,有的应用程序资源利用率不高又会造成资源浪费,而且物理服务器的维护成本高昂。虚拟化部署时代虚拟化技术允许在单个物理服务器上运行多个虚拟机(VM)。每个虚拟机是一个独立的环境,可以有效隔离应用程序,且能提供一定程度的安全性。​虚

K8S结合Prometheus构建监控系统

一、Prometheus简介Prometheus是一个开源的系统监控和警报工具,用于收集、存储和查询时间序列数据。它专注于监控应用程序和基础设施的性能和状态,并提供丰富的查询语言和灵活的告警机制1、Prometheus基本介绍数据模型:Prometheus使用时间序列数据模型来存储监控数据。时间序列由一个唯一的指标名称和一组键值对标签组成,代表了某个指标在特定时间点的数值。这种数据模型非常适合度量指标的变化和趋势。数据采集:Prometheus支持多种数据采集方式。它可以直接采集应用程序的指标数据,也可以通过各种监控插件和集成来获取系统和网络层面的指标数据。采集的数据通过HTTP或其他协议发送