草庐IT

YARN-Cgroups

全部标签

hadoop -/etc/hadoop/conf下的配置文件和/etc/hadoop/conf.cloudera.HDFS和/etc/hadoop/conf.cloudera.YARN下的配置文件有什么区别

我有cloudera5.7,我也有ClouderaManager。在目录/etc/hadoop下,我看到了三个子目录。/etc/hadoop/conf/etc/hadoop/conf.cloudera.HDFS//etc/hadoop/conf.cloudera.YARN/../conf/中的hadoop-env.sh不同于../conf.cloudera.HDFS/..../conf/中的core-site.xml也不同于../conf.cloudera.HDFS/..。../conf/下的hadoop-env.sh在YARN上有设置,而../conf.cloudera.HDFS下没

hadoop - Spark 不会在 yarn-cluster 模式下运行 final `saveAsNewAPIHadoopFile` 方法

我编写了一个Spark应用程序,它读取一些CSV文件(~5-10GB),转换数据并将数据转换为HFiles。数据从HDFS读取并保存到HDFS。当我在yarn-client中运行应用程序时,一切似乎都工作正常模式。但是当我尝试以yarn-cluster运行它时应用程序,进程似乎没有运行最终saveAsNewAPIHadoopFile对我已转换并准备好保存的RDD采取行动!这是我的SparkUI的快照,您可以在其中看到所有其他作业都已处理:以及相应的阶段:这是我应用程序的最后一步,其中saveAsNewAPIHadoopFile方法被调用:JavaPairRDDcells=...try{

linux - 将 xargs 值作为参数传递给后续 YARN 命令

需要帮助将参数从xargs传递到后续的Hadoop命令。我从这个命令得到如下结果。yarnapplication-list-appStatesRUNNING|grep|awk'{print$1}'上述命令的结果如下。17/09/1912:24:36INFOclient.ConfiguredRMFailoverProxyProvider:Failingovertorm21TotalApplication-Idapplication_1505017974932_14847application_1505017974932_14815application_1505017974932_148

java - 如何在 java 中使用 yarn api 提交 mapreduce 作业

我想使用YARNjavaAPI提交我的MR作业,我尝试像WritingYarnApplications那样做,但我不知道要添加什么amContainer,下面是我写的代码:packageorg.apache.hadoop.examples;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.yarn.api.protocolrecords.GetNewApplicationResponse;importorg.apache.hadoop.yarn.api.records.ApplicationId;imp

hadoop - 将 yarn 节点管理器置于维护状态

我是运行hadoopcloudera5.13实现的团队的一员。我想知道是否有办法在维护中设置yarnnodemanagers,从而运行它重命名容器但不接受任何新容器?我没有cloudera企业解决方案。尝试使用cli工具yarnrmadmin找到一些有用的东西,但无法做到。或者我唯一能做的就是关闭节点管理器并让我的用户容器死掉? 最佳答案 您正在寻找的是Gracefuldecommissioning。在YARN(MR2Included)PropertiesinCDH5.9.0属性yarn.resourcemanager.nodema

hadoop - 在 Yarn 集群上运行时 Spark 批处理未完成

设置场景我正在努力使Spark流应用程序(Spark2.2.1withScala)在Yarn集群(Hadoop2.7.4)上运行。到目前为止,我已经成功地使用spark-submit将应用程序提交到Yarn集群。我可以看到接收器任务正确启动并从数据库(CouchbaseServer5.0)中获取大量记录,我还可以看到记录被分成批处理。问题当我查看SparkWebUI上的流统计信息时,我可以看到我的批处理从未被处理过。我看到有0条记录的批处理处理并完成,但是当有记录的批处理开始处理时,它永远不会完成。有一次它甚至卡在了0条记录的批处理上。我什至尝试尽可能简化SteamingContext

hadoop - Spark 的 Yarn 集群优化

我正在尝试为我的4节点集群配置Yarn和Spark。每个节点都有以下规范:24核23.5GB内存换掉到目前为止,我配置了Yarn和Spark,Spark可以执行SparkPi示例计算,但这仅在yarn-site.xml的以下配置下有效:yarn.acl.enable0yarn.resourcemanager.hostnameds11yarn.nodemanager.resource.memory-mb20480yarn.scheduler.maximum-allocation-mb20480yarn.scheduler.minimum-allocation-mb1536yarn.nod

java - 通过java列出hadoop集群中所有yarn应用

关于运行命令yarnapplication-list在我的hadoop集群上,它返回正在运行的应用程序列表。我想使用Java获取此列表。目前我正在使用yarnClientAPIorg.apache.hadoophadoop-common2.7.3org.apache.hadoophadoop-yarn-client2.7.0我的代码如下:YarnConfigurationconf=newYarnConfiguration();YarnClientyarnClient=YarnClient.createYarnClient();yarnClient.init(conf);yarnClie

hadoop - 普通身份验证失败 : User yarn is not configured for any impersonation. impersonationUser:alluxio mapreduce 中的 root

Causedby:org.apache.thrift.transport.TTransportException:Plainauthenticationfailed:Useryarnisnotconfiguredforanyimpersonation.模拟用户:root当我使用alluxio在本地运行wordcount程序时它工作正常。我也通过了集成测试,但是当我使用alluxio客户端jar运行相同的Hadoop程序时它给我一个错误bin/hadoopjar/usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jarwordcount

azure - 如何查询azure hdinsight hadoop cluster yarn timeline server

如何查询AzureHDInsightHadoop集群中的时间线服务器以获取作业指标?连接到Azure集群:curl-uadmin-sS-G"https://$CLUSTERNAME.azurehdinsight.net/api/v1/clusters/$CLUSTERNAME"连接到时间线服务器:GET/ws/v1/timeline/我需要一个连接这两个的查询来获取AzureHDInsightHadoop集群的作业指标。提前致谢。 最佳答案 查询Yarn时间线服务器:sshuser@clustername:~$curl-uadmin