yarn-daemon

apache-spark - 将环境变量传递给 YARN 容器

我们有一个复杂的环境，它使用多种技术计算日常任务:SPARKPY-SPARKJavaMapReduce和HIVE。最近我们集成了一个新系统，可以在运行时对服务进行动态解析。该系统在任务初始化之前(动态地)更新环境变量。有一个库可以读取环境变量并对其进行处理(无关紧要)。因此，每个任务在其执行器/映射器/缩减器环境中都需要这个环境变量。我们的任务由YARN资源管理器管理。总结一下，我想传递YARN环境变量，它将在所有容器(ApplicationMaster和执行器/映射器/缩减器)上公开。到目前为止我尝试过的事情:SPARK-我玩过:spark-submit--confspark.yar

apache-spark 容器 code mapreduce hadoop hadoop-yarn

hadoop - YARN 无法找到或加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster

我的查询:我在ubantu上安装了配置单元。我之前测试过它是工作文件，但后来它开始出错。insertintotest2values(1,'Mahendra');我的hive错误:QueryID=mahendra_20180827145546_86973630-5eff-4764-ade8-cfc3a8ce5c37Totaljobs=3LaunchingJob1outof3Numberofreducetasksdeterminedatcompiletime:1Inordertochangetheaverageloadforareducer(inbytes):sethive.exec.re

hadoop MRAppMaster gt lt property hive mapreduce hadoop-yarn

apache-spark - Yarn 的 "Application Type"在哪里/如何定义？

如果向ApacheYARN集群提交新作业，状态页面通常会指示作业实际是如何提交的(除其他事项外):ApplicationType:SPARK这表明用户很可能使用spark-submit向资源管理器发布了一个新作业。是否可以像更改应用程序名称一样通过参数更改该字符串的值？最佳答案应用类型在Spark设置yarn应用上下文时设置。AFAIK，无法更改某些配置的方式。如果它真的很重要，您将不得不在源代码中覆盖它。下面的实现，https://github.com/apache/spark/blob/01c3dfab158d40653f8

apache-spark Application section spark apache hadoop hadoop-yarn

docker - Hadoop/Yarn Docker-Container-Executor 由于 "Invalid docker rw mount"而失败

我正在尝试执行Hadoop/Yarn(版本:2.9.1)Docker-Container-Executor的简单示例:vars="YARN_CONTAINER_RUNTIME_TYPE=docker,YARN_CONTAINER_RUNTIME_DOCKER_IMAGE=hadoop-docker"hadoopjarhadoop-examples.jarpi-Dyarn.app.mapreduce.am.env=$vars-Dmapreduce.map.env=$vars-Dmapreduce.reduce.env=$vars10100不幸的是，作业失败并出现以下异常:Failingt

docker Docker-Container-Executor hadoop section hadoop-yarn

hadoop - CDH4 主要用于 YARN 吗？

我有几个关于CDH4的问题或困惑。我在这里发帖是因为我没有得到关于我的问题的任何具体信息。CDH4是为了推广YARN吗？我尝试使用tarball使用CDH4.3.0设置MapReduce1。我终于做到了，但它是迂回而痛苦的。而YARN的设置很简单。有人在生产中使用YARN吗？Apache明确表示YARN仍处于alpha版本，不适合生产。在这种情况下，为什么Cloudera以CDH4YARN为中心？Cloudera是否在生产中支持YARN？如果问题不合适，我们深表歉意。这就是tarball解压的样子。我关注了几个links进行配置，但我对必须完成的方式不满意CDH4.3.0tarball

hadoop CDH4 YARN CDH mapreduce cloudera hadoop-yarn

hadoop - 在 spark yarn 集群中，容器如何工作取决于 RDD 分区的数量？

我有一个关于ApacheSpark(yarn集群)的问题虽然在这段代码中，创建了10个分区但是在yarncluster中，只需要3个contatinervalsc=newSparkContext(newSparkConf().setAppName("SparkCount"))valsparktest=sc.textFile("/spark_test/58GB.dat",10)valtest=sparktest.flatMap(line=>line.split("")).map(word=>(word,1))在sparkyarn集群中，容器如何工作取决于RDD分区的数量？*因为我只有一点

容器取决于 code section 读入 hadoop apache-spark hadoop-yarn rdd

hadoop - 没有 YARN 的 MapReduce 2

考虑到YARN是运行mapreduce2的更好选择这一事实，但是是否可以在没有YARN的情况下运行MR2？我尝试使用MR2，但它与YARN一起运行。最佳答案 MRv2实际上是YARN!所以，不，你不能在没有YARN的情况下运行mapreduce2作业!Officialdocumentation:ApacheHadoopNextGenMapReduce(YARN)MapReducehasundergoneacompleteoverhaulinhadoop-0.23andwenowhave,whatwecall,MapReduce2.

MapReduce hadoop section YARN hadoop-yarn hadoop2

hadoop - 关于 YARN 的查询(故障模式、容器大小、实例)

我想问几个问题来理解YARN的工作原理:任何人都可以解释或引用任何可以轻松了解YARN中故障模式的文档(即任务故障、应用程序主机故障、节点管理器故障、资源管理器故障)YARN中的容器大小是多少？和Mapreduce1中的slot一样吗？YARN的任何实际/工作示例？谢谢最佳答案请参阅Hadoop权威指南教科书...除此之外，apache网站上还有很多信息。容器大小不是固定的，它是根据资源管理器的要求动态分配的。从开发人员的角度来看，相同的旧map-reduce将适用于YARN。ResourceManager失败在YARN框架的初

容器 hadoop ResourceManager ApplicationMaster mapreduce hadoop-yarn

macos - Hadoop: start-dfs/start-yarn.sh: 没有那个文件或目录

尽管我检查了两个文件都存在于目录中并且hadoop可以访问这些文件夹，但它还是给了我上述两个错误。我使用以下教程安装了hadoop:link出了什么问题，如何解决？最佳答案您可能没有导出此目录的路径。尝试提供/entirepath/start-dfs.sh。同样在您的.bash_rc文件中添加HADOOP_HOME=/Pathtohadoopinstallationfolder。使用命令source.bash_rc获取bash_rc文件。关于macos-Hadoop:start-d

start start-yarn section bash_rc code macos hadoop

hadoop - 使用 Yarn 客户端在 Google Cloud 上的 Hadoop 中运行 JAR

我想使用Yarn客户端在GoogleCloud上的Hadoop中运行一个JAR。我在hadoop的master节点使用这个命令spark-submit--classfind--masteryarn-clientfind.jar但它返回这个错误15/06/1710:11:06INFOclient.RMProxy:ConnectingtoResourceManagerathadoop-m-on8g/10.240.180.15:803215/06/1710:11:07INFOipc.Client:Retryingconnecttoserver:hadoop-m-on8g/10.240.180

中运 hadoop code lt gt apache-spark google-compute-engine hadoop-yarn

8 9 101112 13 14