YARN_OPTS

hadoop - 为什么使用 yarn-client 启动 spark-shell 失败并显示 "java.lang.ClassNotFoundException: org.apache.hadoop.fs.FSDataInputStream"？

我正尝试在家里设置一个集群以满足我的个人需求(学习)。首先我做了Hadoop+Yarn。MR2正在工作。其次-我正在尝试添加Spark但收到有关缺少类的错误。[root@masterconf]#spark-shell--masteryarn-clientExceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop/fs/FSDataInputStream...Causedby:java.lang.ClassNotFoundException:org.apache.hadoop.fs.FSDataInput

hadoop - 在不安全的 YARN 集群中运行 Spark 时访问安全的 Hive

我们有两个cloudera5.7.1集群，一个使用Kerberos保护，一个不保护。是否可以在访问存储在安全集群中的Hive表时使用不安全的YARN集群运行Spark？(Spark版本为1.6)如果是这样，您能否解释一下如何配置它？更新:我想稍微解释一下我的问题背后的最终目标。我们的主要安全集群被大量使用，我们的工作无法在合理的时间内获得足够的资源来完成。为了克服这个问题，我们希望使用我们拥有的另一个不安全集群的资源，无需在集群之间复制数据。我们知道这不是最佳解决方案，因为数据局部性级别可能不是最佳解决方案，但这是我们目前可以提出的最佳解决方案。如果您有任何其他解决方案，请告诉我，因为

中运 hadoop code strong section apache-spark hadoop-yarn

java - Spring Boot YARN 不运行在 Hadoop 2.8.0 客户端无法访问 DataNode

我正在尝试运行SpringBootYARN示例(Windows上为https://spring.io/guides/gs/yarn-basic/)。在application.yml中，我更改了fsUri和resourceManagerHost以指向我的VM主机192.168...。但是当我尝试运行应用程序时，Exceprion出现了:DFSClient:ExceptionincreateBlockOutputStreamjava.net.ConnectException:Connectiontimedout:nofurtherinformationatsun.nio.ch.Socket

DataNode Spring gt lt property java hadoop spring-boot hadoop-yarn

hadoop - yarn [hadoop 2.2] location mapper or reducer log输出到哪里？

我想查看logmapper或者reducer输出？在containerfoler下的syslog中找不到？那么log输出到哪里呢？publicclassSkipStat{privatestaticLoglog=LogFactory.getLog(SkipStat.class);privatestaticBlockWorkerRepositoryblockWorkerRepository;static{blockWorkerRepository=newBlockWorkerRepositoryImpl();}privatestaticclassSkipInfoMapperextendsM

hadoop location yarn section hadoop-yarn

Hadoop:如何在不干扰所有正在进行的作业的情况下重启 YARN？

当我调用./stop-yarn.sh然后调用./start-yarn.sh时，所有正在进行的作业将打印如下内容:14/10/2216:23:28INFOipc.Client:Retryingconnecttoserver:644v3.mzhen.cn/192.168.7.210:18040.Alreadytried0time(s);retrypolicyisRetryUpToMaximumCountWithFixedSleep(maxRetries=10,sleepTime=1SECONDS)14/10/2216:23:29INFOipc.Client:Retryingconnectt

何在 Hadoop RetryUpToMaximumCountWithFixedSle ResourceManager maxRetries hadoop-yarn

hadoop - 在 yarn 集群上设置 spark 时需要哪些守护进程？

我了解以下是spark集群所需的守护进程硕士worker(奴隶)驱动程序(提交申请时启动)执行器(提交申请时启动)在yarn集群上设置Spark时，我有一些非常基本的问题是否有单独为spark启动的主守护进程或工作守护进程？我了解yarn集群本身的资源管理器和节点管理器将充当Spark作业的主人和worker。来自这篇文章http://blog.cloudera.com/blog/2014/05/apache-spark-resource-management-and-yarn-app-models/,似乎没有单独用于sparkonyarn的主/从守护进程。如果以上问题的答案是否定的。

hadoop spark li section apache-spark cluster-computing hadoop-yarn

使用 log4j 的 Hadoop Yarn 任务级日志记录

我一直在尝试在任务级别设置Hadoop日志记录，但到目前为止没有成功。我修改了log4j.properties并将许多参数设置为DEBUG级别:log4j.logger.org.apache.hadoop.mapred.Task=DEBUGlog4j.logger.org.apache.hadoop.mapred.MapTask=DEBUGlog4j.logger.org.apache.hadoop.mapred.ReduceTask=DEBUGlog4j.logger.org.apache.hadoop=DEBUG但是，我无法从正在记录的任务中看到任何LOG.info或LOG.deb

Hadoop log4j section 1427820474064 mapreduce task

hadoop - 谁与 yarn 中的名称节点通信？

由于MapReduce1中的jobTracker被Yarn中的ApplicationMaster和ResouceManager所取代我想知道Yarn中谁在与名称节点通信以找出数据存储在不同数据节点中的位置？应用大师是这样做的吗？最佳答案在YARN中，每个应用程序ApplicationMaster负责从Namenode获取有关输入拆分的信息。稍后，当任务尝试在分配的节点上执行时，YarnChild从HDFS中获取相应的拆分。关于hadoop-谁与yarn中的名称节点通信？，我们在St

hadoop yarn section code stackoverflow hdfs hadoop-yarn

hadoop - 如何从 Java 代码在 hadoop yarn 上运行字数统计作业？

我有如下要求:有一个30节点的hadoopYARN集群和一个用于提交作业的客户端机器。让我们使用wordcountMR示例，因为它是世界著名的。我想从java方法提交并运行wordcountMR作业。那么提交作业所需的代码是什么？有什么特定于客户端机器上的配置吗？最佳答案 Hadoop应该存在于您的客户端机器上，其配置与您的hadoop集群中的其他机器相同。要从java方法提交MR作业，请引用javaProcessBuilder并传递hadoop命令以启动您的wordcount示例。可以找到wordcount的命令和必要的应用程序

hadoop Java section wordcount hadoop-yarn

hadoop - 来自集群未知主机名的主机的 Spark YARN 客户端作业？

我有一些私有(private)主机可以从YARN集群中通过IP而不是通过主机名可见。当他们尝试以YARN客户端模式提交任何Spark作业时，会尝试从集群连接驱动程序主机。由于默认情况下spark.driver.host配置为本地主机名，因此失败。那么有什么好的选择来处理这个问题吗？诸如自动将``spark.driver.host`设置为用于连接到集群的客户端IP接口(interface)地址之类的东西？正确的DNS解析不是选项。不可能。最佳答案基于此http://spark.apache.org/docs/latest/conf

hadoop Spark section 中通 apache-spark hadoop-yarn

53 54 555657 58 59