我们有两个cloudera5.7.1集群,一个使用Kerberos保护,一个不保护。是否可以在访问存储在安全集群中的Hive表时使用不安全的YARN集群运行Spark?(Spark版本为1.6)如果是这样,您能否解释一下如何配置它?更新:我想稍微解释一下我的问题背后的最终目标。我们的主要安全集群被大量使用,我们的工作无法在合理的时间内获得足够的资源来完成。为了克服这个问题,我们希望使用我们拥有的另一个不安全集群的资源,无需在集群之间复制数据。我们知道这不是最佳解决方案,因为数据局部性级别可能不是最佳解决方案,但这是我们目前可以提出的最佳解决方案。如果您有任何其他解决方案,请告诉我,因为
使用ClouderaManager时,我可以通过以下方式访问hdfs-site.xml文件:ClouderaManager>Cluster>HDFS>Instances>(NameNode,例如)>Processes配置文件>hdfs-site.xml然后URL指向:http://quickstart.cloudera:7180/cmf/process/8/config?filename=hdfs-site.xml这个文件是否可以通过文件系统直接访问,如果可以,它位于何处 最佳答案 ClouderaManager中设置的配置存储在C
我正在尝试运行SpringBootYARN示例(Windows上为https://spring.io/guides/gs/yarn-basic/)。在application.yml中,我更改了fsUri和resourceManagerHost以指向我的VM主机192.168...。但是当我尝试运行应用程序时,Exceprion出现了:DFSClient:ExceptionincreateBlockOutputStreamjava.net.ConnectException:Connectiontimedout:nofurtherinformationatsun.nio.ch.Socket
我想查看logmapper或者reducer输出?在containerfoler下的syslog中找不到?那么log输出到哪里呢?publicclassSkipStat{privatestaticLoglog=LogFactory.getLog(SkipStat.class);privatestaticBlockWorkerRepositoryblockWorkerRepository;static{blockWorkerRepository=newBlockWorkerRepositoryImpl();}privatestaticclassSkipInfoMapperextendsM
当我调用./stop-yarn.sh然后调用./start-yarn.sh时,所有正在进行的作业将打印如下内容:14/10/2216:23:28INFOipc.Client:Retryingconnecttoserver:644v3.mzhen.cn/192.168.7.210:18040.Alreadytried0time(s);retrypolicyisRetryUpToMaximumCountWithFixedSleep(maxRetries=10,sleepTime=1SECONDS)14/10/2216:23:29INFOipc.Client:Retryingconnectt
我了解以下是spark集群所需的守护进程硕士worker(奴隶)驱动程序(提交申请时启动)执行器(提交申请时启动)在yarn集群上设置Spark时,我有一些非常基本的问题是否有单独为spark启动的主守护进程或工作守护进程?我了解yarn集群本身的资源管理器和节点管理器将充当Spark作业的主人和worker。来自这篇文章http://blog.cloudera.com/blog/2014/05/apache-spark-resource-management-and-yarn-app-models/,似乎没有单独用于sparkonyarn的主/从守护进程。如果以上问题的答案是否定的。
我一直在尝试在任务级别设置Hadoop日志记录,但到目前为止没有成功。我修改了log4j.properties并将许多参数设置为DEBUG级别:log4j.logger.org.apache.hadoop.mapred.Task=DEBUGlog4j.logger.org.apache.hadoop.mapred.MapTask=DEBUGlog4j.logger.org.apache.hadoop.mapred.ReduceTask=DEBUGlog4j.logger.org.apache.hadoop=DEBUG但是,我无法从正在记录的任务中看到任何LOG.info或LOG.deb
由于MapReduce1中的jobTracker被Yarn中的ApplicationMaster和ResouceManager所取代我想知道Yarn中谁在与名称节点通信以找出数据存储在不同数据节点中的位置?应用大师是这样做的吗? 最佳答案 在YARN中,每个应用程序ApplicationMaster负责从Namenode获取有关输入拆分的信息。稍后,当任务尝试在分配的节点上执行时,YarnChild从HDFS中获取相应的拆分。 关于hadoop-谁与yarn中的名称节点通信?,我们在St
我有如下要求:有一个30节点的hadoopYARN集群和一个用于提交作业的客户端机器。让我们使用wordcountMR示例,因为它是世界著名的。我想从java方法提交并运行wordcountMR作业。那么提交作业所需的代码是什么?有什么特定于客户端机器上的配置吗? 最佳答案 Hadoop应该存在于您的客户端机器上,其配置与您的hadoop集群中的其他机器相同。要从java方法提交MR作业,请引用javaProcessBuilder并传递hadoop命令以启动您的wordcount示例。可以找到wordcount的命令和必要的应用程序
我正在使用Hadoop版本0.20.2(Cloudera发行版cdh3u6)并发现问题。据我了解,如果我在/etc/hadoop/conf/mapred-site.xml中设置一个值,它应该自动覆盖Hadoop默认值。所以我设置了一个变量如下:mapred.child.java.opts-Xmx1024m但是,这没有任何效果。现在,我知道hadoop正在读取该文件,因为如果我将变量设置为final(true),则该设置确实适用于我的工作。但是,据我了解,这不是必需的,因为mapred-site.xml应该在mapred-default.xml之后加载所以它应该简单地覆盖它。您可能会问,