草庐IT

yarn-site

全部标签

hadoop - spark-shell --master yarn 卡住

我通过Homebrew安装了Hadoop和Spark$brewlist--versions|grepsparkapache-spark2.2.0$brewlist--versions|grephadoophadoop2.8.12.8.2hdfs我使用的是Hadoop2.8.2。我关注了thispost配置Hadoop。另外,关注thispost将spark.yarn.archive配置为:spark.yarn.archivehdfs://localhost:9000/user/panc25/spark-jars.zip以下是我在.bash_profile中的Hadoop/Spark相关

apache-spark - Spark : YARN throws NoSuchMethodError on NettyMemoryMetrics

为了让Spark(spark-2.3.0-bin-without-hadoop)在HDFS上与YARN一起工作,我将Hadoop降级到hadoop-2.7.6以解决依赖问题。到目前为止,HDFS和YARN都没有问题。当我提交一个SparkJar时它崩溃了,我得到以下Stacktrace:Exceptioninthread"main"java.lang.NoSuchMethodError:io.netty.buffer.PooledByteBufAllocator.metric()Lio/netty/buffer/PooledByteBufAllocatorMetric;atorg.ap

apache-spark - 如何使用 APPLICATION ID 提交 YARN 作业

我想知道YARNCLI是否提供了使用上一次执行生成的APPLICATION_ID重新提交YARN应用程序的可能性。例子:/opt/mapr/spark/spark-2.1.0/bin/spark-submit--num-executors5--executor-memory2G--executor-cores2--masteryarn--deploy-modecluster--files/opt/mapr/hive/hive-2.1/conf/hive-site.xml--classcom.cisco.sdp.cdx.processing.DenormSchedulerJSONDeno

python - 使用 yarn 比较器在 MapReduce Python 中进行字数统计排序

我想解决字数统计问题,想得到按照文件中出现频率倒序排序的结果。以下是我为此目的编写的四个文件(2个映射器和2个缩减器,因为一个MapReduce作业无法解决此问题):1)映射器1.pyimportsysimportrereload(sys)sys.setdefaultencoding('utf-8')#requiredtoconverttounicodeforlineinsys.stdin:try:article_id,text=unicode(line.strip()).split('\t',1)exceptValueErrorase:continuewords=re.split("

hadoop - Apache Hadoop Windows 10 - Datanode、Resource Manager 和 Yarn 在启动时立即关闭

我已经按照教程为Windows设置了ApacheHadoop,可以找到here.我现在遇到Datanode、ResourceManager和Yarncmd窗口的问题,显示打开后所有3秒都关闭,只有Namenode继续运行。这是我到目前为止尝试过的过程:以管理员身份运行CMD使用命令start-all.cmd(这会打开Namenode、Datanode、Yarn和Resourcemanagercmd窗口)Datanode、Yarn和Resourcemanager几乎都在启动后立即给出关闭消息SHUTDOWN_MSG:正在thood-alienware/...关闭ResourceManag

apache-spark - Pyspark 在 yarn 集群模式下将文件写入本地

我正在尝试运行我的pyspark代码。我的目标目录是本地目录。我提交spark-submit命令的用户是super用户,拥有从hdfs读取文件并将文件写入本地的所有权限。作业正在运行,没有任何错误,但没有创建输出目录或文件。我在我的spark代码中将HADOOP_USER_NAME设置为super用户以避免权限问题。谁能帮忙 最佳答案 如果您在YARN集群模式下运行,那么YARNApplicationMaster实际上是在一个节点上运行,因此将在节点本地写出。如果你找到它是哪个节点,那么你应该在那里找到你的输出目录和文件。

hadoop - yarn hadoop 2.4.0 : info message: ipc. 客户端重试连接到服务器

我已经搜索了两天的解决方案。但没有任何效果。首先,我是整个hadoop/yarn/hdfs主题的新手,想配置一个小型集群。每次运行mapreduce-examples.jar中的示例时,上面的消息都不会出现有时teragen有效,有时无效。在某些情况下整个工作失败,在其他情况下工作成功完成。有时作业会失败,而不会打印上面的消息。14/06/0815:42:46INFOipc.Client:Retryingconnecttoserver:FQDN-HOSTNAME/XXX.XX.XX.XXX:53022.Alreadytried2time(s);retrypolicyisRetryUpT

hadoop - 如何在 Hadoop 2 + YARN 中计算并发#mappers 和#reducers?

我搜索了一段时间,发现使用hadoop2+yarn的MapReduce集群每个节点具有以下数量的并发映射和减少:并发映射#=yarn.nodemanager.resource.memory-mb/mapreduce.map.memory.mb并发减少#=yarn.nodemanager.resource.memory-mb/mapreduce.reduce.memory.mb但是,我设置了一个包含10台机器的集群,配置如下:'yarn_site'=>{'yarn.nodemanager.resource.cpu-vcores'=>'32','yarn.nodemanager.resou

hadoop - 在 YARN 集群的特定节点上运行我自己的 application master

首先,我使用的是Hadoop-2.6.0。我想在YARN集群中的特定节点上启动我自己的appmaster,以便在预定的IP地址和端口上打开服务器。为此,我编写了一个驱动程序,在其中创建了一个ResourceRequest对象并调用了setResourceName方法来设置主机名,并将其附加到ApplicationSubmissionContext对象通过调用setAMContainerResourceRequest方法。我尝试了几次,但无法在特定节点上启动AppMaster。搜索代码后,我发现RMAppAttemptImpl使我在ResourceRequest中设置的内容无效,如下所示

hadoop - 使用大内存映射文件时 yarn 容器内存不足

我正在使用hadoop2.4。reducer使用几个大内存映射文件(总共约8G)。reducer本身使用的内存非常少。据我所知,内存映射文件(FileChannel.map(readonly))也使用很少的内存(由OS而不是JVM管理)。我遇到了这个错误:Container[pid=26783,containerID=container_1389136889967_0009_01_000002]isrunningbeyondphysicalmemorylimits.Currentusage:4.2GBof4GBphysicalmemoryused;5.2GBof8.4GBvirtual