log_dir_草庐IT

hadoop - Spark 提交 YARN 方式 HADOOP_CONF_DIR 内容

我正在尝试在YARN模式下使用sparksubmit在hadoop集群上启动spark任务。我正在从我的开发机器上启动spark-submit。根据RunningSparkOnYARN文档，我应该在环境变量HADOOP_CONF_DIR或YARN_CONF_DIR上提供hadoop集群配置的路径。这就是它变得棘手的地方:如果我将任务发送到远程YARN服务，为什么这些文件夹必须存在于我的本地机器上？这是否意味着spark-submit必须位于集群内部，因此我无法远程启动spark任务？如果没有，我应该用什么填充这些文件夹？是否应该从任务管理器服务所在的YARN集群节点复制hadoop配置

hadoop - Name node在哪里存储fsImage和edit Log？

我是一名java程序员，正在学习Hadoop。我读到HDFS中的名称节点将其信息存储到两个文件中，即fsImage和editLog。在启动的情况下，它会从磁盘读取此数据并执行检查点操作。但在很多地方我也读到NameNode将数据存储在RAM中，这就是为什么apache推荐具有高RAM的机器作为NameNode服务器。请赐教。它在RAM中存储什么数据？它在哪里存储fsImage和编辑日志？抱歉，如果我问了一些显而易见的问题。最佳答案我先回答WhatdatadoesitstoreinRAM&wheredoesitstorefsIma

fsImage hadoop section RAM hdfs

Hadoop log4j 无法正常工作，因为找不到记录器的附加程序 (org.apache.hadoop.metrics2.lib.MutableMetricsFactory)

我正在使用eclipse开发mapreduce，并尝试使用hadoop2.6.0windows独立模式对其进行测试。但log4j出现以下错误，如何解决下面的appender问题，找不到记录器的附加程序(org.apache.hadoop.metrics2.lib.MutableMetricsFactory)与hadooplog4jnotworking相同的问题但还没有答案谢谢，最佳答案 1-创建文件log4j.properties并将其放在的位置源/主要/资源log4j.properties的内容hadoop.root.logge

记录器 MutableMetricsFactory log4j log4 section hadoop

Hadoop dfs -ls 返回我的 hadoop/dir 中的文件列表

我在Win7下设置了一个通过cygwin运行的单节点Hadoop配置。通过bin/start-all.sh启动Hadoop之后我跑bin/hadoopdfs-ls它返回我的hadoop目录中的文件列表。然后我运行bin/hadoopdatanode-formatbin/hadoopnamenode-format但是-ls仍然返回我的hadoop目录的内容。据我所知，它应该什么都不返回(空文件夹)。我做错了什么？最佳答案您是否编辑了conf文件夹下的core-site.xml和mapred-site.xml？您的hadoop集群似

Hadoop section code hdfs

hadoop - fsimage 和 edit log 文件实际存储在哪个文件夹或什么位置，供 namenode 在启动期间读取和合并？

当名称节点启动时，它从图像文件fsimage读取HDFS状态，然后应用编辑日志文件中的编辑。如果我没记错的话，Name节点启动就是我们写start-all.sh的时候。因此，在启动期间，我认为它读取fsimage并编辑日志并将它们合并。但它实际上是从哪个文件夹或哪个位置读取这两个内容的？最佳答案在hadoop-1.x中，start-all.sh脚本内部执行两个操作start-dfs.sh和start-mapred.sh。start-dfs.sh将启动hdfs所需的所有守护进程，即:datanode、namenode、second

namenode fsimage code section hadoop hdfs

Hadoop MapReduce log4j - 将消息记录到 userlogs/job_ 目录中的自定义文件？

我不清楚应该如何在作业级别配置HadoopMapReducelog4j。谁能帮我回答这些问题。1)如何从客户端计算机添加对log4j日志记录的支持。即我想在客户端机器上使用log4j属性文件，因此不想干扰集群中的Hadooplog4j设置。我认为在项目/jar中拥有属性文件就足够了，hadoop的分布式缓存应该完成其余的传输map-reducejar。2)如何将消息记录到$HADOOP_HOME/logs/userlogs/job_/目录中的自定义文件中。3)mapreduce任务会同时使用log4j属性文件吗？一个由客户端作业提供，一个存在于hadoop集群中？如果是，那么log4j

自定 MapReduce properties section log4 hadoop log4j distributed-cache

java - Spark 强制 log4j

我在Scala中有一个简单的spark项目，并且想使用logback，但spark/hadoop似乎强制我使用log4j。这似乎与我对slf4j目的的理解不一致；是这不是对spark/hadoop的疏忽？我必须放弃logback并使用log4j吗？解决方法？在build.sbt中我尝试了排除..."org.apache.spark"%%"spark-core"%"1.4.1"excludeAll(ExclusionRule(name="log4j"),ExclusionRule(name="slf4j-log4j12")),"org.slf4j"%"slf4j-api"%"1.7.12

Spark log4j java apache UserGroupInformation scala hadoop apache-spark logback

hadoop - 异常 : java. Spark 中的 lang.Exception : When running with master 'yarn' either HADOOP_CONF_DIR or YARN_CONF_DIR must be set in the environment.

我是新的apache-spark。我已经在spark独立模式下测试了一些应用程序。但我想运行应用程序yarn模式。我在windows中运行apache-spark2.1.0。这是我的代码c:\spark>spark-submit2--masteryarn--deploy-modeclient--executor-cores4--jarsC:\DependencyJars\spark-streaming-eventhubs_2.11-2.0.3.jar,C:\DependencyJars\scalaj-http_2.11-2.3.0.jar,C:\DependencyJars\confi

CONF HADOOP_CONF_DIR spark section DependencyJars hadoop apache-spark pyspark hadoop-yarn

hadoop - hadoop.tmp.dir 应该是什么？

Hadoop有配置参数hadoop.tmp.dir，根据文档，它是`“其他临时目录的基础。”我想，这个路径指的是本地文件系统。我将此值设置为/mnt/hadoop-tmp/hadoop-${user.name}。格式化名称节点并启动所有服务后，我看到在HDFS上创建的路径完全相同。这是否意味着hadoop.tmp.dir指的是HDFS上的临时位置？最佳答案这很令人困惑，但是hadoop.tmp.dir被用作本地临时目录的基础，在HDFS中也是如此。该文档不是很好，但是mapred.system.dir默认设置为"${hadoop

hadoop 该是 code section hdfs config

hadoop - 为什么 Hadoop 报告 "Unhealthy Node local-dirs and log-dirs are bad"？

我正在尝试在我的PC上设置单节点Hadoop2.6.0集群。访问时http://localhost:8088/cluster，我发现我的节点被列为“不健康节点”。在健康报告中，它提供了错误:1/1local-dirsarebad:/tmp/hadoop-hduser/nm-local-dir;1/1log-dirsarebad:/usr/local/hadoop/logs/userlogs怎么了？最佳答案 local-dirs坏的最常见原因是节点上的可用磁盘空间超过了yarn的max-disk-utilization-per-di

dirs local-dirs code section hadoop hadoop-yarn