DT_TOOLCHAIN_DIR

scala - yarn 上的 Spark 提交没有将 jar 分发到 nm-local-dir

1、版本Spark:2.0.0标度:2.11.8java:1.8.0_91hadoop:2.7.22、问题:当我在yarn上提交scala程序到spark时，它抛出一个异常:Causedby:java.lang.IllegalStateException:Librarydirectory'/opt/hadoop/tmp/nm-local-dir/usercache/hadoop/appcache/application_1471514504287_0021/container_1471514504287_0021_01_000002/assembly/target/scala-2.11

分发 nm-local-dir INFO java 08 scala hadoop apache-spark hadoop-yarn

hadoop - "dfs.replication"和 "dfs.datanode.data.dir"配置如何在集群中工作？

我已按照Apache“单节点设置”说明在单节点上设置dfs.replication。但是后来我按照“ClusterSetup”进行操作，但它没有提到这个属性，所以我不知道这是要在Namenode上设置的属性，还是也/仅在Datanodes上设置的属性..我还读到在数据节点上的dfs.datanode.data.dir中设置多个(逗号分隔)路径将复制所有路径上的数据。所以我的问题是:dfs.replication将对哪个节点产生影响，如果dfs.datanode.data.dir的多个路径是设置，这些额外的独立复制是否仅针对每个数据节点，或者这些是否也以某种方式与dfs.replicat

中工 amp strong code replication hadoop hdfs

hadoop - yarn.log.dir 在哪里定义的？

在yarn-default.xml对于ApacheHadoop3.0.0，它将yarn.nodemanager.log-dirs的默认值显示为${yarn.log.dir}/userlogs。yarn.log.dir在哪里定义的？它有默认值吗？我没有在任何默认配置(core-default.xml、hdfs-default.xml、mapred-default.xml、yarn-default.xml)中找到它。我没有在任何环境脚本(hadoop-env.sh、httpfs-env.sh、kms-env.sh、mapred-env.sh、yarn-env.sh)中找到它。同样让我感到困

hadoop yarn default section logging hadoop-yarn

java - Hadoop使用Java递归地将fsPermission设置为dir

您好，我有一个测试程序，可以将文件加载到此路径user/user1/data/app/type/file.gz的hdfs中。现在这个测试程序由多个用户运行多次。所以我想给rwx设置文件权限，这样任何人都可以删除这个文件。我有以下代码fs.setPermission(newPath("user/user1/data"),newFsPermission(FsAction.ALL,FsAction.ALL,FsAction.ALL))上一行将drwxrwxrwx授予所有目录，但对于file.gz，它授予-rw-r--r--权限，为什么这样呢？由于这个原因，除我之外的另一个用户无法通过测试程序

fsPermission Hadoop section code 34 java hdfs

hadoop - 在 hadoop 多节点集群设置中创建从作业日志到 ${hadoop.tmp.dir} 的符号链接(symbolic link)失败

当我在3节点集群hadoop中运行简单的wordcount示例时，出现以下错误。我检查了必要文件夹的所有写/读权限。此错误不会停止mapreduce作业，但所有工作负载都转到集群中的一台机器上，其他两台机器在任务到达时给出与上述相同的错误。12/09/1309:38:37INFOmapred.JobClient:TaskId:attempt_201209121718_0006_m_000008_0,Status:FAILEDjava.lang.Throwable:ChildErroratorg.apache.hadoop.mapred.TaskRunner.run(TaskRunner

hadoop 中创 TaskRunner mapred mapreduce cluster-computing

hadoop - 使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR

我正在尝试使用yarn运行Spark，但我遇到了这个错误:线程“main”中的异常java.lang.Exception:当使用master'yarn'运行时，必须在环境中设置HADOOP_CONF_DIR或YARN_CONF_DIR。我不确定“环境”在哪里(具体是什么文件？)。我尝试使用:exportHADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoopexportYARN_CONF_DIR=$HADOOP_HOME/etc/hadoop在bash_profile中，但这似乎没有帮助。最佳答案在使用Ya

中设 CONF HADOOP section code apache-spark

hadoop - Spark 提交 YARN 方式 HADOOP_CONF_DIR 内容

我正在尝试在YARN模式下使用sparksubmit在hadoop集群上启动spark任务。我正在从我的开发机器上启动spark-submit。根据RunningSparkOnYARN文档，我应该在环境变量HADOOP_CONF_DIR或YARN_CONF_DIR上提供hadoop集群配置的路径。这就是它变得棘手的地方:如果我将任务发送到远程YARN服务，为什么这些文件夹必须存在于我的本地机器上？这是否意味着spark-submit必须位于集群内部，因此我无法远程启动spark任务？如果没有，我应该用什么填充这些文件夹？是否应该从任务管理器服务所在的YARN集群节点复制hadoop配置

HADOOP_CONF_DIR hadoop code section spark apache-spark hadoop-yarn

Hadoop dfs -ls 返回我的 hadoop/dir 中的文件列表

我在Win7下设置了一个通过cygwin运行的单节点Hadoop配置。通过bin/start-all.sh启动Hadoop之后我跑bin/hadoopdfs-ls它返回我的hadoop目录中的文件列表。然后我运行bin/hadoopdatanode-formatbin/hadoopnamenode-format但是-ls仍然返回我的hadoop目录的内容。据我所知，它应该什么都不返回(空文件夹)。我做错了什么？最佳答案您是否编辑了conf文件夹下的core-site.xml和mapred-site.xml？您的hadoop集群似

Hadoop section code hdfs

hadoop - 异常 : java. Spark 中的 lang.Exception : When running with master 'yarn' either HADOOP_CONF_DIR or YARN_CONF_DIR must be set in the environment.

我是新的apache-spark。我已经在spark独立模式下测试了一些应用程序。但我想运行应用程序yarn模式。我在windows中运行apache-spark2.1.0。这是我的代码c:\spark>spark-submit2--masteryarn--deploy-modeclient--executor-cores4--jarsC:\DependencyJars\spark-streaming-eventhubs_2.11-2.0.3.jar,C:\DependencyJars\scalaj-http_2.11-2.3.0.jar,C:\DependencyJars\confi

CONF HADOOP_CONF_DIR spark section DependencyJars hadoop apache-spark pyspark hadoop-yarn

hadoop - hadoop.tmp.dir 应该是什么？

Hadoop有配置参数hadoop.tmp.dir，根据文档，它是`“其他临时目录的基础。”我想，这个路径指的是本地文件系统。我将此值设置为/mnt/hadoop-tmp/hadoop-${user.name}。格式化名称节点并启动所有服务后，我看到在HDFS上创建的路径完全相同。这是否意味着hadoop.tmp.dir指的是HDFS上的临时位置？最佳答案这很令人困惑，但是hadoop.tmp.dir被用作本地临时目录的基础，在HDFS中也是如此。该文档不是很好，但是mapred.system.dir默认设置为"${hadoop

hadoop 该是 code section hdfs config