nm-local-dir_草庐IT

hadoop - 从 s3 ://to local file system 复制文件

我是aws新手。我创建了一个集群并通过ssh连接到主节点。当我尝试将文件从s3://my-bucket-name/复制到pig中的本地file://home/hadoop文件夹时，使用:cps3://my-bucket-name/path/to/filefile://home/hadoop我得到错误:2013-06-0818:59:00,267[main]ERRORorg.apache.pig.tools.grunt.Grunt-ERROR2999:Unexpectedinternalerror.AWSAccessKeyIDandSecretAccessKeymustbespecifi

hadoop - 在 hadoop 多节点集群设置中创建从作业日志到 ${hadoop.tmp.dir} 的符号链接(symbolic link)失败

当我在3节点集群hadoop中运行简单的wordcount示例时，出现以下错误。我检查了必要文件夹的所有写/读权限。此错误不会停止mapreduce作业，但所有工作负载都转到集群中的一台机器上，其他两台机器在任务到达时给出与上述相同的错误。12/09/1309:38:37INFOmapred.JobClient:TaskId:attempt_201209121718_0006_m_000008_0,Status:FAILEDjava.lang.Throwable:ChildErroratorg.apache.hadoop.mapred.TaskRunner.run(TaskRunner

hadoop 中创 TaskRunner mapred mapreduce cluster-computing

Hadoop/YARN 作业失败 - "exited with exitCode: -1000 due to: Could not find any valid local directory for nmPrivate..."

我正在尝试使用Hadoop、YARN和Accumulo运行MapReduce作业。我收到以下输出，但我无法找到问题所在。看起来是YARN问题，但我不确定它在寻找什么。我在$HADOOP_PREFIX/grid/hadoop/hdfs/yarn/logs位置有一个nmPrivate文件夹。这是它说找不到的文件夹吗？14/03/3108:48:46INFOmapreduce.Job:Jobjob_1395942264921_0023failedwithstateFAILEDdueto:Applicationapplication_1395942264921_0023failed2times

amp directory section spark code hadoop hadoop-yarn accumulo

hadoop - 使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR

我正在尝试使用yarn运行Spark，但我遇到了这个错误:线程“main”中的异常java.lang.Exception:当使用master'yarn'运行时，必须在环境中设置HADOOP_CONF_DIR或YARN_CONF_DIR。我不确定“环境”在哪里(具体是什么文件？)。我尝试使用:exportHADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoopexportYARN_CONF_DIR=$HADOOP_HOME/etc/hadoop在bash_profile中，但这似乎没有帮助。最佳答案在使用Ya

中设 CONF HADOOP section code apache-spark

hadoop - Spark 提交 YARN 方式 HADOOP_CONF_DIR 内容

我正在尝试在YARN模式下使用sparksubmit在hadoop集群上启动spark任务。我正在从我的开发机器上启动spark-submit。根据RunningSparkOnYARN文档，我应该在环境变量HADOOP_CONF_DIR或YARN_CONF_DIR上提供hadoop集群配置的路径。这就是它变得棘手的地方:如果我将任务发送到远程YARN服务，为什么这些文件夹必须存在于我的本地机器上？这是否意味着spark-submit必须位于集群内部，因此我无法远程启动spark任务？如果没有，我应该用什么填充这些文件夹？是否应该从任务管理器服务所在的YARN集群节点复制hadoop配置

HADOOP_CONF_DIR hadoop code section spark apache-spark hadoop-yarn

hadoop - Spark : saveAsTextFile() only creating SUCCESS file and no part file when writing to local filesystem

我正在使用以下命令将RDD写入文件:rdd.coalesce(1).saveAsTextFile(FilePath)当FilePath是HDFS路径(hdfs://node:9000/folder/)时一切正常。当FilePath是本地路径(file:///home/user/folder/)时，一切似乎都正常。输出文件夹已创建，SUCCESS文件也已存在。但是我没有看到任何包含输出的part-00000文件。没有其他文件。spark控制台输出也没有错误。我还尝试在调用saveAsTextFile()之前调用RDD上的collect，为输出文件夹提供777权限，但没有任何效果。请帮忙。

file saveAsTextFile code section hadoop apache-spark

Hadoop dfs -ls 返回我的 hadoop/dir 中的文件列表

我在Win7下设置了一个通过cygwin运行的单节点Hadoop配置。通过bin/start-all.sh启动Hadoop之后我跑bin/hadoopdfs-ls它返回我的hadoop目录中的文件列表。然后我运行bin/hadoopdatanode-formatbin/hadoopnamenode-format但是-ls仍然返回我的hadoop目录的内容。据我所知，它应该什么都不返回(空文件夹)。我做错了什么？最佳答案您是否编辑了conf文件夹下的core-site.xml和mapred-site.xml？您的hadoop集群似

Hadoop section code hdfs

hadoop - Rack-local map任务和Data-local map任务有什么区别？

当我运行“hadoopjob-statusxxx”时，输出以下一些列表。Rack-localmaptasks=124Data-localmaptasks=6Rack-localmaptasks和Data-localmaptasks有什么区别？最佳答案在本地数据任务中，不需要复制任何内容。那是因为该block与计算物理上位于同一台服务器上。下一层是机架本地任务，这里必须复制数据，因为没有可用的所需block的本地副本。请注意，本地机架仅在网络的本地机架交换中复制。还有最坏的情况，数据在本地不可用，也不在同一机架上。所以这必须通过两

local Rack-local section tasks hadoop mapreduce hadoop-streaming

hadoop - 异常 : java. Spark 中的 lang.Exception : When running with master 'yarn' either HADOOP_CONF_DIR or YARN_CONF_DIR must be set in the environment.

我是新的apache-spark。我已经在spark独立模式下测试了一些应用程序。但我想运行应用程序yarn模式。我在windows中运行apache-spark2.1.0。这是我的代码c:\spark>spark-submit2--masteryarn--deploy-modeclient--executor-cores4--jarsC:\DependencyJars\spark-streaming-eventhubs_2.11-2.0.3.jar,C:\DependencyJars\scalaj-http_2.11-2.3.0.jar,C:\DependencyJars\confi

CONF HADOOP_CONF_DIR spark section DependencyJars hadoop apache-spark pyspark hadoop-yarn

hadoop - hadoop.tmp.dir 应该是什么？

Hadoop有配置参数hadoop.tmp.dir，根据文档，它是`“其他临时目录的基础。”我想，这个路径指的是本地文件系统。我将此值设置为/mnt/hadoop-tmp/hadoop-${user.name}。格式化名称节点并启动所有服务后，我看到在HDFS上创建的路径完全相同。这是否意味着hadoop.tmp.dir指的是HDFS上的临时位置？最佳答案这很令人困惑，但是hadoop.tmp.dir被用作本地临时目录的基础，在HDFS中也是如此。该文档不是很好，但是mapred.system.dir默认设置为"${hadoop

hadoop 该是 code section hdfs config