job_local_草庐IT

hadoop - 从 s3 ://to local file system 复制文件

我是aws新手。我创建了一个集群并通过ssh连接到主节点。当我尝试将文件从s3://my-bucket-name/复制到pig中的本地file://home/hadoop文件夹时，使用:cps3://my-bucket-name/path/to/filefile://home/hadoop我得到错误:2013-06-0818:59:00,267[main]ERRORorg.apache.pig.tools.grunt.Grunt-ERROR2999:Unexpectedinternalerror.AWSAccessKeyIDandSecretAccessKeymustbespecifi

Hadoop/YARN 作业失败 - "exited with exitCode: -1000 due to: Could not find any valid local directory for nmPrivate..."

我正在尝试使用Hadoop、YARN和Accumulo运行MapReduce作业。我收到以下输出，但我无法找到问题所在。看起来是YARN问题，但我不确定它在寻找什么。我在$HADOOP_PREFIX/grid/hadoop/hdfs/yarn/logs位置有一个nmPrivate文件夹。这是它说找不到的文件夹吗？14/03/3108:48:46INFOmapreduce.Job:Jobjob_1395942264921_0023failedwithstateFAILEDdueto:Applicationapplication_1395942264921_0023failed2times

hadoop - 使用 WebHCat 访问/templeton/v1/jobs 时出现错误 500

我的WebHCat服务器正在运行，我可以使用hadoop(使用hadoop-example-mapreduce-examples-2.2.0.jar)提交作业。当我去http://localhost:8080/templeton/v1/status它正在运行，所以服务器已启动。当我去http://localhost:8080/templeton/v1/jobs它给出了缺少的user.name参数，所以我用GET给它user.name参数，但是这个URL，http://localhost:8080/templeton/v1/jobs?user.name=出现以下错误:HTTPERROR:

hadoop - Apache Hadoop 中的 job.submit 和 job.waitForComplete 有什么区别？

我已经阅读了文档，所以我知道其中的区别。但我的问题是，如果我想在集群上并行运行多个Hadoop作业，使用.submit而不是.waitForComplete是否有任何风险？我主要使用ElasticMapReduce。当我尝试这样做时，我注意到只有第一个作业被执行。最佳答案如果您的目标是并行运行作业，那么使用job.submit()肯定没有风险。job.waitForCompletion存在的主要原因是它的方法调用仅在作业完成时返回，并且返回成功或失败状态，可用于确定要运行的进一步步骤或不是。现在，回过头来看，您只看到第一个作业正

java - 在 Mapreduce 中设置 job.setInputFormatClass 时出错

我正在运行一个MapReduce程序。我需要以KEYVALUE对的格式提供输入文本文件。这样如果我写job.setInputFormatClass(KeyValueTextInputFormat.class);eclipse编译器显示错误，我无法使用InputFormat。无论如何我需要将输入的格式设置为KeyValueTextInputFormat我该怎么做呢？？有什么想法吗？？？？？我的代码是`packagecom.iot.dictionary;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;

java - 第一次使用Hadoop，MapReduce Job没有运行Reduce Phase

我编写了一个简单的mapreduce作业，它会从DFS中读取数据并在其上运行一个简单的算法。在尝试调试它时，我决定简单地让映射器输出一组键和值，而缩减器输出一组完全不同的键和值。我在单节点Hadoop20.2集群上运行这个作业。作业完成后，输出仅包含映射器输出的值，让我相信reducer没有运行。如果有人对我的代码产生这种输出的原因提供任何见解，我将不胜感激。我已经尝试将outputKeyClass和outputValueClass设置为不同的东西，以及将setMapOutputKeyClass和setMapOutputValueClass设置为不同的东西。目前注释我们的代码部分是我正

java - 如何优雅地终止 hadoop 作业/拦截 `hadoop job -kill`

我的Java应用程序在映射器上运行，并使用QuboleAPI创建子进程。应用程序存储子qubolequeryID。我需要在退出前拦截终止信号并关闭子进程。hadoopjob-killjobId和yarnapplication-killapplicationId命令正在以SIGKILL方式杀死作业，我不知道如何拦截关机。是否有可能以某种方式拦截作业终止或配置hadoop以使应用程序有机会正常关闭？应用程序在本地运行时使用ShutdownHook成功拦截关闭，而不是在映射器容器中，并且能够杀死它的子进程。请建议在映射器中运行时如何拦截关机，或者我做错了什么？最

hadoop - Spark : saveAsTextFile() only creating SUCCESS file and no part file when writing to local filesystem

我正在使用以下命令将RDD写入文件:rdd.coalesce(1).saveAsTextFile(FilePath)当FilePath是HDFS路径(hdfs://node:9000/folder/)时一切正常。当FilePath是本地路径(file:///home/user/folder/)时，一切似乎都正常。输出文件夹已创建，SUCCESS文件也已存在。但是我没有看到任何包含输出的part-00000文件。没有其他文件。spark控制台输出也没有错误。我还尝试在调用saveAsTextFile()之前调用RDD上的collect，为输出文件夹提供777权限，但没有任何效果。请帮忙。

hadoop - Rack-local map任务和Data-local map任务有什么区别？

当我运行“hadoopjob-statusxxx”时，输出以下一些列表。Rack-localmaptasks=124Data-localmaptasks=6Rack-localmaptasks和Data-localmaptasks有什么区别？最佳答案在本地数据任务中，不需要复制任何内容。那是因为该block与计算物理上位于同一台服务器上。下一层是机架本地任务，这里必须复制数据，因为没有可用的所需block的本地副本。请注意，本地机架仅在网络的本地机架交换中复制。还有最坏的情况，数据在本地不可用，也不在同一机架上。所以这必须通过两

Hadoop MapReduce log4j - 将消息记录到 userlogs/job_ 目录中的自定义文件？

我不清楚应该如何在作业级别配置HadoopMapReducelog4j。谁能帮我回答这些问题。1)如何从客户端计算机添加对log4j日志记录的支持。即我想在客户端机器上使用log4j属性文件，因此不想干扰集群中的Hadooplog4j设置。我认为在项目/jar中拥有属性文件就足够了，hadoop的分布式缓存应该完成其余的传输map-reducejar。2)如何将消息记录到$HADOOP_HOME/logs/userlogs/job_/目录中的自定义文件中。3)mapreduce任务会同时使用log4j属性文件吗？一个由客户端作业提供，一个存在于hadoop集群中？如果是，那么log4j