elastic-mapreduce

hadoop - Hive:Mapreduce 文件丢失

我可以输入Hive-cli并创建新表。但是，当我尝试向表中插入数据时，它显示:java.io.FileNotFoundException:Filedoesnotexist:hdfs://nameservice1/user/yarn/mapreduce/mr-framework/3.0.0-cdh6.0.1-mr-framework.tar.gz但是HDFS路径hdfsdfs-ls/user/yarn根本不存在。HDFS、YARN/MR、Hive状态正常，我尝试重启所有框架。为什么Yarn没有在HDFS上生成路径，也没有把tar文件放到HDFS路径下？如何解决这个问题？感谢您的帮助。

hadoop - 如何在 Hadoop 中创建和读取目录 - Mapreduce Job 工作目录

我想在Hadoop中的MapReduce作业的工作目录中创建一个目录。例如使用:文件setupFolder=newFile(setupFolderName);setupFolder.mkdirs();在我的映射器类中写入一些中间文件。这是正确的方法吗？此外，在完成工作后，如果我愿意，我将如何再次访问该目录？请指教。最佳答案如果您使用的是java，您可以覆盖setup方法并在那里打开文件处理程序(并在cleanup中关闭它)。此句柄将对所有映射器可用。我假设您不是在这里写所有的map输出，而是写一些调试/统计信息。使用此处理程序，

hadoop - 使用hadoop的mapreduce中溢出的记录是否应该始终等于mapinput记录或mapoutput记录？

我正在研究在hadoop中使用mapreduce的矩阵乘法示例。我想问一下，溢出记录是否应该始终等于mapinput和mapoutput记录。我有不同于mapinput和mapoutput记录的溢出记录这是我得到的其中一项测试的输出:ThreebythreetestIB=1KB=2JB=111/12/1413:16:22INFOinput.FileInputFormat:Totalinputpathstoprocess:211/12/1413:16:22INFOmapred.JobClient:Runningjob:job_201112141153_000311/12/1413:16:

hadoop - Hadoop MapReduce 可以运行在其他文件系统上吗？

我听说MapReduce作业的输入不需要在HDFS中。它可以在其他文件系统上。有人可以为此提供更多信息吗？我对此有点困惑？在独立模式下，数据可以在本地文件系统上。但是在集群模式下，我们如何将mapreduce作业指向其他文件系统？最佳答案不，它不需要在HDFS中。例如，使用其TableInputFormat以HBase为目标的作业通过网络从HBase节点拉取记录作为其映射作业的输入。DbInputFormat可用于将数据从SQL数据库提取到作业中。您可以构建一种输入格式，执行类似从NFS装载读取数据的操作。在实践中，如果可以的话

hadoop - 像couchdb这样的数据存储的MapReduce和Hadoop的区别？

最近在Couchbase的网络研讨会上，他们说Hadoop用于处理大型日志文件，而Couchbase用于将其呈现给应用层。他们声称Couchbase和Hadoop的map和reduce是不同的，适用于所提到的各自用例。我打算使用Couchbasemapreduce来处理大量的日志文件。有人可以澄清两个mapreduce之间的确切区别吗？Hadoop中是否有任何特性使其更适合处理大型日志文件？谢谢... 最佳答案主要区别在于couchbase使用增量map/reduce并且不会扫描您需要更新或删除项目的所有数据集。另一个区别是“大”

java - MapReduce 和从外部源下载文件

我有一个项目，要求以分布式方式从外部源下载文件。我们已经在Hadoop上进行了大量投资，并希望利用MapReduce——但更多的是作为分布式任务而不是ETL。1)以前有人这样做过吗？2)是否应该只有一个Mapper而没有一个Reducer？3)将FTP/HTTP连接的抽象实现传递给映射器的最佳方法是什么？--需要说明的是，我的意思是我想要一种无需进行集成测试即可对此进行单元测试的好方法，因此需要一种模拟FTP/HTTP的方法。4)MapReduce是处理这类事情的最佳方法吗？--我们在滥用MapReduce吗？谢谢。最佳答案这“

java - 将带有参数的文件传递给 mapreduce 作业

我有一个mapreduce映射器。这个Mapper应该使用一些只读参数集。假设我想计算输入行中某些子字符串(某物的标题)的出现次数。我确实有一个成对列表:“一些标题”=>“从输入行中提取此标题的正则表达式”。这些对存储在通常的文本文件中。将此文件传递给Mapper的最佳方式是什么？我只有这个想法:将成对的文件上传到hdfs。使用-Dpath.to.file.with.properties将路径传递给文件在映射器的静态{}部分读取文件并填充映射对“sometitle”=>“标题的常规表达式”。这是好事还是坏事？请告知最佳答案您已经

java - 运行简单的 mapreduce 作业时出现错误 "java.lang.OutOfMemoryError: Java heap space"

我一直在尝试在RHEL6中为wordcount运行一个简单的Mapreduce作业，但我一直收到此错误。请帮忙。13/01/1319:59:01INFOmapred.MapTask:io.sort.mb=10013/01/1319:59:01WARNmapred.LocalJobRunner:job_local_0001java.lang.OutOfMemoryError:Javaheapspaceatorg.apache.hadoop.mapred.MapTask$MapOutputBuffer.(MapTask.java:949)atorg.apache.hadoop.mapred

java - mapreduce，排序值

我的映射器有一个输出:Mapper:KEY,VALUE(Timestamp,someOtherAttrbibutes)我的Reducer确实收到了:Reducer:KEY,Iterable我要Iterable按Timestamp属性排序。有没有实现的可能？我想避免在Reducer代码中进行手动排序。http://cornercases.wordpress.com/2011/08/18/hadoop-object-reuse-pitfall-all-my-reducer-values-are-the-same/我将不得不从Iterable中“深度复制”所有对象，这会导致巨大的内存开销。:

hadoop - mapreduce 的哪个部分/类是停止 reduce 任务的逻辑实现

在HadoopMapReduce中，在所有映射器完成之前，没有缩减器启动。有人可以解释一下这个逻辑是在哪个部分/类/代码行实现的吗？我说的是HadoopMapReduce版本1(不是Yarn)。我已经搜索了mapreduce框架，但是类太多了，我不太了解方法调用及其顺序。换句话说，我需要(首先用于测试目的)让reducers开始减少，即使仍然有工作的映射器。我知道这样我得到的工作结果是错误的，但我知道这是更改框架部分的一些工作的开始。那么我应该从哪里开始查看并进行更改？最佳答案这是在洗牌阶段完成的。对于Hadoop1.x，请查看