mapReduce_草庐IT

hadoop - 分布式文件系统(如 HDFS)上的 OpenMPI

HDFS(Hadoop分布式文件系统)等分布式文件系统是否支持OpenMPI？最佳答案 Hadoop不是使用MPI实现的，因为MPI是一种消息传递接口(interface)，而MapReduce是一种最初由Google开发用于运行大数据应用程序的工具。Hadoop/Mapreduce的主要功能之一是容错。但它在MPI中不受支持。引用Whyisn'tHadoopimplementedusingMPI?MPIandMapReduce让我们来回答您的问题，一篇文章说，在YARN下运行MPI作业的前景是一个诱人的提议。如前所述，现在存储在

hadoop - 如何强制 Hadoop 解压缩输入而不考虑其扩展名？

我正在运行map-reduce，我的输入是gzip压缩的，但没有.gz(文件名)扩展名。通常，当它们具有.gz扩展名时，Hadoop会在将它们传递给映射器之前负责即时解压缩它们。但是，如果没有扩展名，它不会这样做。我无法重命名我的文件，所以我需要某种“强制”Hadoop解压缩它们的方法，即使它们没有.gz扩展名。我尝试将以下标志传递给Hadoop:step_args=["-jobconf","stream.recordreader.compression=gzip",“-jobconf”，“mapred.output.compress=true”，“-jobconf”，“mapred.

扩展名 hadoop 射器 section mapreduce emr elastic-map-reduce amazon-emr

java - map reduce 有两个输入文件，一个文件基于另一个文件处理

我需要编写一个将输入作为两个输入文件的mapreduce。第一个输入文件如下所示:key1,25key1,35key1,60key2,30key3,45key3,65第二个输入文件如下:key1,-10key2,-20key3,-15我需要得到如下输出:key1,15key1,25key1,50key2,10key3,30key3,50(输出是第一个输入文件的值减去第二个输入文件的值)这怎么可能？mapper和reducer任务会是什么样子？我的做法如下:我想我必须有两个映射器，每个输入文件一个(一个映射器可以用来读取两个文件吗？)。映射器将简单地发出键和值。在reducer端，当我收

reduce java key 射器 section hadoop mapreduce hadoop-partitioning

java - Hadoop Map-Reduce 并行执行 3 个 Mappers 并输出到 1 个 reducer

我有一个要求，我必须根据每个数据集的不同标准过滤3个不同的数据集，最后将它们联合起来并将它们聚合到一个reducer中。我有一个执行作业的Pig脚本，其中数据集的过滤按顺序发生。我想知道是否有可能为每个数据集并行运行Mappers，并将输出发送到1个reducer类。最佳答案尝试使用MultipleInputs和3个映射器来处理3个数据集。请参阅此链接以获取MultipleInputs的API-https://hadoop.apache.org/docs/stable/api/org/apache/hadoop/mapreduc

Map-Reduce Mappers MultipleInputs section class java hadoop mapreduce

java - 在 Hadoop 2.6.0 到 2.7.1 升级上启动 MRAppMaster 时出现 NoClassDefFoundError

将我们的应用程序从2.6.0更新到2.7.1后，我无法让我们的映射器作业正确运行，作业日志中出现以下内容:SEVERE:ErrorstartingMRAppMasterjava.lang.NoClassDefFoundError:Couldnotinitializeclassorg.apache.log4j.LogManageratorg.slf4j.impl.Log4jLoggerFactory.getLogger(Log4jLoggerFactory.java:64)atorg.slf4j.LoggerFactory.getLogger(LoggerFactory.java:285

时出 NoClassDefFoundError code hadoop section java mapreduce classpath

java - Hadoop - 在作业配置中设置自定义 jdk 路径/版本

我有一个需要JDK1.8的mapreducejar文件和一个安装并配置了JDK1.7的Hadoop集群。是否可以在不更改Hadoop配置(即不更改hadoop-env.sh)的情况下运行我的jar？所有Hadoop节点也可以访问JDK1.8，我可以轻松地将JAVA_HOME更改为指向JDK1.8，但如果不更改Hadoop环境变量，这似乎没有任何效果。我已经看了submittingHadoopjobwithProcessBuilder和runningmapreducejobfromsimpleJavaprogram但不清楚如何处理您通常拥有的作业配置。例如，我正在使用它来运行我的Hado

自定 Hadoop job class java mapreduce

c++ - Hadoop 2.6 java.lang.nullpointerexception

我正在尝试运行wordcount示例classWordCountMapper:publicHadoopPipes::Mapper{public://constructor:doesnothingWordCountMapper(HadoopPipes::TaskContext&context){}//mapfunction:receivesaline,outputs(word,"1")//toreducer.voidmap(HadoopPipes::MapContext&context){//---getlineoftext---stringline=context.getInputVa

nullpointerexception amp java hadoop mapred c++mapreduce

java - 如何在hadoop中的mapreduce java代码中限制reduce作业的数量

我是Hadoop的新手，我想限制我的应用程序中减少作业的数量。在集群中，reduce作业的最大数量是120。但是，我不想使用所有这些，因为我的应用程序不需要那么多的reduce作业。我尝试了下面的解决方案，但没有任何改变。我的应用程序仍然使用120个reduce作业。如何设置reduce作业的数量？https://stackoverflow.com/questions/33237361/unable-to-set-mapreduce-job-reduces-through-generic-option-parser感谢您的回复。最佳答案

java 何在 section reduce stackoverflow hadoop mapreduce

hadoop - 如何在非mapreduce java程序中读取 Parquet 模式

有没有一种方法可以在不使用mapreduce的情况下通过获取元数据来直接读取Parquet文件列名。请举一些例子。我使用snappy作为压缩编解码器。最佳答案您可以使用ParquetFileReader或使用现有工具https://github.com/Parquet/parquet-mr/tree/master/parquet-tools用于使用命令行读取Parquet文件。关于hadoop-如何在非mapreducejava程序中读取Parquet模式，我们在StackOver

何在 mapreduce section Parquet hadoop bigdata

Hadoop 2.7.0 - MapReduce 作业未运行 - 因 AM 容器错误而失败

我在Fedora22虚拟机上以伪节点模式使用Hadoop2.7.0。几天前，MapReduce作业运行良好，但在安装Oozie并对yarn-site.xml进行了修改之后。我在运行Pi示例作业时遇到以下错误，我可能无法调试错误，已编辑-我使用命令行运行作业，不使用oozie工作流引擎..命令-hadoopjar10100StartingJob15/12/1715:22:05INFOclient.RMProxy:ConnectingtoResourceManagerat/192.168.122.1:803215/12/1715:22:06INFOinput.FileInputFormat

容器 MapReduce hadoop property