task_completion_source

java - Hadoop 映射 : attach sources howto

我使用:org.apache.avroavro-mapred1.7.4hadoop2问题:如何将源附加到该类？最佳答案你可以添加另一个依赖，使用sourcesclassiferorg.apache.avroavro-mapred1.7.4jarsources参见therepo.您还可以获得javadoc。关于java-Hadoop映射:attachsourceshowto，我们在StackOverflow上找到一个类似的问题： https://stack

sources Hadoop section lt gt java maven

xml - 改变 mapred.reduce.tasks

我应该在哪个文件中设置reducer的数量和设置mapred.reduce.tasks参数？我的conf文件夹中只有以下文件，没有一个有这个参数:ubuntu@group-3-vm1:~/conf$lscapacity-scheduler.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xmlcore-site.xmlhive-site.xmltez-site.xml 最佳答案所有Hadoop配置属性都分为以下几组。Hadoop-1.X.X:核心-core-site.xmlhdfs-hdfs-si

mapred reduce site xml section hadoop mapreduce hive hdfs

hadoop - Mapper 或 Reducer Task 中未处理的异常会使任务失败？

我想知道mapper任务(或reducer任务)中未处理的异常是否会使任务失败，或者仅忽略时间的特定输入对？我想是前者，但不太确定。最佳答案这取决于错误。无论哪种方式，我总是强调用try-catchblock包装map和减少逻辑。出现错误时，我递增一个计数器，其名称派生自异常类名。这不仅可以保护hadoop的其余部分免受逻辑错误的影响，还可以让您仅通过查看日志就知道出了多少问题。关于hadoop-Mapper或ReducerTask中未处理的异常会使任务失败？，我们在StackOv

常会 Reducer section stackoverflow questions hadoop mapreduce

java - Hadoop-级联: Partial directory source tap

我的数据结构如下:+data|-2014080700_00.txt|-2014080700_01.txt|-2014080701_00.txt|-...|-2014080723_00.txt|-2014080800_00.txt|-...|-2014090800_00.txt我知道我可以通过Tap使用数据目录中的所有文件，如下所示:TapinTap=newHfs(newTextLine(),"/path/to/data");但我想要目录的特定部分，例如日期为20140807的文件。因此它将包括所有前缀为20140807的文件。有没有办法用级联来做到这一点？或者有什么方法可以烫一下吗？

directory Partial code section cascading java hadoop scalding

hadoop - 启动的 reduce task 和减少调用函数的次数之间的区别？

我刚刚开始学习hadoop，并使用自定义分区器和比较器运行hadoopmap-reduce程序(首先在单节点环境中尝试，稍后将部署在集群上)，奇怪的行为(因为我不知道到底是什么正在进行)我观察到根据我的分区器和比较器，调用了五次reduce方法，因为我也从日志中对它进行了交叉检查。但是在控制台上，已启动的reduce任务的计数仍然是“1”。我非常怀疑这五个函数调用是否并行运行？如果不是，那么我将如何为这些reduce函数调用实现分布式计算的优势，因为这些reduce函数调用收集的数据会很大。请澄清，我缺少什么概念？最佳答案 red

hadoop reduce section strong mapreduce hadoop-partitioning

java - HIPI API : does it process 1 image per map task?

我正在阅读与Hadoop的HIPI图像处理API相关的论文，网址为:http://cs.ucsb.edu/~cmsweeney/papers/undergrad_thesis.pdf在解释其中的协方差示例时，该论文说“因为HIPI为每个映射任务分配一个图像，所以很容易随机抽取100个补丁的图像并执行此计算”。但是论文中显示的第一个图描绘了一个架构，其中多个图像被输入到一个maptask中!令人惊讶的是，他们写道一张图像由一个maptask处理，因为它会产生太多maptask，因为他们也在解决小文件问题。如果这是真的，那么带有MultithreadedMapper的序列文件是一个更好的选

process image section noreferrer noopener java hadoop mapreduce

windows - mapred.JobClient : Error reading task output http:. .. 在 Windows 操作系统上从 Cygwin 运行 hadoop 时

我在Windows上运行来自Cygwin的“MahoutinAction”一书中的“从文档生成向量”样本。Hadoop仅在本地计算机上启动。下面是我的运行命令:$bin/mahoutseq2sparse-ireuters-seqfiles/-oreuters-vectors-ow但是下面显示java.io.IOException，有谁知道这个问题是什么原因造成的？提前致谢!Runningonhadoop,usingHADOOP_HOME=my_hadoop_pathHADOOP_CONF_DIR=my_hadoop_conf_path13/05/1318:38:03WARNdriver

JobClient windows hadoop mapred INFO cygwin mahout

Hadoop - map task 在 reduce task 完成后继续

我在大约500个节点的集群上运行Hadoop版本1.0.0。我的工作有大约3000个map任务和10个reduce任务。maptask在大约4小时后完成(如预期)。每个reduce任务都很快完成，结果都在我的输出目录中。然而，jobtracker然后认为某些map任务失败并开始重新执行它们。正在执行和挂起的reduce任务的数量保持为零。最终大约8小时后，这些maptask中的最后一个终于成功完成，作业被标记为成功完成。有什么想法吗？？？以下是部分jobtracker日志文件的摘录://maptasksallcomplete,eg:2013-05-2010:50:59,742INFOo

task Hadoop 201305131710 attempt apache

Hadoop cdh4 : reducers finish before mappers are complete

我发现hadoopcdh4有一个奇怪的行为。在所有映射器完成之前，一些reducer已经完成。我认为所有的reducer(调用reduce())都必须等到映射器完成。这是一个hadoop错误吗？在他们的某些情况下，工作可能会以这种状态结束吗？我在这里缺少什么？最佳答案有时，当作业趋于失败时，您会看到HadoopUI出现奇怪的行为。我认为你看到这个是因为你有一个任务失败或者可能更多，这是一些未能在UI中反射(reflect)出来。可能是由于tasktracker和jobtacker或内部计算之间的网络通信有些延迟(我不是很确定)。

reducers complete section 射器 Hadoop cloudera

hadoop - Cloudera Hadoop MapReduce 错误 : Task process exit with nonzero status of 65

我有PentahoMapReduce作业(基本上是Java作业)，它将HBase数据作为map输入。工作流非常适合少量数据(例如100行数据)，但在几十万条记录上运行时会失败。两个映射器作业被提交到集群，它们正在做简单的数据聚合(大约400000行在两个HBase区域中分开)。它接缝任务无法在600秒内报告其状态，这是由mapred-site.xml中的mapred.task.timeout设置规定的。我不确定如何在Hadoop的Cloudera4.1.4发行版中更改此设置？同样在以下错误日志中，您可以看到一些其他错误:MetaVERSION="1".JobJOBID="job_201

MapReduce Cloudera 34 201309201413 Number hadoop hbase pentaho

136 137 138139140 141 142