TASK_RUNNING_草庐IT

java - (Hadoop) : reduce method is not getting executed/called while running mapreduce job

我在执行我的mapreduce作业时遇到问题。作为我的mapreduce任务的一部分，我正在使用mapreduce连接，其中包括多个map方法和单个reducer方法。我的两个map方法都被执行了，但是我的reducer没有被我的驱动程序类执行/调用。因此，最终输出只有在我的map阶段收集的数据。我是否在reduce阶段使用了错误的输入和输出值？map和reduce阶段是否存在输入输出不匹配？在这方面帮助我。这是我的代码..publicclassCompareInputTestextendsConfiguredimplementsTool{publicstaticclassFirstF

hadoop - Mapper 或 Reducer Task 中未处理的异常会使任务失败？

我想知道mapper任务(或reducer任务)中未处理的异常是否会使任务失败，或者仅忽略时间的特定输入对？我想是前者，但不太确定。最佳答案这取决于错误。无论哪种方式，我总是强调用try-catchblock包装map和减少逻辑。出现错误时，我递增一个计数器，其名称派生自异常类名。这不仅可以保护hadoop的其余部分免受逻辑错误的影响，还可以让您仅通过查看日志就知道出了多少问题。关于hadoop-Mapper或ReducerTask中未处理的异常会使任务失败？，我们在StackOv

java - 哈多普 : datanode not running?

我通过this为单节点设置配置和部署了hadoop教程。一切都部署得很好，但是当我执行jps以查看Activity进程时，未显示数据节点。我手动尝试通过转到$HADOOP_HOME/bin来启动数据节点:hadoop-datanode，但无济于事。基本上总结一下，hadoop集群根本没有运行datanode进程。另外，我想知道一台机器是否可以安装2个hadoop。我将一个用于mapreduce进程，另一个用于搜索引擎。所以他们的目录不同，可以吗？此外，我一次运行一个hadoop操作。编辑1#:-如果这有帮助，这是我尝试通过$HADOOP_HOME运行数据节点时的日志。root@thin

hadoop - pig : Running two aggregation functions

我是Pig的新手，想运行两个聚合函数，但我不知道该怎么做。我的数据包括每行一次购买交易，其中我有一个SKU(库存标识符)和客户为SKU支付的价格(价格可能会有所不同):skuprice_paid-------------12321.7078962.1212322.1012319.7845611.9178955.13我想生成以下列表，其中包含SKU、购买该SKU的次数以及为该SKU支付的平均价格。该列表应按计数降序排列。skucountave_price_paid--------------------------123321.19789258.63456111.91如有任何帮助，我们将

hadoop - 启动的 reduce task 和减少调用函数的次数之间的区别？

我刚刚开始学习hadoop，并使用自定义分区器和比较器运行hadoopmap-reduce程序(首先在单节点环境中尝试，稍后将部署在集群上)，奇怪的行为(因为我不知道到底是什么正在进行)我观察到根据我的分区器和比较器，调用了五次reduce方法，因为我也从日志中对它进行了交叉检查。但是在控制台上，已启动的reduce任务的计数仍然是“1”。我非常怀疑这五个函数调用是否并行运行？如果不是，那么我将如何为这些reduce函数调用实现分布式计算的优势，因为这些reduce函数调用收集的数据会很大。请澄清，我缺少什么概念？最佳答案 red

shell - Oozie 和 Hue : Permission Denied while running shell script

我在HDFS/user/user中有一个shell脚本sample_shell.sh，如下所示:source/user/user/params_new.cfgecho"HELLOWORLD"echo$layerparams_new.cfg也位于HDFS/user/user目录中，其内容为:layer="S"我是Oozie的新手，正在尝试在Hue中设置一个Oozie工作流程，它将执行sample_shell.sh脚本。属性如下:${jobTracker}${nameNode}/user/user/sample_shell.sh/user/user/sample_shell.sh#samp

java - HIPI API : does it process 1 image per map task?

我正在阅读与Hadoop的HIPI图像处理API相关的论文，网址为:http://cs.ucsb.edu/~cmsweeney/papers/undergrad_thesis.pdf在解释其中的协方差示例时，该论文说“因为HIPI为每个映射任务分配一个图像，所以很容易随机抽取100个补丁的图像并执行此计算”。但是论文中显示的第一个图描绘了一个架构，其中多个图像被输入到一个maptask中!令人惊讶的是，他们写道一张图像由一个maptask处理，因为它会产生太多maptask，因为他们也在解决小文件问题。如果这是真的，那么带有MultithreadedMapper的序列文件是一个更好的选

windows - mapred.JobClient : Error reading task output http:. .. 在 Windows 操作系统上从 Cygwin 运行 hadoop 时

我在Windows上运行来自Cygwin的“MahoutinAction”一书中的“从文档生成向量”样本。Hadoop仅在本地计算机上启动。下面是我的运行命令:$bin/mahoutseq2sparse-ireuters-seqfiles/-oreuters-vectors-ow但是下面显示java.io.IOException，有谁知道这个问题是什么原因造成的？提前致谢!Runningonhadoop,usingHADOOP_HOME=my_hadoop_pathHADOOP_CONF_DIR=my_hadoop_conf_path13/05/1318:38:03WARNdriver

Hadoop - map task 在 reduce task 完成后继续

我在大约500个节点的集群上运行Hadoop版本1.0.0。我的工作有大约3000个map任务和10个reduce任务。maptask在大约4小时后完成(如预期)。每个reduce任务都很快完成，结果都在我的输出目录中。然而，jobtracker然后认为某些map任务失败并开始重新执行它们。正在执行和挂起的reduce任务的数量保持为零。最终大约8小时后，这些maptask中的最后一个终于成功完成，作业被标记为成功完成。有什么想法吗？？？以下是部分jobtracker日志文件的摘录://maptasksallcomplete,eg:2013-05-2010:50:59,742INFOo

hadoop - 运行 pig 脚本给出错误 : job has failed. Stop running all dependent jobs

我需要帮助来了解为什么在运行pig脚本时出现错误。但是当我在较小的数据中尝试相同的脚本时，它会成功执行。有几个类似问题的问题，但没有一个有解决方案。我的脚本是这样的:A=load‘test.txt’usingTextLoader();B=foreachAgenerateSTRSPLIT($0,’”,”’)ast;C=FILTERBBY(t.$1==2andt.$2matches‘.*xxx.*’);StoreCintotemp;错误是:org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLaunch