script-task

hadoop - 启动的 reduce task 和减少调用函数的次数之间的区别？

我刚刚开始学习hadoop，并使用自定义分区器和比较器运行hadoopmap-reduce程序(首先在单节点环境中尝试，稍后将部署在集群上)，奇怪的行为(因为我不知道到底是什么正在进行)我观察到根据我的分区器和比较器，调用了五次reduce方法，因为我也从日志中对它进行了交叉检查。但是在控制台上，已启动的reduce任务的计数仍然是“1”。我非常怀疑这五个函数调用是否并行运行？如果不是，那么我将如何为这些reduce函数调用实现分布式计算的优势，因为这些reduce函数调用收集的数据会很大。请澄清，我缺少什么概念？最佳答案 red

hadoop - 有没有办法在 Pig Script 中创建索引？

我有一个没有ID号(索引)的数据文件。可以使用UDF或pig中的任何内置函数为每个条目创建索引吗？例如:data=load'myfile.txt'usingPigStorge(',')AS(speed:float,location:charrarray);A=foreachdatagenerateindexas(Id:int),speed,location;我在将数据从pig加载到Hbase时遇到问题，因为hbase将速度读取为行键值，并且我的文件中有许多重复数据(速度)。我想将索引设置为行键值并存储在Hbase表中。你对此有什么建议吗？谢谢你。最佳答案

中创 hadoop section location speed indexing hbase apache-pig

shell - Oozie 和 Hue : Permission Denied while running shell script

我在HDFS/user/user中有一个shell脚本sample_shell.sh，如下所示:source/user/user/params_new.cfgecho"HELLOWORLD"echo$layerparams_new.cfg也位于HDFS/user/user目录中，其内容为:layer="S"我是Oozie的新手，正在尝试在Hue中设置一个Oozie工作流程，它将执行sample_shell.sh脚本。属性如下:${jobTracker}${nameNode}/user/user/sample_shell.sh/user/user/sample_shell.sh#samp

shell Permission user code hadoop oozie hue

java - HIPI API : does it process 1 image per map task?

我正在阅读与Hadoop的HIPI图像处理API相关的论文，网址为:http://cs.ucsb.edu/~cmsweeney/papers/undergrad_thesis.pdf在解释其中的协方差示例时，该论文说“因为HIPI为每个映射任务分配一个图像，所以很容易随机抽取100个补丁的图像并执行此计算”。但是论文中显示的第一个图描绘了一个架构，其中多个图像被输入到一个maptask中!令人惊讶的是，他们写道一张图像由一个maptask处理，因为它会产生太多maptask，因为他们也在解决小文件问题。如果这是真的，那么带有MultithreadedMapper的序列文件是一个更好的选

process image section noreferrer noopener java hadoop mapreduce

windows - mapred.JobClient : Error reading task output http:. .. 在 Windows 操作系统上从 Cygwin 运行 hadoop 时

我在Windows上运行来自Cygwin的“MahoutinAction”一书中的“从文档生成向量”样本。Hadoop仅在本地计算机上启动。下面是我的运行命令:$bin/mahoutseq2sparse-ireuters-seqfiles/-oreuters-vectors-ow但是下面显示java.io.IOException，有谁知道这个问题是什么原因造成的？提前致谢!Runningonhadoop,usingHADOOP_HOME=my_hadoop_pathHADOOP_CONF_DIR=my_hadoop_conf_path13/05/1318:38:03WARNdriver

JobClient windows hadoop mapred INFO cygwin mahout

Hadoop - map task 在 reduce task 完成后继续

我在大约500个节点的集群上运行Hadoop版本1.0.0。我的工作有大约3000个map任务和10个reduce任务。maptask在大约4小时后完成(如预期)。每个reduce任务都很快完成，结果都在我的输出目录中。然而，jobtracker然后认为某些map任务失败并开始重新执行它们。正在执行和挂起的reduce任务的数量保持为零。最终大约8小时后，这些maptask中的最后一个终于成功完成，作业被标记为成功完成。有什么想法吗？？？以下是部分jobtracker日志文件的摘录://maptasksallcomplete,eg:2013-05-2010:50:59,742INFOo

task Hadoop 201305131710 attempt apache

hadoop - 无法在伪分布式模式下运行 Pig Script

我正在尝试编写一个pig脚本。我已经成功地在本地模式下工作，但是当我在Psudo分布式模式下启动pig时出现错误。这是脚本:register'myfolder/target/myfunc-with-dependencies.jar';SETmapred.cache.files/tmp/scripts#scripts,/tmp/my_rules#my_rules;SETmapred.create.symlinkyes;%defaultINPUT'test.seq'%defaultOUTPUT'final.out'%defaultTIMEOUT_MS'180000'%defaultUSE_

hadoop Script apache pig java apache-pig hdfs

hadoop - Cloudera Hadoop MapReduce 错误 : Task process exit with nonzero status of 65

我有PentahoMapReduce作业(基本上是Java作业)，它将HBase数据作为map输入。工作流非常适合少量数据(例如100行数据)，但在几十万条记录上运行时会失败。两个映射器作业被提交到集群，它们正在做简单的数据聚合(大约400000行在两个HBase区域中分开)。它接缝任务无法在600秒内报告其状态，这是由mapred-site.xml中的mapred.task.timeout设置规定的。我不确定如何在Hadoop的Cloudera4.1.4发行版中更改此设置？同样在以下错误日志中，您可以看到一些其他错误:MetaVERSION="1".JobJOBID="job_201

MapReduce Cloudera 34 201309201413 Number hadoop hbase pentaho

python - 不同数量的 map task (1、2、4 ..)之间没有性能差异

我是hadoop的新手，正在测试不同数量的map任务和reduce任务之间的性能差异。文件大小约为5GB，hadoop安装在4核/8核机器(超线程)上。map和reduce是用python写的，所以我用-Dmapred.map.tasks=2指定map任务数，用-D指定reduce任务数mapred.reduce.tasks=2.问题问题是结果没有显示不同数量的maptask之间的任何性能差异..结果+----------+----------+----------+|map|reduce|time|+----------+----------+----------+|1|1|47m0

python task code section hadoop

hadoop - 为什么挂起的 map task 没有启动？

我有一个特别的pig工作，通常需要大约12分钟才能运行，但每天有几次它会卡在奇怪的状态。该作业有6个映射和1个reduce任务。它成功完成了第一个maptask，然后它会“暂停”数小时(永远!)。作业跟踪器指示有5个map和1个reduce挂起，但是没有任务在运行。没有任务显示任何错误。maptask将不会启动，但不会发生错误。我如何找出任务没有开始的原因？我已尝试提高作业的优先级，并且已验证有可用的map和reduce插槽。运行的一张map的任务日志看起来完全正常。是否有其他日志可以告诉我发生了什么？我正在使用ClouderaCDH4.5和MR1。小型集群有5个节点。

hadoop task section map 跟踪器 apache-pig cloudera

119 120 121122123 124 125