草庐IT

test_tasks

全部标签

testing - 如何测试Hadoop mapreduce

如何在hadoopmapreduce应用程序准备好投入生产之前对其进行测试。我现在能想到的测试视角是:单元测试这是为了确保映射器和还原器中的方法正常工作。看来我们已经有了mrunit,但我想看看我们是否还有其他选择。数据准确性这对我来说是最重要的,因为产生准确和正确的输出是mapreduce应用程序的主要职责。这里的问题是如何生成测试数据集和如何验证输出数据,以及正确的测试数据量是多少?性能我们应该如何对mapreduce应用程序的性能进行基准测试?我们能利用什么工具?我们还需要考虑其他的测试吗? 最佳答案 jumbune是您的工具

java - 强制hadoop将 map task 的数量设置为1

我觉得我的问题让每个人都感到困惑。再说清楚一点。我正在尝试订购我的数据。说我的数据(几条记录)是这样的012341389228797我的block大小是128MB,文件大小是380Mb(3个block)我正在尝试为我的记录提供订单号。1,012342,138923,28797为了给出正确的数字,我需要将数据放入1个map中,否则如果我得到3个maptask,我的编号将不正确。所以如果我这样做,我会得到完整的数据吗?输入到我的映射器类的数据不会发生任何变化,这将是我的原始数据,不是吗?一旦我使用noofmappers设置为1-Dmapreduce.job.maps=1或conf.setI

hadoop - Iterable 在 mapreduce Reduce Task 中不起作用

大家好,我是hadoop的新手,我正在努力解决与reducer相关的问题。我有一个简单的wordcount程序,它没有返回预期的输出预期输出:这1哈多普2输出:这1hadoop1hadoop1wordcount程序代码packagein.edureka.mapreduce;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.LongWritable;impor

Hadoop异常-清理暂存区/staging/test/.staging/job_201211221353_0010

我的作业配置如下,我正在尝试对我的hadoop作业进行简单的两步链接,publicintrun(String[]args)throwsException{Configurationconf=getConf();if(args.length!=2){System.err.println("Usage:moviecount3");System.exit(2);}ConfigurationUtil.dumpConfigurations(conf,System.out);LOG.info("input:"+args[0]+"output:"+args[1]);Jobjob=newJob(con

hadoop - pig 错误 1066 : Unable to open iterator for alias test

我得到:org.apache.pig.impl.logicalLayer.FrontendException:ERROR1066:Unabletoopeniteratorfortest当我有代码时:my_file=LOAD'$my_records_file'USINGPigStorage('\t')AS(field0:chararray,field1:int);test=FILTERmy_fileBYfield0!=null;为什么会出现此错误? 最佳答案 我想您想过滤具有空值的行?语法是field0ISNOTNULL。my_fil

java - 如何从设置方法中停止 map task ?

我在作业类中有一些映射类,有时我需要中断当前任务的执行(HadoopMap-Reduce框架为作业的InputFormat生成的每个InputSplit生成一个映射任务):publicstaticclassTestJobMapperextendsMapper{@Overrideprotectedvoidsetup(Contextcontext)throwsIOException,InterruptedException{super.setup(context);//hereIwanttochecksomepredicate,andmaybebreakexecutionoftask//h

hadoop - 有什么方法可以防止在所有 map task 完成之前 reduce task 开始

我想在Hadoop集群上同时运行多个作业,但我想阻止某些作业在该作业的所有映射任务完成之前开始缩减阶段(使缩减槽繁忙或保留)。是否有任何配置可以像上面那样设置主题限制?谢谢。 最佳答案 减少慢启动默认情况下,调度程序会等待作业中5%的maptask完成为同一工作安排reducetask。对于大型作业,这可能会导致问题集群利用率,因为它们在等待map任务时占用reduce槽完全的。将mapred.reduce.slowstart.completed.maps设置为更高的值,例如0.80(80%),有助于提高吞吐量。引用:Hadoop权

xml - Job Tracker 和 Task Tracker 没有在 Hadoop 中运行?

在我的hadoop安装中,我没有找到mapred-site.xml文件,但它有mapred-site.xml.template。我已将以下属性添加到mapred.xml.templatemapred.job.trackerlocalhost:9001我错过了什么吗?核心站点.xmlfs.default.namehdfs://localhost:9000hdfs-site.xmldfs.replication1使用这些配置:http://localhost:50070/:Runninghttp://localhost:50060/:NotRunninghttp://localhost:5

timeout - 如何将进度报告给Hadoop Job,避免Task超时被杀?

1)我有一个仅映射的Hadoop作业,它将数据流式传输到Cassandra集群。2)有时流式传输需要超过10分钟,并且由于没有向作业报告进度,它会终止任务。3)我尝试使用context.progress()方法报告进度,但没有帮助。是否还需要向hadoop作业报告进度?我已经编写了如下示例代码来模拟该问题并使用以下代码。Thread.sleep(360000);context.progress();Thread.sleep(360000);失败并显示以下错误消息12/02/0611:40:25INFOmapred.JobClient:TaskId:attempt_20120206111

hadoop - pig : Perform task on completion of UDF

在Hadoop中,我有一个看起来像这样的Reducer,用于将数据从先前的映射器转换为一系列非InputFormat兼容类型的文件。protectedvoidsetup(Contextcontext){LocalDatabaseld=newLocalDatabase("localFilePath");}protectedvoidreduce(BytesWritablekey,Textvalue,Contextcontext){ld.addValue(key,value)}protectedvoidcleanup(Contextcontext){saveLocalDatabaseInHD