草庐IT

mr_collection

全部标签

performance - 如何知道 MR2 中的 HDFS 并发吞吐量

我是Hadoop新手。最近我正在尝试使用TestDFSIO来评估我的hdfs性能,我有一个关于并发吞吐量的问题:在MR1并发吞吐量=报告的吞吐量x映射槽数例如ThroughputMB/sec:141.4427MapSlots=2ConcurrentThroughput=282.8854MB/sec.但是在MR2中(YARN中不再存在map和reduceslot),如何计算并发吞吐量? 最佳答案 这是一篇很好的简单文章,它解释了这些“并发”词背后的大部分数学知识:BenchmarkingandStressTestinganHadoop

java - 使用单独的映射器、 reducer 和驱动程序类运行 MR 程序

maxtempmapper.java类:packagecom.hadoop.gskCodeBase.maxTemp;importjava.io.IOException;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Mapper;publicclassMaxTempMapperextendsMapper{privatestaticfinalintM

unit-testing - 用于单元测试的 MR-Unit 与 JUnit

谁能解释一下使用MR-Unit进行单元测试MR作业与使用JUnit和Mockito相比有什么好处?具体来说,有哪些事情是我可以用JUnit做而不能做的,或者更难做?我的想法是将所有逻辑从映射器/缩减器转移到帮助器类,并且只验证是否在模拟上调用了适当的方法。为什么要使用MR-Unit? 最佳答案 我认为mrunit为您提供的最重要的东西是用于测试mapreduce作业的DSL。单元测试应该是关于可读性和讲述故事的,因此如果您有一个适合该领域的API,那么编写测试和稍后理解它们会变得更容易。另一件可能同样重要的事情是它提供了比JUnit

hadoop - 错误 : java. lang.ClassNotFoundException : org. apache.commons.collections4.map.LinkedMap

执行命令时出错:hadoopjar/home/edureka/Desktop/firstnlast.jarFirstandLasthdfs:/FirstnLast/first-last_samplehdfs:/FirstnLastoutput代码如下:importjava.io.IOException;/*importjava.util.ArrayList;importjava.util.Iterator;importjava.util.StringTokenizer;*/importorg.apache.commons.collections4.map.LinkedMap;impor

hadoop - 如何增加MR或Hive CDH并行运行的Map任务数

MR作业启动时有128个映射器,但只有7个并行运行。如何增加并行运行的maptask的数量?谢谢 最佳答案 mapreduce.tasktracker.map.tasks.maximum这将设置可以在tasktracker级别同时运行的最大maptask数。要在作业级别设置它,您可以使用mapreduce.job.running.map.limit。 关于hadoop-如何增加MR或HiveCDH并行运行的Map任务数,我们在StackOverflow上找到一个类似的问题:

hadoop - Hive - 选择计数 (*) 不与 Tez 一起使用但与 MR 一起使用

我有一个包含Parquet数据的Hive外部表。当我运行selectcount(*)fromtable1时,它因Tez而失败。但是当执行引擎更改为MR时,它就可以工作了。知道为什么Tez失败了吗?我在使用Tez时遇到以下错误:Error:org.apache.hive.service.cli.HiveSQLException:Errorwhileprocessingstatement:FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.tez.TezTaskatorg.apache.hive.servi

hadoop - 在配置单元中的移动窗口函数上执行 collect_set 时只保留不同的行

假设我有一个包含3行的配置单元表:merchant_id、week_id、acc_id。我的目标是每周收集前4周内的唯一客户,我正在使用移动窗口来执行此操作。我的代码:创建测试表:CREATETABLEtable_test_test(merchant_idINT,week_idINT,acc_idINT);INSERTINTOTABLEtable_test_testVALUES(1,0,8),(1,0,9),(1,0,10),(1,2,1),(1,2,2),(1,2,4),(1,4,1),(1,4,3),(1,4,4),(1,5,1),(1,5,3),(1,5,5),(1,6,1),(

java - 如何在hadoop 0.23.0 MR2上运行和编译java程序

我创建了一个.java文件以在clouderahadoop上运行。编译它,javac-classpath$HADOOP_COMMON_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-3.0.0-SNAPSHOT.jar-dmultifetch_classesMultiFetch.java错误:MultiFetch.java:12:packageorg.apache.hadoop.confdoesnotexistimportorg.apache.hadoop.conf.Configuration;^MultiFetch.j

unit-testing - MR单元 : Tests fail with custom writable

我正在尝试使用MRUnit为我的hadoop作业实现单元测试.对于我自己的Writable,断言在withOutput(K2k2,V2v2)失败。我已经尝试覆盖Object的equals(Objecto)方法,但这没有帮助。当两个Writable实际上相同时,有什么想法可以告诉MRUnit吗? 最佳答案 为了使runTest()成功,必须覆盖inthashCode()。 关于unit-testing-MR单元:Testsfailwithcustomwritable,我们在StackOve

amazon-web-services - 亚马逊 S3 错误代码 : 400 while running mr-job on EMR

在EMR上运行自定义jar时出现此错误。Exceptioninthread"main"com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception:BadRequest(Service:AmazonS3;StatusCode:400;ErrorCode:400BadRequest;RequestID:B042BB0B40A75966),S3ExtendedRequestID:vr/DUr8HD3xjomauyzqvVdGuW3fHBP8PDUmTIAoVLUxrmsxh9H+OS