草庐IT

input_size

全部标签

java - Hadoop MapReduce : size of data processed in shuffle and reduce phase

我在包含多个AWS实例的集群上运行HadoopMapReduceJava应用程序。我想知道是否有可能在混洗阶段知道数据集的大小,即总共有多少数据被混洗。另外,是否可以知道每个reducer任务处理了多少数据? 最佳答案 您应该能够从JobTrackerWebUI中找到此信息。有一个名为“Reduceshufflebytes”的计数器详细说明了被打乱的总字节数-参见https://issues.apache.org/jira/browse/HADOOP-4845以及原始链接票证以获取更多信息。对于每个reducer计数,深入到已完成的

Hadoop : Number of input records for reducer

无论如何,每个reducer进程都可以确定它必须处理的元素或记录的数量吗? 最佳答案 简短回答-提前不,reducer不知道可迭代对象支持多少个值。您可以执行此操作的唯一方法是在迭代时进行计数,但您不能再对可迭代对象进行重新迭代。长答案-支持可迭代对象实际上是序列化键/值对的排序字节数组。reducer有两个比较器-一个用于按键顺序对键/值对进行排序,然后第二个用于确定键之间的边界(称为键分组器)。通常,键分组器与键排序比较器相同。当迭代特定键的值时,底层上下文检查数组中的下一个键,并使用分组比较器与前一个键进行比较。如果比较器确定

java.lang.NumberFormatException : For input string: "100" while executing MapReduce 异常

我正在编写一个MapReduce作业,用于在facebook上寻找共同的friend。这是我的映射器的输入:100,200300400500600200,100300400300,100200400500400,100200300500,100300600,100这是我的映射器代码的一部分:map{Stringline=value.toString();String[]LineSplits=line.split(",");String[]friends=LineSplits[1].trim().split("");for(inti=0;i当我执行此操作时,我在friend2中获得了正确

java - Hadoop Java : how to specify map key as one of the index of input split?

我有一个看起来像这样的输入数据:3070801,1963,1096,,"BE","",,1,,269,6,69,,1,,0,,,,,,,3070802,1963,1096,,"US","TX",,1,,2,6,63,,0,,,,,,,,,3070803,1963,1096,,"US","IL",,1,,2,6,63,,9,,0.3704,,,,,,,3070804,1963,1096,,"US","OH",,1,,2,6,63,,3,,0.6667,,,,,,,3070805,1963,1096,,"US","CA",,1,,2,6,63,,1,,0,,,,,,,3070806,196

input - 节点本地映射减少作业

我目前正在尝试编写一个map-reduce作业,其中输入数据不在HDFS中并且无法加载到HDFS中,主要是因为使用该数据的程序无法使用HDFS中的数据,而且有太多数据无法复制到HDFS中,每个节点至少1TB。因此,我的集群中的4个节点各有4个目录。理想情况下,我希望我的映射器只接收这4个本地目录的路径并使用file:///var/mydata/...之类的内容读取它们,然后1个映射器可以处理每个目录。即总共16个映射器。然而,为了能够做到这一点,我需要确保每个节点正好有4个映射器,并且恰好有4个映射器已分配到该机器的本地路径。这些路径是静态的,因此可以硬编码到我的文件输入格式和记录读取

hadoop - Nutch : org. apache.hadoop.mapreduce.lib.input.InvalidInputException: 输入路径不存在

当我执行nutch命令创建crawdb文件夹和内容时:soporte@CNEOSYLAP/usr/local/apache-nutch-2.2.1/runtime/local$bin/nutchcrawlurls-dircrawl-depth3-topN5我收到这个错误:InjectorJob:Usingclassorg.apache.gora.hbase.store.HBaseStoreastheGorastorageclass.Exceptioninthread"main"org.apache.hadoop.mapreduce.lib.input.InvalidInputExcep

java - @size(max = value) 与 @min(value) 和 @max(value) 之间的区别

我想做一些域验证。在我的对象中,我有一个整数。现在我的问题是:如果我写@Min(SEQ_MIN_VALUE)@Max(SEQ_MAX_VALUE)privateIntegersequence;和@Size(min=1,max=NAME_MAX_LENGTH)privateIntegersequence;如果是整数,哪一个适合域验证?谁能解释一下它们之间有什么区别?谢谢。 最佳答案 @Min和@Max用于验证数字字段,可以是String(表示数字)、int、short、byte等以及它们各自的原始包装器。@Size用于检查字段的长度限

java - @size(max = value) 与 @min(value) 和 @max(value) 之间的区别

我想做一些域验证。在我的对象中,我有一个整数。现在我的问题是:如果我写@Min(SEQ_MIN_VALUE)@Max(SEQ_MAX_VALUE)privateIntegersequence;和@Size(min=1,max=NAME_MAX_LENGTH)privateIntegersequence;如果是整数,哪一个适合域验证?谁能解释一下它们之间有什么区别?谢谢。 最佳答案 @Min和@Max用于验证数字字段,可以是String(表示数字)、int、short、byte等以及它们各自的原始包装器。@Size用于检查字段的长度限

java - 配置单元顶点失败 : killed/failed due to:ROOT_INPUT_INIT_FAILURE Caused by: java. lang.NullPointerException

我正在查询一个表,一个简单的计数(*)并收到以下错误:Vertexfailed,vertexName=Map1,vertexId=vertex_1486982569467_0809_3_00,diagnostics=[Vertexvertex_1486982569467_0809_3_00[Map1]killed/faileddueto:ROOT_INPUT_INIT_FAILURE,VertexInput:table_nameinitializerfailed,vertex=vertex_1486982569467_0809_3_00[Map1],java.lang.RuntimeE

arrays - 配置单元 : ParseException line 3:23 cannot recognize input near 'from'

我试图创建这个表:createtabletmp_test(id_string,myelementarray>)STOREDASPARQUETLOCATION'/donne/tmp_test'我有这个错误:编译语句时出错:失败:ParseException行3:23无法识别列规范中“来自”“:”“字符串”附近的输入。我如何转义单词“from”,因为我必须使用这个词?谢谢你的帮助 最佳答案 FROM是Hive中的保留关键字。使用反引号(`)来引用它,createtabletmp_test(id_string,myelementarray