mapReduce

logging - Chukwa 和 Scribe 哪个更好？

我正在使用Hadoop，但为了记录我需要一些东西。但是我不知道在Scribe和Chukwa之间登录系统哪个更好。你们能告诉我吗？如果有任何易于与Hadoop混合的替代方案，请告诉我。最佳答案我有一个替代方案:ApacheFlume由Cloudera构建，主要用于将数据输入/输出HDFS。https://cwiki.apache.org/confluence/display/FLUME/Index每个系统都有利有弊，它们在大规模运行时都存在一定的可靠性问题，但我可以说Flume是用java构建的，因此可以使用主要的HDFS库。我们

hadoop - Hadoop Standalone 和 Pseudodistributed 模式下的 DataFlow 区别？

谁能告诉我HadoopStandalone和Pseudodistributed模式的数据流有什么区别。事实上，我正在尝试运行JohnNorstad提出的矩阵乘法示例。它在hadoop独立模式下运行良好，但在伪分布式模式下无法正常工作。我无法解决问题，所以请告诉我hadoop独立模式和伪分布式模式之间的主要区别，这有助于解决所述问题。谢谢请注意，工作人员最佳答案在独立模式下，一切(namenode、datanode、tasktracker、jobtracker)都在一台机器上的一个JVM中运行。在伪分布式模式下，一切都在自己的JV

Pseudodistributed Standalone section 中运 hadoop mapreduce

hadoop - Apache Pig 没有完全解析元组

我有一个名为data的文件，它看起来像这样:(注意“personA”之后有制表符)personA(1,2,3)personB(2,1,34)我有一个像这样的Apachepig脚本:A=LOAD'data'AS(name:chararray,nodes:tuple(a:int,b:int,c:int));C=foreachAgeneratenodes.$0;dumpC;其输出有意义:(1)(2)但是，如果我将脚本的架构更改为如下所示:A=LOAD'data'AS(name:chararray,nodes:tuple());C=foreachAgeneratenodes.$0;dumpC;

hadoop Apache code section 制表符 mapreduce apache-pig

scala - 将工作分配给多个核心 : Hadoop or Scala's parallel collections?

在Scala/Hadoop系统中充分利用多核进行并行处理的更好方法是什么？假设我需要处理1亿份文档。文档不是很大，但处理它们是计算密集型的。如果我有一个包含100台机器的Hadoop集群，每台机器有10个内核，我可以:A)向每台机器发送1000个文档，让Hadoop在10个核心(或尽可能多的可用核心)中的每一个上启动一个映射或B)向每台机器发送1000个文档(仍然使用Hadoop)并使用Scala的并行集合来充分利用多核。(我会将所有文档放在一个并行集合中，然后对该集合调用map)。换句话说，使用Hadoop在集群级别进行分发，并使用并行集合来管理分发到每台机器内的核心。

配给 collections Hadoop section 多核 scala mapreduce scala-collections parallel-collections

hadoop - MapReduce 与 Hadoop : Type mismatch in key from map

我正在运行一个简单的wordcount程序，但出现以下错误:Typemismatchinkeyfrommap:expectedorg.apache.hadoop.io.Text,receivedorg.apache.hadoop.io.LongWritable这是什么意思，我该如何纠正？最佳答案您可以在主函数中使用以下任一行:conf.setMapOutputKeyClass(Text.class);conf.setMapOutputValueClass(IntWritable.class);假设您正在使用JobConfconf

MapReduce mismatch section code pre hadoop

hadoop - mapred.min.split.size

我正在尝试在MapReduce中试验这个参数，但我有一些问题。这是否符合HDFS中的大小(无论是否压缩)？还是解压后的？我猜是前者，但只是想确认一下。最佳答案仅当您的输入格式支持拆分输入文件时才会使用此参数。常见的压缩编解码器(如gzip)不支持拆分文件，因此将被忽略。如果输入格式确实支持拆分，那么这与压缩后的大小有关。关于hadoop-mapred.min.split.size，我们在StackOverflow上找到一个类似的问题： https://s

hadoop mapred section stackoverflow questions mapreduce hdfs

hadoop - 我应该永远使用 oozie 运行 MapReduce 任务吗？

我有一个mapReduce任务(https://github.com/flopezluis/testing-hadoop)，它读取文件夹中的文件并将它们附加到zip。我需要永远运行这个任务，所以当它完成处理它们时，它应该再次运行。我正在阅读有关oozie的信息，但我不确定它是否最合适，因为它可能对我的问题来说太大了。如果oozie是最好的解决方案。如果我编写一个协调器每10分钟运行一次，如果任务耗时超过10分钟，协调器等待再次运行该任务会怎样？任务说明文件夹总是一样的。有不同的zip文件，一个是关键。这个想法是逐步创建zip文件。我认为这比处理完所有文件后创建zip文件要快。这些文件包

MapReduce hadoop 协调器 section oozie

hadoop - Input Split 大小是常量还是取决于逻辑记录？

Hadoop权威指南说:WhenyouhaveMinimumsplitsize1,MaximumsplitsizeLong.MAX_VALUE,Blocksize64MBthentheSplitsizeis64MB.TextInputFormat的逻辑记录是行。由于每行长度不同，我们如何才能将大小拆分为恰好64MB？最佳答案 HDFSblock是字节序列。他们不知道线条或任何其他结构。所以你可能有一个只有一个block(当然大小为64MB)的分割，在一行的中间结束(即不包括整个最后一行)。当您使用TextInputFormat读取

取决于取决 section size TextInputFormat hadoop mapreduce hdfs

hadoop - HBase completebulkload 返回异常

我正在尝试使用批量加载方法从文本文件(几GB)快速批量填充HBase表described在Hadoop文档中。我已经创建了一个HFile，现在我想将其推送到我的HBase表。当我使用这个命令时:hadoopjar/home/hxcaine/hadoop/lib/hbase.jarcompletebulkload/user/hxcaine/dbpopulate/output/cf1my_hbase_table作业开始，然后我得到这个异常:Exceptioninthread"main"java.lang.NoClassDefFoundError:com/google/common/util

completebulkload hadoop java NativeMethodAccessorImpl mapreduce hbase guava

hadoop - 生成用于测试的随机数据

我想使用Hadoop运行一些测试，我有一个大型集群(大约50Tb)，我想生成用于运行一些测试的数据。首先我想测试配置单元的性能，为此我想生成结构化数据(CSV)。有人可以告诉我实现该目标的最佳方法吗？最佳答案第一个问题是您想伪造mapreduce作业以在没有任何数据的情况下启动映射器。默认情况下，它会为每个block启动1个maptask，所以让我们愚弄它吧。为此，首先在hdfs中创建一些“假文件”foriin{1..100};doecho"hello$i"|hadoopfs-put-fakes/$i.txt;done这实际上需

hadoop 生成 section code 中生 mapreduce hive

76 77 787980 81 82