草庐IT

mapReduce

全部标签

logging - Chukwa 和 Scribe 哪个更好?

我正在使用Hadoop,但为了记录我需要一些东西。但是我不知道在Scribe和Chukwa之间登录系统哪个更好。你们能告诉我吗?如果有任何易于与Hadoop混合的替代方案,请告诉我。 最佳答案 我有一个替代方案:ApacheFlume由Cloudera构建,主要用于将数据输入/输出HDFS。https://cwiki.apache.org/confluence/display/FLUME/Index每个系统都有利有弊,它们在大规模运行时都存在一定的可靠性问题,但我可以说Flume是用java构建的,因此可以使用主要的HDFS库。我们

hadoop - Hadoop Standalone 和 Pseudodistributed 模式下的 DataFlow 区别?

谁能告诉我HadoopStandalone和Pseudodistributed模式的数据流有什么区别。事实上,我正在尝试运行JohnNorstad提出的矩阵乘法示例。它在hadoop独立模式下运行良好,但在伪分布式模式下无法正常工作。我无法解决问题,所以请告诉我hadoop独立模式和伪分布式模式之间的主要区别,这有助于解决所述问题。谢谢请注意,工作人员 最佳答案 在独立模式下,一切(namenode、datanode、tasktracker、jobtracker)都在一台机器上的一个JVM中运行。在伪分布式模式下,一切都在自己的JV

hadoop - Apache Pig 没有完全解析元组

我有一个名为data的文件,它看起来像这样:(注意“personA”之后有制表符)personA(1,2,3)personB(2,1,34)我有一个像这样的Apachepig脚本:A=LOAD'data'AS(name:chararray,nodes:tuple(a:int,b:int,c:int));C=foreachAgeneratenodes.$0;dumpC;其输出有意义:(1)(2)但是,如果我将脚本的架构更改为如下所示:A=LOAD'data'AS(name:chararray,nodes:tuple());C=foreachAgeneratenodes.$0;dumpC;

scala - 将工作分配给多个核心 : Hadoop or Scala's parallel collections?

在Scala/Hadoop系统中充分利用多核进行并行处理的更好方法是什么?假设我需要处理1亿份文档。文档不是很大,但处理它们是计算密集型的。如果我有一个包含100台机器的Hadoop集群,每台机器有10个内核,我可以:A)向每台机器发送1000个文档,让Hadoop在10个核心(或尽可能多的可用核心)中的每一个上启动一个映射或B)向每台机器发送1000个文档(仍然使用Hadoop)并使用Scala的并行集合来充分利用多核。(我会将所有文档放在一个并行集合中,然后对该集合调用map)。换句话说,使用Hadoop在集群级别进行分发,并使用并行集合来管理分发到每台机器内的核心。

hadoop - MapReduce 与 Hadoop : Type mismatch in key from map

我正在运行一个简单的wordcount程序,但出现以下错误:Typemismatchinkeyfrommap:expectedorg.apache.hadoop.io.Text,receivedorg.apache.hadoop.io.LongWritable这是什么意思,我该如何纠正? 最佳答案 您可以在主函数中使用以下任一行:conf.setMapOutputKeyClass(Text.class);conf.setMapOutputValueClass(IntWritable.class);假设您正在使用JobConfconf

hadoop - mapred.min.split.size

我正在尝试在MapReduce中试验这个参数,但我有一些问题。这是否符合HDFS中的大小(无论是否压缩)?还是解压后的?我猜是前者,但只是想确认一下。 最佳答案 仅当您的输入格式支持拆分输入文件时才会使用此参数。常见的压缩编解码器(如gzip)不支持拆分文件,因此将被忽略。如果输入格式确实支持拆分,那么这与压缩后的大小有关。 关于hadoop-mapred.min.split.size,我们在StackOverflow上找到一个类似的问题: https://s

hadoop - 我应该永远使用 oozie 运行 MapReduce 任务吗?

我有一个mapReduce任务(https://github.com/flopezluis/testing-hadoop),它读取文件夹中的文件并将它们附加到zip。我需要永远运行这个任务,所以当它完成处理它们时,它应该再次运行。我正在阅读有关oozie的信息,但我不确定它是否最合适,因为它可能对我的问题来说太大了。如果oozie是最好的解决方案。如果我编写一个协调器每10分钟运行一次,如果任务耗时超过10分钟,协调器等待再次运行该任务会怎样?任务说明文件夹总是一样的。有不同的zip文件,一个是关键。这个想法是逐步创建zip文件。我认为这比处理完所有文件后创建zip文件要快。这些文件包

hadoop - Input Split 大小是常量还是取决于逻辑记录?

Hadoop权威指南说:WhenyouhaveMinimumsplitsize1,MaximumsplitsizeLong.MAX_VALUE,Blocksize64MBthentheSplitsizeis64MB.TextInputFormat的逻辑记录是行。由于每行长度不同,我们如何才能将大小拆分为恰好64MB? 最佳答案 HDFSblock是字节序列。他们不知道线条或任何其他结构。所以你可能有一个只有一个block(当然大小为64MB)的分割,在一行的中间结束(即不包括整个最后一行)。当您使用TextInputFormat读取

hadoop - HBase completebulkload 返回异常

我正在尝试使用批量加载方法从文本文件(几GB)快速批量填充HBase表described在Hadoop文档中。我已经创建了一个HFile,现在我想将其推送到我的HBase表。当我使用这个命令时:hadoopjar/home/hxcaine/hadoop/lib/hbase.jarcompletebulkload/user/hxcaine/dbpopulate/output/cf1my_hbase_table作业开始,然后我得到这个异常:Exceptioninthread"main"java.lang.NoClassDefFoundError:com/google/common/util

hadoop - 生成用于测试的随机数据

我想使用Hadoop运行一些测试,我有一个大型集群(大约50Tb),我想生成用于运行一些测试的数据。首先我想测试配置单元的性能,为此我想生成结构化数据(CSV)。有人可以告诉我实现该目标的最佳方法吗? 最佳答案 第一个问题是您想伪造mapreduce作业以在没有任何数据的情况下启动映射器。默认情况下,它会为每个block启动1个maptask,所以让我们愚弄它吧。为此,首先在hdfs中创建一些“假文件”foriin{1..100};doecho"hello$i"|hadoopfs-put-fakes/$i.txt;done这实际上需