草庐IT

mapReduce

全部标签

hadoop - 如何知道一个新数据被添加到 HDFS?

我正在实现一个基于发布订阅模型的通知系统,以在数据到达/加载到HDFS时通知数据的可用性。我没有找到在哪里寻找这个的方法。是否有任何HDFSAPI可用于执行此操作,或者我应该使用什么方法来获取写入HDFS的新数据的信息?我正在使用Hadoopv2.0.2,我不想使用HCatalog,我想实现我自己的工具来执行此操作。 最佳答案 您正在寻找的是OozieCoordinator。HDFS是一个文件系统,因此必须在HDFS之上构建一些东西来检查文件可用性。HBase有触发过程的协处理器。但它仅适用于HBase表。因此它不能用于检测HDFS

hadoop 警告 EBADF : Bad file descriptor

我是Hadoop的新手,尝试使用Hadoop编写关系连接。该算法尝试在连续两轮中连接三个关系。我使用递归方法。该程序运行良好。但是在执行期间它会尝试打印这样的警告:14/12/0210:41:16WARNio.ReadaheadPool:FailedreadaheadonifileEBADF:Badfiledescriptoratorg.apache.hadoop.io.nativeio.NativeIO$POSIX.posix_fadvise(NativeMethod)atorg.apache.hadoop.io.nativeio.NativeIO$POSIX.posixFadvis

java - 如何减少Hadoop中从节点的心跳时间

我正在研究AWSEMR。我想尽快得到死亡任务节点的信息。但根据hadoop中的默认设置,心跳每10分钟共享一次。这是mapred-default中的默认键值对-mapreduce.jobtracker.expire.trackers.interval:600000ms我尝试使用-thislink将默认值修改为6000毫秒在那之后,每当我从EMR集群终止任何ec2机器时,我都无法看到状态变化那么快。(在6秒内)资源管理器RESTAPI-http://MASTER_DNS_NAME:8088/ws/v1/cluster/nodes问题-在运行的EMR集群(Hadoop集群)中查看mapre

hadoop - mapreduce split和spark partition的区别

我想问一下,在使用Hadoop/MapReduce和Spark时,数据分区是否有任何显着差异?它们都在HDFS(TextInputFormat)上工作,因此理论上应该是相同的。是否存在数据分区程序可能不同的情况?任何见解都会对我的研究非常有帮助。谢谢 最佳答案 IsanysignificantdifferenceindatapartitioningwhenworkingwithHadoop/mapreduceandSpark?Spark支持所有hadoopI/O格式,因为它使用相同的HadoopInputFormatAPI以及它自己

hadoop - 如何控制 Hadoop 流作业的输出文件名和内容?

有没有办法控制HadoopStreaming作业的输出文件名?具体来说,我希望我的作业的输出文件内容和名称由reducer输出来组织——每个文件只包含一个键的值,它的名称将是键。更新:刚刚找到答案-使用派生自MultipleOutputFormat的Java类作为作业输出格式可以控制输出文件名。http://hadoop.apache.org/core/docs/current/api/org/apache/hadoop/mapred/lib/MultipleOutputFormat.html我还没有看到这方面的任何样本......谁能指出一个使用自定义输出格式Java类的Hadoop

java - Cassandra InvalidRequestException(为什么 :[MyKeyspace][MyColumnFamily][6675. ..6c74] = [6c86......e65720] 验证失败(字符串未验证。))

我将Cassandra与Hadoop一起用于输入和输出。在输出减少作业期间,我得到一个错误:2011-08-1003:54:04,326WARNorg.apache.hadoop.mapred.Child:Errorrunningchildjava.io.IOException:InvalidRequestException(why:[MyKeyspace][MyColumnFamily][66756c6c74657874]=[6c696e6bb66e68656974207a756d.................65697465726520536f6e67746578746520]

Hadoop reducer 未被调用

全部我有简单的map/reduce实现。Mapper被调用并完成其工作,但reducer从未被调用。这是映射器:staticpublicclassInteractionMapextendsMapper{@Overrideprotectedvoidmap(LongWritableoffset,Texttext,Contextcontext)throwsIOException,InterruptedException{System.out.println("mapper");String[]tokens=text.toString().split(",");for(intidx=0;idx

java - 我如何调试 Hadoop map reduce

这个问题在这里已经有了答案:Howtodebughadoopmapreducejobsfromeclipse?(6个答案)WheredoeshadoopmapreduceframeworksendmySystem.out.print()statements?(stdout)(5个答案)关闭2年前。我正在尝试构建mapreduce作业。它运行到完成但最后出现奇怪的数据。当我尝试使用system.out.println("debugdata")调试它时它不显示在屏幕上。使用javaAPI生成外部日志文件,尝试使用log.severe("logdata")或使用log4j记录器方法log.i

hadoop - hadoop 中的 reducer 数量

我在学习hadoop,我发现reducer的数量非常困惑:1)reducer的数量与分区的数量相同。2)reducer的数量是0.95或1.75乘以(节点数)*(每个节点的最大容器数)。3)reducer的数量由ma​​pred.reduce.tasks设置。4)reducer的数量最接近于:block大小的倍数*任务时间在5到15分钟之间*创建尽可能少的文件。我很困惑,我们是明确设置reducer的数量还是由mapreduce程序本身完成?reducer的数量是如何计算的?请告诉我如何计算reducer的数量。 最佳答案 1-re

hadoop - "code moving to data"而不是数据转码的原理是什么?

在最近关于分布式处理和流的讨论中,我遇到了“代码移动到数据”的概念。有人可以帮忙解释一下吗?此短语的引用是MapReduceWay.在Hadoop方面,it'sstatedinaquestion但仍然无法以技术不可知的方式找出对原理的解释。 最佳答案 基本思想很简单:如果代码和数据在不同的机器上,则必须先将其中一个移动到另一台机器上,然后才能在数据上执行代码。如果代码小于数据,最好将代码发送到保存数据的机器,而不是相反,如果所有机器都同样快且代码兼容。[可以说您可以根据需要发送源代码和JIT编译]。在大数据的世界里,代码几乎总是比数