mapReduce

hadoop - 如何知道一个新数据被添加到 HDFS？

我正在实现一个基于发布订阅模型的通知系统，以在数据到达/加载到HDFS时通知数据的可用性。我没有找到在哪里寻找这个的方法。是否有任何HDFSAPI可用于执行此操作，或者我应该使用什么方法来获取写入HDFS的新数据的信息？我正在使用Hadoopv2.0.2，我不想使用HCatalog，我想实现我自己的工具来执行此操作。最佳答案您正在寻找的是OozieCoordinator。HDFS是一个文件系统，因此必须在HDFS之上构建一些东西来检查文件可用性。HBase有触发过程的协处理器。但它仅适用于HBase表。因此它不能用于检测HDFS

hadoop 警告 EBADF : Bad file descriptor

我是Hadoop的新手，尝试使用Hadoop编写关系连接。该算法尝试在连续两轮中连接三个关系。我使用递归方法。该程序运行良好。但是在执行期间它会尝试打印这样的警告:14/12/0210:41:16WARNio.ReadaheadPool:FailedreadaheadonifileEBADF:Badfiledescriptoratorg.apache.hadoop.io.nativeio.NativeIO$POSIX.posix_fadvise(NativeMethod)atorg.apache.hadoop.io.nativeio.NativeIO$POSIX.posixFadvis

descriptor hadoop job class Text join mapreduce warnings

java - 如何减少Hadoop中从节点的心跳时间

我正在研究AWSEMR。我想尽快得到死亡任务节点的信息。但根据hadoop中的默认设置，心跳每10分钟共享一次。这是mapred-default中的默认键值对-mapreduce.jobtracker.expire.trackers.interval:600000ms我尝试使用-thislink将默认值修改为6000毫秒在那之后，每当我从EMR集群终止任何ec2机器时，我都无法看到状态变化那么快。(在6秒内)资源管理器RESTAPI-http://MASTER_DNS_NAME:8088/ws/v1/cluster/nodes问题-在运行的EMR集群(Hadoop集群)中查看mapre

Hadoop java yarn String amazon-web-services mapreduce amazon-emr

hadoop - mapreduce split和spark partition的区别

我想问一下，在使用Hadoop/MapReduce和Spark时，数据分区是否有任何显着差异？它们都在HDFS(TextInputFormat)上工作，因此理论上应该是相同的。是否存在数据分区程序可能不同的情况？任何见解都会对我的研究非常有帮助。谢谢最佳答案 IsanysignificantdifferenceindatapartitioningwhenworkingwithHadoop/mapreduceandSpark?Spark支持所有hadoopI/O格式，因为它使用相同的HadoopInputFormatAPI以及它自己

mapreduce partition strong code section hadoop apache-spark hdfs

hadoop - 如何控制 Hadoop 流作业的输出文件名和内容？

有没有办法控制HadoopStreaming作业的输出文件名？具体来说，我希望我的作业的输出文件内容和名称由reducer输出来组织——每个文件只包含一个键的值，它的名称将是键。更新:刚刚找到答案-使用派生自MultipleOutputFormat的Java类作为作业输出格式可以控制输出文件名。http://hadoop.apache.org/core/docs/current/api/org/apache/hadoop/mapred/lib/MultipleOutputFormat.html我还没有看到这方面的任何样本......谁能指出一个使用自定义输出格式Java类的Hadoop

hadoop apache MultipleOutputFormat mapreduce distributed-computing

java - Cassandra InvalidRequestException(为什么 :[MyKeyspace][MyColumnFamily][6675. ..6c74] = [6c86......e65720] 验证失败(字符串未验证。))

我将Cassandra与Hadoop一起用于输入和输出。在输出减少作业期间，我得到一个错误:2011-08-1003:54:04,326WARNorg.apache.hadoop.mapred.Child:Errorrunningchildjava.io.IOException:InvalidRequestException(why:[MyKeyspace][MyColumnFamily][66756c6c74657874]=[6c696e6bb66e68656974207a756d.................65697465726520536f6e67746578746520]

InvalidRequestException MyColumnFamily Cassandra section column java hadoop mapreduce

Hadoop reducer 未被调用

全部我有简单的map/reduce实现。Mapper被调用并完成其工作，但reducer从未被调用。这是映射器:staticpublicclassInteractionMapextendsMapper{@Overrideprotectedvoidmap(LongWritableoffset,Texttext,Contextcontext)throwsIOException,InterruptedException{System.out.println("mapper");String[]tokens=text.toString().split(",");for(intidx=0;idx

reducer Hadoop class job Text mapreduce

java - 我如何调试 Hadoop map reduce

这个问题在这里已经有了答案:Howtodebughadoopmapreducejobsfromeclipse?(6个答案)WheredoeshadoopmapreduceframeworksendmySystem.out.print()statements?(stdout)(5个答案)关闭2年前。我正在尝试构建mapreduce作业。它运行到完成但最后出现奇怪的数据。当我尝试使用system.out.println("debugdata")调试它时它不显示在屏幕上。使用javaAPI生成外部日志文件，尝试使用log.severe("logdata")或使用log4j记录器方法log.i

Hadoop reduce section mapreduce span java debugging logging

hadoop - hadoop 中的 reducer 数量

我在学习hadoop，我发现reducer的数量非常困惑:1)reducer的数量与分区的数量相同。2)reducer的数量是0.95或1.75乘以(节点数)*(每个节点的最大容器数)。3)reducer的数量由mapred.reduce.tasks设置。4)reducer的数量最接近于:block大小的倍数*任务时间在5到15分钟之间*创建尽可能少的文件。我很困惑，我们是明确设置reducer的数量还是由mapreduce程序本身完成？reducer的数量是如何计算的？请告诉我如何计算reducer的数量。最佳答案 1-re

hadoop reducer section 的 mapreduce hadoop2 reducers bigdata

hadoop - "code moving to data"而不是数据转码的原理是什么？

在最近关于分布式处理和流的讨论中，我遇到了“代码移动到数据”的概念。有人可以帮忙解释一下吗？此短语的引用是MapReduceWay.在Hadoop方面，it'sstatedinaquestion但仍然无法以技术不可知的方式找出对原理的解释。最佳答案基本思想很简单:如果代码和数据在不同的机器上，则必须先将其中一个移动到另一台机器上，然后才能在数据上执行代码。如果代码小于数据，最好将代码发送到保存数据的机器，而不是相反，如果所有机器都同样快且代码兼容。[可以说您可以根据需要发送源代码和JIT编译]。在大数据的世界里，代码几乎总是比数

amp hadoop section stackoverflow noreferrer architecture mapreduce distributed-computing design-principles

124 125 126127128 129 130