草庐IT

Mapreduce

全部标签

Hadoop PrivilegedActionException

通过我的Web应用程序,我正在尝试运行mapreduce作业。当mapreduce作业运行时,应用程序部署在tomcat服务器上我得到以下异常15/12/1723:38:36ERRORsecurity.UserGroupInformation:PriviledgedActionExceptionas:tomcat7cause:org.apache.hadoop.security.AccessControlException:Permissiondenied:user=tomcat7,access=WRITE,inode="":hduser:supergroup:rwxr-xr-x15/

hadoop - 同时使用 Delete 和 Put 时无法在 HBase 中插入新数据

我正在使用Hbasemapreduce来计算报告。在reducer中,我尝试清除“result”列族,然后添加一个新的“total”列。但我发现列族是删除的,但新数据不是插入的。Put操作似乎不起作用。你知道为什么吗?reducer类中的示例代码:Deletedel=newDelete(rowkey.getBytes());del.addFamily(RESULT);context.write(newImmutableBytesWritable(Bytes.toBytes(key.toString())),del);Putput=newPut(rowkey.getBytes());pu

hadoop - 在 MapReduce 的一个 Mapper 中读取下一行

我有一个文本输入文件,它由换行符分隔。在每个映射器中,我需要读取我的键/值的下一行。例如,在这个数据中:L1L2L3我需要这样的东西:L1L2在下一个映射器中:L2L3提前致谢。 最佳答案 除了CustomInputFormat之外,您还可以像Map一样在集合中存储行前,并在每次下次调用时访问它例子: 关于hadoop-在MapReduce的一个Mapper中读取下一行,我们在StackOverflow上找到一个类似的问题: https://stackover

hadoop - 如何从 mapreduce 中的 reducer 输出中删除 r-00000 扩展

我能够正确重命名我的reducer输出文件,但r-00000仍然存在。我在我的reducer类中使用了MultipleOutputs。这是那个的详细信息。不确定我遗漏了什么或我还需要做什么?publicclassMyReducerextendsReducer{privateLoggerlogger=Logger.getLogger(MyReducer.class);privateMultipleOutputsmultipleOutputs;StringstrName="";publicvoidsetup(Contextcontext){logger.info("InsideReduce

java - Hadoop 上的 MapReduce - 将数据从 Mapper 发送到 Reducer

我正在尝试针对特定问题实现MapReduce算法。假设在我的Mapper中我需要处理一个大型文本对象。以下示例总结了我的问题。我有文本对象:Todayisalovelyday我需要对这些词做一些处理。所以我有两个选择:我可以将以下形式的键值对发送到Reducer:我可以发送键值对到reducer然后处理它,例如标记化字符串对象。这种情况的最佳方法是什么?在第一种情况下,我必须向reducer发送更多数据,但我没有像第二种情况那样要标记化的字符串对象。但是在第二种情况下,Mapper发送的数据量较小。 最佳答案 我认为您不会通过这种方

hadoop - 了解 Hadoop 1.x 中的 MapReduce

对于Hadoop1.x中的“MapReduce”这个术语,我有点困惑。关于这一点,我遇到了各种术语,例如:JobTracker、TaskTracker(MapReduce中的守护进程)。现在,当我们说MapReduce时,它​​指的是这些守护进程还是开发人员用来编写MapReduce应用程序代码的API?用户应用程序是否在TaskTracker、JobTracker上执行?MapReduce本身是一个运行时环境吗?谁能用简单的话帮我理解一下? 最佳答案 MapReduce是用于数据处理的编程模型(在Hadoop中)。它在Hadoop

hadoop - 线程 "main"java.lang.NoClassDefFoundError : org/apache/hadoop/yarn/exceptions/YarnRuntimeException 中的异常

我在hadoop-2.7.0上运行了一个mapreduce作业,但是这个mapreduce作业没有完成,我遇到了这个错误:Jobjob_1491881070758_0003failedwithstateFAILEDdueto:Applicationapplication_1491881070758_0003failed2timesduetoAMContainerforappattempt_1491881070758_0003_000002exitedwithexitCode:1Formoredetailedoutput,checkapplicationtrackingpage:http

java - 如何在eclipse中关闭hadoop源代码中的推测执行

我需要在hadoop源代码中关闭它,而我在eclipse中找不到它的包。https://hadoop.apache.org/docs/stable/api/org/apache/hadoop/mapreduce/Job.html#setReduceSpeculativeExecution%28boolean%29 最佳答案 如果您想禁用推测执行,请在mapred-site.xml中添加这些属性。mapreduce.map.speculativefalsemapreduce.reduce.speculativefalse或者在Job级

hadoop - Hadoop MapReduce 中每个阶段产生的中间数据存储在哪里?

我学习hadoopmapreduce有一段时间了,大家知道,hadoop使用hdfs把数据文件存储在硬盘上,我们运行mapreduce的时候,progran从hdfs中获取数据,但是在mapreduce的各个阶段,数据从哪里获取存储?我得到了一些答案hsfs运行mapreduce的本地硬盘 最佳答案 一般map和reduce任务生成的中间数据文件都存放在本地磁盘上运行MapReduce的目录(位置)中。该目录包含:map任务生成的输出文件用作reduce任务的输入。reduce任务生成的临时文件。临时数据位置由mapreduce.c

hadoop - reducer 可以动态地使用多个节点吗?

在编写MapReduce作业的代码时,如果我们手动设置reducer的个数,有可能发送到某个reducer的数据很大。这样的话,reducertask能不能同时运行在多个节点上呢?也许通过划分List中的数据对应一个key,然后内部合并?如果reducer无法自动调整要使用的节点数量,那么我们如何处理与键对应的值分布不均的情况?defaulthadoopMapReducepartitioner根据散列值进行分区,不考虑List的大小对应键。 最佳答案 不,reducer不会自动缩放。如果它的工作量太大,它就会崩溃。您(可能)能做的最