草庐IT

map_region

全部标签

hadoop - 如何在 hadoop 流中跳过失败的 map task

我正在运行一个hadoop流式mapreduce作业,它总共有26895个映射任务。但是,处理特定输入的任务总是失败。所以我设置了mapreduce.map.failures.maxpercent=1,想跳过失败的任务,但是作业还是没有成功。Kind%CompleteNumTasksPendingRunningCompleteKilledFailed/KilledTaskAttemptsmap100.00%26895002689418/44reduce100.00%100010/1我怎样才能跳过这个? 最佳答案 同样有一个配置可用。

python - 用于 win32 平台的 Hadoop/Map-reduce 框架的替代品

我发现Windows上的Hadoop有点令人沮丧:我想知道是否有适合Win32用户的Hadoop的任何重要替代品。我最看重的功能是:在小型网络上易于初始设置和部署(如果我们为这个项目分配了超过20台工作PC,我会感到惊讶)易于管理-理想的框架应该具有基于Web/GUI的管理系统,这样我就不必自己编写一个。流行且稳定的东西。奖金取决于我们能否及时交付该项目。背景:我工作的公司想要构建一个新的网格系统来运行一些财务计算。我一直在评估的第一个框架是Hadoop。这似乎完全符合预期,只是它非常面向UNIX。我能够在UbuntuVirtualBox上启动并运行所有教程。不幸的是,在Win32上似

hadoop - 如何在两个 map reduce 作业之间传递变量

我链接了两个Mapreduce作业。Job1将只有一个reducer,我正在计算一个浮点值。我想在Job2的reducer中使用这个值。这是我的主要方法设置。publicstaticStringGlobalVriable;publicstaticvoidmain(String[]args)throwsException{intruns=0;for(;runs{publicvoidreduce(Textkey,Iterablevalues,Contextcontext)throwsIOException,InterruptedException{floats=0;for(FloatWri

python - 先生工作 :- Display intermediate values in map reduce

如何在使用pythonMRJob库运行mapreduce程序时在终端上显示中间值(即打印变量或列表)? 最佳答案 您可以使用sys.stderr.write()将结果输出到标准错误。这是一个例子:frommrjob.jobimportMRJobimportsysclassMRWordCounter(MRJob):defmapper(self,key,line):sys.stderr.write("MAPPERINPUT:({0},{1})\n".format(key,line))forwordinline.split():yield

hadoop - 为什么 Map 任务输出写入到本地磁盘而不是 HDFS?

我正在准备考试,这是讲义中的一个问题:WhyMaptasksoutputsarewrittentothelocaldiskandnottoHDFS?这是我的想法:减少网络流量的使用,因为reducer可能与输出在同一台机器上运行,因此不需要复制。不需要HDFS的容错能力。如果作业中途终止,我们总是可以重新运行maptask。还有哪些可能的原因?我的回答合理吗? 最佳答案 你的推理是正确的。但是我想补充几点:如果map输出写入hdfs会怎么样。现在,写入hdfs不像写入本地磁盘。这是一个更复杂的过程,namenode确保至少将dfs.

java - 为什么我们不能在 Map Reduce 中使用 Java 原始数据类型?

我正在学习HadoopMapReduce框架。我正在努力寻找为什么我们不能在MapReduce中使用Java原始数据类型。 最佳答案 Java序列化要求类的散列以序列化格式在对象的每个实例之前加上前缀。因此,要读取对象,您不需要指定类名。这会导致读取对象的开销,因为每个对象都可以是不同类的实例。在Hadoop序列化中,我们在检索时指定类名。因此,不需要前缀,因为我们已经知道要检索的内容。因此我们设置了InputFormat。这提高了RPC过程中各方面的速度和性能。 关于java-为什么我

java - Oozie:从 Oozie <java> 操作启动 Map-Reduce?

我正在尝试使用在Oozie工作流中执行Map-Reduce任务行动。O'Reilley的ApacheOozie(IslamandSrinivasan2015)指出:Whileit’snotrecommended,JavaactioncanbeusedtorunHadoopMapReducejobsbecauseMapReducejobsarenothingbutJavaprogramsafterall.ThemainclassinvokedcanbeaHadoopMapReducedriverandcancallHadoopAPIstorunaMapReducejob.Inthatmo

java - 如何(在 Hadoop 中)将数据以正确的类型放入 map 和 reduce 函数中?

我有点难以理解Hadoop中的数据如何放入map和简化功能。我知道我们可以定义输入格式和输出格式,然后定义输入和输出的键类型。但是举个例子,如果我们想要一个对象作为输入类型,Hadoop内部是如何做到的?谢谢... 最佳答案 您可以使用HadoopInputFormat和OutputFormat接口(interface)来创建您的自定义格式..一个示例可能是将MapReduce作业的输出格式化为JSON..类似这样-publicclassJsonOutputFormatextendsTextOutputFormat{@Overrid

java - Hadoop map reduce 总是写入相同的值

我正在尝试运行一个简单的mapreduce程序,其中mapper为同一个键写入两个不同的值,但当我到达reducer时,它们最终总是相同的。这是我的代码:publicclasskaka{publicstaticclassMapper4extendsMapper{publicvoidmap(Textkey,Textvalue,Contextcontext)throwsIOException,InterruptedException{context.write(newText("a"),newText("b"));context.write(newText("a"),newText("c"

ubuntu - 简单 Hadoop Map Reduce 中的错误

我尝试运行hadoopmap减少字数问题。据我所知,我正确地设置了HDFS和所有内容。当我执行它时,我在尝试运行一个简单的字数统计问题时遇到此错误。我是Hadoop的新手。任何解决此问题的帮助将不胜感激。13/06/1320:21:17INFOinput.FileInputFormat:Totalinputpathstoprocess:413/06/1320:21:17INFOutil.NativeCodeLoader:Loadedthenative-hadooplibrary13/06/1320:21:17WARNsnappy.LoadSnappy:Snappynativelibra