草庐IT

mapreduce_shuffle

全部标签

hadoop - 从 MapReduce 写入 Hive(初始化 HCatOutputFormat)

我编写了MR脚本,它应该从HBase加载数据并将它们转储到Hive中。连接到HBase没问题,但是当我尝试将数据保存到HIVE表中时,出现以下错误消息:FailingOozieLauncher,Mainclass[org.apache.oozie.action.hadoop.JavaMain],main()threwexception,org.apache.hive.hcatalog.common.HCatException:2004:HCatOutputFormatnotinitialized,setOutputhastobecalledorg.apache.oozie.action

matlab - 无法使用 MATLAB MapReducer 2014b 中的 'local' 配置文件启动并行池

我正在使用here中的示例作为MATLAB2014b中的“使用MapReduce计算平均值”。当我运行示例时,出现以下错误:Startingparallelpool(parpool)usingthe'local'profile...Errorusingmapreducer(line96)Failedtostartaparallelpool.(Forinformationinadditiontothecausingerror,validatetheprofile'local'intheClusterProfileManager.)Erroringcmr(line34)mr=mapredu

java - MapReduce 是否需要与 HDFS 一起使用

我想使用HadoopMapReduce提高数据处理性能。那么,我需要将它与HadoopDFS一起使用吗?或者MapReduce可以与其他类型的分布式数据一起使用?请给我指路.... 最佳答案 Hadoop是一个框架,包括用于计算的MapReduce编程模型和用于存储的HDFS。HDFS代表hadoop分布式文件系统,其灵感来自Google文件系统。整个Hadoop项目的灵感来自于Google发表的研究论文。research.google.com/archive/mapreduce-osdi04.pdfhttp://research.

Hadoop MapReduce 错误-/bin/bash :/bin/java: is a directory

我正在尝试在macOS10.12上运行一个基本的MapReduce程序,该程序从天气数据的日志文件中检索最高温度。运行作业时,我收到以下堆栈跟踪:Stacktrace:ExitCodeExceptionexitCode=126:atorg.apache.hadoop.util.Shell.runCommand(Shell.java:582)atorg.apache.hadoop.util.Shell.run(Shell.java:479)atorg.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:773)

eclipse - Hadoop eclipse mapreduce 不工作?

我刚刚将hadoop-eclipse-plugin-1.0.3.jar复制到eclipse/plugins目录,以便让一切顺利进行。但不幸的是,它对我不起作用。当我尝试将eclipse连接到我的HadoopVersion1.1.1集群时,它抛出了这个错误:Aninternalerroroccurredduring:"Map/Reducelocationstatusupdater".org/codehaus/jackson/map/JsonMappingException有什么办法可以解决这个问题吗? 最佳答案 只需按照以下步骤:1-

hadoop - 完全取消默认输出目录 - MapReduce

我有一个使用org.apache.hadoop.mapreduce.lib.output.MultipleOutputs编写多个输出的代码。Reducer将结果写入预先创建的位置,因此我不需要默认的o/p目录(其中包含_history和_SUCCESS目录)。每次再次运行我的工作之前,我都必须删除它们。所以我删除了TextOutputFormat.setOutputPath(job1,newPath(outputPath));行。但是,这给了我(预期)错误org.apache.hadoop.mapred.InvalidJobConfException:Outputdirectoryno

hadoop - 合并排序算法可以在 MapReduce 中实现吗?

是否可以使用MapReduce实现归并排序算法?我对此持怀疑态度,因为映射器或缩减器无法相互通信,但有人告诉我这是MapReduce(??)的关键用例之一。我一直在寻找任何实现方式,甚至是关于如何做到这一点的线索,但我找不到任何东西。我自己对如何去做一无所知......有什么想法吗?@编辑是的。我知道MapReduce具有开箱即用的排序功能。例如,是否可以将其关闭? 最佳答案 合并排序是MapReduce在map和reduce函数是单元函数时所做的事情。查看Terasort基准测试以查看更多详细信息。

java.lang.NumberFormatException : For input string: "100" while executing MapReduce 异常

我正在编写一个MapReduce作业,用于在facebook上寻找共同的friend。这是我的映射器的输入:100,200300400500600200,100300400300,100200400500400,100200300500,100300600,100这是我的映射器代码的一部分:map{Stringline=value.toString();String[]LineSplits=line.split(",");String[]friends=LineSplits[1].trim().split("");for(inti=0;i当我执行此操作时,我在friend2中获得了正确

hadoop distcp 引发无法找到或加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster

当我运行distcp将数据从s3移动到我的本地hdfs时,我在启动mapreduce作业以复制数据期间遇到此异常:Error:Couldnotfindorloadmainclassorg.apache.hadoop.mapreduce.v2.app.MRAppMaster我检查了所有可能的在线文章。我的yarn-site.xml文件包含yarn.application.classpath$HADOOP_CONF_DIR,$HADOOP_COMMON_HOME/*,$HADOOP_COMMON_HOME/lib/*,$HADOOP_HDFS_HOME/*,$HADOOP_HDFS_HOM

hadoop - 是否可以在没有 HDFS 和 Hadoop 集群的情况下在本地运行 MapReduce?

鉴于我在我的Windows系统中开发MapReduce任务,并且在将它们移动到HDFS集群之前,我想在本地运行MapReduce。我只想检查我的映射器逻辑、inputSplits、输入/输出格式等是如何工作的。这可能吗? 最佳答案 Hadoop以3种模式运行。1.localmode2.psuedomode3.distributedmode.您正在寻找的是本地模式。在以2或3种模式运行之前,您可以从eclipse调试mapreduce代码。This在本地模式下运行应用程序的分步指南可以帮助您调试应用程序。希望对您有所帮助!