Using-Elastic-Map-Reduce-via-Comm

ubuntu - 简单 Hadoop Map Reduce 中的错误

我尝试运行hadoopmap减少字数问题。据我所知，我正确地设置了HDFS和所有内容。当我执行它时，我在尝试运行一个简单的字数统计问题时遇到此错误。我是Hadoop的新手。任何解决此问题的帮助将不胜感激。13/06/1320:21:17INFOinput.FileInputFormat:Totalinputpathstoprocess:413/06/1320:21:17INFOutil.NativeCodeLoader:Loadedthenative-hadooplibrary13/06/1320:21:17WARNsnappy.LoadSnappy:Snappynativelibra

java - Hadoop:你能默默丢弃一个失败的 map task 吗？

我正在使用hadoopMapReduce处理大量数据。问题是，损坏的文件偶尔会导致Map任务抛出Java堆空间错误或类似的错误。如果可能的话，最好丢弃maptask正在做的任何事情，杀死它，然后继续工作，不要在意丢失的数据。我不希望整个M/R工作因此而失败。这在hadoop中可行吗？如何实现？最佳答案您可以修改mapreduce.max.map.failures.percent参数。默认值为0。增加此参数将允许一定比例的map任务失败而不会使作业失败。您可以在mapred-site.xml中设置此参数(将应用于所有作业)，或逐个

hadoop - Hive:每当它触发 map reduce 时，它都会给我这个错误 "Can not create a Path from an empty string"，我该如何调试？

我正在使用hive0.10以及何时使用hive-e"showtables",hive-e"desctable_name"itworks!但是当我执行类似hive-e"selectcount(*)table_name使用旧版本的配置单元和新集群抛出此错误。调试此类问题的正确方法应该是什么，没有从谷歌找到任何解决问题的方法。java.lang.IllegalArgumentException:CannotcreateaPathfromanemptystringatorg.apache.hadoop.fs.Path.checkPathArg(Path.java:91)atorg.apache

java - 我无法在以独立模式配置的 hadoop 上执行 map-reduce 作业

我正在尝试在我的计算机(MacOS10.7)上的本地文件系统(独立模式)上测试一个非常简单的hadoopmap-reduce作业。该作业采用.csv文件(data-01)并计算某些字段的出现次数。我下载了CDH4hadoop，运行作业，它似乎正常启动，但在处理完所有拆分后，我收到以下错误:13/03/1212:11:18INFOmapred.MapTask:Processingsplit:file:/path/in/data-01:9999220736+3355443213/03/1212:11:18INFOmapred.MapTask:Mapoutputcollectorclass=

hadoop - SVD 实现 map reduce

您好，我需要使用MapReduce对大型密集方形矩阵执行奇异值分解。我已经查看了Mahout项目，但他们提供的是TSQR算法http://arbenson.github.io/portfolio/Math221/AustinBenson-math221-report.pdf.问题是我想要满级，这种方法在这种情况下不起作用。他们之前使用的分布式LanczosSVD实现也不适合我的情况。我发现TWO-SIDEDJACOBISCHEME可以用于此目的，但我没有设法找到任何可用的实现。有人知道我是否以及在哪里可以找到引用代码吗？最佳答案

file - Map在Hadoop下运行时应该把临时文件放在哪里

我在SLES10(SUSE)下运行Hadoop0.20.1。我的maptask获取一个文件并生成更多文件，然后我从这些文件生成我的结果。我想知道我应该把这些文件放在哪里，这样性能才会好并且没有冲突。如果Hadoop可以自动删除该目录，那就太好了。现在，我正在使用临时文件夹和任务ID创建一个唯一的文件夹，然后在该文件夹的子文件夹中工作。reduceTaskId=job.get("mapred.task.id");reduceTempDir=job.get("mapred.temp.dir");StringmyTemporaryFoldername=reduceTempDir+File.s

dictionary - 当 reduce 任务较少时，Hadoop reduce 变慢

当我对Hadoop进行一些性能调整时，我遇到了一个非常奇怪的情况。我正在运行一个具有大量中间输出的作业(例如没有组合器的InvertedIndex或WordCount)，网络和计算资源都是同质的。根据mapreduce的工作原理，当reduce任务的WAVES越多时，整体运行时间应该越慢，因为map和shuffle之间的重叠越少，但事实并非如此。事实证明，具有5个WAVES任务的作业比只有一个WAVE任务的作业快大约10%。而且我检查了日志，事实证明当reduce任务较少时map任务的执行时间较长，而且当任务较少时reduce阶段的整体计算时间(不是shuffle或merge)较长。我

hadoop - 为什么map任务总是在单个节点上运行

我有一个具有4个节点的全分布式Hadoop集群。当我将我的工作提交给Jobtracker时，它决定12个maptask对我的工作来说很酷，一些奇怪的事情发生了。12个maptask总是在单个节点上运行，而不是在单个节点上运行在整个集群上运行。在我问这个问题之前，我已经做了以下事情:尝试不同的工作运行start-balance.sh重新平衡集群但是它不起作用，所以我希望有人能告诉我为什么以及如何修复它。最佳答案如果输入数据文件的所有block都在该节点中，则调度程序优先考虑同一节点关

hadoop - 我的配置单元表有类型为 map<String,String> 的列。我想分解 map 并将它们转置为列而不是行

以下是我的hive表结构data_dtstringidstringrecordsmap按data_dt划分。当我运行查询时，selectid,key,valfromtestlateralviewexplode(records)taskey,val根据Hive文档，我的maprecords被分解成数据行。我需要按列而不是按行的分解数据。例如:上面的查询会产生我abc|k1|v1abc|k2|v2abc|k3|v3zxc|k1|v1zxc|k3|v3相反，我需要它如下id|k1|k2|k3abc|v1|v2|v3zxc|v3|/N|v3我知道explode是一个UDTF，因此它将结果转储为

r - 理解 R-Hive、Elastic MapReduce、RHIPE 和使用 R 的分布式文本挖掘

在我最近在Google实习期间学习了MapReduce来解决计算机视觉问题之后，我觉得自己像一个开明的人。我已经在使用R进行文本挖掘了。我想将R用于大规模文本处理和主题建模实验。我开始阅读教程并研究其中的一些。我现在将我对每个工具的理解写下来:1)R文本挖掘工具箱:用于本地(客户端)文本处理，它使用XML库2)Hive:Hadoopinterative，提供调用map/reduce的框架，也提供DFS接口(interface)，用于在DFS上存储文件。3)RHIPE:RHadoop集成环境4)ElasticMapReducewithR:一个为那些没有自己的集群的人准备的MapReduc