草庐IT

Using-Elastic-Map-Reduce-via-Comm

全部标签

eclipse - 在 eclipse 中安装 MAP-REDUCE 插件时出错

当我尝试在eclipseINDIGO中安装MAP-REDUCE插件时,出现以下错误截图:我已经安装了hadoop1.2.1。 最佳答案 您尝试使用的插件是使用Java8编译的,但您正在使用早期版本的Java运行Eclipse。您必须使用Java8运行Eclipse才能使用此插件。 关于eclipse-在eclipse中安装MAP-REDUCE插件时出错,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/

hadoop - 错误 1070 : Could not resolve toDate using imports: [, java.lang., > org.apache.pig.builtin., org.apache.pig.impl.builtin.]

使用pig将数据转换为日期时间时出现问题。导入以下数据集,制表符分隔,我添加了\t来说明。5000001\t1133938\t1273719\t2008-06-0100:03:35.0我想获取最后一个值(2008-06-0100:03:35.0)并提取月份。将其加载为DateTime会生成一个空白字段。因此,我想将其导入为字符数组,然后使用toDate将其转换为我可以在其上使用getMonth的日期时间字段。当我在shell中尝试时,我得到了这个:grunt>orders=load'/home/cloudera/Desktop/orders1'usingPigStorage('\t')

hadoop - 如何避免 Hadoop 中的 Map/Reduce 任务失败

我有一个迭代次数太多的循环和一个在Reducer函数中计算量很大的函数。while(context.getCounter(SOLUTION_FLAG.SOLUTION_FOUND).getValue()MAX_ITR是迭代次数-用户输入问题是当我在Hadoop集群上运行它时出现超时错误并且Reducer任务被终止17/05/0621:09:43INFOmapreduce.Job:TaskId:attempt_1494129392154_0001_r_000000_0,Status:FAILEDAttemptID:attempt_1494129392154_0001_r_000000_0

java - Map Reduce - 在 Reducer 中使用局部变量

我已经实现了一个简单的Mapreduce应用程序来检测最长的单词。作业执行成功。但是现在我想知道在reducer中使用局部变量来保持Max长度是否正确?由于分布式环境中可能有多个reducer,并且它们不共享该变量的值。这是一个正确的假设吗?在分布式环境中,当有独立的reducer时,输出会受到怎样的影响?我正在使用自定义比较器,因此单词首先按长度排序,而不是按值排序。每个MR阶段的输出如下所示:MapperOutput:ByeByeBye9HelloHelloHe22215HelloHelloHe22215HelloHelloHe33315HelloHelloHe33315Hello

hadoop - 如何在 Pig 中合并 map

我是Pig的新手,请多多包涵。我有两个具有相同模式的数据源:属性映射。我知道某些属性会有一个可识别的重叠属性。例如记录A:{"Name":{"First":"Foo","Last":"Bar"},"FavoriteFoods":{["Oranges","Pizza"]}}记录B:{"Name":{"First":"Foo","Last":"Bar"},"FavoriteFoods":{["BuffaloWings"]}}我想合并Name上的记录,这样:合并:{"Name":{"First":"Foo","Last":"Bar"},"FavoriteFoods":{["Oranges",

Hadoop 生态系统 : Map Reduce needed for Pig/Hive

互联网上有很多hadoop生态系统图片,所以我很难理解这些工具是如何协同工作的。例如在附图中,为什么pig和hive是基于mapreduce的,而其他工具如spark或storm基于YARN?你能解释一下吗?谢谢!BRhaddopecosystem 最佳答案 图片显示了MapReduce之上的Pig和Hive。这是因为MapReduce是Pig和Hive使用的分布式计算引擎。Pig和Hive查询作为MapReduce作业执行。使用Pig和Hive更容易,因为它们提供了更高级别的抽象来使用MapReduce。现在我们来看一下图中YAR

java - 执行Map-Reduce程序时出错

我使用hadoop3.1.0在Ubuntu上运行MapreduceWordCount程序,但它总是得到这个信息。我看到有人问这个类似question之前,但这行不通。我想知道我应该修改哪个文件,或者我错过了什么。我的java程序来自here.master@kevin-VirtualBox:~/MapReduceTutorial$$HADOOP_HOME/bin/hadoopjarProductSalePerCountry.jar/inputMapReduce/mapreduce_output_sales$HADOOP_HOME/bin/hadoopjarProductSalePerCo

java - Map Reduce - 如何在单个作业中分组和聚合多个属性

我目前在MapReduce方面遇到了一些困难。我有以下数据集:1,John,Computer2,Anne,Computer3,John,Mobile4,Julia,Mobile5,Jack,Mobile6,Jack,TV7,John,Computer8,Jack,TV9,Jack,TV10,Anne,Mobile11,Anne,Computer12,Julia,Mobile现在我想应用带分组的MapReduce和聚合此数据集,以便输出不仅显示哪个人购买某物的次数,以及该人订购最多的产品是什么。所以输出应该是这样的:John3ComputerAnne3MobileJack4TVJulia

hadoop - 对相同的 reduce 任务的两次尝试是否应该继续并行运行?

我的hadoopreduce任务中的Action有外部效果,而且它们不是幂等的。我在任务跟踪器中观察到,尝试了一个reducer,然后启动了同一组键的另一个reducer,而没有杀死原来的reducer。我配置错了吗?这是这个reduce任务的表: 最佳答案 这是由于hadoop中的推测执行。如果Hadoop检测到少数集群节点上有一些慢速任务,它是Hadoop指定备份任务的选项。备份任务将优先安排在速度较快的节点上。重复任务中最先完成的任务将成为用于进一步操作的任务。您可以通过将以下参数设置为false来关闭此功能mapred.re

hadoop - cleanup() 方法是否为失败的 map task 调用?

是否为失败的maptask调用了cleanup()方法?如果是这样,它如何确保“原子性”?在我的例子中,我正在映射器中准备一些统计信息,这些统计信息在cleanup()方法中写入数据库。在这种情况下,如果映射器在执行其输入拆分的过程中失败,清理方法会将till处理后的数据写入DB?这将导致不正确的统计信息,因为备用映射器尝试也会再次写入相同的数据。 最佳答案 根据您的映射器何时失败,可能会调用或不调用清理。例如,如果您的映射器在map方法中失败,则不会调用清理。但是,如果您的映射器在清理方法中失败,则清理已经被调用。如果映射器失败,