草庐IT

affordance_map

全部标签

hadoop - 亚马逊弹性 map 减少 : Command Line Tools installation Issue?

我是Amazon网络服务的新手,我正在尝试使用命令行界面工具在Amazonelasticmapreduce作业上运行作业流。我遵循了这个developerguide的亚马逊开发者指南中的步骤来自aws。但我还不清楚。如果我执行命令来列出作业流程。显示以下错误。:~/Applications/elastic-mapreduce-ruby$elastic-mapreduce--listError:Requesthasexpired.Timestampdate:2013-07-09T01:13:42-07:00在此先感谢,任何人都可以告诉我为什么我在列出工作流程时遇到上述错误。

java - Hadoop Map/Reduce WARN mapred.LocalJobRunner : job_local_0001 java. io.EOFException?

在Eclipse6.91中运行Hadoop0.20.2M/R应用。我在执行后收到这些错误和警告:13/07/2416:52:52INFOjvm.JvmMetrics:InitializingJVMMetricswithprocessName=JobTracker,sessionId=13/07/2416:52:52WARNmapred.JobClient:UseGenericOptionsParserforparsingthearguments.ApplicationsshouldimplementToolforthesame.13/07/2416:52:52WARNmapred.Jo

hadoop - Cassandra Hadoop map reduce with wide rows ignores slice predicate

我有一个宽行列族,我正在尝试对其运行map缩减作业。CF是按时间顺序排列的事件集合,其中列名本质上是时间戳。我需要针对CF中的特定日期范围运行MR作业。当我在widerow属性设置为false的情况下运行作业时,预期的列切片将传递到映射器类中。但是当我将widerow设置为true时,整个列族都会被处理,而忽略切片谓词。问题是我必须使用widerow支持,因为如果一次加载,切片中的列数会变得非常大并消耗所有内存。我找到了概述问题的这个JIRA任务,但由于“无法重现”而被关闭-https://issues.apache.org/jira/browse/CASSANDRA-4871?pag

hadoop - 使用hadoop map reduce获取最高薪水员工姓名

我是M/R程序的新手..我在HDFS中有一个包含这种结构数据的文件EmpId,EmpName,Dept,Salary,1231,用户名1,部门1,50001232,用户名2,部门2,60001233,用户名3,部门3,7000.......................现在我想找到工资最高的员工的姓名我写了一个mapreduce来找到最高的薪水。在我的映射器类中,我发出了这样的输出output.collect("最大值",员工工资);在reducer中,我找到了键“maxvalue”的最大值。现在我想在映射器中使用这个值,并找到赚取最高薪水的员工的名字。我如何发送reducer输出映

c# - "Failed Map Tasks exceeded allowed limit"来自 Hadoop 的错误

当我使用C#运行MapReduce示例应用程序时出现“失败的maptask超出允许的限制”错误,如下所示。谁能告诉我为什么它一直向我显示此错误?欣赏它。publicoverridevoidMap(stringinputLine,MapperContextcontext){//ExtractthenamespacedeclarationsintheCsharpfilesvarreg=newRegex(@"(using)\s[A-za-z0-9_\.]*\;");varmatches=reg.Matches(inputLine);foreach(Matchmatchinmatches){/

hadoop - 关闭推测执行的 Wordcount : More than 1 map task per block,

在Wordcount中,您似乎可以在每个block中获得超过1个maptask,并关闭推测执行。jobtracker是否在幕后做了一些魔术来分配比InputSplits提供的更多的任务? 最佳答案 区block和拆分是两种不同的东西。如果一个block有多个拆分,您可能会为一个block获得多个映射器。 关于hadoop-关闭推测执行的Wordcount:Morethan1maptaskperblock,,我们在StackOverflow上找到一个类似的问题:

hadoop - 为什么我的 Hadoop 作业得到 Map task num = 1 ,并生成了 300 多个结果文件?

我有这样一份Hadoop工作。MR只有map,没有reduce。所以设置job.setNumReduces(0)。输入文件约300+然后我运行作业,我可以看到只有1个maptask在运行。完成它大约需要1个小时。然后我检查结果,我可以在输出文件夹中看到300多个结果文件。有什么问题吗?或者这是正确的做法?我真的希望Map应该等于输入文件的数量(而不是1)。我也不知道为什么输出文件数与输入文件数相同。hadoop作业是从oozie提交的。非常感谢您的热心帮助。新松 最佳答案 当您将reducer数量设置为0时,生成的输出对应于map任

exception - 清理失败的 map

我的映射器会将一些数据写入本地磁盘,并在映射器完成时清理它。但是,如果发生错误(发生异常),则不会调用cleanup()方法。我可以在我的映射器中捕获异常,但我无法处理未在我的映射器中调用的异常(例如:Jobtracker故障转移到备用节点)。有什么方法可以在映射器获取失败时进行清理? 最佳答案 您可以覆盖mapper的run方法,以在上下文中围绕输入键的迭代包含一个try/catch并确保调用清理:@Overridepublicvoidrun(){setup(context);try{while(context.nextKeyVa

hadoop - map task 是否并行读取其输入数据?

假设HDFS的复制因子是3,那么对于一个map任务,有三个节点保存它的输入数据。map任务是从所有3个节点并行读取还是随机选择其中一个?我做了一些实验,我将其中一个数据节点设置为具有非常低的带宽并获得一些非常慢的maptask,所以我猜maptask不会并行读取所有可用的数据节点,我是对的?感谢您的帮助! 最佳答案 如果您的复制因子是3,则集群中有三个节点保存特定映射任务的输入数据。JobTracker只会将map任务分配给这三个节点中的一个,因此它只会从该节点读取数据。Hadoop具有称为推测执行的功能。在推测执行中,如果JobT

hadoop - map和reduce如何并行运行

我是hadoop的初学者,当我运行hadoop作业时,我注意到进度日志显示映射80%减少25%。我对mapreduce的理解是映射器产生一堆中间值。在映射器产生输出之后,有中间对的洗牌/排序,这些值被发送以减少作业。谁能解释一下map/reduce如何并行工作。 最佳答案 必须将映射器的输出复制到适当的缩减器节点。这称为洗牌过程。这甚至可以在所有映射器完成之前就开始,因为决定将哪个键转到哪个缩减器仅取决于映射器的输出键。所以你看到的25%的进步是由于洗牌阶段。shuffle之后是sort阶段,然后是reduce阶段。除非所有映射器都