草庐IT

java - 尝试运行 HBase map reduce 时出错

我真的很难在Hadoop上运行Hbase-MapReduce。我确实使用HadoopHortonwork2版本。我使用的HBase版本是0.96.1-hadoop2。现在,当我尝试像这样运行我的MapReduce时:hadoopjartarget/invoice-aggregation-0.1.jarstart="2014-02-0101:00:00"end="2014-02-1901:00:00"firstAccountId=0lastAccountId=10Hadoop告诉我在其文件系统中找不到invoice-aggregation-0.1.jar?!我想知道为什么它需要在那里?这

hadoop - 识别 map/reduce 作业瓶颈的正确方法是什么?

在正常的java开发中,如果我想提高应用程序的性能,我通常的过程是运行带有附加分析器的程序,或者在应用程序中嵌入一组检测标记。无论哪种情况,近期目标都是确定应用程序的热点,然后能够衡量我所做的更改的效果。当应用程序是在hadoop集群中运行的map/reduce作业时,正确的类比是什么?当作业的运行速度似乎比您在开发沙箱中运行等效逻辑所预测的慢时,有哪些选项可用于收集性能数据? 最佳答案 Map/Reduce框架在Job-Tracker中查看职位。在这里您将看到映射器和缩减器需要多长时间。一个常见的例子是,如果您在reducer中做

hadoop - 理解在 Hadoop 中合并到 reduce 端

我对Hadoop中reduce端的文件合并过程的理解有问题,因为它在“Hadoop:权威指南”(TomWhite)中有所描述。引用它:Whenallthemapoutputshavebeencopied,thereducetaskmovesintothesortphase(whichshouldproperlybecalledthemergephase,asthesortingwascarriedoutonthemapside),whichmergesthemapoutputs,maintainingtheirsortordering.Thisisdoneinrounds.Forexa

hadoop - 在没有 map 和 reduce 的情况下使用 Spark 进行顺序的逐行处理

我正在研究Spark作为一种可能的计算工具,但无法找到我想到的用例示例。我想做的与map和reduce有点相反(至少在第一步),这可能使Spark成为这项工作的错误工具,所以在我忽略它之前,我想在这里检查是否有人有一些好主意,如果这个可以做到。数据流看起来像这样:想法是将一个巨大的表格结构作为输入,然后将其拆分到计算节点集群(它可以作为文本文件加载,也可以在数据库中)对于此输入结构中的每一行,都会有一个逻辑来对行的内容进行分类(例如,如果它是抵押贷款、经常账户或其他东西)分类后开始计算给定类别的分期付款。现在,问题来了——我不确定Spark是否可以执行这种计算:一个输入行可能会产生数百

hadoop - 即使在使用 yarn 运行时存在映射器,Map-reduce 作业也会出现 ClassNotFound 异常?

我正在运行一个hadoop作业,当我在伪分布式模式下不使用yarn运行它时它工作正常,但是当使用yarn运行时它给我类未找到异常16/03/2401:43:40INFOmapreduce.Job:TaskId:attempt_1458775953882_0002_m_000003_1,Status:FAILEDError:java.lang.RuntimeException:java.lang.ClassNotFoundException:Classcom.hadoop.keyword.count.ItemMappernotfoundatorg.apache.hadoop.conf.C

java - Hadoop map-reduce 操作在写入输出时失败

我终于能够在Hadoop上启动map-reduce作业(在一台debian机器上运行)。但是,mapreduce作业总是失败并出现以下错误:hadoopmachine@debian:~$./hadoop-1.0.1/bin/hadoopjarhadooptest/main.jarnl.mydomain.hadoop.debian.test.Main/user/hadoopmachine/input/user/hadoopmachine/outputWarning:$HADOOP_HOMEisdeprecated.12/04/0307:29:35WARNmapred.JobClient:

hadoop - 以不同用户身份运行 map reduce 作业

我有一个与Hadoop交互的Web应用程序。(Clouderacdh3u6)特定的用户操作应该在集群中启动一个新的MapReduce作业。该集群不是安全集群,但它使用简单的组身份验证-因此如果我以自己的身份通过ssh访问它,我可以从命令行启动MR作业。在Web应用程序中,我使用ToolRunner来运行我的作业:MyMapReduceWrapperClassmr=newMyMapReduceWrapperClass();ToolRunner.run(mr,null);//insidetherunimplementationofmywrapperclass:Jobjob=newJob(c

hadoop - 如何保证 combiner 在 map/reduce 中至少运行一次?

从一些文章中,我知道combiner会在mapper端和reducer端运行,并且会运行0~N次。而且我知道无论是否调用组合器,我们的mapreduce程序都应该得到相同的结果。但我有一种特殊情况需要组合器至少被调用一次,有人知道如何确保这一点吗?PS,在maptask.java中,我看到了这行:if(null==combinerClass||numSpills如果我将minSpillsForCombine设置为零,我能否确保组合器至少被调用一次?非常感谢! 最佳答案 在溢出期间,在溢出线程写入磁盘之前,线程首先将数据分成分区,这些

hadoop - 在 Hadoop Map/Reduce 中为多个映射器配置 Map Side join

我有一个关于在Hadoop中为多个映射器配置Map/Side内部连接的问题。假设我有两个非常大的数据集A和B,我使用相同的分区和排序算法将它们拆分成更小的部分。对于A,假设我有a(1)到a(10),对于B,我有b(1)到b(10)。确保a(1)和b(1)包含相同的key,a(2)和b(2)具有相同的key,依此类推。我想设置10个映射器,特别是映射器(1)到映射器(10)。据我了解,Map/Sidejoin是mapper之前的预处理任务,因此,我想为mapper(1)加入a(1)和b(1),加入a(2)和b(2)对于mapper(2),等等。看了一些引用资料,我还是不太清楚这十个map

hadoop - Hadoop Map/Reduce 程序使用哪种语言? Java 还是 PHP?

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭2年前。Improvethisquestion我最近用java编写了几个map/reduce程序。但是我也知道像php这样的脚本语言也是可以的。但是,大多数人都推荐java或python。我目前在php工作。所以我想知道哪种语言更适合map/reduce程序开发?用于map/reduce实现的php的一个主要缺点是,它不是多线程的。此外,hadoop具有广泛的类、接口(interface)和方法框架,专门用java编写,而php程序无