mapReduce

api - 我在哪里可以下载所有必要的类来编写 Hadoop MapReduce 作业？

关闭。这个问题是off-topic.它目前不接受答案。想改进这个问题吗？Updatethequestion所以它是on-topic用于堆栈溢出。关闭9年前。Improvethisquestion我最近开始使用Hadoop，并且一直在学习如何编写MapReduce作业。在整个互联网上，我可以找到编写MapReduce作业的示例和教程，但它们都包含类似于“importorg.apache.hadoop.util.*;”的导入语句。我找不到从哪里下载这些类(class)，在找到它们之前我什至无法开始写作业。我在哪里可以下载必要的插件？我已经尝试了Hadoop下载附带的插件，我还尝试了IBM分

MapReduce 编写 section class stackoverflow api download hadoop

Hadoop - 在xml中增加 map task 不会在运行时增加 map task

我在conf/mapred-site.xml中添加了以下内容mapred.tasktracker.map.tasks.maximum4mapred.tasktracker.reduce.tasks.maximum1但是当我运行该作业时，它仍然运行2个map(这是默认的)？我怎样才能强制这个数字增加？附言我正在使用Ubuntu四核box谢谢最佳答案您是否正在处理少量数据？可能是您的MapReduce作业仅在一个输入拆分上运行，因此不需要更多映射器。尝试在数百MB的数据上运行您的作业，看看您是否仍然遇到同样的问题。单个节点上能够运行

task map section code hadoop mapreduce

java - 使用 oozie 为 mapreduce 作业写入多个输出流的正确方法是什么？

我正在使用新的HadoopAPI编写一系列map-reduce作业。我打算使用Oozie将所有这些管道连接在一起，但我似乎无法找到一种方法来从工作流中的map-reduce节点执行多个输出流。通常要编写多个输出，我会使用类似于MultipleOutputsjavadoc中给出的代码的代码，但oozie从workflow.xml文件中获取所有配置，因此无法像示例中那样配置命名输出。我遇到了一个thread讨论了Oozie中多个输出的使用，但除了创建Java任务并将其直接添加到Oozie管道之外，没有提出任何解决方案。有没有办法通过workflow.xml中的map-reduce节点来实现

mapreduce oozie property gt lt java hadoop

hadoop - 如何在多核8节点集群中调度Hadoop Map任务？

我有一个“仅映射”(无缩减阶段)程序。输入文件的大小足以创建7个maptask，我已经通过查看生成的输出(part-000到part006)验证了这一点。现在，我的集群有8个节点，每个节点有8个内核和8GB内存，共享文件系统托管在头节点上。我的问题是，我可以选择仅在1个节点中运行所有7个映射任务，还是在7个不同的从属节点中运行7个映射任务(每个节点1个任务)。如果我可以这样做，那么我的代码和配置文件需要做哪些更改。我尝试仅在我的代码中将参数“mapred.tasktracker.map.tasks.maximum”设置为1和7，但我没有发现任何明显的时间差异。在我的配置文件中它设置为1

多核何在 code section tasktracker hadoop mapreduce cloudera

sql - 使用HiveQL(Hadoop)在Hive中联接两个表

这个问题已经在这里有了答案:已关闭8年。PossibleDuplicate:SQLQueryJOINwithTableCREATEEXTERNALTABLEIFNOTEXISTSTestingTable1(ThisistheMAINtablethroughwhichcomparisonsneedtobemade)(BUYER_IDBIGINT,ITEM_IDBIGINT,CREATED_TIMESTRING)这是上面第一个表中的数据**BUYER_ID**|**ITEM_ID**|**CREATED_TIME**--------------+------------------+---

联接 HiveQL code br prod_and_ts sql hadoop mapreduce hive

java - Hadoop Mapreduce 多个输入文件

所以我需要两个文件作为我的mapreduce程序的输入:City.dat和Country.dat在我的主要方法中，我像这样解析命令行参数:PathcityInputPath=newPath(args[0]);PathcountryInputPath=newPath(args[1]);PathoutputPath=newPath(args[2]);MultipleInputs.addInputPath(job,countryInputPath,TextInputFormat.class,JoinCountryMapper.class);MultipleInputs.addInputPat

Mapreduce Hadoop code capital Path java command-line command-line-arguments

java - Apache Pig : unable to run my own pig. jar 和 pig-withouthadoop.jar

我有一个运行Hadoop0.20.2和Pig0.10的集群。我有兴趣向Pig的源代码添加一些日志，并在集群上运行我自己的Pig版本。我做了什么:使用'ant'命令构建项目得到了pig.jar和pig-withouthadoop.jar将jar复制到集群名称节点上的Pig主目录运行作业然后我得到以下标准输出:2013-03-2506:35:05,226[main]WARNorg.apache.pig.backend.hadoop20.PigJobControl-fallingbacktodefaultJobControl(notusinghadoop0.20?)java.lang.NoS

pig-withouthadoop withouthadoop apache java pig hadoop mapreduce apache-pig

hadoop - pig : Force one mapper per input line/row

我有一个PigStreaming作业，其中映射器的数量应等于输入文件中的行数。我知道那个设定setmapred.min.split.size16setmapred.max.split.size16setpig.noSplitCombinationtrue将确保每个block为16个字节。但是我如何确保每个map作业都只有一行作为输入？这些行的长度是可变的，因此对mapred.min.split.size和mapred.max.split.size使用常量不是最佳解决方案。这是我打算使用的代码:input=load'hdfs://cluster/tmp/input';DEFINECMD`

hadoop mapper code strong noSplitCombination mapreduce apache-pig

hadoop - pig java.lang.NoSuchFieldException : jobsInProgress exception

我将pig-0.11.0+28与CDH4一起使用，当我运行任何Pig作业时，我都会遇到此异常。我也发生在本地模式下。有什么想法吗？2013-07-0813:53:44,035[main]WARNorg.apache.pig.backend.hadoop23.PigJobControl-fallingbacktodefaultJobControl(notusinghadoop0.23?)java.lang.NoSuchFieldException:jobsInProgressatjava.lang.Class.getDeclaredField(Class.java:1938)atorg.

NoSuchFieldException jobsInProgress java apache pig hadoop mapreduce apache-pig

hadoop - 如何读取拆分为多行的记录以及如何在输入拆分期间处理损坏的记录

我有一个日志文件如下Begin...12-07-200802:00:05---->record1incidentID:inc001description:blahblahblahowner:abcstatus:resolvedend....13-07-200802:00:05Begin...12-07-200803:00:05---->record2incidentID:inc002description:blahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahbla

多行何在 section blahblahblahblahblahblahblahblahb code hadoop mapreduce input-split

121 122 123124125 126 127