作业队

java - Hadoop 2.2 链 MapReduce 作业 Map -> Reducer -> Map -> Reducer

我有两个MapReduce作业，第一个Reducer的输出是第二个Mapper的输入:Map1->Reduce1->Map2->Reduce2现在Map2从Reduce1输出的文件中读取。所以Map1->Reduce1和Map2->Reduce2是独立的。它有效，但如果Reduce1的输出直接是Map2的输入，它会更容易，我认为会更优化。有办法吗？在这种情况下，Map2将只是一个身份映射器，所以如果我可以这样做会更好:Map1->Reduce1->Reduce2Reduce1、Map2和Reduce2具有相同的输入和输出类型。谢谢! 最佳答案

hadoop - 更改 Hadoop 作业的名称？

您好，我想将正在运行的Hadoop作业的名称更改为一个有意义的名称。是否有任何命令可以更改正在运行的作业的名称，就像这样-hadoopjob-set-priority'HIGH';这改变了工作的优先级最佳答案作业ID由作业跟踪器在提交时分配，方法是调用JobTracker.getNewJobId().它不能预先设置。要更改作业优先级，您必须从提交中检索ID。阅读关于PIG-948的评论为什么不能总是从PIG知道MRjobid:ReasonforthatisJobControlCompilercompilesasetofinter

hadoop section strong apache-pig

hadoop - 如何将 hadoop 作业 ID 附加到配置单元查询结果文件？

我有一个配置单元查询插入覆盖到本地文件系统。我的查询如下:插入覆盖本地目录/home/test/ddsselectcol1,col2fromtest_tablewherequery_ymd='2011-05-15'orquery_ymd='2011-05-16'orquery_ymd='2011-05-17';它生成2个文件:.000000_0.crc000000_0我希望输出为:attempt_201303210330_19069_r_000000_0attempt_201303210330_19069_r_000000_0.crc如何配置配置单元服务器或查询？

配置单 hadoop section code hive

hadoop - 插入覆盖本地目录启动 map reduce 作业以进行简单查询

我有两个配置单元查询select*fromtab1limit3;这会快速返回3行，而无需启动任何mapreduce作业；如果我要求将输出写入本地目录，则相同的查询`INSERTOVERWRITELOCALDIRECTORY"/tmp/query1/"select*fromtab1limit3;此查询启动一个mapreduce作业，扫描表的所有文件，然后返回3行，所讨论的表很大，因此扫描整个表需要很长时间。为什么两个查询的执行方式不同？最佳答案一个简单的解释是:当您在Hive中执行一个简单的select*fromtab1limit

hadoop reduce code section select hive hiveql

python - 如何使用 hbase 作为 hadoop 流作业的源

有什么方法可以使用Hbase表作为Hadoop流作业的源吗？具体来说，我想运行一个用Python编写的Hadoop流作业。当输入被指定为HDFS上的文件夹时，这很有效。但是我找不到任何关于从Hbase表中读取数据的文档。这是否受支持？或者我将不得不经历编写Java代码以首先将数据从Hbase获取到HDFS然后运行流式处理作业的考验？我使用的是Cloudera的Hbase0.94。(有一个类似的问题alreadypresenthere。但它指向第三方解决方案，没有积极贡献。我希望Hbase会支持它)。最佳答案我会使用Pig加载数据

python hadoop section noreferrer noopener hbase hadoop-streaming

没有输入文件的 Hadoop 流作业

是否可以执行没有输入文件的HadoopStreaming作业？在我的用例中，我能够使用单个映射器和执行参数为reducer生成必要的记录。目前，我使用的是单行stub输入文件，我想删除此要求。我们有2个用例。1)我想将文件加载从所有节点可用的网络位置分发到hdfs。基本上，我将在映射器中运行ls并将输出发送到一小组缩减器。我们将针对多个模型利用多个不同的参数范围进行拟合。模型名称不会更改，并将作为键进入reducer，同时在映射器中生成要运行的测试列表。最佳答案根据docs这是不可能的。以下是执行需要的参数:输入目录名或文件名输

Hadoop 没有射器 section li hadoop-streaming

giraph 作业完成后，内存不会被释放

我在Hadoop版本0.20.203上使用ApacheGiraph版本1.0。它执行ConnectedComponentsVertex和SimpleShortetPathsVertex，apachegiraph的例子，作业成功，但存在问题。作业完成后不会释放内存。如系统监视器所示，为该作业创建的java进程仍然有效。我不明白为什么会出现这个问题。是Giraph的错误还是我做错了什么？？？我正在使用Ubuntu11.10和java1.6。任何帮助将不胜感激。谢谢最佳答案是的，我认为这是一个错误(请参阅我在用户列表上的问题:http

giraph 作业 section 86257 memory hadoop

php - 从 PHP Web 应用程序提交 hadoop 作业

我正在开发一个PHP应用程序，用户可以在其中为新作业提供参数，然后他可以将其提交到hadoop集群。我的问题是我正在寻找某种可以在我的PHP应用程序中使用的“作业调度程序”，但我还没有找到。有谁知道如何处理这个？那么问题来了:如何从我的PHP应用程序向hadoop集群提交作业？谢谢! 最佳答案您应该能够使用WebHCatRESTAPI从PHP发布各种作业类型。WebHCatAPI文档可在以下位置找到:https://cwiki.apache.org/confluence/display/Hive/WebHCat+Reference

hadoop php section https WebHCat

java - 在 Hadoop 中链接一个 Reduce-only 作业

我正在使用ControlledJobs在Hadoop2.2.0中实现一个MR作业链。基本架构是这样的:mapper1->reducer1->mapper2->reducer2但是，mapper2是标识。有没有办法可以轻松让reducer1生成key-value-pairs传给reducer2？现在，两轮的作业输出配置如下://setintermediate/mapperoutputjob.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(Text.class);//setreduceroutputjob.setOut

Reduce-only Hadoop section reducer mapper java mapreduce

hadoop yarn 类未在同一个 jar 中找到，但在运行作业期间包不同

我以“Hadoop:权威指南2/e”一书为例。我遇到了一个问题..:-(。我用的是ubuntu12.04，hadoop2.2.0。我使用eclipse制作了job.jar。map_reduce.programming.v1.MaxTemperatureReducer类在jar中，但包不同。当我运行作业时，我遇到类未找到异常。下面是mapred-site.xmlmapreduce.framework.nameyarn如果将值更改为local而不是yarn，它会起作用。但如果是yarn，则不起作用。HADOOP_CLASS_PATH包括包含job.jar的路径。根本原因是什么？pack

hadoop yarn mapreduce mapred jobs hadoop-yarn

156 157 158159160 161 162