作业队

hadoop - 如何依次运行 Pig 作业

我需要在没有手动交互的情况下按顺序运行pig作业。你能告诉我有没有办法通过使用pig或其他方式来自动化pig工作承担工作:工作001职位002职位003JOB004JOB001--是我的第一个JOB-->成功运行'JOB001'后它应该触发'JOB002'JOB002-->成功运行'JOB002'后应该触发'JOB003'JOB003-->成功运行'JOB003'后它应该触发'JOB004'。最佳答案 Oozie是适合您的工具。只需创建一个将一个Pig作业连接到另一个的工作流。关于h

依次 hadoop section JOB strong apache-pig cloudera

java - Hadoop MapReduce 作业在本地无法加载库并且在 OS X 上连接失败

我正在尝试在OSXYosemite上运行hadoop。当我按照http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html的说明进行操作时，我配置了hadoop，启动了$sbin/start-dfs.sh，然后用jps查看得到了输出:17237DataNode17324SecondaryNameNode17388Jps但是，当我尝试“bin/hdfsdfs-mkdir/user”时，hadoop无法加载库(当我运行其他示例时也会发生同样的情况)，并显示连接失败:$bi

MapReduce Hadoop section HDFS java osx-yosemite

Hadoop 作业抛出 ConnectException 访问端口 8021

我使用ClouderaManager安装了CDH5。我从ClouderaMap/Reduce教程中复制并构建了字数统计应用程序当我运行它时，我得到一个包含以下文本的ConnectException:线程“main”中的异常java.net.ConnectException:从fatman.localdomain/10.1.1.10到fatman.localdomain:8021的调用在连接异常时失败:java.net.ConnectException:连接被拒绝；有关详细信息，请参阅:http://wiki.apache.org/hadoop/ConnectionRefused我是MR

ConnectException Hadoop code section cloudera

algorithm - 集群作业调度算法

我正在寻找适用于以下问题的算法:有多台电脑(具体数目未知)。每台计算机从某个中央队列中提取作业，完成作业，然后提取下一个。工作是由一些用户组产生的。有些用户提交了很多工作，有些则提交了一点。作业消耗相等的CPU时间(不是真的，只是近似值)。中央队列在调度作业时应该是公平的。此外，提交大量作业的用户应该拥有一些最小的资源份额。我正在为这个调度寻找一个好的算法。考虑了两个候选人:类似Hadoop的公平调度程序。这里的问题是:当我的集群大小未知时，我在哪里可以获得最小份额？将一些惩罚与每个用户相关联。安排用户的工作时增加惩罚。使用将作业调度给用户的概率作为1-(归一化惩罚)。这有点像步幅调度

algorithm 集群的 section li hadoop scheduling scheduler distributed-computing

hadoop - 如何检索 hadoop 作业映射/减少输入/输出计数

有什么方法可以在运行hadoop作业后检索并打印reduce输出记录的数量？我正在迭代运行map-reduce，当我之前的reduce输出计数与当前map输出计数相同时，我想停止。最佳答案根据您的Hadoop版本，名称可能不同。但一般来说，您可以从作业对象访问您的计数器。job.getCounters().findCounter("org.apache.hadoop.mapred.Task$Counter","REDUCE_OUTPUT_RECORDS").getValue();查阅WebUI以查看您的作业中定义了哪些计数器，并

hadoop 如何 section reduce

java - `hbase.rootdir` 作业设置中的配置不被认可

我在HDFS上针对hbase表中存在的数据运行mapreduce作业。当我在玩配置时，我观察到了这一点。conf.set("hbase.rootdir","hdfs://"+hdfsRootNodeIp+":"+hdfsRootPort+"/"+hbaseDirectoryName);对于上面的代码，我理解hbaseDirectoryName应该是在HDFS上创建的文件夹。我已经创建了/hbase目录，作业运行良好。虽然我在MR作业设置期间尝试使用一些垃圾名称，但即使这样map-reduce作业也成功完成，没有抛出错误。有人可以为我解释一下这种行为吗？最佳

rootdir hbase section code java hadoop mapreduce

java - 如何为 map reducer 作业在 java 中为 hadoop 输入自定义选择列读取

Hadoop新手，我想了解Hadoop如何读取文件输入:我能够使用下面的代码从2列(键/值)输入文件运行Hadoop作业:但是如果我有5列并且我想要的(键/值)是A&E(而不是A&B)我需要准确修改哪个函数呢？publicclassInverterCounterextendsConfiguredimplementsTool{publicstaticclassMapClassextendsMapReduceBaseimplementsMapper{publicvoidmap(Textkey,Textvalue,OutputCollectoroutput,Reporterreporter)

自定 java Text class code hadoop mapreduce

hadoop - CDH 5.4.4 Sqoop 2 作业开始但从未运行

ClouderaCommunityPost在Cloudera5.4.4中使用Hue，当尝试运行Sqoop2作业时，它显示(i)Thejobisstarting...但它从未真正运行该作业。我在工作浏览器中看不到任何内容，在工作的SUBMISSIONS列表中也看不到任何内容。我在日志中也没有看到任何错误。这是在现有的Cloudera5.4.4(QuickStartVM)上，我假设所有组件都已正确预配置。不幸的是，我所要做的就是缺少错误消息和有用的报告。最佳答案在CDH5上，sqoop2服务器确实在/var/log/sqoop2/s

从未 hadoop apache java org sqoop cloudera-cdh hue sqoop2

java - Hadoop，成功的 Map Reduce 作业但没有输出

目标:我正在尝试使用MapReduce合并数据。我在同一个文件夹中有多组数据。方法:所以我在一个程序/流程中连续多次运行MapReduce合并作业。问题:我面临的问题不是失败的工作，而是没有输出的成功工作。第一个(有时是两个)迭代总是有输出(part-r-00000)但不是以下。我正在使用大小和体积都非常小的示例数据集(1~2kb，大约5个文件)我尝试了什么:让线程在每次运行后hibernate5秒，但无济于事。过了一会儿，我尝试使用webhdfs检查，仍然没有这样的文件。请问您能给我解释一下吗？提前致谢。图片:代码:/**Tochangethislicenseheader,choos

Hadoop Reduce 34 file args java mapreduce

hadoop - Oozie 中的 MapReduce 作业可以从文件中读取吗？

在Oozie中创建工作流时，我有一个第一个Java步骤，它生成一个文件，其中包含下一步(map-reduce)所需的文件列表。我如何使用该文件提供该map-reduce作业？我知道我可以勾选java步骤的Captureoutput框，然后在map-reduce步骤中使用mapred.input.dir来使用捕获的输出作为输入。但我想摆脱它。仅作记录，我的文件内容如下:/data/kafka/4/camus/DATA.TRADE.ORDERHISTORY/daily/2015/07/18,/data/kafka/4/camus/DATA.TRADE.ORDERHISTORY/daily/

MapReduce hadoop ORDERHISTORY TRADE daily oozie

168 169 170171172 173 174