作业队

hadoop - 怎么知道没有。在 map 作业中运行的节点数

输入拆分的数量是否决定了mapreduce作业中运行节点的数量。我的意思是，如果我有5个输入拆分，这将使它们分布在5个节点上进行处理。map任务的数量是否与节点的数量相似？如何在clouderavm中检查最佳答案不split不决定节点数。Hadoop集群即NameNode、DataNode和其他服务由Hadoop管理员根据数据大小设置。在ClouderaVM打开浏览器(MozillaforCDH3)上有一个书签Namenode状态。单击它，Namenode将包含有关您正在处理的集群的所有元数据。要了解MapReduce框架执行的

中运点数 section hadoop mapreduce

hadoop - 如何防止 CDH 中的 Hue 在重启时清除作业历史记录？

我已经安装了CDH5.5.1和Hue、Hadoop、Spark、Hive、Oozie、Yarn和ZooKeeper。当我运行Spark作业或MapReduce作业时，Hue会在作业历史记录中显示一个问题。问题是，当我重新启动CDH服务(不是物理节点)时，它会删除重新启动之前的所有作业历史记录。在Hadoop上，我怀疑有几个文件包含有关任务的信息，并且可能是保存作业信息的文件。他们的hadoop路径是:/tmp/logs/user/logs//user/history/done/2016/我在ClouderaManager配置页面、Hue配置页面和一些配置文件中都找过，都没有找到。我不知

hadoop CDH code section Hue apache-spark cloudera-cdh cloudera-manager

hadoop - 运行组命令时 Pig 减少作业卡在 50%

我使用以下命令加载了一个包含大约6000行数据的文件A=load'/home/hduser/hdfsdrive/piginput/data/airlines.dat'usingPigStorage(',')as(Airline_ID:int,Name:chararray,Alias:chararray,IATA:chararray,ICAO:chararray,Callsign:chararray,Country:chararray,Active:chararray);B=foreachairlinegenerateCountry,Airline_ID;C=groupBbyCountr

hadoop Pig ReduceTask apache mapreduce apache-pig

java - 在 hbase 中插入数据时运行 hadoop 作业

每当在hbase表上完成插入时，我都需要运行hadoop作业吗？有一些可用的调度器Apache软件公平调度器我可以根据自己的目的选择哪一个？最佳答案 ApacheOozie是一个工作流调度器，用于设计作业工作流并协调它们在特定事件或控制流中设计时发生。Jobs可以是map-reduce、Streamingmap-reduce、Pig、Hive、Sqoop任务以及java程序和shell脚本。FairScheduler用作MapReduce作业的资源调度器。现在对于您的情况，您应该使用Oozie。

hadoop hbase strong section 中设 java oozie hadoop2

hadoop - 将作业从 talend DI 导出到 talend big data

我是talendETL工具的新手。我已经在talendDI(数据集成)工具中创建了作业工作流，现在我想使用hadoop切换/实现相同的作业，因为我正在使用talend大数据工具。谁能解释我如何实现这一目标。TalendDI到Talend大数据集成。最佳答案根据我的理解，DI和大数据Talend工具的库是不同的，可能是因为这种导入是不可能的。关于hadoop-将作业从talendDI导出到talendbigdata，我们在StackOverflow上找到一个类似的问题：

talend hadoop section 大数 etl data-integration bigdata

hadoop - 密码问题的 Sqoop 作业

Sqoop作业总是在CLI中提示输入密码。为了避免这种情况，据说应该将属性sqoop.metastore.client.record.password设置为true。但是到处都说我需要更改sqqop_site.xml中的这个值。无论如何我可以将这个值单独设置为一项工作。我尝试创建如下所示的作业，但sqoop无法创建它sqoopjob--createTEST-Dsqoop.metastore.client.record.password=true--import\--connectjdbc:netezza://xx.xxx.xx.xxx/database\--usernameuserna

hadoop Sqoop password section bigdata

shell - 如何获取基于 HIVE-SQOOP 的批处理作业的异常、错误、日志？

我的Hadoop集群有6个数据节点和1个名称节点。我在HIVE中几乎没有(4)个工作，这些工作每天都在运行，并使用sqoop将一些数据从日志文件推送到我们的OLPT数据库。我没有在环境中安装oozie。所有这些都写在HIVE脚本文件(.sql文件)中，我从unix脚本(.sh文件)运行它们。这些shell脚本文件附加有不同的操作系统cron作业，以便在不同的时间运行它们。现在要求是这样的:每天分别为每个作业生成日志/状态。因此，在一天结束时查看这些日志，我们可以确定哪个作业成功运行以及运行所花费的时间，哪个作业失败以及该失败作业的转储/堆栈状态。(功能计划是我们将拥有邮件服务器和每个失

HIVE-SQOOP shell code section strong hadoop hive sqoop hiveql

shell - cron 作业的容错能力如何？

我正在使用cron作业每2分钟安排一个shell脚本，其中包含pig和hive脚本。我想知道容错cron作业的容错性如何，假设如果在作业运行时网络出现故障或某些文件损坏，cron作业会做什么？它会再次重新启动该shell脚本还是会发生什么。我在互联网上没有得到任何关于此的信息。如果你们能帮忙，那就太好了。谢谢最佳答案 Oozie使用DAG并在启动共享它的多个脚本时检查数据可用性。Oozie允许您更轻松地处理Pig和Hive作业的依赖项。由于它与Yarn集成在一起，您将不那么担心炸毁集群。如果数据损坏，cron将不执行任何操作，它将

shell cron section stackoverflow hadoop hive apache-pig

hadoop - 导出 Oozie Web 控制台中列出的作业

抱歉，如果这个问题听起来很基础，我是Hadoop环境的新手。我在找什么？在我的例子中，有计划每天运行的作业，我想每天在Excel工作表中导出失败的作业列表。如何查看工作流作业？目前我使用Oozie网络控制台查看作业，但我没有/看不到导出选项。还，我无法从Ooziedocumentation中找到此信息.但是，我发现可以使用如下命令列出作业$ooziejobs-ooziehttp://localhost:8080/oozie-localtime-len2-fliterstatus=RUNNING我卡在哪里了？我想过滤给定日期的失败作业，想将其导出为csv/excel数据。

hadoop Oozie strong code section

Hadoop 独立实例在执行 MR 作业期间退出，日志中出现 ExpiredTokenRemover 错误(在少数作业成功执行后)

Hadoop/HDFS进程退出(所有jps守护程序)，并且当它运行MR作业时，在少数作业成功完成后，用户被从终端抛出。错误:2016-07-2317:56:16,258错误org.apache.hadoop.security.token.delegation.AbstractDelegationTokenSecretManager:ExpiredTokenRemover收到java.lang.InterruptedException:sleep中断日志文件:/usr/local/hadoop/logs/yarn-hduser-resourcemanager-KMUbLptp.log20

ExpiredTokenRemover Hadoop apache section mapreduce

143 144 145146147 148 149